17. Основные этапы факторного анализа
Вычислительный аспект факторного анализа связан с определением факторного отображения В, дисперсий характерных факторов и оценкой значений общих факторов. Оценка этих параметров производится на основании экспериментальных данных, полученных в ходе наблюдений над N объектами (индивидами). Результаты наблюдений представляются в виде матрицы исходных данных, аналогичной (11.1). По матрице Х вычисляется корреляционная матрица R. Затем начинаются этапы собственно факторного анализа. Первый этап – оценка общностей. Если общности оценены, то по формуле (11.5) можно оценить характерности, а следовательно, и матрицу W, которая является диагональной согласно предпосылкам факторного анализа. Заменяя диагональные элементы матрицы R на оценки общностей, получают матрицу , которая является информационной основой второго этапа выделения факторов. На этом этапе решают тем или иным способом матричное уравнение , получая в итоге ортогональную матрицу A. Возможно большое число матриц A, которые одинаково хорошо будут воспроизводить матрицу . Из них должна быть выбрана одна, что составляет содержание третьего этапа – вращения факторов. И, наконец, на последнем, четвертом, этапе оцениваются значения факторов для каждого объекта (индивида). На практике, однако, из-за большого объема вычислений часто ограничиваются первыми тремя этапами, причем первый и второй выполняются одновременно.
Выделение факторов. Выделение факторов предполагает установление числа и направления осей координат, соответствующих общим факторам, необходимым для отображения корреляции исходных переменных. С алгебраической точки зрения проблема факторов означает определение ранга матрицы А и оценивание ее элементов. Для решения задачи выделения факторов разработано достаточно много методов, однако основными в настоящее время следует признать два: метод главных факторов, наиболее широко употребляемый на практике, и метод максимального правдоподобия, имеющий прочный математико-статистический фундамент.
Метод главных факторов. Как следует из фундаментальной теоремы факторного анализа (11.3), . Приравняем вначале W нулевой матрице. Получим матричное уравнение . (11.6)
Матричное уравнение (11.6) имеет множество решений: любое ортогональное преобразование Т, переводящее матрицу В в G, т.е. G = ВТ, удовлетворяет (11.6). Действительно, в силу ортогональности Т имеет место и, значит, . Подставляя выражение для В в (11.6), получаем , поскольку T′T=I.
Как известно из линейной алгебры, ортогональное преобразование системы координат означает поворот системы как целого на некоторый угол вокруг начала координат. Выделяя некоторое предпочтительное направление и фиксируя тем самым угол поворота системы координат, можно обойти проблему неоднозначности решения системы (11.6).
Вернемся на время к методу главных компонент. Выбор осей координат здесь подчинен определенному требованию: каждая следующая ось ориентирована по направлению максимальной дисперсии в пространстве, ортогональном предыдущим главным компонентам. Матрица весовых коэффициентов А при этом составлена из собственных векторов ковариационной (корреляционной R) матрицы. Следовательно,
, (11.7)
где – диагональная матрицa с элементами, равными собственным значениям корреляционной матрицы. Умножая (11.7) на справа и учитывая ортогональность A , а значит , получаем: .
Обозначим через матрицу порядка , элементы которой равняются квадратному корню из соответствующих элементов матрицы Λ. Перейдем от A к . Выражение для R примет вид:
. (11.8)
Сравнивая (11.6) и (11.8), получаем, что в качестве оценки матрицы В можно взять матрицу .
Таким образом, матрица факторных нагрузок получается из матрицы, составленной из собственных векторов корреляционной матрицы исходных признаков, с последующим умножением элементов собственного вектора, отвечающего i-му собственному значению на .
Матрицы B и Q имеют разный порядок: у В и у Q, поэтому правильнее говорить, что оценкой будут первые m столбцов матрицы Q.
Посчитав матрицу W равной нулю, мы для оценки матрицы B воспользовались моделью главных компонент. Строго говоря, под методом главных факторов понимают способ расчета, принятый в методе главных компонент, но примененный к матрице (оценка общностей рассматривается ниже).
0ценка числа общих факторов. Общепризнанного метода определения числа m общих факторов, подлежащих выделению, не существует. Однако разработан ряд критериев, с помощью которых можно сделать достаточно обоснованное заключение.
Широкое применение получил сравнительно простой критерий собственных значений: выделять только те факторы, которые соответствуют собственным значениям, большим единицы.
Рассмотрим матрицу .Справедлива следующая цепочка равенств: .
Полученное соотношение показывает, что сумма квадратов нагрузок i-го общего фактора на исходные признаки равняется i-му собственному значению . Но характеризует вклад i-го общего фактора в полную дисперсию (напомним, что полная дисперсия равняется следу корреляционной матрицы R и ). Поэтому факторы, вклады которых меньше единицы, имеют долю дисперсии, меньшую единичной дисперсии исходных признаков, и их нецелесообразно включать в число общих факторов.
Считается также, что вклад общих факторов в суммарную общность должен составлять около 90%, а число общих факторов не должно превышать половины числа исходных признаков, т.е. m<n/2, а более точно, .
К проблеме оценки числа факторов можно подойти со статистической точки зрения. Ранее отмечалось, что если коэффициенты корреляции после учета m факторов незначимо отличаются от нуля, то нет необходимости вводить (m+1)-й фактор. Другими словами, равенство должно выполняться в статистическом смысле (здесь − матрица факторных нагрузок с числом факторов, равным m). Для оценки значимости матрицы R (в самом начале факторного анализа) либо матрицы используется критерий Бартлетта − Уилкса
с n(n-1)/2 степенями свободы, либо его аппроксимация , где – элементы матрицы .
Если все эти критерии дают не противоречащие друг другу решения, то удовлетворяются этими m факторами.
Метод максимального правдоподобия. В этом методе по выборочной корреляционной матрице исходных признаков ищутся состоятельные и эффективные оценки неизвестных параметров − элементов матриц В и W для генеральной совокупности. При построении функции максимального правдоподобия существенно используются предпосылки факторного анализа. Максимизация функции правдоподобия приводит к множественности результатов. Неоднозначность обходится требованием, чтобы матрица
(11.9)
имела диагональный вид. Это условие соответствует требованию метода главных факторов о взаимной ортогональности факторов и их ориентации по направлению максимума дисперсии.
Система (11.9) может быть приведена к виду, удобному для вычислений итерационным путем:
. (11.10)
Скорость сходимости итерационной процедуры является весьма медленной и зависит от начального приближения B и W.
В методе максимального правдоподобия проблема определения числа факторов также существует. Пусть расчеты по (11.10) проведены для m общих факторов. Для проверки гипотезы о существовании m общих факторов можно воспользоваться критерием
c степенями свободы.
В этой формуле – определитель матрицы корреляций, воспроизведенных с помощью m общих факторов. Если вычисленное значение критерия превышает табличное значение при выбранном уровне значимости, то необходимо выделить факторов больше, чем m, по крайней мере , m+1.
Достарыңызбен бөлісу: |