С внизу Социология: Энциклопедия понятия



бет9/95
Дата12.07.2016
өлшемі8.03 Mb.
#193799
1   ...   5   6   7   8   9   10   11   12   ...   95

АНАЛИЗ ЛОГЛИНЕЙНЫЙ (логарифмически-линейный) - метод анализа категориальных (номинальных) данных, позволяющий исследовать отношения между переменными в таблицах сопряженности; обобщение многомерного анализа частот. Предположений о распределении переменных не делается. А.Л. может рассматриваться как непараметрический аналог многофакторного дисперсионного анализа с дискретным измерением. В отличие от последнего все переменные,

используемые для классификации, рассматриваются как независимые, а зависимой переменной является логарифм количества наблюдений в ячейке таблицы сопряженности. Частный случай А.Л., в котором отношения моделируются в привычной манере, когда в качестве зависимой выступает измеренная переменная, называется логит-анализом; обычно в этом случае исследователи предпочитают логистическую регрессию, поскольку она обладает большей гибкостью. Общая модель А.Л. для двух переменных X и У имеет вид:



категорий двух переменных. Название метода связано с тем, что логарифм ожидаемой частоты представляется в виде линейной функции значений переменных. Приведенная модель называется насыщенной (полной), поскольку включает все возможные эффекты и описывает данные совершенным образом, без ошибок.

Как правило, общая цель А.Л. состоит в том, чтобы найти наиболее простое описание данных или проверить гипотезу об адекватности этой простой (минимальной) модели данным. Адекватность оценивают с использованием статистик пригодности, обычно с помощью отношения функций макси-

Как непараметрический метод А.Л. имеет широкий диапазон пригодности. Содержательным ограничением является количество независимых переменных, поскольку взаимодействия высокого порядка трудно интерпретировать. Формаль-



38

А.Л. находит широкое применение в анализе таблиц социальной мобильности, в политологии и маркетинговых исследованиях.



СВ. Сивуха

АНАЛИЗ МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ -

раздел математической статистики (см.), предназначенный для анализа связей между тремя и более переменными. Можно условно выделить три основных класса задач A.M.С. Это исследование структуры связей между переменными (см.) и снижение размерности пространства признаков, построение классификаций и типологий, исследование причинных связей.

Для представления структуры связей между переменными обычно используется матрица корреляций (см.). Ее анализ, заключающийся в выделении подмножеств переменных, тесно коррелирующих друг с другом, может осуществляться "вручную", например, с помощью графа, отражающего наиболее существенные связи между переменными, либо методами компьютерного анализа, такими, как метод главных компонент, факторный анализ, кластерный анализ переменных. Анализ структуры связей часто рассматривается в качестве самостоятельной задачи, например, при исследовании структуры ценностей, мотивов и т.п., для проверки психометрических шкал на надежность и в других случаях. Однако он может использоваться и в качестве промежуточного этапа при решении задачи снижения размерности пространства признаков.

Снижение размерности обычно применяется для построения пространства, более удобного для решения задач классификации и исследования причинных связей, чем исходный набор переменных. Задача снижения размерности заключается в том, чтобы от большого количества исходных переменных перейти к нескольким обобщенным показателям. Метод главных компонент (см.), анализ факторный (см.), метод многомерного шкалирования предусматривают для этого разнообразные процедуры.

Задачи и методы классификации, в зависимости от условий, делятся на три группы: классификация по заданным формальным критериям, автоматическая классификация и классификация с обучением. Классификация по заданным критериям, строго говоря, не является статистическим методом. Она состоит в группировке объектов по одному или не-

скольким показателям. В последнем случае классификация называется перекрестной или лингвистической (например, половозрастная структура населения).

Автоматическую классификацию применяют в тех случаях, когда критерии группировки неизвестны и отсутствуют априорные представления о количестве и характере классов. Для ее построения используются методы анализа кластерного (см.), позволяющие выделить группы объектов, близких друг к другу по значениям измеренных переменных. В основе кластерного анализа лежит вычисление расстояний между объектами.

Классификация с обучением применяется, когда критерии классификации неизвестны, но известно количество классов и их типологические особенности. В этом случае может быть сформирована так называемая выборка обучающая (см.), состоящая из реальных объектов, обладающих соответствующими характеристиками, или/и искусственных объектов - моделей "типичных представителей" классов. В обучающей выборке должны присутствовать "представители" всех предполагаемых классов. Классификация конкретного объекта состоит в том, что вычисляется расстояние между ним и объектами из обучающей выборки и объект причисляется к тому классу, расстояние до которого для него оказалось минимальным. Классификация с обучением осуществляется некоторыми методами кластерного и дискриминантного анализа.

Анализу статистических причинных связей в последние годы уделяется особое внимание. Классическим методом для решения таких задач является дисперсионный анализ, в основе которого лежит эксперимент факторный (см.) (не путать с анализом факторным - см.). Начиная с 1960-х активно разрабатываются регрессионные и регрессионно-подобные причинные модели (см. Каузальное моделирование), а также техники, позволяющие использовать в этих моделях не только "количественные", но и "качественные" переменные (см. Dummy-кодирование). В настоящее время для исследования причинных связей, в зависимости от характера используемых переменных, применяются методы множественной линейной регрессии, логистической регрессии, дискриминантного анализа и т.п. Эти методы предполагают наличие единственной зависимой переменной и не позволяют исследовать структуру связей между независимыми переменными (предикторами). Структура связей между предикторами может быть учтена в моделях анализа путевого (см.).

Наиболее общим является метод линейных структурных уравнений (см.), позволяющий строить сложные модели с большим числом взаимодействующих между собой зависимых и независимых переменных, среди которых могут быть не только наблюдаемые, но и латентные признаки. Регрессионный, дисперсионный, путевой и факторный анализ являются его частными случаями.



О. В. Терещенко

АНАЛИЗ ПУТЕВОЙ - метод анализа данных опросов, предложенный Х.Блалоком, который он считал основным источником эмпирической информации в социальных науках.

39

Его книга "Причинные выводы в неэкспериментальных исследованиях", вышедшая в 1961, была посвящена А.П. с применением техники частных корреляций. Идея метода состоит в том, чтобы с помощью техники частных корреляций попытаться устранить влияние некоторой переменной на отношение между двумя другими переменными. Цель научных исследований, по Блалоку, состоит в том, чтобы найти модель, позволяющую объяснить собранные эмпирические данные. А.П., в свою очередь, был призван помочь с выбором наиболее правильной среди всех возможных моделей.





К сожалению, с помощью путевого анализа невозможно сделать выбор между моделью (1), (3) или (4). Только личное мнение исследователя и его "здравый смысл" могут помочь в процессе выбора одной из моделей.

Следует отметить, что Блалок и не настаивал на том, что использование данного метода может гарантировать нахождение причинных связей между явлениями, а позволяет говорить лишь о вероятной причине. По сути, с помощью данного метода можно лишь уменьшить количество возможных объяснений, найдя среди множества всех моделей наиболее вероятные, что не является единственным решением.

А.П. Репеко



Следующим этапом развития статистического моделирования явилось обобщение логит- и пробит-моделей на порядковые и номинальные зависимые переменные с числом градаций больше двух. Они называются мультиномиальными и порядковыми логит- и пробит-моделями и пользуются большой популярностью благодаря своей высокой эффективности и устойчивости, а также развитию программных средств статистического анализа данных.



О. В. Терещенко

АНАЛИЗ СОБЫТИЙНЫЙ - анализ данных об истории событий, т.е. о времени и обстоятельствах (ковариатах) их наступления в границах наблюдаемого периода времени и о самих этих бобытиях. Под событием понимается изменение статуса, измеряемого дискретной переменной, принимающей счетное количество взаимно исключающих значений. Например, в исследовании брачного поведения событиями могут быть вступление в брак, развод, повторный брак, вдовство и т.д. Единицами А.С. могут выступать индивиды, группы и организации, страны, политические объединения, культурные процессы.

Для предсказания времени наступления события строят модель, подобную регрессионному уравнению. Необходимость в особом методе анализа, отличном от регрессионного, связана с тем, что последний не позволяет корректно учитывать информацию о случаях, для которых событие за время наблюдения не наступило. Такие случаи называют цензури-рованными справа. Кроме того, регрессионный анализ не допускает использования независимых переменных, изменяющихся во времени. Например, вероятность вступления в брак в разные периоды жизни может варьировать с изменениями дохода, жилищных условий и образования. В зависимости от концептуализации событий различают три стратегии

А.С.: для единичных неповторяющихся событий (вступление в первый брак); для множественных событий (вступление в одну из политических партий); для повторяющихся событий (переход с одной работы на другую).

А.С. является обобщением ряда методов, разработанных в частных науках для эксплораторного исследования единичных неповторяющихся событий: анализа отказов в технике, анализа дожития (выживания) в биологии, анализа таблиц дожития в демографии. Общая модель А.С. для непрерывного времени была разработана американскими социологами Н. Тума и М. Ханнаном в конце 1970-х и является одним из главных методологических достижений социологии за последние 25 лет. Ключевыми понятиями А.С. являются функция плотности вероятности fit) (безусловная вероятность того, что событие произойдет во время г), функция распределения накопленной вероятности F(t), функция дожития S(t) (вероятность того, что событие не произойдет вплоть до момента времени t). Особое значение имеет интенсивность, буквально "показатель риска" (hazard rate), или вероятность наступления события в малом промежутке времени между г, и tj+At, при условии, что событие не произошло до этого. Для непрерывно измеренного времени



Как и другие статистические методы, А.С. может быть эксплораторным (описательным) либо конфирматорным (направленным на проверку гипотез). В первом случае строят и сравнивают эмпирические графики функций, например выживания, для различных значений независимых переменных, например для мужчин и женщин. Вторая стратегия состоит в моделировании функциональной формы зависимости интенсивности (риска) наступления события от истекшего времени и от значений предикторов. Цель в том, чтобы не только оценить эффекты независимых переменных, но и подобрать (на основании содержательной теории или эмпирически) наилучшую функциональную зависимость, т.е. модель, способную наилучшим образом объяснить гетерогенность совокупности. И функция времени, и гетерогенность совокупности могут моделироваться с помощью двух подходов. Непараметрический подход связан с дискретизацией данных и оценкой показателя риска для каждого из значений независимых переменных. Предположений о форме функциональной зависимости не делается. В параметрическом подходе функциональные формы зависимостей постулируются и оцениваются на предмет правдоподобия. Чаще всего используют следующие функции зависимости от времени: экспоненциальную, Вейбулла, Гернеса, Мейкхама-Гомперца для монотонной связи интенсивности с временем, лог-логистическую, логарифмически-гауссову для немонотонной связи. Специальным случаем моделирования гетерогенности совокупности являются модель пропорционального риска, в которой интенсив-



41

А.С. требует сбора данных в специальном формате, с точным измерением времени наступления событий, что затрудняет применение метода на практике. С некоторой потерей информации задачу можно переформулировать для дискретного времени, когда время предполагается измеренным с низкой точностью, и оценить обычную логистическую регрессию, в которой зависимой переменной является факт наступления или ненаступления события. Серьезные проблемы для анализа создает левое цензурирование, т. е. отсутствие информации о предыстории событий. Поскольку многие предикторы сами зависят от времени, для моделирования даже относительно простых событий (рождение ребенка) необходимо располагать полной историей жизни респондента, включая образовательную, трудовую и др. линии. Одной из актуальных задач статистического аппарата А.С. является включение в модели ошибок измерения, подобно тому, как это делается в структурных уравнениях.

А.С. продуктивно использовался для анализа брачно-репродуктивного поведения (Н. Тума и др.), влияния человеческого капитала на брачное поведение (Х.-П. Блоссфельд), образования и ликвидации фирм (М. Ханнан и Г. Кэррол), трудовых биографий (А. Соренсен), принятия законов разными штатами США (Э. Повалко), обретения независимости бывшими колониями (Д. Странг), этнических конфликтов (С. Ользак) и др. А.С. позволяет рассматривать процессы диффузии (распространения слухов или инноваций) на микроуровне, с учетом позиции индивидов в социальной структуре.

СВ. Сивуха

АНАЛИЗ СОЦИАЛЬНЫХ СЕТЕЙ - методология и методы исследования связей между социальными акторами. Возникновение этой методологии относят либо к 1930-м, когда в психологии оформился социометрический подход, либо к 1950-м, когда для анализа ранних описательных исследований были применены матричная алгебра и теория графов.

Предметом А.С.С. является структура - повторяющиеся, регулярные паттерны (см.) отношений. Математический аппарат А.С.С. позволяет исследовать реляционные данные, свойства связей и отношений, хотя атрибутивные данные также могут быть включены в анализ. Другой важной особенностью является возможность одновременно использовать в анализе данные разного уровня: особенности акторов, подгрупп акторов, позиций и целой сети. С самого начала А.С.С. был междисциплинарным мероприятием и объединял усилия психологов, социологов, специалистов по коммуникациям,

антропологов, математиков и статистиков. В 1978 была образована Международная ассоциация специалистов по А.С.С. (INSNA), учрежден журнал "Social Networks". В Интернете доступны другие издания по А.С.С. - электронные журналы "Connections" и "Journal of Social Structure". Методология исследования сетей оказывает существенное влияние на компьютерные науки, менеджмент, социальную медицину, молекулярную биологию.

С. Вассерман и Ф. Паттисон условно выделяют три поколения в А.С.С. Основными темами исследований первого | поколения (до 1970-х) были квантификация положения инди- \ вида в группе; анализ сплоченных подгрупп; структурный ; анализ сбалансированных диадических и триадических отношений; идентификация позиций - структурно неразличимых подгрупп, т. е. индивидов, имеющих одинаковые закономерности связей с другими. Хотя попытка статистического исследования связей в социоматрице была предпринята уже Морено и Дженнингс (1939), развитие статистических методов сдерживалось тем обстоятельством, что связи между парами акторов в социальной сети не являются взаимно независимыми, и по этой причине использование традиционных формул для расчета стандартных ошибок, необходимых для проверки статистических гипотез, неправомерно. Второе поколение зародилось в 1970-х с разработки П. Холландом, С. Линардом и другими статистических моделей, параметрически оценивающих вероятности отношений в небольших группах. Эти модели строились на предположениях о независимости диадических связей. Третье поколение моделей появилось на свет в конце 1980-х - начале 1990-х и основывалось на идее марковских случайных графов. Эти наиболее общие модели свободны от предположения о независимости диад и позволяют проверять статистические гипотезы о сплоченных подгруппах, транзитивных триадах, взаимосвязанных диадах, о влиянии индивидуальных характеристик на групповую структуру. Ниже представлены наиболее популярные методы описательного, нестатистического анализа сетей. Методы А.С.С, относящиеся ко второму и третьему поколениям, см. Стохастический анализ социальных сетей.



Элементарные понятия А.С.С. Данные о связях акторов представляются в виде социоматрицы - квадратной или прямоугольной таблицы, элементы которой равны показателю силы связи, исходящей от актора в /-й строке к актору в jстолбце. Всякой социоматрице может быть взаимно однозначно сопоставлен орграф. Графом называется множество вершин и связей между ними. Связи могут быть ненаправленными (ребра) и направленными (дуги). Граф с заданными на нем дугами называется ориентированным, или орграфом. Вершины, соединенные ребром, являются смежными. Степенью вершины называется число ребер, соединенные с ней. Исходящей степенью вершины называется число дуг, исходящих из вершины, входящей степенью - число дуг, входящих в вершину. Последовательность вершин, соединенных ребрами, составляет цепь. В цепи направление связей между вершинами не имеет значения. В простой цепи ни одна из вершин и ни одно из ребер не повторяются. Число ребер цепи называется ее длиной. Длина самой короткой цепи, связы-

42

АНАЛИЗ СОЦИАЛЬНЫХ СЕТЕЙ

А

Гбыла обра-В по А.С.С. > Интернете журналы Методология hffie на ком-(цину, моле-



(№г три поко-яий первого жения инди-структурный (еских отно-!различимых ;,закономер-иеского ис-финята уже веских мето-)й между па-ймно незави-вдиционных адимых для

Второе по-олландом, С. гараметриче->льших груп-независимо-еЙ появилось (вывалось на se общие мо-ости диад и сплоченных иных диадах,

групповую рные методы •ей. Методы олениям, см.

язях акторов той или пря-показателю [актору в7-м шмно одно-in множество tab ненаправ-i с заданными ли орграфом, йыми. Степе-!енные с ней. ло дуг, исхо-ю дуг, входя-соединенных связей между и ни одна из по ребер цепи цепи, связы-

вающей две вершины, называется расстоянием между вершинами (без учета направления связей). Последовательность вершин, соединенных дугами, называется путем (направление связей существенно). В простом пути ни одна из вершин и ни одна из дуг не повторяются. Число дуг, составляющих путь, называется его длиной. Длину самого короткого пути, связывающего две вершины, называют расстоянием между ними (с учетом направления связей). Орграф, в котором из каждой вершины существует путь к любой другой вершине, называется сильно связным (путешествовать можно лишь по направлению дуг). Орграф, в котором существует цепь из каждой вершины к любой другой, называется слабо связным (можно путешествовать против направления дуг). Плотность графа есть отношение числа наличных связей к потенциально возможному. В графе и социоматрице различают дихотомические и взвешенные, означенные и неозначенные связи. Для простоты последующее изложение основных методов А.С.С. касается социоматриц с дихотомическими неозначенными связями, хотя во многих случаях возможны обобщения на более сложные ситуации.

Индивидуальные и групповые показатели заметности. Идея центральности вершин в графе, их "важности" начала разрабатываться одной из первых в анализе социальных сетей. Источник этой идеи можно усмотреть в мореновском понятии "звезды" - самого популярного человека в группе. Будем называть меру заметности актора в сети (неориентированном графе) центральностью, для входящих связей в орграфе - престижем, для исходящих связей - экспансивностью.

Простой и интуитивно понятный подход к измерению центральности индивидов основывается на идее степени. Для сопоставимости индексы нормируют, т. е. делят на максимально возможное количество связей (п-\) и умножают на 100. Полученные значения лежат в пределах от 0 до 100. Формулы для центральности, престижа и экспансивности по степени различаются числителями, которые содержат соответственно степень вершины, степень входа и степень выхода. Степени входа (выхода) получают суммированием элементов социоматрицы по столбцу (строке). Индексы центральности по степени являются локальными характеристиками положения вершины в графе - они учитывают непосредственных соседей, ближайшую окрестность вершины и в этом смысле поверхностны.

Вторая группа показателей центральности (престижа, экспансивности) основана на идее близости данной вершины ко всем остальным вершинам графа. Центральным является тот индивид, который быстро взаимодействует с другими либо непосредственно, либо через небольшое число посредников. Г. Сабидуси в 1966 году квантифицировал эту характеристику как величину, обратную сумме длин самых коротких путей от данного индивида ко всем остальным. Индекс равен 100, если вершина смежна со всеми другими. Возможная физическая интерпретация близости - ожидаемое время движения ресурса от любого участника сети к данному индивиду. Центральность по близости является глобальной мерой сети. Недостаток показателя в том, что он не определен для

изолированных вершин, поскольку при отсутствии связи между вершинами расстояние между ними бесконечно.

Взаимодействие двух несмежных индивидов может находится под контролем возможных посредников. При поисках работы, например, важно не то, сколько знакомых у претендента, а сколько знакомых у этих знакомых. Метод оценки центральности по посредничеству для вершины предложен Л. Фриманом в 1977 и заключается в нахождении доли самых коротких путей, соединяющих все пары вершин, которые проходят через данную вершину. Это сумма вероятностей того, что другие акторы в своих взаимодействиях будут прибегать к посредничеству данного актора. Показатель стандартизуется делением на максимально возможную величину -(п-1)(я-2)/2. Центральность по посредничеству является глобальной характеристикой вершины и имеет более интересную интерпретацию, чем другие индексы центральности. Показатель определен на несвязных графах, хотя индексы для экспансивности и престижа не определены. Показатель учитывает лишь кратчайшие пути от вершины к вершине и основан на предположении, что при наличии между двумя вершинами нескольких коротких путей равной длины каждый из них используется с равной вероятностью. Эти ограничения снимаются в поточных индексах.

Индекс поточного посредничества предложен как обобщение предыдущего показателя, чтобы учесть все потоки, проходящие через вершину, независимо от их длины (Л. Фриман). Индекс информационной центральности оценивает распределение информации во всех цепях графа, взвешивая цепи величиной, обратной их длине (К. Стивенсон, М. Зелен). В индексе Боначича (собственный вектор социоматрицы, нормированный делением на первое собственное значение) центральность актора определяется как взвешенная сумма центральностей акторов, которые с ним связаны, а эти центральности - как взвешенные суммы центральностей тех акторов, которые связаны с ними, и т. д. Более сложные варианты индексов, основанные на собственных векторах, получают стандартизацией социоматрицы по определенным правилам.

Показатели центральности, основанные на степени, информационно бедны. Центральность по посредничеству и поточные индексы предпочтительны в силу того, что они имеют большую изменчивость значений и более интересную интерпретацию. Для более точной оценки значимости индивида в группе рекомендуется сравнивать показатели участников сети до и после удаления индивида с наибольшим значением индекса центральности по посредничеству. Н. Фредкин полагает, что центральность по степени отражает влияние данного индивида на других, центральность по близости -скорость распространения этого влияния, а центральность по посредничеству - контролирующую, посредническую роль в этом процессе. В литературе показатели центральности интерпретируются как индикаторы власти.

Групповые показатели центральности являются мерами изменчивости или неравенства индивидуальных показателей в графе. В таком общем понимании групповые индексы по смыслу близки дисперсии (мере разброса). По причинам математического свойства наиболее популярны групповые ин-




Достарыңызбен бөлісу:
1   ...   5   6   7   8   9   10   11   12   ...   95




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет