Дисперсия (variance)
Среднее из квадратов отклонений переменной от ее средней величины.
Среднеквадратичное (стандартное) отклонение (standard deviation)
Корень квадратный из значения дисперсии.
Мы делим на (n — 1) вместо п, поскольку имеем дело с выборкой, а не с генеральной совокупностью. Поэтому генеральное среднее неизвестно, и вместо него используют выборочное среднее, что делает выборку менее изменчивой, чем фактически. Деля на (n -1) вместо п, мы корректируем более слабую изменчивость значений переменой, наблюдаемую в выборке, повышая ее.
Коэффициент вариации (coefficient of variation) — это отношение стандартного отклонения к среднему арифметическому, выраженное в процентах. Коэффициент вариации — показатель относительной изменчивости переменной. Коэффициент вариации вычисляют так: Величина относительной изменчивости переменной, представляющая собой отношение ее стандартного отклонения к ее среднему значению. Коэффициент вариации имеет смысл, только если переменную измеряют по относительной шкале.
44. Показатели формы распределения. Ассиметрия. Эксцес.
Показатели формы распределения
Показатели формы распределения, как и показатели вариации, также полезны для понимания природы распределения переменной. Форму распределения оценивают с помощью показателей асимметрии и эксцесса.
Асимметрия. Распределение переменной может быть симметричным или асимметричным (скошенным). При симметричном распределении частоты любых двух значений переменной, которые расположены на одном и том же расстоянии от центра распределения, одинаковы.
Асимметрия, скошенность вариационного ряда (skewness)
Характеристика распределения, с помощью которой оценивается симметрия расположения значений переменной относительно средней.
Эксцесс (kurtosis) — это показатель относительной крутости (островершинности или плосковершинности) кривой вариационного ряда по сравнению с нормальным распределением. Эксцесс нормально распределенной случайной величины равен нулю. Если эксцесс положителен, то распределение более островершинное по сравнению с нормальным распределением.
45. Однофакторный и многофакторный дисперсионный анализ. Применение в маркетинговых исследованиях.
Дисперсионный анали используются маркетологами для изучения различий средних значений зависимых переменных, обусловленных влиянием контролируемых независимых переменных, при условии, что учтено влияние неконтролируемых независимых переменных. По сути, дисперсионный анализ (analysis of variance — AN OVA) применяют как проверку статистической значимости различий выборочных средних для двух или больше совокупностей. Обычно нулевая гипотеза утверждает, что все выборочные средние равны. Например, предположим, что исследователю интересно узнать, действительно ли люди с различным уровнем потребления сухих завтраков (едят много, средне, слабо и вообще не едят) различаются предпочтением к Total cereal, измеренным по девятибалльной шкале Лайкерта. Проверку нулевой гипотезы, утверждающей, что четыре группы потребителей не различаются по предпочтению к Total, можно выполнить, используя дисперсионный анализ.
Дисперсионный анализ (analysis of variance — ANOVA)
Статистический метод изучения различий между выборочными средними для двух или больше совокупностей.
В своей простейшей форме дисперсионный анализ должен иметь зависимую переменную (предпочтение к сухому завтраку Total cereal), которая является метрической (измеренной с помощью интервальной или относительной шкалы). Кроме того, должна быть одна или больше независимых переменных (потребление продукта: сильное, среднее, слабое и отсутствие потребления). Все независимые переменные должны быть категориальными (не метрическими), их еще называют факторами (factors).
Фактор (factors)
Категориальная независимая переменная. Чтобы использовать дисперсионный анализ, независимые переменные должны все быть категориальными (не метрическими). Конкретная комбинация уровней факторов называется факторным экспериментом (условиями испытаний) (treatment).
Факторный эксперимент (условия испытаний) (treatment)
В дисперсионном анализе конкретная комбинация категорий (уровней) факторов.
Однофакторный дисперсионный анализ (one-way analysis of variance) включает только одну категориальную переменную или единственный фактор. Метод дисперсионного анализа, при котором используется только один фактор.
Различия в предпочтениях потребителей с сильным, средним, слабым и нулевым уровнями потребления можно изучить с помощью однофакторного дисперсионного анализа, в котором факторный эксперимент представлен определенным уровнем фактора (пользователи со средним уровнем потребления как раз и составляют факторный эксперимент). Если существует два или больше факторов, то анализ называют многофакторным дисперсионным анализом (n-way analysis of variance). (Если в дополнение к фактору использования продукта исследователь также хочет узнать отношение к Total cereal потребителей с разным уровнем лояльности (новый фактор), то для этого подходит многофакторный дисперсионный анализ.)
Довольно часто у маркетологов возникает необходимость установить различия в средних значениях зависимой переменной для нескольких категорий одной независимой переменной (фактора).
Различаются ли разные сегменты рынка с точки зрения объема потребления товара?
Действительно ли различаются оценки торговой марки группами респондентов, которые посмотрели разные рекламные ролики?
Различается ли отношение розничных, оптовых торговцев и торговых агентов к политике распределения, проводимой фирмой?
Зависит ли намерение потребителей приобрести товар данной торговой марки от разницы в уровнях цен?
Влияет ли осведомленность потребителей о магазине (высокая, средняя и низкая) на предпочтение данного магазина?
Ответ на эти и другие вопросы можно получить, выполнив однофакторный дисперсионный анализ.
Многофакторный дисперсионный анализ (n-way analysis of variance)
Модель дисперсионного анализа, которая включает два или больше факторов. Если набор независимых переменных состоит из категориальных и метрических переменных, то их изучают методом ковариационного анализа (analysis of covariance — ANCOVA).
При проведении маркетинговых исследований часто приходится иметь дело с одновременным влиянием нескольких факторов.
Как меняется намерение потребителей купить товар при различных уровнях цены и доходов?
Как уровень рекламы и уровень цен (высокий, средний, низкий) одновременно влияют на продажи товара данной торговой марки?
Влияют ли на выбор потребителем данной торговой марки уровень его образования (ниже среднего, среднее, колледж, высшее) и возраст?
Как осведомленность об универмаге (высокая, средняя, низкая) и представление о нем (позитивное, нейтральное, негативное) влияют на предпочтение потребителем этого магазина?
При определении влияния на зависимую переменную нескольких факторов можно использовать многофакторный дисперсионный анализ. Главное преимущество этого метода в том, что он позволяет исследователю изучать взаимодействие факторов. Взаимодействия (interaction) имеют место, когда эффекты одного фактора на зависимую переменную зависят от уровня других факторов.
46. Однофакторный дисперсионный анализ. Этапы выполнения.
Однофакторный дисперсионный анализ (one-way analysis of variance) включает только одну категориальную переменную или единственный фактор. Метод дисперсионного анализа, при котором используется только один фактор.
Выполнение однофакторного дисперсионного анализа состоит из следующих этапов:
1.Определение зависимой и независимой переменных;
2.Разложение полной дисперсии;
3.Измерение эффектов;
4.Проверка значимости;
5.Интерпретация результатов.
Этап 1. Пусть У – зависимая переменная (метрическая), а Х – независимая переменная, имеющая с категорий (уровней). Для каждой группы Х существует n наблюдений У. Размер общей выборки N=n×c.
Этап 2. Разложение полной дисперсии в однофакторном дисперсионном анализе – это разделение вариации зависимой переменной на вариацию, обусловленную различием средних между группами, плюс вариацию, обусловленную внутригрупповой изменчивостью. Полную вариацию SSу можно разложить на два компонента:
SSх (межгрупповая вариация – вариация между категориями переменной Х);
SSошибки (внутригрупповая вариация – вариация У внутри каждой группы Х)
SSу = SSх + SSошибки
где SSу =;
SSх = ;
SSошибки =
- среднее для всей выборки;
- среднее для группы j
- i наблюдение в j группе.
Этап 3. Измерение эффекта. Сила влияния переменной Х на У измеряется с помощью SSx. SSx растет с увеличением различий между средними значениями У в группах Х.
Эффект влияния переменной Х на У вычисляют по формуле:
- корреляционное отношение
изменяется от 0 до 1. Оно равно 0, когда все групповые средние равны, т.е. Х не влияет на У. = 1, когда внутри каждой группы изменчивость отсутствует, но имеется некоторая изменчивость между группами. - мера вариации У, объясненная влиянием независимой переменной Х.
Этап 4. Проверка значимости. В однофакторном дисперсионном анализе проверяют нулевую гипотезу, утверждающую, что групповые средние равны:
Н0: .
Нулевую гипотезу можно проверить с помощью F – статистики:
, где MS – средний квадрат.
Эта статистики подчиняется F – распределению с числом степеней свободы (df), равным (с-1) и (N-c).
Этап 5. Интерпретация результатов. Если нулевую гипотезу о равенстве групповых средних не отклоняют, то независимая переменная не оказывает статистически значимого влияния на зависимую переменную.
Если нулевую гипотезу отклоняют, то эффект независимой переменой на зависимую трактуется, как статистически значимый. Другими словами, среднее значение зависимой переменной различно для различных групп независимой переменной
47. Многофакторный дисперсионный анализ. Этапы выполнения. Гипотезы, которые проверяются. Статистики, которые используются. Показатели, которые вычисляются.
При определении влияния на зависимую переменную нескольких факторов можно использовать многофакторный дисперсионный анализ. Главное преимущество этого метода в том, что он позволяет исследователю изучать взаимодействие факторов. Взаимодействия (interaction) имеют место, когда эффекты одного фактора на зависимую переменную зависят от уровня других факторов.
Взаимодействие (interaction)
При оценке зависимости между двумя переменными взаимодействие имеет место, если влияние Х зависит от уровня Х, и наоборот.
Процедура многофакторного дисперсионного анализа аналогична процедуре однофакторного дисперсионного анализа. Статистики, соответствующие многофакторному дисперсионному анализу, также определяются аналогично определению статистик в однофакторном дисперсионном анализе. Рассмотрим простой пример, в который входят факторы Х1 и Х2 с уровнями с, и с2 соответственно.
Большее влияние Хх будет отражаться в большем отличии среднего в уровнях Хх и более высоком значении SSX. Это же касается и фактора Х1. Чем сильнее взаимодействие между факторами Хх и Х2, тем больше значение SS . С другой стороны, если Хх и Х2не зависят друг от друга, то значение SS приближается к нулю.
Значимость полного эффекта (significance of the overall effect)
Проверка наличия различий между некоторыми из групп факторного эксперимента. Если полный эффект статистически значимый, то на следующем этапе изучают значимость эффекта взаимодействия (significance of the interaction effect). Если нулевая гипотеза утверждает, что взаимодействие между факторами отсутствует, то соответствующий критерий.
Значимость эффекта взаимодействия (significance of the interaction effect)
Проверка значимости взаимодействия между двумя или больше независимыми переменными.
Если окажется, что эффект взаимодействия статистически значимый, значит, эффект зависит отХ2, и наоборот. Поскольку эффект (влияние) одного фактора неоднородный, а зависит от уровня другого фактора, то вообще бессмысленно проверять значимость главных эффектов. Однако имеет смысл проверить значимость главного эффекта каждого фактора, если эффект взаимодействия статистически незначимый.
Значимость главного эффекта каждого фактора (significance of the main effect of each factor)
Проверка значимости главного эффекта для каждого отдельного фактора.
При анализе предполагалось, что план эксперимента сбалансированный (количество случаев в каждой ячейке одинаково). Если это не так, то анализ становится сложнее. Приведенный ниже пример иллюстрирует применение многофакторного дисперсионного анализа.
48. Факторный анализ данных. Применение в маркетинговых исследованиях. Основные этапы.
Факторный анализ – класс методов, используемых для сокращения числа переменных и их обобщения.
В ходе проведения маркетинговых исследований можно столкнуться с множеством переменных, большинство из которых взаимосвязаны. Для удобства обработки данных их число следует снизить до приемлемого уровня. С этой целью связи между коррелированными переменными анализируются и представляют в виде небольшого числа факторов.
Фактор – латентная (скрытая) переменная, объясняющая корреляцию между набором переменных. В маркетинговых исследованиях факторный анализ используют в следующих целях: При сегментации рынка для определения латентных переменных с целью группировки потребителей; Например. Покупателей новых автомобилей можно сгруппировать в зависимости от того, на что они обращают внимание при покупке (экономия, удобство, рабочие характеристики, комфорт, респектабельность). При разработке товарной стратегии факторный анализ используется для определения характеристик торговой марки, влияющих на выбор потребителя; При разработке стратегии ценообразования факторный анализ определяет характеристики потребителей, чувствительных к цене. С математической точки зрения факторный анализ аналогичен множественному регрессионному анализу: Каждая переменная Хi выражена как линейная комбинация факторов (F1, F2, . . . Fк). Факторы, в свою очередь, также можно выразить линейными комбинациями наблюдаемых переменных
где Хi – i-я нормированная переменная; к – число переменных; Wi - весовой коэффициент.
Выполнение факторного анализа состоит из следующих этапов
1.Формулировка проблемы2. Построение корреляционной матрицы3. Определение метода факторного анализа4.Определение числа факторов5.Вращение факторов6. Интерпретация результатов.
1. Формулировка проблемы
1) Переменные должны быть измерены в интервальной или относительной шкале;
2) Выборка должна быть в 4-5 раз больше, чем число переменных.
2. Построение корреляционной матрицы
На основании данных построена корреляционная матрица. Целесообразность выполнения факторного анализа определяется наличием корреляций между переменными.
Переменные, взаимосвязанные между собой, должны коррелировать с одним и тем же фактором. Если корреляция между переменными небольшая, то факторный анализ бесполезен.
Несколько статистик:
Критерий сферичности Бартлетта. Проверяется нулевая гипотеза об отсутствии корреляции между переменными в генеральной совокупности. Проверка основана на преобразовании определителя корреляционной матрицы в статистику χ2 (хи-квадрат). При большом значении статистики нулевую гипотезу отклоняют. Критерий адекватности выбора Кайзера-Мейера-Олкина (КМО). Небольшие значения КМО-статистики (меньше 0,5) указывают на то, что корреляции между парами переменных нельзя объяснить другими переменными и что использование факторного анализа нецелесообразно.
3. Определение метода факторного анализа
Существует 2 метода: Анализ главных компонент; Анализ общих факторов.
Анализ главных компонент рекомендуется выполнять, если основная задача исследования – определение минимального числа факторов, которые вносят максимальный вклад в дисперсию данных, чтобы в последующем использовать их в многомерном анализе. Эти факторы называют главными компонентами. В анализе общих факторов основной задачей является определение латентных переменных и общей дисперсии.
Общность – доля дисперсии отдельной переменной, объясняемая общими факторами.
Поиск факторов
Визуально легче представить для двумерного набора данных. Если двумерную величину представить, как «облако» на плоскости, то первый фактор определяет вектор, характеризующий направление его наибольшей вытянутости. На следующем этапе определяют другой фактор – вектор, показывающий направление максимальной вариации, оставшейся после первого фактора и корреляционно не связанной с первым фактором. Векторы, соответствующие факторам, называют собственными векторами, а процедура поиска факторов с вычислительной точки зрения – поиск собственных векторов. Собственные значения соответствуют собственным векторам и показывают полную дисперсию, присущую данному фактору.
4.Определение числа факторов
Для обобщения информации, содержащейся в исходных переменных, лучше выделить небольшое число факторов. Существует несколько процедур:
Определение, основанное на предварительной информации. Иногда, руководствуясь предварительной информацией, исследователь знает, сколько факторов можно ожидать.
Определение, основанное на собственных значениях факторов. В этом методе учитываются только факторы, собственные значения которых выше 1, остальные факторы в модель не включают.
Определение основанное на критерии «каменистой осыпи». Графическое изображение критерия «каменистой осыпи» представляет собой график зависимости собственных значений факторов от их номеров в порядке выделения.
5.Вращение факторов
Матрица факторных нагрузок содержит коэффициенты, представляющие корреляции между факторами и переменными. Вращение факторов преобразует матрицу факторных коэффициентов в более простую и легко интерпретируемую.
Метод Варимакс – ортогональный метод вращения факторов, минимизирующий число переменных с высокими значениями нагрузок.
6. Интерпретация результатов
Для интерпретации факторов необходимо определить переменные, которые имеют высокие значения нагрузок по одному и тому же фактору.
Вычисление значения фактора
Если цель факторного анализа заключается в снижении исходного числа переменных до небольшого набора составных переменных 9факторов), используемых в многомерном анализе, то для каждого респондента вычисляют значение фактора
Определение подгонки модели
Изучив разности между наблюдаемыми корреляциями (данными в исходной корреляционной матрице) и вычисленными корреляциями (определенными из матрицы факторных нагрузок), можно определить соответствие модели исходным данным. Эти разности называют остатками. Если много остатков с большими значениями, то факторная модель не обеспечивает хорошее соответствие данным и требует пересмотра.
49. Сущность кластерного анализа. Основные этапы.
Кластерный анализ представляет собой класс методов, используемых для классификации объектов или событий в относительно однородные группы, которые наз. кластерами
Кластерный анализ используется для:
+сегментация рынка (например, потребителей можно разбить на кластеры на основе выгод, которые они ожидают получить от покупки данного товара)
+понимание поведения покупателей -кластерный анализ используют для идентификации однородных групп покупателей.
+определение возможностей нового товара - кластеризацией торговых марок и товаров можно определить конкурентоспособные наборы в пределах данного рынка. Торговые марки в одном и том же кластере конкурируют более жестко между собой, чем с марками других кластеров.
Этапы выполнения кластерного анализа:
1. Формулировка проблемы (задача состоит в том, чтобы выбранный набор переменных смог описать сходство между объектами с точки зрения признаков, имеющих отношение к данной проблеме)
2. Выбор меры рассеяния (заключается в выборе способа измерения расстояния или меры сходства. Наиболее часто в качестве меры сходства используется расстояние между объектами. Объекты с меньшими расстояниями между собой более похожи, чем объекты с большими расстояниями. Существует несколько способов вычислить расстояние между объектами (Эвклидово расстояние; расстояние городских кварталов)
3. Выбор метода кластеризации (бывают иерархическими и неиерархическими)
4. Принятие решения о количестве кластеров
5. Интерпретация и профилирование кластеров
6. Оценка достоверности кластеризации
Иерархические методы бывают агломеративная (объединяющая) кластеризация начинается с каждого объекта в отдельном кластере. Кластеры объединяют, группируя объекты каждый раз во всё более и более крупные кластеры. Этот процесс продолжается до тех пор, пока все объекты не станут членами одного кластера.
дивизивная кластеризация начинается со всех объектов, сгруппированных в единственном кластере. Кластеры делят до тех пор, пока каждый объект не окажется в отдельном кластере.
Обычно в МИ используются агломеративные методы, например, методы связи, дисперсионные и центроидные данные.
Методы связи:
- «метод ближайшего соседа» (одиночная связь) - первыми объединяют два объекта, расстояние между которыми минимально. Далее определяют следующее по величине самое короткое расстояние, и в кластер с двумя первыми объектами вводят третий объект. Расстояние между кластерами – расстояние между их ближайшими точками.
- «далёкого соседа» (полная связь) – расстояния между кластерами вычисляют как расстояния между их самыми удалёнными точками.
- «среднего расстояния» - расстояние между кластерами определяют как среднее значение всех расстояний между объектами двух кластеров.
Неиерархические методы:
Последовательный пороговый метод – выбирают центр кластера и все объекты, находящиеся в пределах заданного от центра порогового значения, группируют вместе. Затем выбирают новый кластерный центр, и процесс повторяют для несгруппированных точек.
Параллельный пороговый метод работает аналогично, выбирают несколько кластерных центров и объекты в пределах порогового уровня группируют с ближайшим центром.
Недостатки неиерархических методов:
*число кластеров определяется заранее и выбор кластерных кластерных центров происходит независимо
*многие неиерархические методы выбирают К-случаев (К-количество кластеров) и зависят от порядка наблюдений.
50. Иерархическая и неиерархическая кластеризация в маркетинговых исследованиях.
Иерархические методы бывают агломеративная (объединяющая) кластеризация начинается с каждого объекта в отдельном кластере. Кластеры объединяют, группируя объекты каждый раз во всё более и более крупные кластеры. Этот процесс продолжается до тех пор, пока все объекты не станут членами одного кластера.
дивизивная кластеризация начинается со всех объектов, сгруппированных в единственном кластере. Кластеры делят до тех пор, пока каждый объект не окажется в отдельном кластере.
Обычно в МИ используются агломеративные методы, например, методы связи, дисперсионные и центроидные данные.
Методы связи:
- «метод ближайшего соседа» (одиночная связь) - первыми объединяют два объекта, расстояние между которыми минимально. Далее определяют следующее по величине самое короткое расстояние, и в кластер с двумя первыми объектами вводят третий объект. Расстояние между кластерами – расстояние между их ближайшими точками.
- «далёкого соседа» (полная связь) – расстояния между кластерами вычисляют как расстояния между их самыми удалёнными точками.
- «среднего расстояния» - расстояние между кластерами определяют как среднее значение всех расстояний между объектами двух кластеров.
Неиерархические методы:
Последовательный пороговый метод – выбирают центр кластера и все объекты, находящиеся в пределах заданного от центра порогового значения, группируют вместе. Затем выбирают новый кластерный центр, и процесс повторяют для несгруппированных точек.
Параллельный пороговый метод работает аналогично, выбирают несколько кластерных центров и объекты в пределах порогового уровня группируют с ближайшим центром.
Недостатки неиерархических методов:
*число кластеров определяется заранее и выбор кластерных кластерных центров происходит независимо
*многие неиерархические методы выбирают К-случаев (К-количество кластеров) и зависят от порядка наблюдений.
Достарыңызбен бөлісу: |