Анализ данных: многомерные методы

В маркетинговых исследованиях мне больше всего нравится выявлять восприятия и мотивации людей, а затем на основе полученных результатов помогать в разработке маркетинговых стратегий. Часто, чтобы полностью понять сложность имеющейся информации, нам приходится изучать данные, полученные от респондентов, с помощью многомерных статистических методов. Наша цель — заставить "заговорить данные" понятным и уверенным голосом.

Начинающий маркетолог часто попадает в плен многообразия существующих методов анализа и забывает о самой цели исследования. В последние пять лет акцент на технике анализа становится все более превалирующей тенденцией, поскольку имеющиеся статистические программные пакеты значительно упростили применение этих методов. Далее я кратко прокомментирую возможности использования нескольких методов многомерного анализа, среди которых: дисперсионный анализ, множественная регрессия, дискриминантный анализ, факторный анализ, кластерный анализ, многомерное шкалирование и совместный анализ.

Дисперсионный анализ

Дисперсионный анализ (ANOVA) чрезвычайно полезный инструмент в практике маркетинговых исследований, поскольку именно его используют чаще всего для снижения кумулятивной ошибки. Она представляет собой кумулятивный эффект ошибки I рода (ошибка первого рода означает утверждение, что два числа различаются, когда фактически они не различаются между собой) во всех парных сравнениях, Однако, прежде чем вы решите использовать дисперсионный анализ, вы должны убедиться, что вы имеете соответствующие данные, Дисперсионный анализ служит методом выявления различий между номинальными независимыми переменными, влияющими на значения метрической зависимой переменной. Помимо того, что вы должны иметь номинальную независимую переменную (например, торговую марку, товар) и метрическую зависимую переменную (например, рейтинги эффективности, рейтинги важности, уровни осведомленности), ваши данные должны удовлетворять следующим допущениям дисперсионного анализа; значения переменных в выборке должны подчиняться закону нормального распределения и дисперсии совокупностей должны быть равны. Если окажется, что данные в значительной степени не удовлетворяют этим допущениям, то следует использовать непараметрические методы, например критерий Краскела—Уоллеса.

Если вы установили, что для анализа ваших данных подходит дисперсионный анализ, то запустите программу его выполнения и вычислите значение /-статистики, чтобы определить значимость полученного результата. Использование F-стзтистиКи позволяет проверить нулевую гипотезу об одинаковых значениях уровней независимых переменных с помощью сравнения дисперсии, обусловленной факторным экспериментом, с дисперсией, обусловленной ошибкой.

Чем выше отношение факторной дисперсии к дисперсии, обусловленной ошибкой, т.е.,, чем выше значение F, тем выше вероятность отклонения нулевой гипотезы об отсутствии различий между средними факторного эксперимента. Если вы используете компьютерную программу SAS или SPSS для выполнения дисперсионного анализа, то программа выдаст вам р-значение, соответствующее значению F. Как всегда, если вы используете 95%-ный доверительный уровень, /г-значение, меньшее 0,05, свидетельствует о статистической значимости.F-критерия.

Если нулевую гипотезу отклоняют, то необходимо дополнительно сравнить различия в изолированных группах. Существует ряд критериев для проверки парных сравнений, включая ранговый критерий Стьюдента—Ньюмана—Кеулза (Student—Newman—Keuls Range Test — SNK), альфа-критерий согласия Бонферрони (Bonferroni alpha adjustment), альфа-критерий согласия Шеффе (Scheffe alpha adjustment), альфа-критерий согласия Тьюкея (Tukey alpha adjustment). Самый легкий и самый консервативный из них — альфа-критерий согласия Бонферрони. Чтобы выполнить эту проверку, вы должны запустить программу выполнения парных сравнений с помощью г-критериев, как вы обычно и делаете, но вместо того, чтобы сравнивать каждое проверяемое р-значение с вашим общим уровнем значимости (а™ 0,05, если желаемый доверительный уровень составляет 95%), вы сравниваете каждое р-значение с вновь вычисленным значением альфа, которое представляет собой вероятность допустить ошибку первого рода, Значения альфа-критерия согласия Бонферрони вычисляют по следующей формуле:

Множественная регрессия

Множественная регрессия — испытанный и надежный метод маркетинговых исследований, применяемый, главным образом, для прогнозирования и объяснения относительного вклада предикторов в изменение определенной зависимой переменной. Чаще всего мы задаем такой вопрос: "Насколько тесной должна быть зависимость между переменными, чтобы ее принимать во> внимание?" Ответ зависит от того, с какой целью вы проводите анализ и зачем вам нужны результаты. Если вы хотите узнать, какие из предикторов наиболее сильно влияют на зависимую переменную, то лучше всего это покажет изучение нормированных коэффициентов регрессии (р-коэффициенты). Если вы хотите делать прогнозы с помощью полученной вами модели, то стоит посмотреть на стандартную ошибку модели. Менеджер не оценит вашу работу, если вы получите высокое значение коэффициента корреляции R2, но диапазон ошибки прогнозирования составит,50% от предсказываемого значения. Существует процедура строгой проверки полученных результатов, предусматривающая использование контрольной выборки.

Дискриминантный анализ

Как и для множественной регрессии, главное назначение дискриминантного анализа — прогнозирование и определение относительной важности предикторов. Ключевое различие между этими двумя методами состоит в том, что множественная регрессия требует, чтобы зависимая переменная была измерена в интервальной или относительной шкале, а дискриминантный анализ использует категориальную зависимую переменную. В то время как множественную регрессию можно использовать для вычисления степени интереса к покупке данного товара (услуги), дискриминантный анализ можно использовать для определения того, покупает или не покупает респондент данный товар.

Также возможна ситуация, когда маркетолог захочет преобразовать переменную, измеренную, интервальной или относительной шкалой, в номинальную переменную. Например, вы получили данные о возрасте респондентов, измеренном в годах. Позже, в ходе анализа, вы решите построить модель, чтобы распределить респондентов согласно критерию "молодой"—"старый", и соответственно разделите всех респондентов на две группы. Это опасно, поскольку это не естественно наблюдаемые группы, и правило, которое вы применили для создания групп, может скрыть смысл результата. Мы советуем вам использовать дискриминантный анализ для естественных групп.

Как определить "управленческую" значимость дискриминантного анализа? Необходимо посмотреть, насколько хорошо он показывает групповую принадлежность. В идеале точность классификации следует оценивать по проверочной выборке, потому что, как и во множественной регрессии, применение коэффициентов дискриминантной функции к выборке, на основе которой они и построены, приведет к надуманно высокой точности предсказания. Результат дискриминантного анализа должен содержать итоговую таблицу вычисленной групповой принадлежности по сравнению с фактической групповой принадлежностью. Спросите себя: действительно ли коэффициенты дискриминантной функции определили каждого респондента в предназначенную ему одну группу? Действительно ли появление ошибки ограничено одной группой? Кроме того,, рассмотрите общую точность, сравнив процент попадания (т.е. процент верно классифицированных респондентов) с ожидаемым на основе случайности попадания. Хорошее эмпирическое правило заключается В том, чтобы, по крайней мере, на 20% улучшить процент попадания по сравнению со случайным попаданием, рассчитываемым как сумма квадратов априорных вероятностей для каждой группы. Например, если 30% респондентов принадлежит группе А, а оставшиеся 70% — группе В, то случайность попадания равна (0,32) + (0,72) или 0,58, а мы хотели бы, чтобы процент попадания был, по крайней мере, на 20% выше или (1,2) х (0,58) = 0,70, т.е. 70%.

Факторный анализ

Чаше всего факторный анализ используют для снижения числа данных и установления характера взаимосвязи переменных. Мы можем задать 20 вопросов на одну тему, но с их помощью в действительности можно оценить небольшое число восприятий респондентами какоголибо объекта. Мы хотели бы узнать, "какие" группы ответов присутствуют в наших данных, Мы можем провести исследование, касающееся конкретной марки автомобиля, и проверка группирования ответов выявит, что респонденты оценивают автомобиль, учитывая только две-три главные характеристики (например, стиль, престижность и т.д.), хотя мы задали им много вопросов. Или нам хочется использовать часть пунктов из анкеты, чтобы вычислить некоторый результат (например, используя оценки уровня обслуживания наших клиентов, определить степень удовлетворенности потребителей уровнем обслуживания). Мы видим, что оценки тесно взаимосвязаны, и использование их в последующем анализе создаст трудности при интерпретации результатов, обусловленные обшей дисперсией. Один из вариантов решения этой проблемы — использование не исходных переменных, а значений факторов, представляющих их комбинацию. Мы можем также изучить переменные, которые, вероятно, входят в состав различных факторов и использовать их средние значения или даже выбрать одну переменную из каждого фактора, чтобы представить все переменные, составляющие данный фактор. Мы может выбрать любой из этих вариантов, и наше решение зависит от уверенности в своих силах удовлетворительно интерпретировать и обобщать результаты.

Кластерный анализ

Кластерный анализ используют, в основном, для целей сегментации. Обычно различают сегментацию двух типов: первый тип — простая рыночная сегментация, когда изменение потребностей и мотиваций обусловлено, глазным образом, самими потребителями, а не обстоятельствами. Например, потребители одного сегмента ищут высокоэффективную камеру, которая не требует большого участия со стороны фотографа, другой сегмент ищет высокоэффективную камеру со множеством миниатюрных приспособлений, позволяющих экспериментировать, а еше один сегмент стремится найти камеру, которая работает по принципу "наведи и щелкни", и дает четкие фотографии даже если дрожит рука. Эти сегменты зависят от потребностей клиентов и не зависят от обстоятельств или причин, по которым используют камеру,

В основе второго типа сегментации лежит воздействие определенных обстоятельств. Например, выбор ресторана не всегда основан на одних и тех же нуждах. Он зависит от времени суток, общества, дня недели, причины торжества и т.д. Сегментация, зависящая от обстоятельств, обычно имеет место для продуктов и напитков, поскольку один потребитель может хотеть разную еду в зависимости от обстоятельств, побудивших его пойти в ресторан.

Для обоих типов рыночной сегментации на основе использования кластерного анализа данные должны измеряться в интервальной шкале, и вы должны иметь полный набор данных по каждому респонденту. По возможности, следует избегать использования значений, заменяющих пропущенные данные, например, заменяя пропущенное значение средним значением оставшихся данных. Это может оказаться неизбежным, но в конце концов вы поймете, что такая замена влияет на окончательный результат, и вы, по существу, имеете "искусственные данные".

После получения результатов следует определить профиль каждого из сегментов с помощью переменных, включенных в кластерный анализ. Во- первых, определите, к каким из переменных стремится каждый респондент и к каким переменным не стремится никто. Эти переменные характеризуют уровни рынка, а не уровни сегментации. Отделение их от остальных характеристик позволит легко идентифицировать потребности респондснов на уровне сегментации. Во-вторых, расположите оставшиеся атрибутивные средние в порядке убывания {отбольшего к меньшему). Кратко запишите ключевые темы и дайте каждому сегменту предварительное название. На следующем этапе определите профиль каждого из кластеров с помощью переменных, которые не участвовали в процессе кластеризации и которые включают: демографические, психографические характеристики; использование товара и мотивы поведения. Если кластеры не различаются по этим переменным, то, вероятно, что менеджменту будет от них немного пользы. Если окажется, что кластеры различаются по этим "внешним" переменным, то с помощью этой информации и информации о переменных, использованных для кластеризации, давайте название кластеру и опишите его, имея в виду маркетинговую стратегию в отношении каждого из этих сегментов.

Анализ данных: многомерные методы

Поиск по сайту