Корреляционный и регрессионный анализ.

Корреляционный анализ — это количественный метод определения тесноты и направления взаимосвязи между выборочными переменными величинами.

Регрессионный анализ — это количественный метод определения вида математической функции в причинно-следственной зависимости между переменными величинами.

Корреляционный анализ - дает возможность рассчитывать уровень доверия к результатам анализа. В процессе этого анализа рассчитываются показатели корреляции, к которым относятся коэффициенты корреляции и корреляционные отношения. При сравнении функциональных и корреляционных зависимостей следует иметь в виду, что при наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака. При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изменении величины факторного признака. В отличие от жесткости функциональной связи корреляционные связи характеризуются множеством причин и следствий и устанавливаются лишь их тенденции. Простейшим приемом обнаружения связи является сопоставление двух параллельных рядов. Из общего анализа видно, что увеличение количества промоакций способствует увеличению объема продаж. Характер распределения указывает на то, что объем сбыта растет по мере увеличения количества промоакций. Следовательно, имеется положительная связь между факторами. Регрессионный анализ даст возможность ответить на вопрос о количественной мере влияния различных факторов, например на спрос (объем возможной продажи). Он представляет собой подбор и решение математических уравнений, описывающих исследуемые зависимости. Элементы рынка зависят от многих факторов, и формы этих зависимостей могут быть самыми разнообразными. Поэтому регрессионный анализ начинают с построения графика зависимости, на его основе подбирают подходящее математическое уравнение, а затем находят параметры этого уравнения путем решения системы нормальных уравнений. Регрессионный анализ используется для изучения связей между зависимой переменной и одной или несколькими независимыми переменными, определения тесноты связи и математической зависимости между ними, предсказания значения зависимой переменной. Простейшей системой корреляционной связи является линейная связь между двумя признаками, или парная линейная корреляция. Уравнение парной линейной корреляционной связи называется уравнением парной регрессии:

где – теоретическое значение результативного признака, представляющее среднее значение результативного признака у при определённом значении факторного признака х;

a – свободный член уравнения (параметр уравнения не имеющий экономического смысла);

b – коэффициент регрессии, который выражает количественную зависимость между факторами и показывает среднее изменение результативного признака при изменении факторного на единицу.

Построение корреляционно-регрессионных моделей, какими бы сложными они не были, само по себе не вскрывает полностью всех причинно-следственных связей. Основой их адекватности является предварительный качественный анализ, основанный на учёте специфики и особенностей исследуемых социально-экономических явлений и процессов.

Регрессионный анализ - статистический метод установления зависимости между независимыми и зависимыми переменными. Регрессионный анализ на основе построенного уравнения регрессии определяет вклад каждой независимой переменной в изменение изучаемой (прогнозируемой) зависимой переменной величины. В маркетинге часто используется для прогнозирования спроса. Используется для:

· Определение факторов, влияющих на зависимую переменную (например, что в наибольшей степени влияет на капитал бренда).

· Выявление важных и неважных факторов, анализ заявленной и реальной важности.

· Построение регрессионных уравнений и моделей.

Принцип работы: На входе анализа – одна зависимая переменная и несколько независимых переменных, которые могут влиять на зависимую. Все переменные должны быть измерены по интервальным или дихотомическим шкалам. В случае, если в анализ необходимо включить порядковые переменные (например, степень согласия с рядом высказываний, измеренную по 5-балльной шкале), их необходимо предварительно оцифровать (с помощью статистического метода перекодировать в интервальные). Алгоритм простой линейной регрессии выявляет степени влияния независимых переменных на зависимую и выдаёт регрессионное уравнение вида Y = а0 + b1X1 + b2X2…+…bnXn, где Y – зависимая переменная, а0 – константа, среднее значение Y, если каждая независимая переменная равна 0, Xn – независимые переменные, bn – коэффициенты влияния независимых.

Итог: Коэффициенты влияния показывают, какие из независимых переменных влияют на зависимую положительно, а какие отрицательно, а также какова степень этого влияния. В простой линейной регрессии коэффициент, больший 0, свидетельствует о положительном влиянии данной независимой переменной на зависимую, а коэффициент, меньший 0 – об отрицательной.

С помощью регрессионного уравнения можно моделировать разные комбинации независимых переменных и предсказывать, какое значение примет в этих случаях зависимая переменная.

Выявление факторов, способных наиболее сильно влиять на целевые маркетинговые показатели. В итоге мы получаем возможность концентрировать усилия на развитии тех параметров, которые способны улучшить ситуацию, и устранении тех, которые ухудшают целевой показатель.

Дискриминантный анализ.

Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы).

Дискриминантный анализ относится к группе методов анализа зависимости и внешний вид получаемой дискриминантной функции не отличается от уравнения регрессии: D = b₀+ b₁x₁+ b₂x₂ +..+ b_kx_k. В качестве зависимой переменной выступает номинальная переменная, идентифицирующая принадлежность объектов к одной из нескольких групп. Независимые переменные (x₁, x₂.. x_k) количественные и качественные.

Основной задачей дискриминантного анализа является исследование групповых различий - различие (дискриминация) объектов по определенным признакам.

Дискриминантный анализ позволяет выяснить, действительно ли группы различаются между собой, и если да, то каким образом (какие переменные вносят наибольший вклад в имеющиеся различия).

При сравнении двух групп (бинарная зависимая переменная) формируется одна дискриминантная функция. Если данный метод применяется к анализу трех или более групп (множественный дискриминантный анализ), то могут формироваться несколько дискриминантных функций.

Важной проблемой дискриминантного анализа является определение дискриминантных переменных (переменных, входящих в дискриминантную функцию). Возможны два подхода. Первый предполагает одновременное введение всех переменных, в этом случае учитывается каждая независимая переменная, при этом ее дискриминирующая сила не принимается во внимание. Альтернативой является пошаговый (stepwise) дискриминантный анализ, при котором переменные вводятся последовательно, исходя из их способности различить (дискриминировать) группы. При пошаговом анализе «с включением» на каждом шаге просматриваются все переменные, и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.

При пошаговом анализе «с исключением» движутся в обратном направлении, в этом случае все переменные сначала будут включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в различение. Тогда в качестве результатауспешного анализа можно сохранить только «важные» переменные в модели, т.е. те переменные, чей вклад в дискриминацию больше остальных. Пошаговый дискриминантный анализ основан на использовании уровня значимости F-статистики.

Проверка качества дискриминации (различия) основана на сравнении средних дискриминантной функции для исследуемых групп. Эти средние играют настолько важную роль в дискриминантном анализе, что получили свое название – центроиды (centroids). Центроидов столько, сколько групп, т.е. один центроид для каждой группы

Кроме этого, значения дискриминантной функции также имеют свое название – дискриминантные показатели (discriminant scores).

Факторный анализ.

В современной статистике под факторным анализом понимают совокупность методов, которые на основе реально существующих связей признаков, объектов или явлений позволяют выявлять латентные (скрытые и не доступные для непосредственного измерения) обобщающие характеристики организованной структуры и механизма развития изучаемых явлений или процессов.

Набор методов факторного анализа в настоящее время достаточно велик, насчитывает десятки различных подходов и приемов обработки данных. Чтобы в исследованиях ориентироваться на правильный выбор методов, необходимо представлять их особенности. Разделим все методы факторного анализа на несколько классификационных групп:

- Метод главных компонент. Строго говоря, его не относят к факторному анализу, хотя он имеет с ним много общего. Специфическим является, во-первых, то, что в ходе вычислительных процедур одновременно получают все главные компоненты и их число первоначально равно числу элементарных признаков. Во-вторых, постулируется возможность полного разложения дисперсии элементарных признаков, другими словами, ее полное объяснение через латентные факторы (обобщенные признаки).

- Методы факторного анализа. Дисперсия элементарных признаков здесь объясняется не в полном объеме, признается, что часть дисперсии остается нераспознанной как характерность. Факторы обычно выделяются последовательно: первый, объясняющий наибольшую долю вариации элементарных признаков, затем второй, объясняющий меньшую, вторую после первого латентного фактора часть дисперсии, третий и т.д. Процесс выделения факторов может быть прерван на любом шаге, если принято решение о достаточности доли объясненной дисперсии элементарных признаков или с учетом интерпретируемости латентных факторов.

Методы факторного анализа целесообразно разделить дополнительно на два класса: упрощенные и современные аппроксимирующие методы.

Простые методы факторного анализа в основном связаны с начальными теоретическими разработками. Они имеют ограниченные возможности в выделении латентных факторов и аппроксимации факторных решений. К ним относятся:

- однофакторная модель. Она позволяет выделить только один генеральный латентный и один характерный факторы. Для возможно существующих других латентных факторов делается предположение об их незначимости;

- бифакторная модель. Допускает влияние на вариацию элементарных признаков не одного, а нескольких латентных факторов (обычно двух) и одного характерного фактора;

- центроидный метод. В нем корреляции между переменными рассматриваются как пучок векторов, а латентный фактор геометрически представляется как уравновешивающий вектор, проходящий через центр этого пучка.: Метод позволяет выделять несколько латентных и характерные факторы, впервые появляется возможность соотносить факторное решение с исходными данными, т.е. в простейшем виде решать задачу аппроксимации.

Современные аппроксимирующие методы часто предполагают, что первое, приближенное решение уже найдено каким либо из способов, последующими шагами это решение оптимизируется. Методы отличаются сложностью вычислений. К этим методам относятся:

- групповой метод. Решение базируется на предварительно отобранных каким-либо образом группах элементарных признаков;

- метод главных факторов. Наиболее близок методу главных компонент, отличие заключается в предположении о существовании характерностей;

- метод максимального правдоподобия, минимальных остатков, а-факторного анализа канонического факторного анализа, все оптимизирующие.

Эти методы позволяют последовательно улучшить предварительно найденные решения на основе использования статистических приемов оценивания случайной величины или статистических критериев, предполагают большой объем трудоемких вычислений.

Кластерный анализ

Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором исходных переменных X₁, X₂,..., Х_т. Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами (cluster).

В отличие от комбинационных группировок кластерный анализ приводит к разбиению на группы с учетом всех группировочных признаков одновременно. Например, если каждый наблюдаемый объект характеризуется двумя признаками Х₁ и Х₂, то при выполнении комбинационной группировки вся совокупность объектов будет разбита на группы по Х₁, а затем внутри каждой выделенной группы будут образованы подгруппы по Х₂. Определить принадлежность каждого объекта к той или иной группе можно, последовательно сравнивая его значения Х₁ и Х₂ с границами выделенных групп. Образование группы в этом случае всегда связано с указанием ее границ по каждому группировочному признаку отдельно.

В кластерном анализе используется иной принцип образования групп. Все группировочные признаки одновременно участвуют в группировке, т.е. они учитываются все сразу при отнесении наблюдения в ту или иную группу. При этом, как правило, не указаны четкие границы каждой группы, а также неизвестно заранее, сколько же групп целесообразно выделить в исследуемой совокупности. Таким образом, методы кластерного анализа помогают построить научно обоснованные классификации путем выявления внутренних связей между единицами наблюдаемой совокупности.

Методы кластерного анализа позволяют решать следующие задачи:

· проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов;

· проверку выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры;

· построение новых классификаций для слабоизученных явлений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.

Методы кластерного анализа можно разделить на две большие группы: агломеративные (объединяющие) и дивизимные (разделяющие). Агломеративные методы последовательно объединяют отдельные объекты в группы (кластеры), а дивизимные методы расчленяют группы на отдельные объекты. В свою очередь, каждый метод как объединяющего, так и разделяющего типа может быть реализован при помощи различных алгоритмов. Отдельные примеры агломеративных и дивизимных алгоритмов рассмотрены в разд. 8.2.3. В частности, наиболее подробно описан самый доступный для понимания иерархический агломеративный кластерный анализ. Следует заметить, что как агломеративные, так и дивизимные алгоритмы трудоемки и их сложно использовать для больших совокупностей. Кроме того, результаты работы таких алгоритмов (их графическое изображение) трудно поддаются визуальному анализу.

Кластерный анализ носит количественный характер, но статистические пакеты обычно не предлагают методов проверки гипотезы об адекватности получаемых классификаций.

Кластерный анализ – набор переменных, описывающих совокупность респондентов. Метод работает с интервальными (например, возраст, доход, оценка степени согласия по 10-балльной шкале и т.д.) и дихотомическими переменными (например, пол, наличие/отсутствие руководящих функций) переменными. Совокупность из n значений по всем n переменным определяет положение объекта в неком n-мерном пространстве. Исходя из этих координат определяются расстояния между объектами. Для расчёта расстояний чаще всего используется Евклидово расстояние, однако метод расчёта расстояний может варьироваться в зависимости от специфики данных. Метод группирует схожие (расположенные близко друг к другу) объекты, в результате чего формируется набор из нескольких кластеров. Число кластеров может определяться автоматически на основе выбранного критерия либо выбираться вручную исследователем с учётом теоретических предпосылок и понимания предмета исследования. Существует несколько процедур кластеризации, но все они базируются на использовании мер или критериев близости. Наиболее распространенным критерием близости является среднеквадратическая разность. Евклидово расстояние - расстояние между объектами d (Xi; Xj) = [å (Xik - Xjk)2 ] 2 Суть в том, что последовательно объединяются объекты сначала более близкие, а затем все более отдаленные друг от друга. Работа алгоритма заканчивается, когда все объекты будут объединены в один класс. Результатом обычно является графическое изображение, иллюстрирующее вид иерархического дерева (дендрограмма). Описанный алгоритм не имеет четких правил остановки на каком-то этапе кластеризации. Обычно исследователи принимают во внимание устойчивость групп на протяжении нескольких шагов алгоритма. В кластерном анализе не рекомендуется использовать большое количество факторов.

На выходе – набор кластеров/сегментов. Каждый сегмент описывается средними по кластеру значениями переменных. С помощью этих данных можно выделить характерные особенности сегментов, их отличительные черты. При хорошем кластерном решении дисперсия значений переменных внутри кластера должна быть минимальной (т.е. респонденты внутри кластера однородны), а дисперсия между кластерами максимальна (т.е. респонденты из одного кластера не похожи на респондентов из другого).

Хорошее кластерное решение даёт яркие и чётко различающиеся сегменты. На основе данных кластерного анализа можно выбирать разные стратегии работы с каждым из сегментов. Тем не менее, т.к. метод основан на расстояниях между объектами, он не работает с типами переменных, которые не дают возможности рассчитать эти расстояния – категориальными и порядковыми. В случае с такими типами переменных для проведения сегментации рекомендуется использовать CHAID- анализ.

Список Литературы:

1. Галицкий, Е. Б. Маркетинговые исследования: учебник для магистров / Е. Б. Галицкий, Е. Г. Галицкая. — М.: Издательство Юрайт, 2012. — 540 с. — Серия: Магистр.

2. Тюрин Д. В. Маркетинговые исследования: учебник для бакалавров/ Д. В. Тюрин — М.: Издательство Юрайт, 2013. — 342 с. — Серия: Бакалавр. Углубленный курс.

3. Крюков, А.Ф. Управление маркетингом [Текст]: учебное пособие / А.Ф. Крюков. - М.: КНОРУС. - 2006. – 470 с.

4. https://torgovlyadlyavas.wordpress.com/2011/06/14/4_5_opredelenie_metodov_sbora_marketingovyh_dannyh/

5. https://statsoft.ru/home/textbook/modules/stdiscan.html

6. https://www.kazedu.kz/referat/5013/9

Корреляционный и регрессионный анализ.

Поиск по сайту