Прогнозирование финансовых показателей компании сегодня является очень важным и ответственным процессом. В необходимости проведения анализа и прогнозирования результатов деятельности компаний сегодня никто не сомневается. Однако не все известные методы прогноза сегодня применяются достаточно широко, в основном ввиду их сложности и неразвитости методов практической реализации.
Доклад посвящен использованию метода линейной регрессии, который активно используется в технических задачах, но пока недостаточно распространен в экономическом прогнозировании. Кроме теории, в докладе будет продемонстрирован вариант практической реализации описанного алгоритма с использованием аналитической платформы Deductor 5, разработанной фирмой BaseGroup.
Аналитическая платформа Deductor 5 является BI (Business Intelligent) системой, позволяющей проводить анализ и прогнозирование экономических показателей с применением средств извлечения знаний KDE (Knowledge Discovery in Databases) и Data Mining. Определение этих понятий приводится, например, в [1]:
Knowledge Discovery in Databases (KDD) – процесс получения из данных знаний в виде зависимостей, правил, моделей, обычно состоящий из таких этапов, как отбор, очистка, трансформация, моделирование и интерпретация полученных результатов.
Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Аналитическая платформа Deductor 5 оперирует данными, полученными из различных внешних источников, таких, как: текстовые файлы, таблицы Excel, различных баз данных, включая системы учета 1С: Предприятие и многие другие. Полученные данные содержатся в Хранилище значений системы в удобной для анализа структуре и могут быть проанализированы с использованием различных средств визуализации.
|
В настоящей работе исследуется результативность проведения прогнозирования на основе выявления функциональной зависимости прогнозируемой величины на основании имеющихся данных. Используя вычисленную функциональную зависимость рассчитываются прогнозные значения на произвольные моменты времени.
Для вычисления функциональной зависимости предлагается применять один из самых распространенных алгоритмов восстановления зависимости – метод линейной регрессии.
Зависимость ищется между несколькими входными и одной выходной переменной. Для ее поиска применяется множественная (многомерная) регрессия, задача которой сводится к нахождению коэффициентов уравнения:
, (1)
где Y- вектор выходного переменной X1,X2…Xn – вектора входных переменных, n – количество входных переменных.
Для нахождения коэффициентов используется метод наименьших квадратов. Формулы приводятся в соответствующей литературе и реализованы в Deductor как один из инструментов DataMinig.
Для решения задачи линейной регрессии и прогнозирования (в нашем случае будем исследовать именно такой вид зависимости) к временным рядам требуется предварительно применить метод «скользящего окна» [2]. Окно – это период времени, используемый для каждого случая обучения алгоритма. Например, если мы еженедельно получаем данные о цене в течение 50 недель, и мы установили окно в 5 недель, то в первом случае обучения используются данные с 1 по 5 неделю и полученный прогноз сравниваем с данными за 6 неделю. Во втором случае используются данные со 2 по 6 неделю, и полученный прогноз сравнивается с 7 и т.д.
|
Рис 1. «Скользящее окно»
Для вычисления коэффициентов функциональной зависимости результатов продаж будем использовать окно в три месяца.
Результатом выполнения алгоритма линейной регрессии в Deductor является таблица коэффициентов линейной регрессии (b0, b … bn уравнения (1)). Дополнительно можно получить форму анализа «Что-если», позволяющего рассчитывать значение выходной переменной, задав значения входных. Кроме того, можно сформировать Диаграмму рассеивания, проанализировав которую можно визуально оценить качество восстановленной зависимости. Если, глядя на эту диаграмму вид полученной модели будет сильно расходиться с характером изменений исходных значений, это будет означать, что для восстановления данной зависимости требуется использовать методы, отличные от линейной регрессии.
Пример диаграммы рассеивания и форма анализа «Что-если» приведены на рисунках 2 и 3.
Рис 2. Диаграмма рассеивания
Рис 3. Анализ «Что-если»
Рисунок 2 демонстрирует линейный характер функциональной зависимости, все точки сосредоточены вокруг восстановленной прямой, и практически отсутствуют случаи выхода за границы допустимого интервала. Следовательно, применение линейной регрессии для восстановления зависимости вполне оправдано.
После восстановления исходной зависимости можно применить инструмент Deductor – прогнозирование [2]. Прогнозирование позволяет получать предсказание значений временного ряда на число отсчетов, соответствующее заданному горизонту прогнозирования. Алгоритм прогнозирования работает следующим образом. Пусть в результате преобразования методом скользящего окна была получена последовательность временных отсчетов: x(-n), …, x(-2), x(-1), x.
|
Прогноз на x(+1) строится на основании полученной модели. Чтобы построить прогноз для значения x(+2), нужно сдвинуть всю последовательность на один отсчет влево, чтобы ранее сделанный прогноз x(+1) тоже вошел в число исходных значений. Затем снова будет запущен алгоритм расчета прогнозируемого значения и x(+2) будет рассчитан с учетом x(+1) и так далее в соответствии с заданным горизонтом прогноза.
Для нашего примера горизонт прогноза будет равен трем месяцам. Входными полями модели прогноза будут суммы продаж за текущий, предыдущий и предыдущий предыдущему месяцам.
Полученные коэффициенты линейной регрессии приведены в таблице:
Рис 4. Таблица коэффициентов регрессии
Таким образом, восстановленная зависимость имеет вид:
, (2)
Где Sn – сумма продаж в прогнозируемом (n -ном) месяце, Sn-1, Sn-2, Sn-3 – сумма продаж на предыдущем (n-1 -ом), n-2 -ом, n-3 -ем месяцах соответственно.
В таблице на рисунке 5 приводятся прогнозы по оборотам продаж на первом, втором и третьем шагах.
Рис 5. Результаты прогнозирования по шагам
Таким образом, прогнозируемый оборот на первом шаге (первом месяце) составляет 2623205 рублей, в следующем месяце 2545812 рублей, а на 3-ем шаге 2437923 рубля.
График, изображающий реальные и прогнозные суммы продаж представлен на рисунке.
Рис 6. Результаты прогнозирования по шагам
Литература:
1. Паклин Н. Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям (+CD). – СПб.: Притер, 2009. – 624 с.
2. Deductor. Руководство аналитика. Версия 5.2. // BaseGroup Labs, 2009. – 192 c.
3. Материалы сайта BaseGroup https://www.basegroup.ru/,
При проведении регрессионного анализа следует не только рассчитать коэффициенты а и b, но и провести их испытание на статистическую значимость, т.е. определить, насколько выборочные значения а и b отличаются от их значений для генеральной совокупности. Для этого используется t — критерий Стъюдента [10].
При использовании уравнения регрессии в целях прогнозирования надо иметь в виду, что перенос закономерности связи, измеренной в варьирующей совокупности, в статике на динамику не является, строго говоря, корректным и требует проверки условий допустимости такого переноса (экстраполяции), что выходит за рамки статистики и может быть сделано только специалистом, хорошо знающим объект исследования и возможности его развития в будущем.
Ограничением прогнозирования на основе регрессионного уравнения, тем более парного, служит условие стабильности или по крайней мере малой изменчивости других факторов и условий изучаемого процесса, не связанных с ними. Если резко изменится «внешняя среда» протекающего процесса, прежнее уравнение регрессии результативного признака на факторный потеряет свое значение.
Следует соблюдать еще одно ограничение: нельзя подставлять значения факторного признака, существенно отличающиеся от входящих в базисную информацию, по которой вычислено уравнение регрессии. При качественно иных уровнях фактора, если они даже возможны в принципе, были бы иными параметры уравнения. Можно рекомендовать при определении значений факторов не выходить за пределы трети размаха вариации как за минимальное, так и за максимальное значения признака-фактора, имеющиеся в исходной информации.
Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения фактора, называют точечным прогнозом. Вероятность точной реализации такого прогноза крайне мала. Необходимо сопроводить его значение средней ошибкой прогноза или доверительным интерваломпрогноза
, в который с достаточно большой вероятностью попадают прогнозные оценки. Средняя ошибка является мерой точности прогноза на основе уравнения регрессии.Расчет доверительного интервала осуществляется аналогично ранее рассмотренному подходу. Выбирается один из уровней доверительности (95 или 99%) и рассчитываются максимальные и минимальные прогнозные оценки. Данные расчета говорят о том, что если прогнозные оценки с помощью уравнения регрессии будут получены много раз и каждый раз будет известна также фактическая оценка, то фактические оценки будут попадать в рассчитанный диапазон прогнозных оценок в 95 или 99% случаев.
Анализ на основе множественной регрессии основан на использовании более чем одной независимой переменной в уравнении регрессии. Это усложняет анализ, делая его многомерным. Однако регрессионная модель более полно отражает действительность, так как в реальности исследуемый параметр, как правило, зависит от множества факторов.
Так, например, при прогнозировании спроса идентифицируются факторы, определяющие спрос, определяются взаимосвязи, существующие между ними, и прогнозируются их вероятные будущие значения; из них при условии реализации условий, для которых уравнение множественнойрегрессии
остается справедливым, выводится прогнозное значение спроса.Все, что касается множественной регрессии, концептуально является идентичным парной регрессии, за исключением того, что используется более чем одна переменная. Под этим углом зрения слегка изменяются терминология и статистические расчеты.
Многофакторное уравнение множественной регрессии имеет следующий вид:
Термин «коэффициент условно-чистой регрессии » означает, что каждая из величин b измеряет среднее по совокупности отклонение зависимой переменной (результативного признака) от ее средней величины при отклонении зависимой переменной (фактора) х от своей средней величины на единицу ее измерения и при условии, что все прочие факторы, входящие в уравнение регрессии, закреплены на средних значениях, не изменяются, не варьируются.
Таким образом, в отличие от коэффициента парной регрессии коэффициент условно-чистой регрессии измеряет влияние фактора, абстрагируясь от связи вариации этого фактора с вариацией остальных факторов. Если было бы возможным включать в уравнение регрессии все факторы, влияющие на вариацию результативного признака, то величины b можно было бы считать мерами чистого влияния факторов. Но так как реально невозможно включить все факторы в уравнение, то коэффициенты b не свободны от примеси влияния факторов, не входящих в уравнение.
Многофакторная система требует уже не одного, а множества показателей тесноты линейных связей, имеющих разный смысл и применение. Основой измерения связей является матрица парных коэффициентов корреляции.
На основе этой матрицы можно судить о тесноте связи факторов с результативным признаком и между собой. Хотя показатели матрицы относятся к парным связям, все же матрицу можно использовать для предварительного отбора факторов для включения в уравнение регрессии. Не рекомендуется включать в уравнение факторы, слабо связанные с результативным признаком, но тесно связанные (коллинеарные) с другими факторами (по условию факторные признаки в уравнении множественной корреляции не должны быть связаны друг с другом). Совершенно недопустимо включать в анализ факторы, функционально связанные друг с другом, т.е. с коэффициентомкорреляции, равным единице.
На основе матрицы парных коэффициентов вычисляется наиболее общий показатель тесноты связи всех входящих в уравнение регрессиифакторов с результативным признаком — коэффициент множественной детерминации [10].
Помимо целей прогнозирования множественная регрессия может использоваться для отбора статистически значимых независимых факторов, которые следует использовать при исследовании результативного признака. В частности, при поиске критериев сегментации исследователь может использовать регрессионный анализ для выделения демографиче ских факторов, которые оказывают наиболее сильное влияние на какой-то результирующий показатель, характеризующий поведение покупателей, например выбор товара определенной марки.
Кроме того, множественная регрессия может использоваться для определения относительной важности независимых переменных.
Поскольку независимые переменные имеют различные размерности, проводить их сравнение прямым образом нельзя. Например, нельзя прямым образом сравнивать коэффициенты b для размера семьи и величины среднего для семьи дохода.
Обычно в данном случае поступают следующим образом. Делят каждую разницу между независимой переменной и ее средней на среднее квадратическое отклонение для этой независимой переменной. Далее возможно прямое сравнение полученных величин (коэффициентов). Чем больше абсолютная величина коэффициентов, тем большей относительной важностью, влиянием на результирующий прогнозируемый показатель обладают переменные величины, которые характеризуют данныекоэффициенты.
Многие данныемаркетинговых исследований представляются для различных интервалов времени, например на ежегодной, ежемесячной и другой основе. Такие данные называются временными рядами. Анализ временных рядов направлен на выявление трех видов закономерностей изменения данных: трендов, цикличности и сезонности.