Построение моделей является универсальным способом изучения окружающего мира.




Построение моделей позволяет обнаруживать зависимости, извлекать новые знания, прогнозировать, управлять и решать множество других задач. Большинство экономических систем относятся к категории сложных, т.е. с большим количеством элементов и сложными связями.

Рассмотрим принципы построения моделей:

· при анализе отталкиваться от опыта эксперта;

· рассматривать проблему под разными углами и комбинировать подходы;

· не стремиться к высокой точности модели, а двигаться от более простых и грубых моделей к более сложным и точным;

· по прошествии времени и накоплению новых сведений нужно повторять цикл моделирования;


 

Методика извлечения знаний

Discovery in Databases (KDD) - это процесс поиска полезных знаний в "сырых" данных. KDD включает в себя вопросы: подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining (DM), постобработки данных и интерпретации полученных результатов. Безусловно, "сердцем" всего этого процесса являются методы DM, позволяющие обнаруживать знания. Этими знаниями могут быть правила, описывающие связи между свойствами данных (деревья решений), часто встречающиеся шаблоны (ассоциативные правила), а также результаты классификации (нейронные сети) и кластеризации данных (карты Кохонена) и т.д.Discovery in Databases не задает набор методов обработки или пригодные для анализа алгоритмы, он определяет последовательность действий, которую необходимо выполнить для того, чтобы из исходных данных получить знания. Данный подход универсальный и не зависит от предметной области, что является его несомненным достоинством. Deductor - полнофункциональная платформа для решения задач Knowledge Discovery in Databases, позволяющая провести все вышеописанные шаги.

Несмотря на большое количество разнообразных бизнес-задач, почти все они решаются по единой методике Knowledge Discovery in Databases. Она описывает не конкретный алгоритм или математический аппарат, а последовательность действий, которую необходимо выполнить для построения модели (извлечения знания). Данная методика не зависит от предметной области, это набор атомарных операций, комбинируя которые, можно получить нужное решение. Выглядит она примерно как изображено на схеме ниже.

 


 

Рис. 1.1 Методика извлечения знаний

Из данного рисунка следует, что методика извлечения знаний состоит из следующих этапов:

) KDD - выборка данных

Первым шагом в анализе является получение исходной выборки. На основе этих данных и строятся модели. На этом шаге необходимо активное участие эксперта для выдвижения гипотез и отбора факторов, влияющих на анализируемый процесс. Желательно, чтобы данные были уже собраны и консолидированы. Крайне необходимо наличие удобных механизмов подготовки выборки. Чаще всего в качестве источника рекомендуется использовать специализированное хранилище данных, агрегирующее всю необходимую для анализа информацию.

KDD - очистка данных

Реальные данные для анализа редко бывают хорошего качества. Необходимость предварительной обработки при анализе данных возникает независимо от того, какие технологии и алгоритмы используются. Более того, эта задача может представлять самостоятельную ценность в областях, не имеющих непосредственного отношения к анализу данных. К задачам очистки данных относятся такие как: заполнение пропусков, редактирование аномалий, сглаживание, обнаружение дубликатов и противоречий и прочие.

KDD - трансформация данных

Трансформация данных - последний этап перед, собственно, анализом. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычисление агрегируемых показателей. К задачам трансформации данных относятся: скользящее окно, приведение типов, выделение временных интервалов, преобразование непрерывных значений в дискретные и наоборот, сортировка, группировка и прочее.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-03-31 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: