Data Mining - это процесс обнаружения в "сырых" данных ранее неизвестных нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.
Рассмотрим технологию постановки задачи:
Первоначально, задача ставится следующим образом:
§ имеется достаточно крупная база данных;
§ предполагается, что в базе данных находятся некие "скрытые знания".
Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных "сырых" данных.
Что означает "скрытые знания"? Это должны быть обязательно знания:
§ ранее не известные - то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);
§ нетривиальные - то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);
§ практически полезные - то есть такие знания, которые представляют ценность для исследователя или потребителя;
§ доступные для интерпретации - то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.
Этими требования во многом определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта.
Рассмотрим понятие Data mining и базы данных:
Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий "великости" базы данных. Развитие технологий баз данных сначала привело к созданию специализированного языка - языка запросов к базам данных. Для реляционных баз данных - это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционные реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта (на предприятии), плохо приспособлены для проведения анализа. Это привело, в свою очередь, к созданию т.н. "хранилищ данных", сама структура которых наилучшим способом соответствует проведению всестороннего математического анализа.
Рассмотрим понятие Data mining и статистика:
В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы. В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining. Однако, следует учитывать, что статистические методы, во-первых, основываются на статистической природе анализируемых явлений (например, обычно постулируют форму распределения случайной величины), а, во-вторых, результаты статистических методов, как правило, являются тривиальными (легко рассчитываются), практически бесполезными (например, всевозможные средние) и трудно интерпретируемыми (те же средние), что полностью расходится с целями и задачами Data mining. Тем не менее, статистические методы используются, но их применение ограничивается выполнением только определённых этапов исследования.
Рассмотрим понятие Data mining и искусственный интеллект:
Знания, добываемые методами Data mining принято представлять в виде моделей. В качестве таких моделей выступают:
§ ассоциативные правила;
§ деревья решений;
§ кластеры;
§ математические функции.
Методы построения таких моделей принято относить к области т.н. "искусственного интеллекта". Задачи, решаемые методами Data Mining, принято разделять на:
§ описательные (англ. descriptive);
§ предсказательные (англ. predictive).
В описательных задачах самое главное - это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.
К описательным задачам относятся:
1. Поиск ассоциативных правил или паттернов (образцов).
2. Группировка объектов или кластеризация.
. Построение регрессионной модели.
К предсказательным задачам относятся:
1. Классификация объектов (для заранее заданных классов).
2. Построение регрессионной модели.
Для задач классификации характерно "обучение с учителем", при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.
Для задач кластеризации и ассоциации применяется "обучение без учителя", при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра ("относится к кластеру …", "похож на вектор …") подбирается автоматически в процессе обучения.
Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание уделяется аппроксимации данных.
Выделяется типичный ряд этапов решения задач методами Data Mining:
1. Формирование гипотезы;
2. Сбор данных;
. Подготовка данных (фильтрация);
. Выбор модели;
. Подбор параметров модели и алгоритма обучения;
. Обучение модели (автоматический поиск остальных параметров модели);
. Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;
. Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.
Рассмотрим основные этапы подготовки данных:
Перед использованием алгоритмов Data Mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объем, чтобы эти закономерности в них присутствовали, а с другой - быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных. Далее данные очищаются. Очистка удаляет выборки с шумами и пропущенными данными. Очищенные данные сводятся к векторам признаков, один вектор на выборку. Вектор признаков - это суммарная версия сырых данных выборки. Например, черно-белое изображение лица размером 100×100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путем обнаружения в изображении глаз и рта. В итоге происходит уменьшение объема данных с 10 тыс. бит до списка кодов положения, значительно уменьшая объем анализируемых данных, а значит и время анализа. Выбор функции будет зависеть от того, что является целью анализа; выбор "правильной" функции имеет основополагающее значение для успешного интеллектуального анализа данных. Векторы признаков делятся на две категории - обучающий набор и тестовый набор. Обучающий набор используется для "обучения" алгоритма Data Mining, а тестовый набор - для проверки найденных закономерностей.
Задачи, решаемые методами Data Mining:
· Классификация - это отнесение объектов к одному из заранее известных классов.
· Регрессия - установление зависимости непрерывных выходных переменных от входных значений.
· Кластеризация - объекты внутри кластера должны быть 'похожими' друг на друга и отличаться от объектов, вошедших в другие кластеры.
· Ассоциация - нахождение зависимости, что из события X следует событие Y.
· Последовательные шаблоны - установление закономерностей между связанными во времени событиями.
Можно говорить еще и о задаче анализа отклонений - выявления наиболее нехарактерных шаблонов.
Применение Data Mining в экономике:
· Классификация - отнесение клиента к определенной группе риска, оценка перспективности клиентов
· Регрессия - прогнозирование продаж, эластичность спроса
· Кластеризация - сегментация клиентской базы, анализ продуктовой линейки
· Ассоциация - кросс-продажи, стимулирование спроса
· Последовательные шаблоны - предсказание спроса, оптимизация закупок
Рассмотрим Data Mining - алгоритмы:
Для решения вышеописанных задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин, как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин. В общем случае, не принципиально, каким именно алгоритмом будет решаться одна из 5-ти задач Data Mining - главное иметь метод решения для каждого класса задач. На сегодня наибольшее распространение получали самообучающиеся методы и машинное обучение.
KDD - интерпретация
В случае, когда извлеченные знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду. Для оценки качества полученной модели нужно использовать как формальные методы оценки, так и знания эксперта. Так как именно эксперт может сказать, насколько применима полученная модель к реальным данным. Полученные модели являются, по сути, формализованными знаниями эксперта, а следовательно их можно тиражировать. Найденные знания должны быть применимы и на новых данных с некоторой степенью достоверности. Использование методов построения моделей позволяет получать новые знания, которые невозможно извлечь другим способом. Кроме того, полученные результаты являются формализованным описанием некоего процесса, а следовательно поддаются автоматической обработке. Недостатком же является то, что такие методы более требовательны к качеству данных, знаниям эксперта и формализации самого изучаемого процесса. К тому же почти всегда имеются случаи не укладывающиеся ни в какие модели. На практике подходы комбинируются, например, визуализация данных наводит эксперта на некоторые идеи, которые он пробует проверить при помощи различных способов построения моделей, а результаты построения моделей подаются на вход механизмам визуализации. Полнофункциональная система анализа не должна замыкаться на применении только одного подхода или одной методики анализа. Механизмы визуализации и построения моделей должны дополнять друг друга. Максимальную отдачу можно получить комбинируя методы и подходы к анализу данных.
С помощью KDD решаются небольшие бизнес-задачи, например:
· План-факторный анализ - визуализация данных;
· Анализ денежных потоков - визуализация данных;
· Прогнозирование - задача регрессии;
· Управление рисками - регрессия, кластеризация и классификация;
· Стимулирование спроса - кластеризация, ассоциация;
· Оценка эластичности спроса - регрессия;
· Выявление предпочтений клиентов - последовательность, кластеризация, классификация.
Заключение
Mining (DM) - это технология поддержки процесса принятия решений, основанная на выявления скрытых закономерностей и систематических взаимосвязей между переменными внутри больших массивов информации, которые затем можно применить к новым совокупностям данных. При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания. Обнаружение новых знаний можно использовать для повышения эффективности бизнеса. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Многие компании годами накапливают важную бизнес-информацию, надеясь, что она поможет им в принятии решений.
· Генетический алгоритм представляет собой именно такой комбинированный метод. Механизмы скрещивания и мутации в каком-то смысле реализуют переборную часть метода, а отбор лучших решений - градиентный спуск.
· На рисунке показано, что такая комбинация позволяет обеспечить устойчиво хорошую эффективность генетического поиска для любых типов задач.
· Итак, если на некотором множестве задана сложная функция от нескольких переменных, то генетический алгоритм - это программа, которая за разумное время находит точку, где значение функции достаточно близко к максимально возможному. Выбирая приемлемое время расчета, мы получим одно из лучших решений, которые вообще возможно получить за это время.
Список использованных источников и литературы
1. Дюк В., Самойленко А. "Data Mining: учебный курс" - СПб.: Питер, 2011
2. Журавлёв Ю.И., Рязанов В.В., Сенько О.В. "Распознавание. Математические методы. Программная система. Практические применения" - М.: Фазис, 2009
3. Зиновьев А.Ю. "Визуализация многомерных данных" - Красноярск, 2010
. Правдин С.В. "Интеллектуальный анализ данных" - М.: Аморфа, 2010
. Чубукова И.А. "Data mining: учебное пособие" - М.: БИНОМ, 2010
. Надина Е.С. "Генетические алгоритмы" Сайт "(EHIPS) Генетические алгоритмы" [www.iki.rssi.ru] ссылка [https://iki.rssi.ru/ehips/genetic.htm]
. Юшкевич А.С. "Лекции по нейронным сетям и генетическим алгоритмам" Сайт "Нейронные сети" [www.infoart.baku.az] ссылка [https://infoart.baku.az/inews/30000007.htm]
8. Явлинец П.С. "Генетические алгоритмы и машинное обучение" Сайт "Математика и наука" [www.math.tsu.ru] ссылка
[https://math.tsu.ru/Russian/center/ai_group.html]
9. https://ru.wikipedia.org
10. https://ru.science.wikia.com
. https://www.mista.ru
. https://www.dvgu.ru
. https://www.tadviser.ru
. https://www.market-pages.ru