KDD - Data Mining (задачи)

Data Mining - это процесс обнаружения в "сырых" данных ранее неизвестных нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.

Рассмотрим технологию постановки задачи:

Первоначально, задача ставится следующим образом:

§ имеется достаточно крупная база данных;

§ предполагается, что в базе данных находятся некие "скрытые знания".

Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных "сырых" данных.

Что означает "скрытые знания"? Это должны быть обязательно знания:

§ ранее не известные - то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);

§ нетривиальные - то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);

§ практически полезные - то есть такие знания, которые представляют ценность для исследователя или потребителя;

§ доступные для интерпретации - то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.

Этими требования во многом определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта.

Рассмотрим понятие Data mining и базы данных:

Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий "великости" базы данных. Развитие технологий баз данных сначала привело к созданию специализированного языка - языка запросов к базам данных. Для реляционных баз данных - это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционные реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта (на предприятии), плохо приспособлены для проведения анализа. Это привело, в свою очередь, к созданию т.н. "хранилищ данных", сама структура которых наилучшим способом соответствует проведению всестороннего математического анализа.

Рассмотрим понятие Data mining и статистика:

В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы. В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining. Однако, следует учитывать, что статистические методы, во-первых, основываются на статистической природе анализируемых явлений (например, обычно постулируют форму распределения случайной величины), а, во-вторых, результаты статистических методов, как правило, являются тривиальными (легко рассчитываются), практически бесполезными (например, всевозможные средние) и трудно интерпретируемыми (те же средние), что полностью расходится с целями и задачами Data mining. Тем не менее, статистические методы используются, но их применение ограничивается выполнением только определённых этапов исследования.

Рассмотрим понятие Data mining и искусственный интеллект:

Знания, добываемые методами Data mining принято представлять в виде моделей. В качестве таких моделей выступают:

§ ассоциативные правила;

§ деревья решений;

§ кластеры;

§ математические функции.

Методы построения таких моделей принято относить к области т.н. "искусственного интеллекта". Задачи, решаемые методами Data Mining, принято разделять на:

§ описательные (англ. descriptive);

§ предсказательные (англ. predictive).

В описательных задачах самое главное - это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.

К описательным задачам относятся:

1. Поиск ассоциативных правил или паттернов (образцов).

2. Группировка объектов или кластеризация.

. Построение регрессионной модели.

К предсказательным задачам относятся:

1. Классификация объектов (для заранее заданных классов).

2. Построение регрессионной модели.

Для задач классификации характерно "обучение с учителем", при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.

Для задач кластеризации и ассоциации применяется "обучение без учителя", при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра ("относится к кластеру …", "похож на вектор …") подбирается автоматически в процессе обучения.

Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание уделяется аппроксимации данных.

Выделяется типичный ряд этапов решения задач методами Data Mining:

1. Формирование гипотезы;

2. Сбор данных;

. Подготовка данных (фильтрация);

. Выбор модели;

. Подбор параметров модели и алгоритма обучения;

. Обучение модели (автоматический поиск остальных параметров модели);

. Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;

. Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.

Рассмотрим основные этапы подготовки данных:

Перед использованием алгоритмов Data Mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объем, чтобы эти закономерности в них присутствовали, а с другой - быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных. Далее данные очищаются. Очистка удаляет выборки с шумами и пропущенными данными. Очищенные данные сводятся к векторам признаков, один вектор на выборку. Вектор признаков - это суммарная версия сырых данных выборки. Например, черно-белое изображение лица размером 100×100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путем обнаружения в изображении глаз и рта. В итоге происходит уменьшение объема данных с 10 тыс. бит до списка кодов положения, значительно уменьшая объем анализируемых данных, а значит и время анализа. Выбор функции будет зависеть от того, что является целью анализа; выбор "правильной" функции имеет основополагающее значение для успешного интеллектуального анализа данных. Векторы признаков делятся на две категории - обучающий набор и тестовый набор. Обучающий набор используется для "обучения" алгоритма Data Mining, а тестовый набор - для проверки найденных закономерностей.

Задачи, решаемые методами Data Mining:

· Классификация - это отнесение объектов к одному из заранее известных классов.

· Регрессия - установление зависимости непрерывных выходных переменных от входных значений.

· Кластеризация - объекты внутри кластера должны быть 'похожими' друг на друга и отличаться от объектов, вошедших в другие кластеры.

· Ассоциация - нахождение зависимости, что из события X следует событие Y.

· Последовательные шаблоны - установление закономерностей между связанными во времени событиями.

Можно говорить еще и о задаче анализа отклонений - выявления наиболее нехарактерных шаблонов.

Применение Data Mining в экономике:

· Классификация - отнесение клиента к определенной группе риска, оценка перспективности клиентов

· Регрессия - прогнозирование продаж, эластичность спроса

· Кластеризация - сегментация клиентской базы, анализ продуктовой линейки

· Ассоциация - кросс-продажи, стимулирование спроса

· Последовательные шаблоны - предсказание спроса, оптимизация закупок

Рассмотрим Data Mining - алгоритмы:

Для решения вышеописанных задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин, как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин. В общем случае, не принципиально, каким именно алгоритмом будет решаться одна из 5-ти задач Data Mining - главное иметь метод решения для каждого класса задач. На сегодня наибольшее распространение получали самообучающиеся методы и машинное обучение.

KDD - интерпретация

В случае, когда извлеченные знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду. Для оценки качества полученной модели нужно использовать как формальные методы оценки, так и знания эксперта. Так как именно эксперт может сказать, насколько применима полученная модель к реальным данным. Полученные модели являются, по сути, формализованными знаниями эксперта, а следовательно их можно тиражировать. Найденные знания должны быть применимы и на новых данных с некоторой степенью достоверности. Использование методов построения моделей позволяет получать новые знания, которые невозможно извлечь другим способом. Кроме того, полученные результаты являются формализованным описанием некоего процесса, а следовательно поддаются автоматической обработке. Недостатком же является то, что такие методы более требовательны к качеству данных, знаниям эксперта и формализации самого изучаемого процесса. К тому же почти всегда имеются случаи не укладывающиеся ни в какие модели. На практике подходы комбинируются, например, визуализация данных наводит эксперта на некоторые идеи, которые он пробует проверить при помощи различных способов построения моделей, а результаты построения моделей подаются на вход механизмам визуализации. Полнофункциональная система анализа не должна замыкаться на применении только одного подхода или одной методики анализа. Механизмы визуализации и построения моделей должны дополнять друг друга. Максимальную отдачу можно получить комбинируя методы и подходы к анализу данных.

С помощью KDD решаются небольшие бизнес-задачи, например:

· План-факторный анализ - визуализация данных;

· Анализ денежных потоков - визуализация данных;

· Прогнозирование - задача регрессии;

· Управление рисками - регрессия, кластеризация и классификация;

· Стимулирование спроса - кластеризация, ассоциация;

· Оценка эластичности спроса - регрессия;

· Выявление предпочтений клиентов - последовательность, кластеризация, классификация.

Заключение

Mining (DM) - это технология поддержки процесса принятия решений, основанная на выявления скрытых закономерностей и систематических взаимосвязей между переменными внутри больших массивов информации, которые затем можно применить к новым совокупностям данных. При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания. Обнаружение новых знаний можно использовать для повышения эффективности бизнеса. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Многие компании годами накапливают важную бизнес-информацию, надеясь, что она поможет им в принятии решений.

· Генетический алгоритм представляет собой именно такой комбинированный метод. Механизмы скрещивания и мутации в каком-то смысле реализуют переборную часть метода, а отбор лучших решений - градиентный спуск.

· На рисунке показано, что такая комбинация позволяет обеспечить устойчиво хорошую эффективность генетического поиска для любых типов задач.

· Итак, если на некотором множестве задана сложная функция от нескольких переменных, то генетический алгоритм - это программа, которая за разумное время находит точку, где значение функции достаточно близко к максимально возможному. Выбирая приемлемое время расчета, мы получим одно из лучших решений, которые вообще возможно получить за это время.

Список использованных источников и литературы

1. Дюк В., Самойленко А. "Data Mining: учебный курс" - СПб.: Питер, 2011

2. Журавлёв Ю.И., Рязанов В.В., Сенько О.В. "Распознавание. Математические методы. Программная система. Практические применения" - М.: Фазис, 2009

3. Зиновьев А.Ю. "Визуализация многомерных данных" - Красноярск, 2010

. Правдин С.В. "Интеллектуальный анализ данных" - М.: Аморфа, 2010

. Чубукова И.А. "Data mining: учебное пособие" - М.: БИНОМ, 2010

. Надина Е.С. "Генетические алгоритмы" Сайт "(EHIPS) Генетические алгоритмы" [www.iki.rssi.ru] ссылка [https://iki.rssi.ru/ehips/genetic.htm]

. Юшкевич А.С. "Лекции по нейронным сетям и генетическим алгоритмам" Сайт "Нейронные сети" [www.infoart.baku.az] ссылка [https://infoart.baku.az/inews/30000007.htm]

8. Явлинец П.С. "Генетические алгоритмы и машинное обучение" Сайт "Математика и наука" [www.math.tsu.ru] ссылка

[https://math.tsu.ru/Russian/center/ai_group.html]

9. https://ru.wikipedia.org

10. https://ru.science.wikia.com

. https://www.mista.ru

. https://www.dvgu.ru

. https://www.tadviser.ru

. https://www.market-pages.ru

KDD - Data Mining (задачи)

Поиск по сайту