ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

Реферат

Дрыка Дениса Андреевича

студента 2 курса

специальности

«Экономическая информатика»

очной формы получения

высшего образования

Научный руководитель:

преподаватель О.В. Косарь

Минск, 2016

Оглавление

Введение. 3

1 Интеллектуальный анализ данных.. 4

2 Основные методы.. 5

2.1 Обзор существующих методов. 5

2.2 Свойства методов. 6

Заключение. 8

Список использованной литературы.. 9

Введение

Быстрое развитие информационных технологий, в частности, прогресс в методах сбора, хранения и обработки данных позволило многим организациям собирать огромное количество данных, которые должны быть проанализированы. Объем этих данных настолько велик, что возможности экспертов недостаточны.

На сегодняшний день интенсивно развивается направление, связанное с интеллектуализацией методов обработки и анализа данных. Интеллектуальные системы анализа данных (ИСАД) призваны максимально уменьшить усилия лицам, принимающих решения, в процессе анализа данных, а также в настройке алгоритмов анализа. Многие интеллектуальные системы анализа данных позволяют не только решать классические задачи принятия решения, но и способны выявлять причины и следствия связи, скрытые закономерности в системе, которой проходит анализ.

1 Интеллектуальный анализ данных

Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году [4].

По сути, интеллектуальный анализ данных (Data Mining) — это обработка информации и выявление в ней модели и тенденции, которые помогают принимать решения. Принципы интеллектуального анализа данных известны в течение многих лет, но с образованием больших объемов данных они получили еще более широкое применение.

В целом, процесс интеллектуального анализа данных состоит из трёх основных стадий [3]:

1) выявление закономерностей (свободный поиск);

2) использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование);

3) анализ исключений, предназначенный для выявления и толкования аномалий в найденных закономерностях.

Иногда в явном виде выделяют промежуточную стадию проверки достоверности найденных закономерностей между их нахождением и использованием (стадия валидации).

Рисунок 1 – Стадии процесса интеллектуального анализа данных

Примечание – составлено по [3].

2 Основные методы

2.1 Обзор существующих методов

К методам и алгоритмам интеллектуального анализа данных относятся:

1. искусственные нейронные сети

2. деревья решений, символьные правила

3. методы ближайшего соседа и k-ближайшего соседа

4. метод опорных векторов

5. байесовские сети

6. линейная регрессия

7. корреляционно-регрессионный анализ

8. иерархические методы кластерного анализа

9. неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы

10. методы поиска ассоциативных правил, в том числе алгоритм Apriori

11. метод ограниченного перебора

12. эволюционное программирование и генетические алгоритмы

13. разнообразные методы визуализации данных и множество других методов. [2]

Большинство аналитических методов, используемые в технологии интеллектуального анализа данных – это известные математические алгоритмы и методы. Новым в их применении является возможность их использования при решении тех или иных конкретных проблем, обусловленная появившимися возможностями технических и программных средств. Следует отметить, что большинство методов интеллектуального анализа данных были разработаны в рамках теории искусственного интеллекта.

Метод представляет собой норму или правило, определенный путь, способ, прием решений задачи теоретического, практического, познавательного, управленческого характера.

Все методы ИАД подразделяются на две большие группы по принципу работы с исходными обучающими данными [3].

1. В первом случае исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогностического моделирования и/или анализа исключений; это, так называемые, методы рассуждений на основе анализа прецедентов. Главной проблемой этой группы методов является затрудненность их использования на больших объемах данных, хотя именно при анализе больших хранилищ данных методы ИАД приносят наибольшую полезность.

2. Во втором случае информация вначале извлекается из первичных данных и преобразуется в некоторые формальные конструкции (их вид зависит от конкретного метода). Согласно предыдущей классификации, этот этап выполняется на стадии свободного поиска, который в методе первой группы в принципе отсутствует. Таким образом, для прогностического моделирования и анализа исключений используются результаты этой стадии, которые гораздо более компактны, чем сами массивы исходных данных. При этом полученные конструкции могут быть либо "прозрачными" (интерпретируемыми), либо "черными ящиками" (не трактуемыми).

Две данные группы и примеры, входящие в эти методы, представлены на рисунке 2.1.

Рисунок 2.1 – Классификация технологических методов ИАД

Примечание – составлено по [3].

2.2 Свойства методов

Различные методы интеллектуального анализа данных характеризуются определенными свойствами, которые могут быть определяющими при выборе метода анализа данных. Методы можно сравнивать между собой, оценивая характеристики их свойств.

Основные свойства и характеристики методов интеллектуального анализа данных: точность, масштабируемость, интерпретируемость, проверяемость, трудоемкость, гибкость, быстрота и популярность [2].

Масштабируемость – свойство вычислительной системы, которое обеспечивает предсказуемый рост системных характеристик, например, быстроты реакции, общей производительности и пр., при добавлении к ней вычислительных ресурсов.

В рисунке 2.2 приведена сравнительная характеристика некоторых распространенных методов. Оценка каждой из характеристик проведена следующими категориями, в порядке возрастания: чрезвычайно низкая, очень низкая, низкая/нейтральная, нейтральная/низкая, нейтральная, нейтральная/высокая, высокая, очень высокая.

Рисунок 2.2 – Сравнительная характеристика методов интеллектуального анализа данных

Примечание – составлено по [1].

Заключение

Каждый из методов имеет свои сильные и слабые стороны. Но ни один метод, какой бы не была его оценка с точки зрения присущих ему характеристик, не может обеспечить решение всего спектра задач интеллектуального анализа данных.

Список использованной литературы

1. Сравнительная характеристика методов интеллектуального анализа данных // Свойства методов Data Mining. [Электронный ресурс]. – 2012г. – Режим доступа: https://intellect-tver.ru/wp-content/uploads/%D0%91%D0%B5%D0%B7%D1%8B%D0%BC%D1%8F%D0%BD%D0%BD%D1%8B%D0%B92.png. – Дата доступа: 07.03.2016.

2. Интеллектуальный анализ данных: базовые понятия // Учебный курс «Data Mining» – 2008г. – Режим доступа: https://www.intuit.ru/studies/courses/2312/612/lecture/13260. – Дата доступа: 07.03.2016.

3. Parsaye K. Характеристика интеллектуального анализа данных технологий и процессов // Журнал хранилищ данных – 1998г. – №1.

4. Data mining // Википедия. [Электронный ресурс]. – 2016г. – Режим доступа: https://ru.wikipedia.org/wiki/Data_mining. – Дата доступа: 07.03.2016.

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

Поиск по сайту