ПОЯСНИТЕЛЬНАЯ ЗАПИСКА
Целью дисциплины «Интеллектуальный̆ анализ данных» является подготовка специалистов, обладающих знаниями и умениями эффективного решения аналитических задач, использования больших объемов данныхи применения методов машинного обучения для поиска неизвестных ранее закономерностей в наборах данных.
Задача дисциплины — изучение теоретических основ технологии интеллектуального анализа данных, включая методы статистического анализа, классификации, нейронные сети, кластерного анализа, поиска ассоциативных правил, визуализации многомерных данных, а также введение в технологии работы с большим объемом данных.
Учебная программа составлена с учетом межпредметныхсвязей̆ и программ по учебным дисциплинам «Математический̆ анализ», «Программирование», «Теория вероятностей̆ и математическая статистика».
Преподавание дисциплины решает следующие задачи:
- формирование у студентов способностей самостоятельно анализировать данные, находящиеся в базах данных, с учетом требований предметной области;
- развивать и использовать информационно-аналитические системы;
- использовать математические и компьютерные методы анализа данных.
В результате изучения дисциплины студент должен:
знать:
- базовые понятия и принципы ИАД,
- основные алгоритмы методов и моделей̆ ИАД и подходы к их созданию,
- задачи анализа многомерных массивов данных, этапы процесса ИАД,сферы применения и стандарты ИАД;
уметь:
- производить расчеты с применением аппарата ИАД,
- применять методы ИАД на языке программирования Python для решения практических задач управления и обработки информации,
- творчески и эффективно использовать полученные знания в профессиональной̆ деятельности;
владеть:
- технологиями обработки больших объемов данных;
- основными алгоритмами статистического анализа, машинного обучения и прогнозирования.
содержание учебного материала
Тема 1. Процесс анализа данных.
Введение в анализ данных. Технологии KDD и DataMining ([3], стр. 40-46). Стандарт CRISP.
Тема 2.Обучение по прецедентам. Классификация.Регрессия. Оценка результатов обучения моделей.
Основные понятия и определения. Объекты и признаки. Типы задач. Модель алгоритмов и метод обучения. Функционал качества.Оценка ошибки модели. Издержки ошибочной классификации. Lift-кривые и диаграммы. ROC-кривая.
Тема 3.Алгоритмы обучения с учителем. Деревья решений и алгоритмические композиции.
Линейная регрессия. Наивный байесовский классификатор. Логистическая регрессия. Деревья решений. Ансамбли моделей. Бэггинг. Бустинг.
Тема 4.Обучение без учителя. Кластеризация.
Задачи обучения без учителя. Метрическая кластеризация. Алгоритм k средних. Силуэты. Иерархическая кластеризация. Проблемы алгоритмов кластеризации. Задача поиска ассоциативных правил. Алгоритм Apriori (управляемая самостоятельное изучение).
Тема 5. BusinessIntelligence и визуальный анализ данных.
Задачи систем поддержки принятия решений. Консолидация данных. Неэффективность использования OLTP-систем для анализа данных. OLAP-системы. Многомерная модель данных. 12 правил Кодда. Архитектура OLAP-систем. Выполнение визуального анализа данных.
Тема 6. TextMining.
Задачи анализа текстов. Предварительная обработка текстов. Частота термина и взвешивание. Варианты функции tf-idf.
Тема 7. Разложение матриц и латентно-семантическое индексирование.Рекомендательные системы.
Алгебраическое основание. Матрицы «термин-документ». Сингулярные разложения. Латентно-семантическое индексирование.Виды рекомендательных систем. SVD для рекомендаций. Измерение качества рекомендаций.
Тема 8. Анализ и прогнозирование временных рядов (управляемая самостоятельная работа).
Временной ряд и его компоненты. Модели прогнозирования.
Тема 8. Введение в DeepLearning.
Понятие о нейронных сетях.Сверточные нейронные сети. Введениев глубокое обучение.
Тема 9. Обзор BigData-решений.
Требования к системам обработки и хранения данных. Типы СУБД. Подходы к масштабированию. Обзор СУБД и фреймворков обработки данных больших объемов данных.
УЧЕБНО-МЕТОДИЧЕСКАЯ КАРТА УЧЕБНОЙ ДИСЦИПЛИНЫ
п/п | Название раздела, темы | Объем часов |
Процесс анализа данных. | ||
Обучение по прецедентам. Классификация. Регрессия. Оценка результатов обучения моделей. | ||
Алгоритмы обучения с учителем. Деревья решений и алгоритмические композиции. | ||
Обучение без учителя. Кластеризация. | ||
BusinessIntelligence и визуальный анализ данных. | ||
TextMining. | ||
Разложение матриц и латентно-семантическое индексирование. Рекомендательные системы. | ||
Введение в DeepLearning. | ||
Обзор BigData-решений. | ||
Итого: 20 часов |