УЧЕБНО-МЕТОДИЧЕСКАЯ КАРТА УЧЕБНОЙ ДИСЦИПЛИНЫ

ПОЯСНИТЕЛЬНАЯ ЗАПИСКА

Целью дисциплины «Интеллектуальный̆ анализ данных» является подготовка специалистов, обладающих знаниями и умениями эффективного решения аналитических задач, использования больших объемов данныхи применения методов машинного обучения для поиска неизвестных ранее закономерностей в наборах данных.

Задача дисциплины — изучение теоретических основ технологии интеллектуального анализа данных, включая методы статистического анализа, классификации, нейронные сети, кластерного анализа, поиска ассоциативных правил, визуализации многомерных данных, а также введение в технологии работы с большим объемом данных.

Учебная программа составлена с учетом межпредметныхсвязей̆ и программ по учебным дисциплинам «Математический̆ анализ», «Программирование», «Теория вероятностей̆ и математическая статистика».

Преподавание дисциплины решает следующие задачи:

- формирование у студентов способностей самостоятельно анализировать данные, находящиеся в базах данных, с учетом требований предметной области;

- развивать и использовать информационно-аналитические системы;

- использовать математические и компьютерные методы анализа данных.

В результате изучения дисциплины студент должен:

знать:

- базовые понятия и принципы ИАД,

- основные алгоритмы методов и моделей̆ ИАД и подходы к их созданию,

- задачи анализа многомерных массивов данных, этапы процесса ИАД,сферы применения и стандарты ИАД;

уметь:

- производить расчеты с применением аппарата ИАД,

- применять методы ИАД на языке программирования Python для решения практических задач управления и обработки информации,

- творчески и эффективно использовать полученные знания в профессиональной̆ деятельности;

владеть:

- технологиями обработки больших объемов данных;

- основными алгоритмами статистического анализа, машинного обучения и прогнозирования.

содержание учебного материала

Тема 1. Процесс анализа данных.

Введение в анализ данных. Технологии KDD и DataMining ([3], стр. 40-46). Стандарт CRISP.

Тема 2.Обучение по прецедентам. Классификация.Регрессия. Оценка результатов обучения моделей.

Основные понятия и определения. Объекты и признаки. Типы задач. Модель алгоритмов и метод обучения. Функционал качества.Оценка ошибки модели. Издержки ошибочной классификации. Lift-кривые и диаграммы. ROC-кривая.

Тема 3.Алгоритмы обучения с учителем. Деревья решений и алгоритмические композиции.

Линейная регрессия. Наивный байесовский классификатор. Логистическая регрессия. Деревья решений. Ансамбли моделей. Бэггинг. Бустинг.

Тема 4.Обучение без учителя. Кластеризация.

Задачи обучения без учителя. Метрическая кластеризация. Алгоритм k средних. Силуэты. Иерархическая кластеризация. Проблемы алгоритмов кластеризации. Задача поиска ассоциативных правил. Алгоритм Apriori (управляемая самостоятельное изучение).

Тема 5. BusinessIntelligence и визуальный анализ данных.

Задачи систем поддержки принятия решений. Консолидация данных. Неэффективность использования OLTP-систем для анализа данных. OLAP-системы. Многомерная модель данных. 12 правил Кодда. Архитектура OLAP-систем. Выполнение визуального анализа данных.

Тема 6. TextMining.

Задачи анализа текстов. Предварительная обработка текстов. Частота термина и взвешивание. Варианты функции tf-idf.

Тема 7. Разложение матриц и латентно-семантическое индексирование.Рекомендательные системы.

Алгебраическое основание. Матрицы «термин-документ». Сингулярные разложения. Латентно-семантическое индексирование.Виды рекомендательных систем. SVD для рекомендаций. Измерение качества рекомендаций.

Тема 8. Анализ и прогнозирование временных рядов (управляемая самостоятельная работа).

Временной ряд и его компоненты. Модели прогнозирования.

Тема 8. Введение в DeepLearning.

Понятие о нейронных сетях.Сверточные нейронные сети. Введениев глубокое обучение.

Тема 9. Обзор BigData-решений.

Требования к системам обработки и хранения данных. Типы СУБД. Подходы к масштабированию. Обзор СУБД и фреймворков обработки данных больших объемов данных.

УЧЕБНО-МЕТОДИЧЕСКАЯ КАРТА УЧЕБНОЙ ДИСЦИПЛИНЫ

п/п	Название раздела, темы	Объем часов
	Процесс анализа данных.
	Обучение по прецедентам. Классификация. Регрессия. Оценка результатов обучения моделей.
	Алгоритмы обучения с учителем. Деревья решений и алгоритмические композиции.
	Обучение без учителя. Кластеризация.
	BusinessIntelligence и визуальный анализ данных.
	TextMining.
	Разложение матриц и латентно-семантическое индексирование. Рекомендательные системы.
	Введение в DeepLearning.
	Обзор BigData-решений.
		Итого: 20 часов

УЧЕБНО-МЕТОДИЧЕСКАЯ КАРТА УЧЕБНОЙ ДИСЦИПЛИНЫ

Поиск по сайту