Приведенные в разделе 2.2.2 параметры более полезны для описания задач классификации нежели для задач регрессии. Для задач регрессии ошибки не просто присутствуют или отсутствуют, а имеют различные числовые значения.
Альтернативные меры, некоторые из которых приведены в табл. 4.2, могут быть использованы для оценки успешности числовых предсказаний.
Таблица 3.2 – Меры оценки качества решения задачи регрессии
Параметр | Формула для расчета |
Средний квадрат ошибки (mean-squared error) | ![]() |
Среднеквадратическая ошибка (root mean-squared error) | ![]() |
Средняя абсолютная ошибка (mean-absolute error) | ![]() |
Относительный квадрат ошибка (relative-squared error)* | ![]() |
Root relative-squared error* | ![]() |
Relative-absolute error* | ![]() |
Коэффициент корреляции (correlation coefficient)** | ![]() |
![]() ![]() ![]() |
где p 1, p 2, …, p n – значения, предсказанные для целевого атрибута тестовой выборки;
a 1, a 2, …, a n – реальные значения целевого атрибута;
– среднее арифметическое (* – обучающей выборки, ** – текстовой).
Задание на лабораторную работу
1. Выберите в в таблице Б.2 два набора данных. Выполните для каждой выборки следующие задания.
2. Загрузите набор данных.
3. При необходимости предварительно обработайте исходные данные.
4. Решите задачу регрессии при помощи следующих методов:
o Linear regression;
o SMOreg;
o M5P (model trees and regression trees) со следующими параметрами настройки:
· build regression tree: True, unpruned: True, useUnsmoothed: True;
· build regression tree: True, unpruned: False, useUnsmoothed: True;
· build regression tree: False, unpruned: True, useUnsmoothed: True;
· build regression tree: False, unpruned: False, useUnsmoothed: True;
o kNN.
5. Запишите полученные модели и сравните их эффективность (точность предсказания).
6. Отобразите результаты предсказания для 5 произвольных экземпляров.
7. Какие из атрибутов являются наиболее значимыми для предсказания значения целевого атрибута, судя из построенных моделей? Почему? Как изменится точность предсказания, если оставить только значимые атрибуты?
|
Контрольные вопросы
1. В чем состоит задача регрессии? Приведите практический пример?
2. Чем задача регрессии похожа и чем отличается от задачи классификации?
3. Что такое обучение с учителем и без учителя? К какому типу относится задача регрессии?
4. Задача регрессии относится к описательным или предсказательным и почему?
5. Опишите один из рассмотренных методов, решающих задачу регрессии?
6. Как оценить качество построенной модели для задачи регрессии?
Содержание отчета
1. Тема и цель работы
2. Задание к работе.
3. Результаты выполнения заданий п.3.3.
4. Ответы на контрольные вопросы.
5. Выводы, отображающие критический анализ результатов выполнения работы.
Лабораторна робота № 4
Задача кластеризации
Цель работы
На практике изучить работу алгоритмов кластеризации, научиться интерпретировать результаты их работы и выбирать наилучший метод для решаемой прикладной задачи.