Предварительная обработка данных

Данные обладают таким параметром как качество, которое включает следующие параметры: точность, полнота, непротиворечивость, своевременность, достоверность и интерпретируемость.

Для повышения качества данных и подготовки их к обработке методами интеллектуального анализа существует несколько технологий предварительной обработки данных.

К основным задачам предварительной обработки данных относятся следующие.

Задача очистки данных, которая используется для заполнения пропущенных значений, удаления шумов, удаления противоречивости, идентификации и удаления выбросов.

Задача интеграции данных их различных источников (баз данных, кубов данных, файлов) в одно согласованное хранилище. Данная задача подразумевает объединение данных и устранение несогласованностей, дубликатов, конфликтов.

Задача прореживания и сжатия данных используется для уменьшения размера данных с минимизацией потери информации. Данная задача включает снижение размерности данных (отбор атрибутов) и численное уменьшение (построение математических моделей для значений атрибутов).

Задача преобразования данных. К ней относятся нормализация, дискретизация, квантование, сглаживание, агрегация данных, отображение данных при помощи ядерных функций.

Также к предварительной обработке данных можно отнести преобразование задачи множественной классификации в бинарную.

Отбор атрибутов

В множестве практических ситуаций наборы данных содержат слишком много атрибутов, что увеличивает время обучения алгоритмов. При этом многие из атрибутов являются незначимыми или избыточными. Таким образом, данные должны быть предобработаны с целью отбора некоторого минимального подмножества атрибутов для обучения.

Для выбора хорошего подмножества атрибутов существует два подхода. Первый из них основан на независимой оценке статистических или каких-то других характеристиках набора данных. Он называется фильтрацией и происходит до начала непосредственного анализа данных.

Во втором подходе отбор атрибутов выполняется внутри методов интеллектуального анализа. Такой подход называется методом обертки (wrapper method), т.е. алгоритм обучения «обернут» в процедуру отбора атрибутов.

Сами методы интеллектуального анализа также могут быть использованы для отбора атрибутов.

К примеру, можно применить алгоритм построения деревьев решений к полному набору данных и затем оставить в наборе только те атрибуты, которые использованы в построенном дереве. Следует заметить, что данный отбор атрибутов не даст никакого эффекта при построении нового дерева, однако окажется полезен при использовании других методов анализа (например, метода ближайших соседей).

Другая возможность – это применить к данным алгоритм, который строит линейную модель (например, метод опорных векторов), и ранжировать атрибуты на основании величин коэффициентов модели. Атрибуты с наименьшими коэффициентами могут быть отброшены. Данную процедуру можно повторить несколько раз.

Кроме того для отбора атрибутов могут быть применены методы анализа, основанные на сравнении близости экземпляров выборки. Для сравнения берутся соседние экземпляры одинаковых и разных классов. Если у экземпляров одного класса значение определенного атрибута различно, то можно предположить, что данный атрибут является незначимым и его вес должен быть уменьшен. С другой стороны, если у экземпляров различных классов атрибут имеет различное значение, то данный атрибут значимый и его вес должен быть увеличен. После повтора данной процедуры несколько раз, происходит отбор атрибутов с наибольшими весами. К недостаткам данного метода можно отнести тот факт, что данный метод не сможет определить избыточные атрибуты, связанные тесной корреляционной связью.

Обычно поиск в пространстве атрибутов происходит в одном из двух направлений: сверху вниз (начиная с полного набора атрибутов и отбрасывая на каждом шагу наихудший из них) либо снизу вверх (начиная с пустого множества атрибутов и добавляя наилучший из оставшихся) (табл. 1.1).

Таблица 1.1 – Поиск в пространстве атрибутов

Прямой выбор (forward selection)	Обратное исключение (backward elimination)	Применение деревьев решений
Начальное множество атрибутов {A1, A2, A3, A4, A5}
{} => {A1} => {A1, A4} => {A1, A4, A5}	{A1, A2, A3, A4, A5} =>{A1, A2, A4, A5} =>{A1, A4, A5}
		=>{A1, A4, A5}

В некоторых случаях для улучшения точности классификации и лучшего понимания атрибутов для решения поставленной задачи возможно построение нового атрибута на основе существующих. К примеру, можно ввести новый атрибут «Площадь» на основе существующих атрибутов «высота» и «ширина».

Пропущенные значения

При работе с данными, в которых есть пропущенные значения атрибутов для некоторых экземпляров, существуют следующие стратегии поведения:

1. Отбросить экземпляры с пропущенными значения. Такой подход применяется прежде всего для данных, у которых пропущено значении целевого атрибута (для задач классификации).

2. Заполнить пропущенные значения вручную.

3. Применить глобальную константу (например, “Unknown”).

4. Использовать некоторое статистически рассчитанное значение (среднее арифметическое, медиану, моду) по всей выборке.

5. Использовать статистическое значение, рассчитанное для экземпляров, относящихся к такому же классу, как и рассматриваемый экземпляр.

6. Использовать наиболее вероятное значение для атрибута. Это значение может быть рассчитано при помощи регрессии, дерева решений либо других математических подходов.

Нормализация данных

Единицы измерения, которые используются в некотором атрибуте, могут повлиять на результаты анализа. Так, например, преобразование единиц измерения из метров в дюймы для атрибута «высота» или преобразование из килограммов в фунты для атрибута «вес» могут привести к различным результатам. В общем случае, выражение некоторого атрибута в более мелких единицах измерения приведут к более широкому диапазону значений для этого атрибута, что может привести к большей значимости или же весу данного атрибута.

Чтобы избежать зависимости от выбора единиц измерения данные должны быть нормализованы или нормированы. Нормализация подразумевает преобразование данных таким образом, чтобы диапазон значений, принимаемых атрибутом, уменьшился либо стал равным общепринятым [-1;1] или [0;1].

При помощи нормализации данных делается попытка придать всем атрибута одинаковый вес. Нормализация наиболее полезна в задачах с применением нейронных сетей, задачах классификации или кластеризации, алгоритмы которых основаны на вычислении расстояний.

Существует множество методов нормализации данных. Рассмотрим некоторые из них.

Пусть у нас есть числовой атрибут А с измеренными значениями a₁, a₂, …, a_n.

Минимаксная нормализация. Пусть min_a – минимальное значение данного атрибута, max_a – максимальное значение атрибута. Новый диапазон для атрибута [new_min_a; new_max_a]. Тогда:

Нормализация с нулевым средним. Значения атрибута нормализуются при помощи математического ожидания и стандартного отклонения атрибута:

Нормализация при помощи десятичной шкалы.

где j – наименьшее целое число, такое что max(| a _i|)<1.

Предварительная обработка данных

Поиск по сайту