Формат файлов данных ARFF




Методичні вказівки

до лабораторних робіт

з дисципліни

“ІНТЕЛЕКТУАЛЬНИЙ АНАЛІЗ ДАНИХ”

для студентів напрямів підготовки
6.050103 “Програмна інженерія” та
6.050101 “Комп’ютерні науки”

всіх форм навчання

 


Методичні вказівки до лабораторних робіт з дисципліни “Інтелектуальний аналіз даних” для студентів напрямів підготовки 6.050103 “Програмна інженерія” та 6.050101 “Комп’ютерні науки” всіх форм навчання / Т.В. Юр. – Запоріжжя: ЗНТУ, 2013. – 62 с.

 

 

Автори: Т.В. Юр, к.т.н., доцент

 

Рецензент: В.І. Дубровін, к.т.н., проф., зав. кафедрою ПЗ

 

Відповідальний

за випуск: Т.В. Юр, к.т.н., доцент

 

  Затверджено на засіданні кафедри програмних засобів   Протокол №1 від “21” серпня 2013 р.

СОДЕРЖАНИЕ

 

Введение. 4

Лабораторна робота № 1 Знакомство с программой интеллектуального анализа данных WEKA и подготовка данных. 5

Лабораторна робота № 2 Задача классификации. 14

Лабораторна робота № 3 Прогнозирование, задача регрессии. 25

Лабораторна робота № 4 Задача кластеризации. 29

Лабораторна робота № 5 Поиск ассоциативных правил. 36

Литература. 41

Приложение А. Интерфейс программы WEKA.. 42

Приложение Б. Варианты индивидуальных заданий. 61

Приложение В. Контрольная работа для заочников. 62

 

Введение

Целью практической части курса "Интеллектуальный анализ данных" является получение практических навыков использования рассмотренных на лекциях методов анализа для решения практических задач.

WEKA (Waikato Environment for Knowledge Analysis) – библиотека алгоритмов машинного обучения для решения задач интеллектуального анализа данных (data mining). Система позволяет непосредственно применять алгоритмы к выборкам данных, а также вызывать алгоритмы из программ на языке Java.

WEKA – продукт университета Уайкато (Новая Зеландия), который впервые был выпущен в его современном виде в 1997 году. WEKA распространяется по лицензии GNU General Public License. Это программное обеспечение написано на языке Java и обеспечивает графический пользовательский интерфейс для работы с файлами данных и генерации визуальных результатов (в виде таблиц и графиков). Кроме того, имеется возможность интегрировать WEKA, как и любую другую библиотеку, в свои собственные разрабатываемые приложения, например, для автоматизации анализа данных на стороне сервера, используя стандартный API.

Цели проекта – создать современную среду для разработки методов машинного обучения и применения их к реальным данным, сделать методы машинного обучения доступными для повсеместного применения. Предполагается, что с помощью данной среды специалист в прикладной области сможет использовать методы машинного обучения для извлечения полезных знаний непосредственно из данных очень большого объема.

Пользователями WEKA являются исследователи в области машинного обучения и прикладных наук. Она также широко используется в учебных целях.

Теоретические сведения, посвященные используемым алгоритмам интеллектуального анализа данных, можно получить из конспекта лекций по дисциплине «Интеллектуальный анализ данных» либо из рекомендуемых литературных источников. При выполнении лабораторных работ следует разобраться с кодом реализации рассматриваемых алгоритмов в программе WEKA.

Лабораторна робота № 1
Знакомство с программой интеллектуального анализа данных WEKA и подготовка данных

Цель работы

Ознакомиться и получить навыки работы с библиотекой data mining алгоритмов WEKA. На практике изучить методы предварительной обработки данных для задач интеллектуального анализа данных.

Основные теоретические сведения

Основные возможности GUI интерфейса программы WEKA приведены в приложении А.

Программа позволяет загрузить и предобработать данные (Preprocess), решить задачу классификации или регрессии (Classify), кластеризации (Cluster), поиска ассоциативных правил (Associate), отбора атрибутов (Select Attributes) и визуализации (Visualize).

Данные для анализа в WEKA могут быть загружены из файла, из удаленного источника, из базы данных либо сгенерированы.

Формат файлов данных ARFF

Основной формат файлов данных, который используется в WEKA, – это ARFF (attribute relation file format). В каталоге data установленной программы можно посмотреть примеры arff-файлов.

ARFF-файл является ASCII текстовым файлом, который описывает список объектов с общими атрибутами. Структурно такой файл разделяется на две части: заголовок и данные.

В заголовке описывается имя данных и их метаданные (имена атрибутов и их типы). Например,

% комментарий

@RELATION myproblem

@ATTRIBUTE firstfeature REAL

@ATTRIBUTE class {A,B}

Во второй части представлены сами данные. Например,

@ DATA

1.1,А

Заголовок содержит информацию об имени файла и метаданные о представленных в нем данных. Имя описывается в следующем формате:

@relation <имя>

Именем может быть любая последовательность символов. Если имя содержит пробелы, то оно должно быть взято в кавычки. Например,

@relation weather

@relation ‘weather nominal’

Метаданные описывают атрибуты данных, представленных в файле. Информация о каждом атрибуте записывается в отдельной строке и включает имя атрибута и его тип. Очевидно, что все имена должны быть уникальными. Порядок их описания должен совпадать с порядком колонок в описании самих данных. Общий формат описания атрибута следующий:

@attribute <имя атрибута> <тип атрибута>

Например,

@attribute temperature real

Имя атрибута должно начинаться с символа @. В случае если в имени содержатся пробелы, оно должно быть взято в кавычки.

Поле <тип> может иметь одно из следующих значений:

- real;

- integer;

- <категория>;

- string;

- date [<формат даты>].

Типы real и integer являются числовыми. Категориальные типы описываются перечнем категорий (возможных значений). Например:

@attribute outlook {sunny, overcast, rainy}

Данные представляются в ARFF формате в виде списка значений атрибутов объектов после тега @data. Каждая строка списка соответствует одному объекту, каждая колонка – атрибуту, описанному в заголовке. Часто в терминологии data mining такие строки называют векторами.

Данные могут содержать пропущенные (неизвестные) значения, которые представляются в файле символом «?». Например:

@data

4.4,?,1.5,?,Iris-setosa

Строковые данные, в случае если они содержат разделяющие символы, должны браться в кавычки. Например,

@relation LCCvsLCSH

@attribute LCC string

@attribute LCSH string

@data

AS262, 'Science - Soviet Union - History.'

При описании даты можно указать формат, в котором она записывается. Даты также должны браться в кавычки.

@relation Timestamps

@attribute timestamp DATE "yyyy-MM-dd HH:mm:ss"

@data

"2001-04-03 12:12:12"



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-04-03 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: