Загрузка данных (виджет File)
Orange поставляется со своим собственным форматом данных, но также может работать с другими форматами, например, Excel (.xlsx или.xls) или CSV-файлами. Как правило, входными данными является таблица с записями (объектами) в строках и атрибутами данных в столбцах. Атрибуты могут быть разного типа (непрерывные, дискретные и строковые). Типы атрибутов и их вид могут быть представлены в заголовке таблицы. Они также могут быть впоследствии изменены в виджете File. Тип данных также может быть изменен с помощью виджета Select Columns.
Виджет File находится на вкладке Data. Пример простой модели Orange с использованием виджетов File и Data Table показан на рис. 1.2 (в качестве источника данных выбран файл на локальном компьютере).
Рисунок 2 – Загрузка файла данных и отображение его содержимого в виде таблицы
Пример построения модели data mining в Orange
Классификация с помощью дерева решений
Для загрузки файла используем виджет “File”, который находится на вкладке “Data”. В качестве примера возьмём файл zoo.tab из набора тестовых данных поставляемых вместе с Orange.
Далее выберем классификатор “Classification Tree” из вкладки Classify. Для анализа качества классификации используем виджеты “Test & Score” и “Confusion Matrix”.
На рисунке 2 показано окно настроек виджета “Test & Score”. В нём можно указать режим работы виджета. Виджет поддерживает различные методы отбора проб (разбиения входных данных на обучающую и тестовую выборки).
1. Cross validation разбивает данные на заданное пользователем количество блоков (обычно 5 или 10). Алгоритм тестируется на примерах из каждого блока, при этом блоки используемые для обучения и предсказания постоянно меняются (сперва прогнозируется первый блок, потом второй и так далее, а остальные блоки используются для обучения)
|
2. Leave-one-out похож на Cross Validation, но он использует в качестве блока только один элемент (то есть количество блоков будет равно размеру выборки). Этот метод, очевидно, очень стабильный, надежный и очень медленный.
3. Random sampling (случайная выборка) случайным образом разбивает данные на обучающую и тестируемую выборки в указанной пропорции (например, 70:30); вся процедура повторяется в течение определенного количества времени.
4. Test on train data (тест на тренировочных данных) использует весь набор данных для обучения, а затем для тестирования. Этот метод практически всегда дает неправильные результаты.
5. Test on test data (тест на тестовых данных): вышеуказанные методы используют данные только от одного источника данных. Чтобы ввести другой набор данных с примерами тестирования (например, из другого файла или некоторых данных, выбранных в другой виджет), мы выбираем отдельный сигнал проверки данных в канале связи и выберите Тестирование на тестовых данных.
Рисунок 2 – Простой пример классификации с использование дерева решений.