Кластеризация методом K-means с использованием пакета KNIME

KNIME представляет собой свободно распространяемый прикладной программный пакет (ссылка для скачивания https://www.knime.org/) с графическим интерфейсом, поддерживающий цикл интеллектуального анализа данных (доступ к данным различных форматов, трансформация данных, аналитические функции, визуализация и подготовка отчетов).

Идеологической основой KNIME является понятие потока работ (workflow). Поток работ графически изображает процесс преобразования исходных данных в результаты. Изображение состоит из узлов (прямоугольников) и стрелок. Узел инкапсулирует некоторую операцию над данными, стрелки показывают путь данных.

Инструмент KNIME Workbench организован следующим образом (рисунок 1):

Рисунок 1

Создание рабочего процесса (Building a workflow)

Рабочий процесс создается путем перетаскивания узлов из репозитория узлов Node Repository в редактор рабочего процесса и их подключения Workflow Editor (рисунок 1). Узлы являются базовыми блоками обработки рабочего процесса. Каждый узел имеет несколько входных и / или выходных портов. Данные (или модель) передаются по соединению из внешнего порта в порт другого узла.

Состояние узла (Node Status) Когда узел перетаскивается в редактор рабочего процесса, индикатор состояния отображается красным цветом, что означает, что узел должен быть настроен для того, чтобы быть выполненным. Узел настраивается щелчком правой кнопкой мыши, выбирая «Configure » и настраивая необходимые настройки в диалоговом окне узла (рисунок 2).

Рисунок 2

Когда диалог закрывается нажатием кнопки ОК, узел настроен, а индикатор состояния меняется на желтый: узел готов к выполнению. Щелчок правой кнопкой мыши по узлу снова показывает включенную опцию Execute (рисунок 2); нажатие на него приведет к выполнению узла, и результат этого узла будет доступен на выходе. После успешного выполнения цвет узла становится зеленым.

Порты (Ports)

Порты слева представляют собой входные порты, где предоставляются данные из внешнего порта узла-предшественника. Порты справа являются портами. Результат работы узла над данными предоставляется на выходе порта для последующих узлов. Всплывающая подсказка дает информацию о выходе узла, дополнительную информацию можно найти в описании узла.

Узлы печатаются так, что к ним могут подключаться только порты того же типа.

Data Port: Порт данных.

Наиболее распространенным типом является порт данных (белый треугольник), который передает плоские таблицы данных от узла к узлу.

Database Port: Порт базы данных.

Узлы, выполняющие команды внутри базы данных, могут быть распознаны по портам базы данных (коричневый квадрат):

PMML Ports: Порты PMML Узлы интеллектуального анализа данных изучают модель, которая передается в передающий предиктор узла через синий квадрат PMML.

Other Ports: Другие порты

Всякий раз, когда узел предоставляет данные, которые не соответствуют структуре таблиц плоских данных, используется порт общего назначения для структурированных данных (темный голубой квадрат). Порт, который не является ни данными, ни базой данных, ни PMML, ни портом для структурированных данных, отображается как «неизвестные» типы (серый квадрат).

Всякий раз, когда узел предоставляет данные, которые не соответствуют структуре таблицы плоских данных, используется порт общего назначения для структурированных данных (темный голубой квадрат). Порт, который не является ни данными, ни базой данных, ни PMML, ни портом для структурированных данных, отображается как «неизвестные» типы (серый квадрат).

Пример потока (Example Flow)

Создадим простой рабочий процесс по выполнению кластеризации методом k-means.

Добавление узлов (Adding Nodes)

В репозитории узлов разверните IO и содержащуюся категорию Read, как показано на рисунке 3 (левое изображение) и перетащите значок File Reader в окно редактора рабочего процесса Workflow Editor. Следующий узел будет алгоритмом кластеризации K-Means. Разверните категорию Mining, а затем категорию Clustering, а затем перетащите узел K-Means в поток (изображение справа).

Рисунок 3

В поле поиска репозитория узлов Node Repository введите «color » и нажмите Ввод. Это ограничивает отображаемые узлы теми, у кого есть «цвет» в их имени (см. Рисунок выше в середине). Потяните узел Color Manager в рабочий процесс (этот узел позже определит цвет в представлениях данных). Чтобы снова увидеть все узлы в репозитории, нажмите ESC или Backspace в поле поиска репозитория узлов Node Repository. Теперь перетащите интерактивную таблицу Interactive Table и график рассеяния Scatter Plot из категории Data Views в редактор рабочих процессов Workflow Editor и расположите ее справа от узла Color Manager.

Подключение узлов (Connecting Nodes)

Теперь нужно подключить узлы, чтобы получить данные. Щелкните порт вывода и перетащите соединение в соответствующий входной порт. Выполните поток, как показано на рисунке 4. Пока узлы не будут показывать зеленый статус, так как они не настроены и не выполнены.

Рисунок 4

Настройка узлов (Configuring Nodes)

Полностью подключенные узлы с красным значком состояния следует теперь настроить. Начните с File Reader, щелкните его правой кнопкой мыши и выберите Configure в меню. Перейдите в каталог «IrisDataSet», расположенный в каталоге установки KNIME. Выберите файл data.all из этого местоположения. В таблице предварительного просмотра файла File Reader показан образец данных.

Рисунок 5

Нажмите OK, чтобы закрыть диалоговое окно узла File Reader. Как только узел настроен правильно, он переключится на желтый (значит готов к выполнению). После этого узел K-Means сразу станет желтым, так как будут применены его настройки по умолчанию. Чтобы убедиться, что настройки по умолчанию соответствуют вашим потребностям, откройте диалоговое окно и проверьте настройки по умолчанию.

Чтобы настроить узел Color Manager, необходимо сначала выполнить узел K-Means. После его выполнения станут известны все номинальные значения и диапазоны всех атрибутов: эта метаинформация распространяется на узлы-преемники. Менеджеру Color необходимо, чтобы эти данные были настроены. Как только узел K-Means будет выполнен, откройте диалоговое окно конфигурации узла Color Manager.

Рисунок 6

Выполнение узлов

Теперь выполните узел Scatter Plot. В более сложном потоке можно выбрать несколько узлов и запустить их одновременное выполнение. Менеджер рабочего процесса выполняет узлы по мере необходимости, в том числе, параллельно.

Проверка результатов

Чтобы просмотреть данные и результаты, откройте представления узлов из контекстного меню. В нашем примере K-Means, Interactive table и Scatter Plot имеют представления.

Выполните поток работ при различных параметрах: количество кластеров, цвета для отображения кластеризуемых объектов. Сравните результаты.

Создайте скриншоты потока работ и результатов его работы для использования в качестве отчета о выполнении задания.

Рисунок 7

Рисунок 8

Кластеризация методом K-means с использованием пакета KNIME

Поиск по сайту