Порядок выполнения работы.




Лабораторная работа №3

Проектирование нейронной сети для кластеризации.

Цель работы.

Приобретение навыков построения нейросетей для кластеризации типа самообучающихся карт Кохонена.

 

Порядок выполнения работы.

1. Изучить теоретический материал, приведённый в методическом пособии.

2. Изучить пример построения карт Кохонена при помощи систем Excel Neural Package, Deductor и Statistica.

3. Открыть файл задания для моделирования.

4.Смоделировать нейросеть в трех пакетах.

5. Обучить сеть, получить и сохранить результаты.

6. Результаты лабораторной работы оформить в виде отчета.

Теоретические сведения.

 

Пусть имеется некоторое множество G=(G1, G2,... Gn) индивидов (объектов), каждый из которых обладает набором наблюдаемых показателей С=(С1, С2,... Ср). Обозначим xij результат измерения i-той характеристики j-того объекта. Тогда Х- множество векторов измерений объектов. Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся во множестве Х, разбить множество объектов G на m (m – целое) кластеров (подмножеств) Q1, Q2, …, Qm так, чтобы каждый объект Gj принадлежал одному и только одному подмножеству разбиения и чтобы объекты, принадлежащие одному и тому же кластеру, были сходными, в то время, как объекты, принадлежащие разным кластерам были разнородными.

Для задач кластеризации широко применяются так называемые самоорганизующиеся карты Кохонена – нейронные сети, обучающиеся без учителя. Сеть распознает кластеры в обучающих данных и распределяет данные по соответствующим кластерам. Если дальше сеть встречается с набором данных, непохожим ни на один из известных образцов, она относит его к нового кластеру. Для удобства визуализации нейроны карты Кохонена представляются в виде двумерной сетки и раскрашиваются в зависимости от анализируемого свойства объектов. Входные вектора, в некоторой степени «похожие» друг на друга, будут располагаться на карте Кохонена рядом. Чем меньше мера сходства, тем дальше друг от друга будут располагаться на карте объекты.

 

Рассмотрим построение карт Кохонена и кластеризацию при помощи их в трех нейропакетах: Excel Neural Package, Deductor и Statistica.

 

Проектирование карты Кохонена в пакете Excel Neural Package.

Пусть имеется файл с данными о состоянии районов РТ: доля оплаченных счетов, доля долгов, недопоставки района и субсидии району (Районы.xls). Необходимо разбить районы республики Татарстан на группы (кластеры) в зависимости от четырех указанных показателей. Для этого:

1. Для работы выделите область данных на листе книги MS Excel. По определению данные на листе располагаются следующим образом: входы и выходы – столбцы, а строки – это обучающие примеры. Выделяемая область может включать в первой строке названия входов как на русском, так и на английском языке. Кроме того, в первой колонке могут находиться данные, используемые не для обучения сети Кохонена, а для идентификации примеров при последующем анализе результатов.

 

2. Кликните мышкой по кнопке с цветной картой Кохонена на панели инструментов «Neural Analysis ». В ответ появится диалоговое окно «Select data source», предлагающее уточнить параметры области данных для работы.

В нашем примере предлагается использовать первую строку как названия столбцов, а первый столбец как названия строк, т.е. кластеризуемых данных.

3. Если параметры ввода Вас удовлетворяют, нажмите кнопку «ОК».

4. Перед Вами откроется основное окно программы Kohonen Map, которое содержит два листа «Project» и «Results».

 

5. Открывшийся перед Вами лист «Project» позволяет определить и предобработать данные для последующего использования. Кроме того, с этого листа можно сохранить обученную нейросеть («Save Project…») или загрузить уже сохраненный в прошлом проект («Load Project…»). Первое, что вам надо сделать, - это определить входы, для чего нажмите на кнопку «Create patterns…».

6. В открывшемся диалоговом окне «Select relevant columns» выберете в окне левого списка «All columns» необходимые входы и с помощью кнопок «>» или «>>» переведите в окно списка «Selected». Корректировку выбранных входов можно провести используя кнопки «<» или «<<». Отметим, что все данные являются входными и участвуют в обучении.

7. Поскольку конкретные значения входов могут быть любого диапазона, то рекомендуется провести их нормировку. Для большинства случаев подходит нормировка входных значений «Mean/Variance». Нажмите кнопку «Normalize…» и выберите в открывшемся окне «Inputs normalization» соответствующую позицию переключателя. Подтвердите Ваш выбор нажатием кнопки «Ок» и вернитесьв окно «Select relevant columns».

8. Следующий этап – создание сети – карты Кохонена. Нажатием кнопки «Create Network…» перейдите в диалоговое окно «Dialog» и задайте параметры сети: число ячеек по горизонтали и вертикали.

В нашем примере мы выбрали размеры карты 3х3, т.е. все районы РТ будут разбиты на 9 кластеров.

9. Подтвердите выбранную Вами конфигурацию нейросети нажатием кнопки «Ок». Далее автоматически стартует процесс обучения.

10. По завершении процесса обучения для анализа результатов перейдите на закладку «Results».

Здесь доступны следующие функции.

· Кнопка «Create New Map…» - цветовая раскраска карты Кохонена по любому параметру с выбранной степенью градации.

Выбор раскраски карты по оплате с пятью степенями градации цвета.

Результат раскраски по оплате.

Выбор раскраски карты по недопоставкам с четырьмя степенями градации цвета.

Результат раскраски по недопоставкам.

Размеры каждого квадрата-кластера пропорциональны числу примеров, принадлежащих данному кластеру после обучения.

· Кнопка «Cell Description…» - определение усредненных значений входных параметров для данного кластера (ячейки) и принадлежащих ему примеров.

Описание кластера А1.

 

· Кнопка «Find Cell…» - поиск кластера, которому принадлежит данный пример.

Определение кластера, к которому принадлежит Алькеевский район (результат – кластер А3).

· Кнопка «Output» - сохранение результатов в книге MS Excel.

Выгрузка данных для каждого района в таблицу Excel.

В нашем примере данные выгружаются в ячейки, начиная с F2. Для каждого района указывается кластер, к которому он принадлежит. Кластеры обозначаются двойной маркировкой БУКВА_ЦИФРА.

11. Программа позволяет также управлять параметрами процесса обучения и изменения цветовой палитры раскраски карты Кохонена. Для этого выберите пункт меню «Program», пункт «Preferences» и далее «Set Custom…».

В открывшемся окне «Program preferences» на закладке «Colors» можно установить другие цвета градационной раскраски карты,

а на странице «Training parameters» - параметры обучения сети.

Восстановить параметры программы по умолчанию можно, выбрав там же подпункт меню «Set Defaults».

12. Создаваемая при нажатии кнопки «Create New Map…» карта является активной: при двойном щелчке мыши на какой-либо ячейке открывается окно «Cell description», в котором удобно проводить анализ усредненных значений параметров.

Дополнительно предусмотрена возможность сохранения изображения карты раскраски в формате *.bmp для последующего экспорта через клипборд в любые документы MS Office. Для этого в окне карты выберите пункт меню «Actions» и далее «Copy to Bitmap».

Далее вернитесь в документ MS Office и произведите вставку рисунка командой «Paste» меню «Edit».

 

13. Теперь осталось сохранить результаты работы. В программе предусмотрены функции сохранения проекта (кнопка «Save Project…») и экспорта результатов назад в книгу MS Excel. Для экспорта результатов перейдите на закладку «Project», задайте необходимые параметры и сохраните результаты нажатием кнопки «Ок».

 

Проектирование карты Кохонена в пакете Deductor.

Рассмотрим ту же задачу, что была решена в пакете Excel Neural Package: имеется база данных районов РТ с показателями за текущий период. Необходимо провести их кластеризацию за ИЮНЬ месяц, т.е. выделить однородные группы районов на основе показателей из базы данных, всего показателей - 4. Исходная таблица находится в файле "Районы.xls".

Запустим программу Deductor. Сначала импортируем данные из xls-файла в среду аналитического пакета, нажав на кнопку «Импорт» . Затем в диалоговом окне «Мастер импорта» выберем тип импортируемого файла – Excel:

Следуя подсказкам мастера, импортируем файл Районы.xls:

Все столбцы таблицы, кроме названий районов, будут являться входными:

Импортируемые данные представим в виде таблицы:

 

 

Далее запускаем мастер обработки и выбираем из списка метод обработки "Карта Кохонена".

Далее следует настроить назначения столбцов, т.е. для каждого столбца выбрать одно из назначений: входное, выходное, не используется и информационное. Так как мы уже настраивали эти значения при импорте, оставляем все без изменений: поле «Районы» - информационное, поля «Оплата», «Долг», «Недопоставки», «Субсидии» - входные.

Следующий шаг предлагает разбить исходное множество на обучающее, тестовое и валидационное. По умолчанию,программа предлагает разбить множество на обучающее - 95% и тестовое - 5%.

На следующем шаге предлагается настроить параметры карты: количество ячеек по Х и по Y их форму (шестиугольную или четырехугольную).

 

 

Рис.. Настройка параметров карты Кохонена

Далее на шаге "Настройка параметров остановки обучения", проиллюстрированном на рис., устанавливаем параметры остановки обучения и устанавливаем эпоху, по достижению которой обучение будет прекращено.

Рис... Настройка параметров остановки обучения

 

На следующем шаге настраиваются другие параметры обучения: способ начальной инициализации, тип функции соседства. Возможны два варианта кластеризации: автоматическое определение числа кластеров с соответствующим уровнем значимости и фиксированное количество кластеров (определяется пользователем). Поскольку нам неизвестно количество кластеров, выберем автоматическое определение их количества.

 

Рис.. Настройка параметров обучения

 

Далее запускаем процесс обучения сети - необходимо нажать на кнопку "Пуск" и дождаться окончания процесса обучения. Во время обучения можно наблюдать изменение количества распознанных примеров и текущие значения ошибок.

По окончании обучения в списке визуализаторов выберем "Карту Кохонена" и визуализатор "Что-если". На последнем шаге настраиваем отображения карты Кохонена.

 

Рис... Настройка отображений карты Кохонена"

Укажем отображения всех входных столбцов, кластеров, а также поставим флажок "Границы кластеров" для четкого отображения границ.

 

Карты входов

При анализе карт входов рекомендуют использовать сразу несколько карт.

Рис.. Карты четырех входов

 

На одной из карт выделяем область с наибольшими значениями показателя. Далее имеет смысл изучить эти же нейроны на других картах.

На первой карте, отображающей оплату в районах, наибольшие значения имеют объекты, расположенные в правом верхнем углу. Рассматривая одновременно четыре карты, мы можем сказать, что эти же объекты имеют наибольшие значения показателя, изображенного на четвертой карте - субсидии. Долги же и недопоставки в районах этого кластера низкие. То есть, районы, попавшие в этот кластер, характеризуются как благоприятные.

Это лишь фрагмент вывода, который можно сделать, исследуя карту.

На следующем рисунке (рис.) приведена иллюстрация карты кластеров. Здесь мы видим сформированные кластеры, каждый из которых выделен отдельным цветом.

Рис.. Карта кластеров

 

Для нахождения конкретного объекта на карте необходимо нажать правой кнопкой мыши на исследуемом объекте и выбрать пункт "Найти ячейку на карте". Выполнение этой процедуры показано на рис.. В результате мы можем видеть как сам объект, так и значение того измерения, которое мы просматриваем. Таким образом, мы можем оценить положение анализируемого объекта, а также сравнить его с другими объектами.

 

Рис.. Ячейка на карте

В результате применения самоорганизующихся карт многомерное пространство входных факторов было представлено в двухмерном виде, в котором его достаточно удобно анализировать.

 

Районы были классифицированы на 7 групп, для каждой из которых возможно определение конкретных характеристик, исходя из раскраски соответствующих показателей.

Проектирование карты Кохонена в пакете Statistica.

Решается задача кластеризации районов Республики Татарстан по четырем показателям за июнь месяц. Исходные данные содержаться в файле Районы.xls.

В начале работы необходимо импортировать данные из файла Районы.xls в пакет Statistica. Подробно процесс импорта был рассмотрен в предыдущих лабораторных работах. При этом необходимо указать, что в первом столбце содержатся названия районов, а в первой строке – названия их характеристик:

Затем необходимо запустить пакет обработки данных при помощи нейронных сетей: меню «Анализ» раздел «Нейронные сети»:

В открывшемся окне выбрать лист для обработки, и нажать кнопку «ОК».

В раскрывшемся окне выбрать тип задачи – «Кластерный анализ», а в качестве инструмента – «Конструктор сетей», так как «Мастер решений» для задач кластеризации в пакете не реализован.

Нажав на кнопку «ОК», перейдем к заданию входных и выходных переменных. В нашем случае все переменные будут входными:

Подтвердив свой выбор, вернемся в окно Нейронные сети. Нажав на кнопку «ОК» еще раз, перейдем в окно конструктора сети. На вкладке «Быстрый» выберем «Самоорганизующаяся карта Кохонена»,

а на вкладке «Элементы» зададим размер карты, т.е. число кластеров, на которое сеть разобьет все множество данных. В нашем случае выберем карту 3 на 3, т.е. 9 кластеров:

Подтвердив выбор, прейдем к окну обучения, где можно задать всевозможные параметры построения и обучения карты:

На этой же странице, нажав на кнопку «Выборки», можно задать количество обучающих, тестовых и контрольных примеров:

Вернувшись к окну обучения и нажав кнопку «ОК», запустим процесс обучения карты. Результат представлен на рис.

 

На вкладке «Топологическая карта» представлено изображение карты Кохонена. Размер закрашенной области внутри квадратов символизирует количество примеров, отнесенных к данному кластеру. Нажав на кнопку «Отмена» можно вернуться в основное окно результатов, где, перемещаясь по вкладкам, отследить номера кластеров, к которым принадлежит каждый район, а также задать характеристики нового района и посмотреть, к какому кластеру отнесет его сеть.

 

Необходимо отметить, что для такого мощного инструмента анализа данных, как Statistica, инструменты для построения карт Кохонена проработаны явно недостаточно. Карты выглядят крайне мало информативно, отсутствуют многие инструменты их обработки и просмотра, что делает пакет Statistica не лучшим выбором при построении самоорганизующихся карт.

Задание на работу:

 

Спроектировать, обучить и сохранить нейронную сеть Кохонена для кластеризации банков Украины в зависимости от показателей их деятельности в трех изученных нейропакетах. Исходные данные содержаться в файле Lab-3.xls.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-11-19 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: