Vostrikov A.A., Kulikov A.V., Musatov E.A.




Makarova S.P., candidate of sociological sciences, research supervisor,

Cherepovets highest military engineering college of radio electronics,

Russian Federation, 162600, Vologda region, Cherepovets, Soviet, 126.

 

Abstract. This article refers to the various approaches to the classification of the hero. The essential characteristics of heroism for each types are highlighted, explanatory examples are provided. Probable reason of multivariate approaches to heroism is distinguished. The most probable causes of deformation in the perception of heroism for nowadays are displayed.

Key words: hero, classification of heroes, diversity in types of heroes, degeneration

 

УДК 004.8.032.26

ГРНТИ 28.23.37

УСОВЕРШЕНСТВОВАННЫЙ МЕТОД КЛАСТЕРИЗАЦИИ НА ОСНОВЕ
САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА

Зайнуллин А.С.

Череповецкое высшее военное инженерное училище радиоэлектроники

Российская Федерация, 162600, Вологодская область, г. Череповец, Советский пр-т, д.126

Аннотация. В статье рассмотрен типовой метод кластеризации с использованием самоорганизующихся карт Кохонена, алгоритм его работы и основные недостатки. Предложен усовершенствованный метод кластеризации на основе самоорганизующихся карт путем использования карт плотностей и расчета коэффициентов связи между нейронами в сети. Представлены результаты экспериментов с использованием программного макета, в котором реализован предлагаемый метод.

Ключевые слова: кластеризация, обработка данных, карты Кохонена, самоорганизующиеся карты Кохонена, искусственные нейронные сети, нейронные сети, карта плотностей.

Р

азвитие средств связи и каналов передачи данных привели к устойчивому росту объемов циркулирующей в ней информации. Согласно исследованию корпорации IDC (IDC), объем сгенерированных данных на 2017 г. Составляет 16 зеттабайт, а к 2025 г. Ожидается его увеличение до
160 зеттабайт. Стоит также отметить, что критически важной информации среди всего объема данных достаточно мало (рис.1). Для их извлечения необходимо применять соответствующие методы обработки: обу­че­ние ассо­ци­а­тив­ным пра­ви­лам, клас­си­фи­ка­ция (методы кате­го­ри­за­ции новых дан­ных на основе прин­ци­пов, ранее при­менён­ных к уже нали­че­ству­ю­щим дан­ным), кла­стер­изация, регрес­си­он­ный ана­лиз и т.д.

 

 

Рисунок 1. Соотношение данных различной степени важности [1]

На графике представлены три типа данных: «маловажные» данные (не несущие особого смысла и полезной информации), «важные» данные (необходимые для обычной деятельности пользователей информационных систем) и «критически-важные» (например, данные о коммерческих авиаперелетах, медицинские данные, данные систем контроля и телеметрии и т.п.) данные.

Кластеризация — это разделение исследуемого множества объектов на группы «похожих» объектов, называемых кластерами. Задача кластеризации принципиально отличается от задачи классификации. Решением задачи классификации является отнесение каждого из объектов к одному из заранее определенных классов. В задаче кластеризации происходит отнесение объекта к одному из заранее неопределенных классов. Разбиение объектов по кластерам осуществляется при одновременном формировании кластеров.

Кластеризация позволяет сгруппировать сходные данные, что облегчает решение ряда задач. Содержательный анализ полученных кластеров позволяет обнаружить закономерности, помогает выявить аномалии (обычно, это кластеры, в которые попадает мало объектов).

Карты Кохонена (самоорганизующиеся карты, или SOM — self-organizing maps) [1] предназначены для визуального представления многомерных свойств объектов на двумерной карте. Карты Кохонена производят отображение входных данных высокой размерности на элементы регулярного массива малой размерности (обычно, двумерного).

В алгоритме SOM выделяют два основных этапа:

 

I. Подготовка к работе:

· Представление данных в виде вектора

· Инициализация карты (задание начальных значений для нейронов).

 

II. Обучение (для каждого вектора Х):

(до тех пор, пока количество итераций не достигнет максимума или ошибка не станет меньше определенного числа)

· Нахождение нейрона-победителя на карте для вектора Х;

· Корректировка весов параметров нейронов карты.

 

Исходными данными для алгоритма являются вектора с числовыми параметрами. Для работы с текстовыми документами необходимо привести их к векторному виду. Для решения данной задачи широко применяется метрика TF-IDF, для вычисления интегральной значимости каждого термина во всех документах текстового корпуса. Таким образом, каждый документ будет представлен своим набором числовых значений для каждого слова этого документа.

В типовом методе кластеризации возникает проблема определения числа кластеров. В данном случае, это задается заранее, до процесса кластеризации. В предлагаемом методе эта проблема была решена путем расчёта дополнительной карты плотности нейронов и связи между ними в ходе обучения карты. Данный метод был разработан французскими научными деятелями в 2012 году для исследования пространственной и социальной организации колоний муравьев [4]. Рассмотрим метод на примере векторов, параметрами которых являются координаты X и Y (рис. 2, а). После обучения образуются группы связанных нейронов (рис. 2, б) и карта плотности распределения исходных векторов (рис.2, в).

 

а) б) в)

Рисунок 2. Пример работы алгоритма

 

а) б) в)

Рисунок 3. Пример работы алгоритма

Следующим действием вычисляются экстремумы на карте плотности (рис.3, а) и относительно них определяются кластеры внутри групп связанных нейронов (рис.3, б). Если значение плотности нейронов на пересечении между кластерами превышают вычисленный теоретический порог, то кластеры объединяются. Таким образом, мы имеем четко разделенные кластеры исходных данных (рис.3, в).

Улучшенный алгоритм имеет следующий вид:

 

I. Подготовка к работе:

· Представление данных в виде вектора ;

· Инициализация карты (задание параметров).

 

II. Обучение (для каждого вектора Х):

(до тех пор, пока количество итераций не достигнет максимума или ошибка не станет меньше определенного числа)

· Нахождение первых двух победителей на карте;

· Корректировка весов параметров нейронов карты;

· Увеличение плотности нейронов;

· Обновление связей между нейронами.

 

III. После обучения:

· Определение групп связанных нейронов;

· Нахождение максимумов по плотности;

· Деление на кластеры по плотности и группам.

 

Данный алгоритм был программно реализован для обработки неструктурированных текстовых данных. Эксперименты на заранее подготовленных выборках документов показали положительные результаты работы алгоритма (рис.4).

В ходе экспериментов был рассчитан показатель точности работы алгоритма, представляющий собой отношение правильно распределённых документов в кластерах к общему числу документов. Точность составила 84,1%, что свидетельствует об эффективности применения данного алгоритма. Особенностью применения данного метода является также использование морфологического анализа слов в процессе формализации текстовых документов. Что позволило повысить точность алгоритма с 61,3 % до 84,1%.

В качестве исходных данных было взято несколько новостных выборок по определенным темам. Например, в текстах " Черное море *.txt " представлены краткие новостные сводки с разных сайтов связанных с крушение сухогруза "Герои Арсенала" в акватории Черного моря. В документах " Прибалтика *.txt " и " Сирия *.txt " – статьи по военно-политической обстановке в соответствующих регионах. Во второй выборке исходными данными были различные научные статьи их разных предметных областей и 4 статьи из журнала ЗВО. В результате были сформированы кластеры, объединенные тематическим содержимым текстов.

 

Рисунок 4. Результаты экспериментов

Таким образом, был усовершенствован типовой метод кластеризации SOM с помощью расчёта карты плотности и добавления связей между нейронами. Предлагаемый метод показал хорошие результаты в работе с текстовыми данными. Основное направление в совершенствовании алгоритма ориентировано на более эффективное представление текстовых данных в виде векторов посредством учета структурно-ролевых связей слов в предложениях текста.

 

Литература

1. Кохонен Т. Самоорганизующиеся карты. М.: БИНОМ. Лаборатория знаний, 2008. 655 с.

2. Осовский С. Нейронные сети для обработки информации. М.: Финансы и статистика, 2002. 244 с.

3. Самоорганизующиеся карты – математический аппарат. URL: https://basegroup.ru/community/articles/som (дата обращения 11.12.2017).

4. Cabanes, G. A simultaneous two-level clustering algorithm for automatic model selection. // Cabanes, G. & Bennani, Y. (2007). International Conference on Machine Learning and Applications (ICMLA’07) Cincinnati, Ohio, USA.

5. Tibshirani R., Hastie T. Discriminative adaptive nearest neighbor classification. // IEEE transactions on pattern analysis and machine intelligence.

6. Silverman, B. W. (1986). Density Estimation for Statistics and Data Analysis. Chapman & Hall/CRC.

 

References

1. Cohonen T. Self-organizing maps. М.: BINOM. Knowledge laboratory, 2008. 655 p.

2. Osovsky S. Neuron networks for information processing. М.: Finances and statistics, 2002. 244 p.

3. Self-organizing maps – mathematical apparatus. URL: https://basegroup.ru/community/articles/som

4. Cabanes, G. A simultaneous two-level clustering algorithm for automatic model selection. // Cabanes, G. & Bennani, Y. (2007). International Conference on Machine Learning and Applications (ICMLA’07) Cincinnati, Ohio, USA.

5. Tibshirani R., Hastie T. Discriminative adaptive nearest neighbor classification. // IEEE transactions on pattern analysis and machine intelligence.

6. Silverman, B. W. (1986). Density Estimation for Statistics and Data Analysis. Chapman & Hall/CRC.

 

IMPROVED CLUSTERING METHOD BASED ON
KOHONEN SELF-ORGANIZING MAPS

Zaynullin A.S.

Cherepovets Higher military engineering radioelectronics School

Russia 162600 Vologodskaya region, Cherepovets, Sovetskiy Avenue - 126

Abstract: This article reveals typical clustering method based on use of Kohonen self-organizing maps, its algorithm and main disadvantages. Suggested improved clustering method based on self-organizing maps through using of density maps and evaluating strength of connections between neurons network. Presented experiments results from program model which automates suggested method.

Keywords: clustering, data processing, Kohonen maps, Kohonen self-organizing maps, artificial neuron networks, neuron networks, density maps.

УДК 316.37

ГРНТИ 15.41.21



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-04-04 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: