Метод выявления статуса спамности сообщения на основе интеллектуального определения значимости слов

УДК 004.89

Деревянкин Константин Александрович

магистрант ОГУ,

г. Оренбург, РФ

Е-mail: derevyankin_ka@mail.ru

Метод выявления статуса спамности сообщения на основе интеллектуального определения значимости слов

Нежелательные почтовые рассылки, так называемый спам, в настоящее время стали большой проблемой для пользователей электронной почты. «По данным «Лаборатории Касперского» в 2014 году: доля спама составила 66,76%» [1, с. 1]. С ростом популярности сервисов мгновенных сообщений и социальных сетей растет количество спама и в данных сервисах.

Большое количество нежелательных сообщений негативно сказывается на эффективности работы, как отдельного пользователя, так и организации в целом. «Поэтому любой пользователь почтовой системы желает получить наиболее эффективный и дешевый способ защиты от спама» [2, с. 100].

Проблема фильтрации нежелательных сообщений не нова и сегодня имеется множество различных решений, предлагаемых для фильтрации спама.

Все существующие методы борьбы со спамом можно разделить на две категории: распределенные и локальные.

Распределенные методы используют в основном крупные провайдеры, поскольку информация для анализа и принятие решения осуществляется на основании данных, полученных из крупных почтовых систем с большим количеством пользователей. «Смысл распределенных методов обнаружения спама заключается в сборе данных о почте из максимально возможного количества точек сети. Эти данные обрабатываются и делаются доступными для всех заинтересованных участников информационного обмена в сети» [3 c. 9]. Качество фильтрации достигается путем увеличения числа участников и улучшением механизмов сбора и анализа информации о спаме. Недостатком распределенных методов борьбы со спамом является отсутствие возможности тонкой настройки фильтра в почтовой системе.

Распределенные методы борьбы с нежелательными сообщениями можно разделить на два вида: методы на основе сигнатур; списки блокировки (черные списки, серые списки, белые списки).

Локальные методы обнаружения спама работают в рамках одной почтовой системы и не полагаются на внешние сервисы. Однако изменение вида входящих спам писем или способов рассылки, приводит к большому числу ошибок спам-фильтра. В отличии от распределенных методов обнаружения спама, в локальных методах имеется возможность тонкой настройки фильтра под конкретного пользователя.

Локальные методы можно разделить по способу их работы на несколько типов: байесовская фильтрация; проверка подлинности отправителя сообщений; методы процедурного анализа; методы, основанные на выявлении нарушений протокольных правил.

Все рассмотренные выше методы защиты от нежелательных сообщений не успевают адаптироваться к постоянно изменяющимся способам их рассылки. Сначала появляется новый вид или способ рассылок, а только потом против него создается защита.

Другим подходом, приобретающим в последнее время все большее распространение в различных областях, например при управлении бизнесом и финансами, является привлечение методов искусственного интеллекта – нейронных сетей. «В настоящий момент информационные системы на базе нейросетевых пакетов можно рассматривать как весьма перспективное средство анализа данных для практического применения в управлении бизнесом и финансами» [4, с. 223]. Преимуществом нейронных сетей является способность обучаться и адаптироваться к изменениям окружающей среды.

Применение нейронных сетей позволит создать спам-фильтр, который будет не только самостоятельно приспосабливаться к новым видам рассылки спама, но и подстраиваться под особенности конкретного пользователя или организации.

Обобщенно, технологию создания спам-фильтра с использованием нейронной сети, можно разделить на два этапа:

1) Преобразование входящего сообщения в числовой вектор, который характеризует данное сообщение;

2) Используя данный вектор, определить, является ли сообщение спамом или нет.

Такой принцип лежит в основе почти всех, применяемых в настоящее время, спам-фильтров с использованием нейронных сетей. В качестве преобразования входящего сообщения в вектор, они используют различные методы кластеризации, с применением математических или нейросетевых алгоритмов, а для определения статуса сообщения (спам / не спам) используются нейронные сети различных архитектур: самоорганизующиеся карты Кохонена, многослойный перцептрон и т.д.

Однако такой подход имеет недостаток, при анализе текста не учитывается семантическая значимость слов в предложениях, то есть все слова текста считаются равнозначными. Для устранения этого недостатка можно привлечь интеллектуальные методы анализа текста.

В качестве одного из них предлагается метод выявления статуса спамности сообщения, основанный на интеллектуальном определении значимости слов. Укрупненный алгоритм выявления спамности сообщения, в соответствие с этим подходом, представлен на рисунке 1.

В соответствие с этим алгоритмом каждое входящее сообщение разделяется на слова. Новые слова, которых еще нет в словаре, добавляются в него. В словаре каждому слову соответствует два числа – частота появления слова в спам сообщениях и частота появления слова в не спам сообщениях. Отношение этих двух чисел будем называть коэффициентом спамности слова.

Далее, для каждого слова в предложениях определяется коэффициент его семантической значимости. Для этого используется предварительно обученная нейронная сеть, которая реализует два метода: метод распределенной памяти и распределенный мешок слов.

Рисунок 1 – Укрупненный алгоритм выявления спамности сообщения на основе интеллектуального определения значимости слов

На следующем шаге происходит пересчет коэффициентов спамности слов, с использованием вектора коэффициентов значимости слов в сообщении и вектора коэффициентов спамности этих же слов из словаря.

Далее проводится нормализация вектора коэффициентов, то есть он приводится его к виду, который наиболее подходит для обработки с помощью нейронной сети.

Затем вектор подается на вход нейронной сети, которая определяет, является ли сообщение спамом или нет.

После определения статуса сообщения, происходит обновление коэффициентов спамности слов в словаре. То есть система постоянно находится в режиме обучения.

Такая нейронная сеть может использоваться не только для определения является ли письмо спамом, но и для классификации писем по категориям, например, рабочие письма, новостные письма и так далее.

Список использованной литературы:

1. Kaspersky Security Bulletin. Спам и фишинг в 2014 году | Securelist - Всё об интернет-безопасности [Электронный ресурс]. – Режим доступа: https://securelist.ru/analysis/ksb/25303/kaspersky-security-bulletin-spam-i-fishing-v-2014-godu/

2. Ковалев, С. С. Современные методы защиты от нежелательных почтовых / С.С. Ковалев, М.Г. Шишаев // Труды Кольского научного центра РАН, 2011. – № 7. – с. 100-111.

3. Слепов, О. Борьба со спамом / О. Слепов // Информационный бюллетень JET INFO 2004. – № 9.

4. Трипкош В.А. Анализ возможностей применения нейросетевых пакетов в информационных системах управления бизнесом и финансами / В.А. Трипкош // В сборнике: Современные информационные технологии в науке, образовании и практике Материалы XI Всероссийской научно-практической конференции. Оренбургский государственный университет. 2014. С. 221-223.

Метод выявления статуса спамности сообщения на основе интеллектуального определения значимости слов

Поиск по сайту