Актуальность применения интеллектуальных технологий в автоматической фильтрации спама

К.А. Деревянкин, магистрант

ФГБОУ ВПО ОГУ

Нежелательные почтовые рассылки, так называемый спам, в настоящее время стали большой проблемой для пользователей электронной почты. По данным «Лаборатории Касперского» в 2014 году доля спама составила 66,76% отобщего количества электронных писем [1]. С ростом популярности сервисов мгновенных сообщений и социальных сетей растет количество спама и в данных сервисах. Также отмечается рост спама в смс-сообщениях.

Большое количество нежелательных сообщений сказывается на эффективности работы,как отдельного пользователя, так и организации в целом. Поэтому любой пользователь почтовой системы желает получить наиболее эффективный и дешевый способ защиты от спама.

Проблема фильтрации нежелательных сообщений не нова. Сегодня существует множество различных решений, предлагаемых для фильтрации спама.

Существующие в настоящее время методы борьбы со спамом можно разделить на две категории: распределенные и локальные.

Распределенные методы обнаружения спама используют в основном крупные провайдеры, поскольку анализ и принятие решения осуществляется на основе информации, получаемой из крупных почтовых систем с миллионами пользователей. Смысл распределенных методов обнаружения спама заключается в сборе данных о почте из максимально возможного количества точек сети. Эти данные обрабатываются и делаются доступными для всех заинтересованных участников информационного обмена в сети. Качество фильтрации достигается увеличением числа участников и совершенствованием механизмов сбора и анализа информации о спаме. Недостатком распределенных методов борьбы со спамом является отсутствие возможности тонкой настройки фильтра в почтовой системе.

Локальные методы работают в рамках одной почтовой системы и не полагаются на внешние сервисы. Однако изменение вида входящих спам писем или способов рассылки, приводит к большому числу ошибок спам-фильтра. В отличии от распределенных методов обнаружения спама, в локальных методах имеется возможностьтонкой настройки фильтра под конкретного пользователя[2].

Локальные методы можно разделить по способу их работы на несколько типов.

Байесовская фильтрация. Данный метод фильтрации спама, основан на применении наивного байесовского классификатора, в основе которого лежит применение теоремы Байеса.Он позволяет классифицировать письма путем нахождения в теле письма признаков спама – заранее определенных строк и/или их комбинаций. Так как нежелательные письма рассылаются массово, то можно предположить, что такие письма будут содержать одни и те же слова, речевые обороты, контактные данные, названия торговых марок и т.д.

Методы на основе формальных протокольных правил.При генерации спам-сообщений могут допускаться ошибки в оформлении заголовков, в результате чего, спам далеко не всегда соответствуют требованиям почтового стандарта RFC (RequestforComments – рабочее предложение), описывающего формат заголовков. Следовательно, любого отправителя, нарушающего стандарт RFCSMTP (SimpleMailTransferProtocol – простой протокол передачи почты) протокола, можно считать распространителем спама и не принимать письма от него.

Процедурные методы. Суть данного метода заключается в том, чтобы перед приемом письма от неизвестного ранее отправителя, автоматически отправлять ему ответ, в котором потребовать выполнить какое-то действие, открыть в браузере ссылку, находящуюся в письме, отправить в ответ на запрос пустое письмо и т.д. Это действие должно выбираться таким образом, что для его однократного выполнения требовалось приложить минимум усилий, тогда как при массовой рассылке, выполнение этих действийстановилось трудозатратным.

Проверка подлинности отправителя.Если рассылка спама происходит с серверов,которые не зарегистрированы как почтовый домен и не являются полноценными SMTP-серверами, то данные отправителя в спам-письмах практически всегда оказываются поддельными. Этот метод позволяют отсечь большинство поступающего спама.

Распределенные методы борьбы со спамом можно разделить на две категории.

Методы на основесигнатур. Эти методы базируются на том, что при любой рассылке спама, число адресатов довольно велико, а сама рассылка может занимать длительное время, вплоть до нескольких суток. Еслина начальном этапе рассылки идентифицировать тот факт, что отдельно взятое сообщение является массовым, то можно заблокировать всю рассылку, и это сообщение получит только небольшой процент пользователей, адреса которых оказались в начале спискаполучателей. К достоинствам этого метода можно отнести отсутствие необходимости регулярного «обучения» и самостоятельной настройки фильтра.

Грейлистингили «серые списки». Этот способ блокировки спама, основан на том, что «поведение» программного обеспечения, предназначенного для рассылки спама, отличается от поведения обычных серверов электронной почты. При приеме письма, почтовый сервер получателя отказывается принять письмо и сообщает о «временной ошибке». Отказ идет с кодом ошибки, который понимают все почтовые системы. Спустя некоторое время они повторно присылают сообщение. А программы, рассылающие спам, в таком случае повторно письмо не отправляют. Минусом данного способа является задержка в доставке почты[3].

Списки блокировкиили «черные списки»DNSBL (DNS BlackList), представляют собой базы данных IPадреса серверов, с которых рассылается спам. Если какой-либо IP адрес был внесен в списки DNSBL, то почтовый сервер, основываясь на своих настройках, может отклонять, либо помечать как спам все входящие сообщения с данного адреса.Благодаря простоте реализации использование «черных списков» производится через службу DNS.

Все рассмотренные вышеспособы защиты от спама отстаютот методов рассылки спама и развиваются вслед за ними. Сначала появляется новый вид или способ рассылок, а затем против него создается защита.

Создание спам-фильтра, который смог бы самостоятельно адаптироваться к новым видамрассылок нежелательных писем и подстраиваться под нужды конкретного пользователя, в настоящее время является актуальной задачей.

Используемый в настоящее время байесовскийметод фильтрации спама предполагает, что словаэлектронного сообщениянезависимы друг от друга и смысловые связи между ними не учитываются. Для повышения эффективности байесовского фильтра необходимо учитывать семантические связи между словами, что требует привлечения методов семантического анализа и существенно повышает нагрузку на систему,увеличивая время работы самого фильтра.

Другим подходом, приобретающим в последнее время все большее распространение, является использование нейронных сетей.

Преимущество нейросетевого подхода состоит в том, что не делается никаких предварительных предположений о характере нежелательных сообщений, а семантические связи между словами электронного сообщения учитываются автоматически, что положительно сказывается на качестве фильтрации[4].

Спам-фильтры, использующие технологии искусственного интеллекта, требуют обучения только на начальном этапе и могут дообучаться в дальнейшем самостоятельно.

Для создания интеллектуального спам-фильтра необходимо решить следующие задачи:

1) выбрать архитектуру нейронной сети;

2) определить количество скрытых слоев в нейронной сети;

3) подобрать функцию активации нейронов в нейросети;

4) выбрать алгоритм кластеризации слов в электронном сообщении;

5) изучить существующие библиотеки реализации нейросетевых технологий;

6) выбрать среду программирования и определить архитектуру программного модуля.

Разработкатакого спам-фильтра позволит:

1) уменьшить количество спама в электронной почте;

2) уменьшить количество ложных тревог при принятии легитимного сообщения за спам;

3) фильтровать письма с учетом особенностей электронной почты компании или конкретного пользователя.

Данный вид спам-фильтров относятся к локальным методам фильтрации спама и может использоваться совместно с распределенными методами.

Литература

1 KasperskySecurityBulletin. Спам и фишинг в 2014 году | Securelist - Всё об интернет-безопасности[Электронный ресурс]. – Режим доступа: https://securelist.ru.

2 Ковалев, С. С. Современные методы защиты от нежелательных почтовых / С.С. Ковалев, М.Г. Шишаев // Труды Кольского научного центра РАН, 2011. – №7. – с. 100 – 111.

3 Слепов, О. Спам: мониторинг электронной почты / О. Слепов // Открытые системы. СУБД, 2004. – №10. – с. 36 – 40.

4 МироненкоА.Н. Автоматическая фильтрация спама на базе сети формальных нейронов /А.Н.Мироненко // Вестник Омского университета, 2011. – № 2. – с. 178–181.

5 Татарников, О.Антиспамовые фильтры / Олег Татарников // КомпьютерПресс,2005. – №2. – с. 94-95.

Актуальность применения интеллектуальных технологий в автоматической фильтрации спама

Поиск по сайту