Интерпретация результатов. Представлении результатов на естественном языке, или в их визуализации в графическом виде.

Примеры средства анализа текстовой информации:

STATISTICA Text Miner — это дополнительное расширение программы STATISTICA Data Miner, предназначенное для перевода неструктурированных текстовых данных в информацию, пригодную для принятия решений. STATISTICA Text Miner позволяет извлекать из текста необходимые данные, структурировать их и представлять информацию в графическом виде (рис. 1). В качестве входных данных можно использовать не только текстовые документы или веб-страницы, но и файлы других типов. Программа обеспечивает доступ к текстовым документам в различных форматах, включая TXT, PDF, PS, HTML, XML, RTF и др.

Рис.1

«Галактика ZOOM» — это технология динамического контент-анализа. Она позволяет строить информационные портреты объектов по любой текстовой информации, в частности по сообщениям СМИ. Такой портрет состоит из статистически значимых слов и выражений, сопровождающих упоминание объекта.

«Галактика ZOOM» обеспечивает поиск в информационных массивах с применением языка запросов, а также контекстный или тематический поиск информации с учетом морфологии.

На рис. 2 показан пример «исследование — информационный портрет» — слова и словосочетания, отражающие информационное содержание объекта. Уникальной особенностью системы «Галактика ZOOM» является умение выявлять значимые слова и словосочетания документа, отражающие его смысл. Программа позволяет уточнить запрос, выбрав слово/словосочетание для включения (колонка «И») или исключения (колонка «И НЕ»).

Рис. 2. Пример работы «Галактика ZOOM»

Web Mining — это использование методов интеллектуального анализа данных для автоматического обнаружениявеб-документов и услуг, извлечения информации из веб-ресурсов и выявления общих закономерностей вИнтернете.

В Web Mining можно выделить следующие этапы:

· входной этап (англ. input stage) — получение «сырых» данных из источников (логи серверов, тексты электронных документов);

· этап предобработки (англ. preprocessing stage) — данные представляются в форме, необходимой для успешного построения той или иной модели;

· этап моделирования (англ. pattern discovery stage);

· этап анализа модели (англ. pattern analysis stage) — интерпретация полученных результатов.

Это общие шаги, которые необходимо пройти для анализа данных сети Интернет. Конкретные процедуры каждого этапа зависят от поставленной задачи. В связи с этим выделяют различные категории Web Mining:

· Web Content Mining;

· Web Structure Mining;

· Web Usage Mining.

Web Content Mining (Извлечение веб-контента) — процесс извлечения знаний из контента документов или их описания, доступных в Интернете. Поиск знаний в сети Интернет является непростой и трудоемкой задачей. Именно это направление Web Mining решает её. Оно основано на сочетании возможностей информационного поиска, машинного обучения и интеллектуального анализа данных.

Web Structure Mining (Извлечение веб-структур) — процесс обнаружения структурной информации в Интернете. Данное направление рассматривает взаимосвязи между веб-страницами, основываясь на связях между ними. Построенные модели могут быть использованы длякатегоризации и поиска схожих веб-ресурсов, а также для распознавания авторских сайтов.

Web Usage Mining (Анализ использования веб-ресурсов) — это автоматическое обнаружение шаблонов в маршруте передвижения пользователя и связанных с ним данными, собранными или приобретенными в результате взаимодействия с одним или несколькими веб-сайтами. Это направление основано на извлечении данных из логов веб-серверов. Целью анализа является выявление предпочтений посетителей при использовании тех или иных ресурсов сети Интернет.

Примеры:

"Задача "Выдавать ли кредит клиенту?" при помощи методов Data Mining решается следующим образом. Совокупность клиентов банка разбивается на два класса (вернувшие и не вернувшие кредит); на основе группы клиентов, не вернувших кредит, определяются основные "черты" потенциального неплательщика; при поступлении информации о новом клиенте определяется его класс ("вернет кредит", "не вернет кредит").

Задача привлечения новых клиентов банка.

С помощью инструментов Data Mining возможно провести классификацию на "более выгодных" и "менее выгодных" клиентов. После определения наиболее выгодного сегмента клиентов банку есть смысл проводить более активную маркетинговую политику по привлечению клиентов именно среди найденной группы.

Clementine- Приложение использует инновационные алгоритмы вывода для восстановления путей обхода пользователей и определения пользовательских сессий. Расширенныйалгоритмы web-mining выявляют движение пользователей через веб-сайт. Конечным результатом является коллекция ценных шаблонов просмотра, которые помогают лучше понять веб-мастеров поведения пользователей.

WebLog- Средство анализа обладающее полным доступом к журналу. Он позволяет отслеживать активность на вашем сайте за месяц, неделю, день и час, отображая итоговые значения показов, переданных байт и просмотров страниц, а также отслеживает наиболее популярные страницы.

Analog- Аналог программы для анализа логов с веб-сервера. Она сообщит вам, какие страницы являются наиболее популярными, страны, жители которых посещают сайты, а так же какие сайты они просматривали, неисправные ссылки и т.д.

СПИСОК ЛИТЕРАТУРЫ

1. Рыбина Г.В. Основы построения интеллектуальных систем/ Г.В. Рыбина-М.:Финансы и статистики. 2010. – 432с.

2. Сергушева С. В. Комплексный анализ текста/ С. В. Сергушева – СПб.: Изд-во СПбГУ, 2007. – 220 с.

3. vnutrislova.net: научная электронная библиотека [Электронный ресурс].– Режим доступа: https://vnutrislova.net/, свободный. – Загл. с экрана.

4. Берновский Ю.Н. Основы идентификации продукции и документов: учебное пособие/ Ю.Н. Берновский - М.: Юнити-Дана, 2012 г.

Интерпретация результатов. Представлении результатов на естественном языке, или в их визуализации в графическом виде.

Поиск по сайту