К небольшому холоду ели зимой. От леса ель была взята нами домой.

Выводы

МП как технологическая реальность

Четкая постановка задачи

Тематическое сужение

Работа в новых форматах

Обучаемость программ

Отсутствие косности в голове переводчика

Избавление от утопических взглядов

Введение в информационный поиск

Исходные положения

Неконтролируемость, быстрота пополнения ресурсов и объем Интернета

Огромное количество дубликатов

Представление информации в разных форматах

Тематическое разнообразие текстов

Специфика программирования WEB-страниц; спам

Коварство гипертекста, гиперссылки

Информационный поиск
(Information retrieval, IR, search)

Поиск неструктурированной информации, единицей которой является документ произвольных форматов. Предмет поиска – информационная потребность пользователя, выраженная в поисковом запросе (query).

Дополнительные задачи ИП

Навигация по коллекции документов

Фильтрация документов

Обработка найденных документов

Содержательная группировка

ИП и традиционный поиск по ключу

- Здравствуйте у меня вопрос по качеству обслуживания.

- О’к. Назовите, пожалуйста, номер Вашего лицевого счета…

Учебник: Введение в информационный поиск

Синонимы

Информационно-поисковая система (ИПС)

Поисковая система (ПС)

Поисковая машина (ПМ), машина поиска (МП)

Searching engine (SE)

Поисковик

ИПС трех уровней

Масштабные системы WEB-поиска

Системы корпоративного, ведомственного поиска, ориентированного на конкретную проблемную область

Системы персонального информационного поиска (например, в программах, работающих с e-mail)

Общая схема ИП

Запрос

ПМ

Отклик

Методология поиска

Прямой поиск (подстроки в документе без доп. обработки):

[Зюганов] ® Зюганова, Зюганову, Зюгановым, Зюгановых etc.

Индексирование документов (создание «поискового образа» документа)

Предварительная обработка документа

Извлечение

Определение формата, кодировки и языка

сегментация (выделение слов и предложений) = «токенизация» (проблема многословных токенов и границ предложений)

Удаление стоп-слов

Морфоанализ (при необходимости)

Предварительная обработка запроса

преобразование языковых выражений:

[что такое Х?]=[Х – это…]

[как купить Y?]=[купить Y]=[магазин + Y] и т.д.

Инвертированный файл индекса

в индексе поисковой системы значатся слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось:

подберезовик: 1®3®7®10®15

подосиновик: 2®3®51115®23

опенок: 10®15®27114

Вопросы к индексу

Сколько единиц должен содержать индекс?

Какова вероятность отсутствия нужных ссылок в индексе?

Как должен изменяться индекс в соответствии с изменением источников информации?

Пополнение баз ПС

Прямая индексация: разработчик сайта сам посылает информацию в ПС.

Программы-роботы, которые находят ссылки на новые страницы; запускаются разработчиками ПС (основной способ).

Поиск

В «открытом пространстве» Интернета

В закрытой коллекции (свои особенности)

Принцип человеко-машинного взаимодействия. Возможное участие экспертов в индексировании:

деньги Û качество

Базовые установки ПС

Формат представления данных в ПС

Формат запросов

Оценка релевантности документов (степени близости запроса и документа)

Модели ИП

Булевская (булевая, boolean model, двоичная модель): опирается на операции пересечения, объединения и вычитания множеств.

Векторная: документы и запросы рассматриваются как векторы в пространстве слов, а релевантность как расстояние между ними.

Булевская модель ИП

Работа с логическими операторами (And, Or, (And)Not)

Толстой And Достоевский [++]

Толстой Or Достоевский [+/+]

Толстой Not Достоевский [+/–]

Принцип хранения данных

Оценка булевской модели

Простота и удобство для тех, кто умеет пользоваться логическими операторами, но…

Излишняя строгость, отсутствие механизмов оценки релевантности слова для документа (и, соответственно, запроса), требование вроде простых, но все же специальных знаний.

Векторная модель ИП

Оценка значимости термина в документе и запросе.

Мера близости.

Вес термина: отношение между частотой в тексте и частотой в коллекции (TF/DF)

Насколько часто встречается в документе?

Частота термина (term frequency, TF) – частота употреблений слова в документе.

Насколько часто встречается в коллекции?

Частота (слова) в документах (document frequency, DF) – число документов в коллекции, содержащих данное слово.

Чем чаще термин встречается в коллекции, тем он менее интересен!

Сравним термины

Звук

Фонема

В лингвистическом тексте.

Какой более значим для автоматической оценки содержания текста и определения его тематики?

Оценка векторной модели

Оценивается важность термина (есть механизм ранжирования), но…

К небольшому холоду ели зимой. От леса ель была взята нами домой.

Поиск по сайту