TREC Достоинства и недостатки

Лекция 1

Выводы:

· Ежегодный мировой объем производимой информации увеличивается экспоненциально.

· Доля информации на цифровых носителях с каждым годом увеличивается по сравнению с аналоговыми носителями.

· Суммарное годовое потребление информации пользователями остается постоянной величиной.

· Проблема:

· Ежегодно увеличивается экспоненциальный разрыв между объемом производимой информации и её потреблением конечными пользователями

Подходы:

· Автоматизация средств поиска нужной конечному пользователю информации.

· Разработка средств адресной доставки потенциально востребованной информации конечным пользователям.

Жизненный цикл информационного ресурса:

· Становление ресурса

· Каталогизация

· Автоматическое индексирование

· Канонизация поисковых сервисов

· Угасание ресурса

Применение информационного поиска в библиотеках:

o Первый этап

§ Автоматизация традиционных технологий (карточных каталогов)

§ Поиск по автору и названию

o Второй этап:

§ Тематический поиск, ключевые слова

o В настоящее время:

§ Развитый графический интерфейс

§ Электронные формы

§ Гипертекст

§ Открытая архитектура

Лекция 2

Классификация – определяет соотношение между свойствами и классами.

· Монотетическая

o Класс определяется совокупностью свойств, которые являются необходимыми и достаточными для членства объекта в классе

· Политетическая

o Класс определяется множеством свойств таких, что для членства в классе объект должен иметь некоторое число (обычно большое) этих свойств, при этом ни один из членов класса не обладает всеми этими свойствами.

Определение информационного поиска:

· Информационный поиск связан с представлением, хранением и организацией слабо структурированных данных.

· Элементарной единицей информационного поиска является документ. При этом содержимое документа, как правило, рассматривается как текстовое (в виде совокупности слов).

Структура процесса информационного поиска.

Задача тематического поиска

Распространенной является задача тематического поиска:

o Вначале поиска пользователь не знает четко свою информационную потребность, а имеет о ней лишь общее представление, т.е. тему. Он может сформулировать лишь запрос самого общего характера.

o В процессе поиска пользователь уточняет свою информационную потребность и отбирает нужные ему документы. Побочным результатом является уяснение им самим своей информационной потребности.

Особенности Web, затрудняющие классический информационный поиск:

· Распределенность данных

· Высокий процент изменчивых данных

· Большой объем данных

· Неструктурированность данных

· Избыточность данных

· Качество данных

· Разнородность данных

· Дополнительные характеристики документов:

o HTML-тэги

o гиперссылки

· Неквалифицированные пользователи, предпочитающие короткие запросы

· Поисковый спам

Лекция 3

Ключевые проблемы

· Как определить информационную потребность пользователя из его запроса, представляющего собой текст на естественном на языке.

· Как сопоставлять запросы пользователей с документами из коллекции. Какие из документов выбирать.

· Как собирать (обновлять), представлять и хранить документы в коллекции.

· Эффективная реализация информационно-поисковой системы и критерии её оценки.

· Организация взаимодействия пользователя с системой (интерфейс).

Релевантность vis Пертинентность

· Релевантность - степень соответствия содержания документа, найденного в результате информационного поиска, содержанию информационного запроса.

· Пертинентность - степень соответствия содержания документа, найденного в результате информационного поиска, информационной потребности пользователя, сформулированной в виде информационного запроса.

· Сложное психологическое явление информационной потребности не всегда удается точно, однозначно и исчерпывающе сформулировать в виде информационного запроса.

Виды релевантности:

· Формальная релевантность – наличие в документе контекстных ситуаций, затребованных пользовательским запросом

· Содержательная релевантность – соответствие содержания документа информационной потребности пользователя

· Индивидуально-прагматическая релевантность или пертинентность (англ. pertinent)

Эффективность:

· Технико-экономическая эффективность:

o Быстродействие

o Полнота охвата документов

o Себестоимость поиска

· Функциональная эффективность – способность системы выдавать пользователю как можно большее число релевантных документов и как можно меньшее число нерелевантных.

Себестоимость запроса:

· Рассчитывается как отношение общего объема затрат на создание и поддержку работоспособности ИПС в единицу времени (например, за год) к количеству запросов, обрабатываемых ИПС за то же время.

Функциональная эффективность:

· Наиболее важными формальными показателями функциональной эффективности являются полнота, точность и избирательность.

Полнота vis Точность

В реальных системах невозможно достичь одновременно высокой полноты и точности. Поэтому при настройке и оценке используются комбинированные метрики.

Уровни отсечения:

· Фиксируется нужное количество релевантных документов: первые 5, первые 10, 20, 50, 100, 500.

· Измеряется точность на каждом из этих уровней.

· Вычисляется (взвешенное) среднее по всем полученным результатам.

Е-мера

P = точность

R = полнота

b = степень относительной важности P или R

TREC

· Text REtrieval Conference/Competition

o проводится организацией National Institute of Standards & Technology

o Первая конференция была проведена в 1992 г.

· Размер коллекции документов: 5 Г (5 CRDOMов), >1.5 миллионов документов

o Newswire & полнотекстовые новости (AP, WSJ, Ziff, FT, San Jose Mercury, LA Times)

o Правительственные документы (федеральный регистр, записи конгресса)

o FBIS (Foreign Broadcast Information Service)

o Патенты США.

TREC Основные принципы

· Запросы + оценки релевантности

o Запросы разрабатываются и оцениваются “Информационными специалистами”

o Оценки релевантности выполняются только для документов в выборке, но не для всей коллекции

· Состязание

o Участвуют различные исследовательские и коммерческие группы (TREC 6 было 51, TREC 7 было 56, TREC 8 было 66)

o Результаты оцениваются на полноту и точность доходя до уровня полноты в 1000 документов.

Дорожки TREC

· Это задачи, которые фокусируются на частных проблемах информационного поиска.

TREC. Процедура.

· Создание темы в NIST

· Темы рассылаются участникам, которые возвращают ранжированные списки лучших 1000 документов по каждой теме

· NIST формирует пулы уникальных документов из всех присланных списков, которые оцениваются экспертами на релевантность

· Системы оцениваются по результатам оценок экспертов

TREC Достоинства и недостатки

· Достоинства:

o Позволяет проверить работу исследовательской системы на большой коллекции документов

o Предоставляет общепринятый механизм для сравнения различных систем между собой

· Недостатки:

o Акцент делается на высокой степени полноты, что нереально с точки зрения того, чего хотят пользователи

o Нереально длинные запросы

o Сложность сравнения систем, поскольку они могут различаться по большому количеству показателей

o Фокусируется на пакетном ранжировании нежели на взаимодействии.

ТRЕС Изменение акцентов

Особое внимание уделяется таким специализированным “дорожкам”, как

· Интерактивность

· Обработка естественного языка (NLP)

· Многоязыковость (Китайский, Испанский)

· Фильтрация

· Высокая точность

· Высокая производительноть

NTCIR, CLEF

Имеются аналогичные TREC организации:

· NTCIR ( Япония ) = NII Test Collection for IR Systems

· CLEF (Европа) = Cross Language Evaluation Forum.

РОМИП

· Российский семинар по Оценке Методов Информационного Поиска

· Это инициатива по созданию плацдарма для проведения независимой оценки методов информационного поиска, ориентированных на работу с русскоязычной информацией.

Проект имеет некоммерческий характер и осуществляется силами сообщества российских исследователей и разработчиков, занимающихся информационным поиском. Затраты на подготовку и проведение тестирования возмещаются за счёт взносов участников. Результаты тестирования предназначены для использования только в исследовательских целях и не могут быть использованы в маркетинговых или коммерческих целях.

Используемые методики оценки являются открытыми, они сформированы с учётом мнения участников. Результаты работы семинара публично доступны как в виде трудов семинара, так и в виде построенных тестовых корпусов. Доступ к корпусам можно получить после обращения в Оргкомитет РОМИП и подписания необходимых соглашений с правообладателем.

Лекция 4

1999 – Google (Sergey Brin, Larry Page – Stanford Univ.)

· Алгоритм ранжирования PageRank

· Оптимизация архитектуры системы

· Масштабирование и распараллеливание (Linux-кластеры)

· Восстановление текста документа без обращения к его оригиналу в Интернет

Яндекс:

· 1990 – компания Аркадия (Аркадий Борковский и Аркадий Волож):

o Начало разработки поискового программного обеспечения. За два года работ созданы Международная классификация Изобретений и Классификатор Товаров и Услуг

· 1993 – Аркадия становится подразделением CompTek. Сотрудничество с лабораторией Ю.Д.Апресяна (ИППИ РАН). Создание словаря для поиска с учетом морфологии русского языка (300 КБ).

· Начало 1996 г. Разработан алгоритм построения гипотез (снятие привязки к словарю) для незнакомых слов.

· Лето 1996. Руководство CompTek и разработчики пришли к выводу о самоценности развития самой технологии. Появление “Яndex” в Интернете.

· “ Яndex ” = “языковой индекс”, “Yet Another Index”. “I” = “Я”.

Лекция 5

TREC Достоинства и недостатки

Поиск по сайту