Практическая отработка метода




Разумеется, предлагаемый метод поиска нельзя назвать универсальным. Далеко не все поисковые машины воспримут его с одинаковым восторгом. Какими же свойствами должна обладать поисковая система, чтобы применение метода было оправдано? Множество факторов оказывают влияние на результат. Это и общий объем базы данных, и механизм индексации, структура данных и так далее, и тому подобное. Но наиболее важными, на мой взгляд, являются два умения поисковой системы: способность понимать запросы, составленные на разных языках (для нас -- на русском), и мощное ранжирование результатов. С русским языком все понятно -- без него нам в Интернете не интересно. Но почему так важно ранжирование? Мы договорились вводить запрос с логикой ИЛИ. Это сильно увеличивает количество возвращаемых поисковой машиной документов. Без ранжирования всякий поиск теряет смысл. Наилучшие результаты дает ранжирование по схеме:

точное соответствие -- все слова запроса -- все слова, кроме последнего, -- все слова, кроме двух последних, --... -- все слова, кроме n последних, -- первое слово (плюс, разумеется, ранжирование по количеству терминов в тексте). Алгоритм может быть и более мощным, но даже при такой последовательности мы можем быть уверены, что, сколько бы документов найдено ни было, наиболее удачные окажутся впереди.

Наилучшие результаты в поиске по предлагаемому методу продемонстрировала система AltaVista (https://www.altavista.digital.com/). (Это неудивительно, ведь метод разрабатывался с оглядкой именно на нее.) Хотя на тестовый запрос система выдала более 5 миллионов ссылок, для англоязычного запроса на первых трех страницах все ссылки оказались абсолютно релевантными! (Причем документ-источник появился только на третьей странице.) Для русского текста из десяти ссылок на первой странице точными оказались только первые восемь. Однако при ближайшем изучении выяснилось, что это все, что есть в Интернете на искомую тему.

Что происходило на других поисковых системах? Картина сложилась пестрая. Одни справились не хуже лидера, другие не справились вовсе. Прежде чем "перемывать косточки", хочу, чтобы вы поняли: неудача говорит не о несовершенстве той или иной поисковой системы или метода, а лишь о неприменимости выбранного метода поиска для данной поисковой машины.

Начнем с зарубежных поисковых систем. Помимо AltaVista очень хороший результат в поиске на английском языке показал HotBoot (https://www.hotbot.com/). Увы, запрос на русском языке поставил его в тупик. Очевидно, русские буквы для сервера HotBoot -- непреодолимое препятствие. Оценить Yahoo! мне не удалось из-за характерной формы вывода результатов. На тестовый запрос был получен объемистый список каталогов, копаться в которых показалось бессмысленным. Более скромные поисковые машины Northern Light, Excite, Infoseek и другие хотя и выполнили задание, но обилием релевантных ссылок не поразили (возможно, просто из-за того, что их базы данных не столь велики). Для поиска на английском языке на первых страницах оказалось 40-60% релевантных ссылок (впрочем, не такой уж плохой результат). При обработке запроса на русском языке эти системы проявили любопытное единодушие. Было найдено множество документов, но, как мне показалось, никакого ранжирования не было проведено вовсе. В итоге на первую страницу могло попасть, случайно, от силы один-два релевантных документа.

Самостоятельное применение пользователем для решения той или иной задачи любого осмысленного метода требует от системы отсутствия в ней излишней опеки. Автомобиль с автоматической коробкой передач, которая все делает за вас, вещь хорошая, но вряд ли целесообразно отправляться на нем в ралли Париж -- Дакар. То же и в поисковой системе. Чрезмерное увлечение морфологической обработкой слов может лишить поиск гибкости. На мой взгляд, именно этим грешат некоторые российские поисковые системы. Спору нет, удобно ввести в поле запроса фразу на естественном языке и получить список документов, которые (по мнению поисковой машины) этому запросу удовлетворяют. Такой поиск дает неплохой результат в среднем. Однако любое отклонение в сторону от утвержденной схемы может резко снизить эффективность поиска. Все эти соображения первоначально вызывали серьезные сомнения в применимости метода на отечественных поисковых серверах. Что же получилось в реальности?

В целом опасения подтвердились. Для системы "Апорт!" выбранная методика оказалась полностью чужда. Rambler представил хорошие результаты только после того, как логика запроса была изменена на И. На первой странице все документы, как для русского, так и английского поиска, оказались полностью релевантными. Увы, логика И неизбежно ведет к потере весомой части релевантных документов. С поиском на английском языке отлично справился Яndex (yandex.ru) -- стопроцентная релевантность на первой странице для англоязычного запроса. Однако русский запрос был обработан заметно слабее. Изучение отклика российских поисковых систем привело к парадоксальному (и крамольному) выводу: морфологическая обработка не обязательно увеличивает число релевантных документов! Разумеется, это утверждение не бесспорно. Для других методик поиска морфологический анализ может оказаться незаменимым; в предлагаемой же нами -- он явно лишний. Недаром так хорошо справилась с задачей AltaVista -- в ней даже английский текст морфологически не обрабатывается. Все слова для нее, за редким исключением (имеется в виду стоп-лист, но он создается только для англоязычных и близких к ним текстов), лишь последовательность символов.

Предлагаемая методика поиска информации в сети Интернет хорошо подходит для исчерпывающего обзорного поиска. Обзорный поиск незаменим, когда нужно найти как можно больше документов на заданную тему. Анализ текста-источника вручную -- весьма трудоемкое и скучное занятие. Чтобы облегчить его, по адресу www.shipbottle.ru/ir/ вы найдете апплет, реализующий метод. Не все еще в нем работает идеально, за что заранее приношу извинения. Со временем я постараюсь расширить возможности апплета и сделать его более функциональным.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-05-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: