Стратегия поисковой работы в Интернете состоит в осознанном поиске с формулированием целей, выбором критериев и конкретных инструментов. Для поиска информации используют современные поисковые системы, работающие в веб-интерфейсе.
Поисковые системы - это особый вид веб-сайтов, созданных для поиска адресов интересующей информации. Эти системы относятся к типу информационных систем, которые включают в себя следующие компоненты: программно-техническое обеспечение, базы данных, процедуры и пользователей.
Под информационно-поисковыми системами (ИПС), используемыми в Интернете, понимаются информационные системы, предназначенные для ввода, обработки, хранения и поиска электронной информации в информационных массивах Интернета.
Для реализации этих функций современные ИПС создаются как многоуровневые структуры, которые включает пять программных компонент:
1) Spider (паук) - браузероподобная программа, планомерно путешествующая по сети и считывающая HTML-код попадающихся веб-страниц, имеющих URL.
2) Crawler (сборщик, или путешествующий паук) - порождаемый Spiderом процесс, который углубляет поиск, перемещаясь по всем локальным ссылкам, найденным на странице. Он также скачивает страницы, как и Spider, и, кроме того, анализирует их для нахождения перекрестных ссылок, изменений на страницах, определения дальнейшего пути и пр.
3) Indexer (индексатор) - ключевая программа ИПС, которая анализирует веб-страницы, скачанные пауками, определят их тематическую принадлежность, актуальность, популярность у пользователей и т.д. по заголовкам страниц, ссылкам, текстам, структурным и стилевым элементам. По окончании анализа он индексирует ресурсы (построение БД по ключевым словам) и сохраняет их в удобном для поиска виде.
|
4) Database (база данных, БД) - хранилище скачанных и обработанных индексатором страниц. Такая БД требует больших ресурсов для хранения информации и эффективных алгоритмов доступа.
5) Gateway (шлюз) или Search Engine / Results engine (собственно поисковая машина) - принимает запросы пользователей, анализирует их и извлекает результаты поиска из БД.
Каждая ИПС характеризуется своим набором программных компонент, используемым поисковым механизмом, который включает математический аппарат формализованного представления и поиска информации, методы и средства структурирования информационных запросов, критерии выдачи (смыслового соответствия) информации, стратегии поиска и организации массивов. Эффективное функционирование поискового механизма ИПС в Интернете (формирование информационных массивов, поиск и получение релевантной информации, т.е. соответствующей поисковому запросу) является ключевой характеристикой поисковой системы. Реализация успешной технологии поиска в ИПС связана со многими специфичными для Интернета проблемами.
Для понимания возможностей и различий ИПС, функционирующих в Интернете, рассмотрим существующие типы, классифицированные по критериям формирования информационной базы данных (организация сбора и обработка информации), в дальнейшем обновляемой и поддерживаемой для предоставления пользователям Интернета. На сегодняшний день различают три типа ИПС - тематические каталоги, автоматические индексы и специализированные поисковые инструменты, а также их комбинации (интегрированные ИПС, метапоисковые).
|
Тематические (предметные) каталоги или рубрикаторы (Subject Guides, Web directory) предварительно, исследуют, описывают, каталогизируют и группируют содержимое WWW серверов и других сетевых ресурсов Интернета. Принцип построения каталогов: "от общего - к частному". Результатом является постоянно обновляемый иерархический (древовидный) каталог, на верхнем уровне которого собраны самые общие категории, например, "бизнес", "образование", "наука", "искусство", "путешествия" и т.д. Элементы самого нижнего уровня представляют собой ссылки на отдельные веб-страницы и сервера с кратким описанием их содержимого. Особенностью этого типа ИПС является осмысленный отбор и каталогизация наиболее точно отражающей данную категорию информации, которые осуществляются человеком (специалистом). Это позволяет надеяться на репрезентативность (правильный отбор и каталогизация), точность, релевантность, полноту информации по каждой или большинству категорий.
Часто каталоги объединяются с рейтингами, которые формируются на их базе и учитывают популярность каждого регистрируемого веб-сайта. Подсчет количества посещений каждого сайта осуществляется с помощью счетчиков. Счетчик может подсчитать общее количество заходов на зарегистрированный в нем веб-сайт, сколько раз открывали ту или иную веб-страницу, а также количество уникальных посетителей (хостов). Результаты рейтингов представляются на титульной странице и чаще всего не совпадают у разных систем.
|
Первые каталоги появились в Интернете в 1995 г. Создание и поддержка этого типа ИПС требует огромных затрат. Предоставляемый предметными каталогами поиск по ключевым словам осуществляется в кратких описаниях, хранящихся в каталоге. Таким образом, тематические каталоги являются ИПС интерфейса глобальных сетей, база данных которых описана, каталогизирована и сгруппирована по тематическим признакам человеком, включает краткие описания ресурса и его адрес в сети. Примерами тематических каталогов могут служить Yahoo, Infomine, Virtual Library, Argus Clearinghouse, Galaxy, Look Smart, Net Guide, Snap, Magellan, некоторые русскоязычные каталоги - Russia on the net, Rambler. Yandех, List, АУ, Refer, Stars, Search, Data, Ulitka и др.
Автоматические индексы (чаще поисковые инструменты или системы, search engines) состоят из трех компонентов - программы-робота, базы данных и пользовательского поискового интерфейса. Программы-роботы (науки, индексаторы) осуществляют сбор статистической информации и построение словоуказателей, или индексов, по текстам выявленных документов. При этом, как правило, учитывается все содержание страницы, включая текст, иллюстрации, аудио и видео файлы и пр. Индексации подвергаются все слова в документе, что как раз и дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Собираемая роботами база данных - индекс - хранит в себе сведения об электронных документах, содержащих те или иные слова - какое слово, сколько раз, в каком документе и на каком сервере употребляется. Обращение пользователей к базе данных производится через сочетания ключевых слов, вводящихся в строку запроса. Первые ИПС этого типа появились в Интернете в 1994 г.
Так, индекс системы Alta Vista содержит 11 миллиардов слов, извлеченных из 30 миллионов веб-страниц. Для использования поискового инструмента необходимо ввести одно или несколько слов, описывающих предмет поиска. Лучше всего использовать 4-5 слов в поисковом предписании. Причиной неудовлетворительных результатов поиска может являться неоднозначность большинства слов - синонимия и омонимия. Примерами индексов могут служить Google, Hot Bot, GoTo.com, Excite, InfoSeek, Lycos, Northernlight, Topping, из русскоязычных - Апорт. Но и Alta Vista позволяет провести поиск среди русскоязычных серверов с различной кодировкой (результаты зависят от используемых для ввода кодировок, специализированный русскоязычный сайт - Alter Vista). Выходит на российский рынок русскоязычный сайт Lycos (первое место по посещаемости в Европе в 2001 г.), индексированная база которого обновляется каждые 9-12 дней и включает 13 млн. страниц и мультимедийные файлы. Некоторые системы претендуют на индексирование по крайней мере 1/3 всех существующих в мире страниц (например, Alta Vista - 28%, Hot Bot - 34%). Объем базы данных Google на восьми десятках языков в октябре 2001 г. составлял более 1,4 млрд. индексированных страниц.
Специализированные поисковые инструменты (site-specific search engines) осуществляют поиск по тематически специализированным объемным базам данных на WWW, поиск по которым обычно не поддерживается автоматическими индексами, например, по базам имен и адресов, библиографическим базам данных, цитатам, газетным статьям, по информации для трудоустройства и подбора кадров и пр. Созданы специализированные сайты для поиска географических карт, информации в области культуры, прогноза погоды, текстов песен, видео продукции, здоровья, бизнес-партнеров и пр. Так, Infomine является базой данных по различным видам искусства, InformationPlease содержит полнотекстовую энциклопедическую информацию, Университетская информационная система "Россия" - официальные документы в области экономики, социологии, политологии, международных отношений, Сайт Wayback Machine представляет собой архив веб-сайтов, начиная с 1996 года. Таким образом, специализированные поисковые инструменты (specialised search engines) представляют собой ИПС интерфейса глобальных сетей, неиндексированные базы данных которых объединены единой тематикой.
Интегрированные ИПС. Следует отметить, что ИПС в Интернете быстро развиваются и совершенствуются. В последние несколько лет заметна тенденция к объединению разных типов ИПС на интегрированной основе. Так, Excite, InfoSeek, HotBot, AltaVista, включают два типа ИПС; тематические каталоги Yahoo!, LookSmart поддерживают поиск в E-mail directories адреса человека по его имени.
Google - поиск изображений, по группам новостей. Так называемые порталы (Yahoo!, Snap! Ampyc, Rambler, Yandex, Lycos) размещают на стартовых веб-страницах разнообразные ссылки общего информационно-развлекательного характера - новости, прогноз погоды, фондовые сводки и спортивные результаты, интегрируют другие ресурсы (энциклопедии, словари, справочники) и сервисы (бесплатные почтовые ящики, веб-страницы, подписка на форумы и пр.) дополнительно к структурированным тематическим каталогам. Например, Lycos предлагает пользователям следующий набор услуг: поиск, каталог, почта, чат, справочные службы, планируется предоставить услугу по переводу текстов.
Хотя на сегодняшний день поисковые механизмы ИПС интерфейса глобальных сетей далеки от совершенства, знание пользователями особенностей программной реализации их математического аппарата (алгоритмы, методы и средства структурирования информационных запросов, критерии выдачи информации, стратегия поиска и организации массивов) позволяет повысить эффективность поиска релевантной информации в Интернете. Сложность освоения стратегии поиска электронной информации связана с тем, что ИПС используют различные поисковые алгоритмы, методы и средства и поддерживают различные наборы поисковых операторов, символов или слов. Наметившееся в Интернете стремление к стандартизации интерфейса ИПС различных типов внушает надежду на решение этой проблемы в ближайшем будущем. Например, поддержка метапоиска некоторыми метапоисковыми ИПС (metasearch engines, metaengines), такими как All-in-Onc, LocalFind. corn, Search, Dogpile, Baldey, BigHub, SawySearch и др. Метапоиск подразумевает процедуру переадресации заданного условия поиска в другие ИПС (запрашивается не более 5-15% баз данных каждой из используемых ИПС) и представление результатов поиска сформированными на одной странице.