Russia-On-Line Subject Guide.




Для пользователей в нашей стране определенный интерес может представлять тематический каталог Russia-On-Line Subject Guide, расположенный по адресу https://www.online.ru/rmain. Этот каталог содержит довольно пестрое собрание ссылок на зарубежные источники плюс тематический обзор российских и русскоязычных ресурсов WWW.

 

Автоматические индексы.

К проблеме поиска информации в Internet можно подойти и с другой стороны. Существуют программы в которые загрузили несколько тысяч общеизвестных URL-адресов. Будучи запущена на компьютере с доступом к WWW, эта программа начинает автоматически скачивать из сети документы по этим URL, причем из каждого нового документа она извлекает все содержащиеся в нем ссылки и добавляет их в свою базу адресов. Поскольку в конечном счете все WWW документы связаны между собой, рано или поздно такая программа обойдет весь Internet.

Разумеется, программа не может ни понять ни как либо классифицировать то, что она видит в сети. Программы такого типа называются роботами. Они ограничиваются сбором статистической информации и построением словоуказателей (индексов) по текстам документов. Собираемая роботом база данных — индекс — хранит в себе, попросту говоря, сведения о том в каких WWW-документах содержаться те или иные слова.

Именно такой автоматически собираемый индекс и лежит в основе поисковых систем второго рода, которые часто так и называют — автоматические индексы.

Автоматический индекс состоит из трех частей: программы-робота, собираемой этим роботом базы данных и интерфейса для поиска в этой базе, с которым работает пользователь. Все эти компоненты вполне могут функционировать без вмешательства человека.

Поскольку какая-либо классификация или оценивание материалов в системах такого рода отсутствуют, к ним следует прибегать только тогда, когда вы точно знаете ключевые слова, относящиеся к тому, что вам нужно, — скажем, фамилию человека или несколько достаточно редких терминов из соответствующей области. если же задать поиск по сколько-нибудь распространенным словам, то вам не хватит жизни, чтобы обойти все полученные в результате поиска URL-адреса, — к примеру, индекс системы Alta Vista содержит 11 миллиардов слов, извлеченных из 30 миллионов WWW-страниц.

Автоматических индексов WWW-страниц существует немало: WebCrawler, Lycos, Excite, Inktomi, Open Text и другие. Некоторые из них (например, Lycos) представляют собой более или менее удачный синтез предметного каталога и автоматического индекса.

Alta Vista.

Ее адрес https://altavista.digital.com. Эта система появилась в декабре 1995 года. Она один из самых больших по объему индексов из всех поисковых систем такого рода и самые мощные и гибкие правила построения запросов. Alta Vista понимает два разных языка запросов, довольно сильно отличающихся друг от друга. На первой странице Alta Vista вы видите бланк для простого запроса (Simple Search), а панель заголовка вверху страницы содержит кнопку Advanced Search, нажав которую, вы получите бланк для усложнения запроса.

Кроме WWW-страниц, Alta Vista ведет отдельный индекс для статей из более чем 14000 конференций Usenet (включая иерархию групп relcom.*).

Поиск Alta Vista: чтобы Alta Vista срабатывала на группе слов, только когда они стоят рядом, нужно заключить эту группу в кавычки. Если необходимо исключить из результата все документы, содержащие определенное слово, необходимо приписать это слово со знаком “минус”.

Слово без всякого знака действует в запросе точно так же, как и оно же со знаком “плюс”.

В отличие от Yahoo, по умолчанию Alta Vista ищет вхождения целых слов, т. е. заказанные термины должны стоять в документе обособленно, а не быть частью других цепочек символов. Если же вам нужно найти все вхождения слова, даже когда оно входит в состав других слов, пользуйтесь символом *. звездочка может стоять только в конце слова, а чтобы предотвратить обвальный поиск, дающий слишком много результатов, Alta Vista требует, чтобы слово, заканчивающееся на *, состояло не менее чем из 3 букв. Более того, символ * позволяет найти не любое окончание слова, а только не превышающее длину пяти символов и не содержащее заглавных букв или цифр.

Результаты поиска Alta Vista, как и Yahoo, выдает в виде списка ссылок на документы, но вместо описания каждого документа рядом с его заголовком вы увидите просто первые несколько строк его текста. Если найдено будет больше 10 документов, Alta Vista разобьет их список на страницы по 10 ссылок на каждой. Alta Vista сортирует ссылки так, чтобы на первом месте стояли “самые важные” документы с вашими ключевыми словами при определении степени важности учитывая следующие факторы:

* входят ли ключевые слова в заголовок документов;

* содержатся ли эти слова в первых нескольких строках документов;

* насколько близки друг к другу в тексте обнаружены ключевые слова (Кирсанов, 1996).

Infoseek

Infoseek, вступивший в эксплуатацию в конце 19996 года, несколько напоминает Alta Vista, однако объем обследуемых им полных текстов документов еще не превышает 30 млн. Web-страниц. Адрес: https://www.infoseek.com. Это довольно мощная система, обладающая высокой скоростью и простой в обращении. Возможности составления запроса почти такие же, как и в Alta Vista, но не столь богатые. При почти полном сохранении значений знаков «плюс», «минус» и «кавычек», чувствительности к разнице заглавных и строчных букв и возможности ограничивать поиск фрагментами Web- страниц, Infoseek пока не обладает способностью определять рядом стоящие термины (нет оператора NEAR), ограничивать поиск по дате обновления источника и, главное, усекать окончания ключевых терминов.

Но данная поисковая система содержит массу факультативных функций. К таковым относится, например, возможность определять количество ссылок в WWW на конкретную страницу, то есть судить, насколько она популярна или же, наоборот, выяснить, сколько ссылок на внешние страницы содержится на данном узле, вернее, сколько из них отражены в индексных файлах Ultraseek. Использование специальной функции Imageseek позволяет находить в Internet изображения (рисунки, фотографии) на определенную тему. Infoseek имеет также один из лучших справочников ресурсов Сети.

HotBot

Одним из мощных поисковых средств в World Wide Webможно отнести HotBot, содержащий сведения о полных текстах 110 млн. страниц. Адрес: https:// www.hotbot.com. HotBot принадлежит к новейшим системам, поэтому его углубленный поиск дает поразительно широкие возможности для детализации запроса. Это достигается за счет использования многоступенчатого меню, предлагающего различные варианты составления поискового предписания. Можно осуществить поиск по наличию в документе одного или нескольких терминов, поиск по отдельной фазе, поиск конкретного лица или ссылки на определенный электронный адрес. Для большей детализации запроса возможно применение условий SHOULD (может содержать), MUST (должен обязательно содержать), MUST NOT (не должен содержать) по отношению к каким-либо понятиям. Кроме того,HotBot представляет возможностьограничить поиск по дате создания или последнего обновления документа, по георафическому положению сервера. Верхом сервисных возможностей является поиск документов, содержащих определенные типы файлов, например аудио или видио. Для этого надо лишь сделать отметку в специальном пункте меню запроса (Куприянова, 1998).

WebCrawler.

Это еще один инструмент поиска типа search-bot (поисковый робот). Адрес: https://www.webcrawler.com. Поиск здесь очень прост. Введите как можно больше ключевых слов в поле поиска, нажмите Search.

Lycos.

Это большая база данных индексирующая содержание всех найденных ею страниц Web. Адрес: https://www.lycos.com.

World Wide Web Worm.

Вы найдете этот инструмент поиска на https://www.cs.colorado.edu/home/mcbryan/wwww.html. Это еще один обширный указатель участков Web.

В каждом конкретном случае целесообразно использовать свой инструмент поиска. Вам придется пытаться проводить поиск при помощи одного инструмента и, если вы не получили результатов, переходить к другому. Но все же каким инструментом пользоваться? В первую очередь лучше воспользоваться тематическим каталогом типа Yahoo, размер у них сравнительно небольшой, зато велика скорость. Если найти необходимую информацию не удалось, это говорит о том, что вы интересуетесь слишком узкой темой, или же с вашей темой плохо соотносятся выбранные вами ключевые слова. Это не значит, что нужной информации в WWW нет — просто найти ее будет сложнее. Для ее поиска вам прийдется воспользоваться более примитивными, более автоматическими и потому более всеобъемлющими системами типа Alta Vista (Кент, 1996).

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-11-01 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: