Организация поиска информации в глобальной сети Интернет




Интернет сегодня является бесценным информационным источником: подключившись к Сети, можно узнать курс доллара и расписание поездов, найти кулинарный рецепт и почитать мировые новости, купить компьютер и забронировать билеты в театр. Но информация в сети не упорядочена, не структурирована, нужно суметь отыскать среди тысяч серверов и миллионов страниц то, что необходимо. Поэтому большую помощь в поиске информации по сети оказывают поисковые системы и каталоги

Поисковые системы. В основе работы любой поисковой системы лежит специальная программа- spider (паук, робот, crawler), которая просматривает веб-страницы, считывает (индексирует), полностью или частично, их содержимое и далее следует по ссылкам, найденным на данной странице. Через некоторое время программа возвращается и индексирует страницу снова. Таким образом, в базе поисковой системы хранится огромное количество информации о посещенных и проиндексированных страницах. Индекс может занимать сотни гигабайт дискового пространства. Когда пользователь обращается к поисковой системе с определенным запросом, специальная программа не ищет эту информацию в Интернете, а перебирает индексы поисковой системы и выдает пользователю информацию обо всех найденных документах (поэтому иногда среди результатов поиска могут оказаться ссылки на уже не существующие ресурсы).

Каждая поисковая система имеет своего собственного спайдера, со своими собственными способами индексирования документов. Поэтому, произведя запрос по определенным ключевым словам или выражениям, можно получить разные результаты для каждой из поисковых систем.

Поисковых систем сегодня существует достаточно много, международных и отечественных. AltaVista является одной из самых старых, если не старейшей, поисковой системой в Интернете - она была создана в 1995 году. В настоящее время AltaVista может осуществлять поиск на 25 языках, включая русский. Известны также зарубежные системы InfoSeek, Lycos, WebCrawler. В последнее время стала расти популярность поисковой системы Google.

Если перед пользователем стоит задача найти что-либо в русскоязычной части сети, то, скорее всего, наиболее успешный результат даст поиск с использованием русскоязычных поисковиков. Прежде всего, потому, что русскоязычные поисковые сервера, в отличие от англоязычных, ведут поиск с учетом морфологии русского языка.

По данным системы статистики SpyLOG, наибольшей популярностью среди русскоязычной части пользователей Интернета пользуются системы Яndex, Rambler и Апорт.

Рамблер индексирует домены ru, su, ua, by, kz, kg, ge, uz и некоторые русскоязычные ресурсы из доменов com, net, org. В апреле 2001 года в базе данных Рамблера хранилась информация о почти 8 миллионах уникальных документов. Ежедневно в базу данных этого поисковика вносится до 60 тысяч изменений и дополнений, что обеспечивает постоянное пополнение базы сведениями обо всех новинках, появляющихся в русскоязычной части Сети. Ежедневно портал Рамблер посещают около 300 тыс. человек.

Большой популярностью пользуется служба Rambler's Top 100, позволяющая любому желающему установить счетчик на своей страничке и участвовать в рейтинге наиболее посещаемых сайтов.

В мае 2001 года Рамблер объявил об открытии нового проекта - Руметрика, посвященный исследованию развития русскоязычного сектора Интернета. Создатели проекта планируют несколько раз в месяц публиковать данные об объеме Рунета, распределении сайтов по тематическим группам, динамике пользовательской активности, а также различные аналитические материалы, оценки социологов, аналитиков и экспертов в различных областях.

Яndex начал работу в сентябре 1997 года. Выполняет поиск по русскоязычной части Интернет (Рунет) с учетом русской морфологии. Сканируются домены: su, ru, am, az, by, ge, kg, kz, md, ua, uz. Остальные сервера вносятся в базу лишь в том случае, если на них найден текст на русском языке или если владельцы ресурсов убедят администрацию поисковой машины в том, что их сервер интересен пользователям русскоязычного Интернета.

Яndex имеет очень мощный язык запросов, возможно задание расстояния между словами с учетом их порядка, указание различной значимости ключевых слов, а также использование уточняющих слов. Специальный поиск можно вести по заголовкам документов и находящимся в них ссылкам. Кроме того, имеется возможность попросить систему найти документы, похожие на найденные по предыдущему запросу.

В апреле 2001 года поисковая система содержала информацию о более чем 12 миллионах документов, расположенных на серверах России и стран СНГ.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-03-31 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: