Поиск информации в Интернет: стратегия и методика




Поиск информации является одной из наиболее распространенных и одновременно наиболее сложных задач, с которыми приходится сталкиваться в Сети любому пользователю. Причина сложностей, возникающих при информационном поиске в Интернет, определяется двумя главными факторами. Во-первых, число источников в Сети чрезвычайно велико. Во-вторых, массив информации в Сети не только колоссален по объему, но еще и крайне динамичен. За те полминуты, что мы потратим на чтение первых строк этого раздела, в виртуальной вселенной появится порядка сотни новых или измененных документов, десятки будут перемещены на новые адреса, а единицы - навсегда прекратят свое существование.

Необходимость и важность проблемы информационного поиска привела к образованию в самом Интернет целой отрасли, задача которой заключается именно в оказании помощи пользователю в его навигации в киберпространстве. Составляют эту отрасль специальные поисковые службы или сервисы. Условно их можно разделить на кaтaлoги (dirесtоriеs) и пoиcкoвыe мaшины (sеаrсh еnginеs).

Эти разновидности внешне очень похожи, поскольку каждый каталог, как правило, обладает собственной поисковой машиной, а каждая поисковая машина - собственным каталогом. Однако принципы их работы базируются на абсолютно разных подходах и технологиях. Каждый из этих инструментов имеет определенные преимущества, а основная разница между ними заключается в участии/неучастии человека. Поисковые машины запускают в Web программных «пауков» (spiders), которые путешествуют со страницы на страницу и на каждой индексируют ее полный текст. Каталоги же формируются людьми-редакторами, которые прочитывают страницы, отсеивают неподходящие и классифицируют узлы по темам. При этом каждая разновидность поисковых сервисов применяется для решения определенного типа задач. Правильным выбором инструмента во многом определяется стратегия поисковой деятельности и, в конечном итоге, результат разысканий.

Приступая к информационному поиску в Интернет, следует всегда помнить несколько основных моментов. Прежде всего, никакие средства навигации - каталоги или поисковые машины - не охватывают всего текущего информационного массива Интернет. По некоторым оценкам, даже такие признанные лидеры сетевого поиска как Google, отражают не более трети совокупного содержания Сети. Причина этого - постоянный колоссальный прирост объемов информации в Интернет, который, несмотря на все усилия навигационных служб, содержит огромное число белых пятен.

Помимо быстрого роста и изменения местоположения документов, большинство поисковых систем имеют внутренние ограничения на отражение материалов одного сайта и на объем индексируемой части страницы. Программы-роботы зачастую не идут в глубь сервера дальше определенной директории, что также сокращает число отраженных материалов.

В тоже время многие крупные сайты имеют собственную систему поиска, которая отражает весь их информационный массив. Выявив такие сервера с помощью каталогов, можно провести более детальное их обследование, использовав локальный поисковый механизм. Таким образом, для достижения наиболее полных результатов следует применять каталоги и поисковые машины в сочетании друг с другом.

Существует также ряд общих требований к поисковой деятельности, соблюдение которых повышает эффективность и экономит время, затрачиваемое на разыскание данных.

1. Для поиска материалов по крайне узкой специфической тематике стоит начинать с каталогов.

2. Для получения более полных результатов по сложному запросу поиск рекомендуется проводить отдельно в каждой поисковой машине. Поисковые системы имеют сильный разнос в отражении документов и их последовательное использование в значительной степени расширяет охват материала.

В 1945 годы американский ученый и инженер В. Буш в статье «Возможный механизм нашего мышления» впервые широко поставил вопрос о необходимости механизации информационного поиска. Начиная с 1960 годов, появляются автоматизированные поисковые системы, работающие с информацией. С этого периода ведутся интенсивные работы в области формирования и реализации принципов и методов информационного поиска.

«Поисковые системы» осуществляют поиск среди документов баз или иных массивов машиночитаемых данных, содержащих заданные слова. Поисковые системы с большим набором функций и возможностей, как правило, входят в состав систем управления базами данных (СУБД) и именуются информационно-поисковыми системами. Эти системы также создаются и используются для эффективного нахождения пользователями необходимых им данных, в том числе в Интернете. Терминологически «информационно-поисковая система» (англ. «information retrieval system», IRS) - представляет систему, предназначенную для поиска и хранения информации; пакет программного обеспечения, реализующий процессы создания, актуализации, хранения и поиска в информационных базах и банках данных.

Информационно-поисковая система может трактоваться и как система, обеспечивающая поиск и отбор необходимых данных на основе информационно-поискового языка и соответствующих правил поиска, абаза данных - как совокупность средств и методов описания, хранения и манипулирования данными, облегчающих сбор, накопление и обработку больших информационных массивов. Сама же организация различных баз данных отличается видом объектов данных и отношений между ними.

Функционирование современных ИПС основано на двух предположениях:

¾ документы, необходимые пользователю, объединены наличием некоторого признака или комбинации признаков;

¾ пользователь способен указать этот признак.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-06-26 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: