Поиск информации в Интернет. Основные системы и средства.




"Всемирная паутина" в Интернет - это миллионы документов с неструктурированной текстовой информацией (а также с графикой, аудио, видео). Чтобы найти нужную информацию, клиенту сети зачастую приходиться перебирать сотни страниц Web (иногда без особого успеха), тратить много сил и нервов (а также денежных средств).

С начала 90-х годов интенсивно развиваются справочные службы Интернет, помогающие пользователям найти нужную информацию, и эти службы можно разделить на две категории: универсальные и специализированные.

В универсальных службах используется обычный принцип поиска в неструктурированных документах - по ключевым словам.

Ключевым словом (Keyword) документа называется отдельное слово или словосочетание, которое каким-то образом отражает содержание данного документа. Во многих текстовых процессорах ключевым словом является текст, по которому осуществляется поиск нужной информации (С помощью команд Найти и Заменить).

Например, для литературы по программированию характерны ключевые слова "Условный переход", "Макрокоманда", "Отработка прерываний" и т.д.

Универсальная служба поиска (поисковая система) - это комплекс программ и мощных компьютеров, выполняющих следующие функции.

1. Специальная программа (поисковый робот) непрерывно просматривает страницы "Всемирной паутины", выбирает ключевые слова и адреса документов, в которых эти слова обнаружены. Здесь уместно упомянуть об индексированном файле. Отдельный файл, содержащий информацию о физическом расположении записей в каком-либо файле базы данных. Вместо этого, чтобы просматривать фактический файл базы данных, программы базы данных пользуются индексами, что позволяет существенно ускорить поиск нужной информации.

2. Web - сервер принимает от пользователя запрос на поиск, преобразует его и передает специальной программе - поисковой машине.

3. Поисковая машина просматривает базу данных индексов, составляет список страниц, удовлетворяющим условиям запроса (точнее список ссылок на эти страницы) и возвращает его Web - серверу.

4. Web - сервер оформляет результаты выполнения запроса в удобном для пользователя виде и передает их на машину клиента.

Среди наиболее известных и мощных поисковых систем:

Alta Wista (WWW.altawista.com);

Infoseek (WWW.infoseek.com);

Lycos (WWW.lycos.com.), российская система "Рэмблер".

Поиск графической информации (в том числе и видео информации) - пока принципиально неразрешимый вопрос в компьютерной технологии.

Специализированные справочные службы - это тематические каталоги (subject catalogs), в которых собраны более или менее структурированные сведения об адресах серверов по той или иной тематике. В отличие от универсальных баз индексов, тематические каталоги составляются специалистами и обеспечивают клиента более строгой, достоверной систематизированной информацией о Сети.

Кроме того, многие сайты Интернет располагают собственными механизмами поиска (в пределах данного сайта). В первую очередь это механизм контекстного поиска, а также специализированный поиск по фамилиям (например, персоны компьютерного бизнеса), товарам (рекламные сайты), фирмам и т.д. Контекстный поиск на текущей странице предусмотрен и в Internet Explorer.

Некоторые страницы в Internet (например, страницы поисковых систем) специально предназначены для приема и обработки запросов на поиск. Microsoft в Internet Explorer 3.0 предлагает собственную страницу поиска.

Internet Explorer не занимается поиском: он принимает от пользователя запрос, обрабатывает его и передает соответствующей поисковой системе.

Например, если нужно вести поиск средствами Alfa Vista, надо набрать текст запроса в поле ввода Alfa Vista и нажать кнопку "Поиск". Как сформировать запрос? В основе запросов на поиск и выборку информации лежит аппарат алгебры логики. Однако поиск в Интернет гораздо менее формализован, чем в структурированных базах данных.

В качестве примера рассмотрим некоторые запросы в Alfa Vista. Простейший запрос - отобрать страницы в Интернет, который содержит заданное слово, например "Информатика". Если запрос состоит из нескольких слов, то в Alfa Vista предусмотрены следующие соглашения.

1. Несколько слов, выбранных через пробел, обозначают запрос, соответствующий логической операции ОК (ИЛИ). Например, по запросу школьная информатика будут оформлены страницы, на которых имеется или "Школьная" или "Информатика" (или сразу оба слова). Число таких документов очень велико: в них могут попасть страницы, не имеющие никакого отношения к информатике.

2. Несколько слов, заключенных в кавычки, воспринимаются системой как единое целое. Например, по запросу "Школьная информатика" будут отобраны документы, в которых имеется эта символьная строка.

3. Слова, соединенные знаком "+" (плюс), соответствуют логической операции AKD (И). Например, по запросу Школьная + Информатика будут отобраны документы, в которых содержаться оба этих слова. Ясно, что число таких документов будет не меньше числа документов, отобранных по второму запросу.

Литература:

1. Хафкемейер Х. "Интернет. Путешествие по всемирной компьютерной сети", 1999г.

2. Грошев С.В. Современный самоучитель профессиональной работы на компьютере, 1998г.

3. Что такое Интернет? Борисов М. Визель М. "Смена", 1999г. №7

4. Волубуев Р. Паутина в огне: "Литературная газета" 1998г. №40

5. Интернет на пороге третьего тысячелетия "Техника молодежи", 1999г. №10



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-08-04 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: