Средства поиска данных в Интернете




Семакин И.Г., Хеннер Е.К. Информатика 10-11 класс

 

World Wide Web — Всемирная паутина

 

 

Рассмотрим более подробно, что же такое World Wide Web (WWW). Обычно это словосочетание переводят как Всемирная паутина. Каждый может представить себе паутину — сеть, которую плетет паук.

В рассматриваемом контексте исторически термин «сеть» закрепился за понятием «система взаимосвязанных компьютеров» (т. е. техничес­кая система), а термин «паутина» (Web) — за понятием «система взаи­мосвязанных документов» (т. е. структура данных).

Разумеется, «паутина» документов существует на базе компьютерной сети.

Всемирная паутина (World Wide Web, WWW) — это система (сеть) документов, связанных между собой гиперссылками.

 

Каждый отдельный документ, имеющий собственный адрес, называет­ся Web-страницей.

Каждая Web-страница может иметь множество связей с другими стра­ницами, которые хранятся как на том же самом компьютере, так и на дру­гих компьютерах сети.

Web-сервер — это компьютер, на котором работает сервер-программа WWW. В его дисковой памяти хранятся Web-страницы. В доменном име­ни Web-сервера младший домен обычно обозначается как www.

Например:

www. psu. ru — Web-сервер узла Интернета Пермского государ­ственного университета.

www. 1 September. ru — Web-сер­вер газеты «Первое сентября».

Web-страница (документ) мо­жет содержать самую разную ин­формацию: текст, рисунок, звуко­запись. Каждая страница хранится в отдельном файле, имя которого имеет расширение htm или html.

Гиперссылка — это некоторое ключевое слово или объект в доку­менте, с которым связан указатель для перехода на другую страницу в «паутине». Обычно изображение гиперссылки каким-то образом выделяется на странице, например цве­том или подчеркиванием. При подведении к гиперссылке указателя мыши он принимает вид руки с указывающим пальцем. Если при этом щелкнуть левой кнопкой мыши, то произойдет переход по указателю к связанному документу. Текст, в котором используются гиперссылки, на­зывается гипертекстом.

Протокол, который используется службой WWW, называется HTTP (HiperText Transfer Protocol — протокол передачи гипертекста). Его основное назначение — обработка гиперссылок, поиск и передача доку­ментов клиенту.

Web-сайт — это совокупность взаимосвязанных (обычно тематически) страниц. Сайт принадлежит некоторому лицу или учреждению. Web-сайт организуется на Web-сервере провайдера сетевых услуг. Всякий сайт име­ет главную страницу, являющуюся своеобразным титульным листом сайта. Как правило, главная страница представляет владельца сайта и со­держит гиперссылки на разные разделы сайта. Пример главной страницы Web-узла ПГУ приведен на рис. 5.12.

URL-адрес. Уже рассказывалось о системе адресации в компьютерном пространстве Сети. Это IP-адреса, доменные адреса. В пространстве ин­формационных ресурсов Интернета используется своя система адреса­ции. Она называется URL (Uniformed Resource Locator) — универсальный указатель ресурсов. Каждая Web-страница или файл имеют свой уни­кальный URL-адрес, который состоит из трех частей: имя используемого для доступа протокола; имя сервера, на котором хранится ресурс; полное имя файла (путь) на сервере. Например, URL-адрес главной страницы Web-сайта газеты «Первое сентября» выглядит так:

https://www.ISeptember.ru/ru/first.htm

Здесь http: / / — протокол доступа;

www. 1 September. ru — имя сервера;

/ru/first.htm — полное имя файла/

 

 


Средства поиска данных в Интернете

Как уже говорилось выше, WWW — это система Web-страниц, связан­ных между собой гиперссылками. Однако эти связи не имеют регулярнос­ти, как, например, в иерархической структуре данных. В этом смысле можно говорить о том, что система Web-страниц не структурирована.

Единственной координатой Web-документа является его URL-адрес. Однако URL-адрес никак не связан с содержанием документа. Но поиск данных производится именно по содержанию. Как же он осуществляется?

В поиске информации в WWW пользователю помогает поисковая служба Интернета. Поисковая служба основана на услугах поисковых серверов. Существуют две разновидности поисковых серверов: поисковые каталоги и поисковые указатели.

Поисковые каталоги. Если вам приходилось пользоваться услугами больших библиотек, то вы знаете, что такое библиотечный каталог. Су­ществуют алфавитные каталоги и предметные каталоги. В алфавитных каталогах карточки с библиографическими данными книг разложены в алфавитном порядке фамилий авторов. В предметных каталогах карточ­ки систематизированы по содержанию книг.

Систематизация в предметном каталоге производится по иерархичес­кому принципу: на первом уровне иерархии весь книжный фонд делится на крупные разделы: художественная литература, учебная литература, общественно-политическая литература, научно-техническя литература и т. п. Каждый из этих разделов делится на подразделы; например, учебная литература делится на разделы высшего образования, среднего образова­ния, дошкольного образования. Книги для среднего образования могут делиться по предметам, которые, в свою очередь, делятся по классам. Что­бы подобрать литературу по нужной теме, читатель должен понимать принцип организации каталога.

Поисковые каталоги WWW организованы по аналогичному иерархи­ческому принципу. Только в них систематизируется информация не о книгах, а о документах, хранящихся в World Wide Web. На главной стра­нице поискового каталога располагается список основных тематических разделов (рубрик). Например: финансы и экономика, государство и право, наука и образование, компьютеры, политика и т. д. Каждое имя в этом списке является внутренней гиперссылкой, т. е. ссылкой на внутренний документ сайта, поискового каталога. Щелчок мышью на гиперссылке вызывает на экран список заголовков следующего подраздела и т. д. Оче­видно, что такая система подобна дереву файловой системы ОС. Переме­щаясь по дереву внутренних гиперссылок каталога, пользователь в конеч­ном итоге получает список внешних ссылок на искомые Web-документы.

Поисковые каталоги заполняются вручную специалистами, поддержи­вающими данную службу. При ручном способе отбора невозможно полу­чить в каталоге исчерпывающую информацию о ресурсах Сети, и в этом состоит основной недостаток каталогов. Однако такой способ классифика­ции исключает ссылки на случайные документы, не имеющие отношения к указанной теме. Таким образом, поисковые каталоги при относительно небольшом охвате ресурсов Сети обеспечивают хорошее качество подбор­ки документов.

Поисковые указатели. Другое название этого вида поисковой служ­бы — поисковые машины. Очень часто в учебной и научной литературе в конце книги присутствуют предметные указатели (о них было сказано выше). Например, найдите в предметном указателе этого учебника по ин­форматике словосочетание «информационная система». Затем на страницах, номера которых указаны после этого словосочетания, вы мо­жете прочитать все, что написано про информационные системы.

Принцип работы поисковых указателей заключается в создании и ис­пользовании индексных списков — аналогов книжных предметных ука­зателей.

Задачи поисковых машин состоят в формировании индексных спис­ков, так чтобы охватить ими как можно большее число документов «пау­тины», а также в ответах на запросы клиентов. Ясно, что таким способом проиндексировать вручную все документы WWW невозможно. Их число давно перевалило за миллиард. Поэтому поисковые машины строят индексные списки автоматически.

Основной составляющей поисковых машин являются программы просмотра Web-документов, которые называют по-разному: роботами, червяками, пауками и пр. Наверное, наиболее подходящим является на­звание «пауки», если уж сеть WWW называть «паутиной»! Непрерывно, днем и ночью, они сканируют все информационное пространство WWW, просматривая все документы, определяя в них ключевые слова и записы­вая в свою базу индексов данное слово с указателем на документ, в котором оно присутствует. Этот процесс не прерывается, поскольку содержание паутины все время меняется. Даже в уже просмотренные документы авто­ры могут внести изменения или вообще удалить их. Поисковая машина все время должна поддерживать информацию в актуальном состоянии.

Эффективность работы поисковой машины зависит от используемых ал­горитмов формирования базы указателей. Эти алгоритмы являются интел­лектуальной собственностью их авторов и обычно держатся в секрете. Чис­ло указателей к некоторым ключевым словам составляет многие тысячи. Чем лучше алгоритм, тем меньше в индексный список попадает «мусо­ра» — случайных документов, не имеющих отношения к теме поиска.

В отборе наиболее важных документов пользователю помогает рейтин­говый принцип, используемый некоторыми поисковыми указателями. На запрос пользователя по ключевому слову система выдает список ссы­лок на документы, расположенных по убыванию рейтинга. Рейтинг опре­деляется по числу обращений к документу, которые были сделаны ранее. Самые популярные документы попадают в начало списка.

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-15 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: