Поиск информации в Интернет




- «Паук» (spider) - программа, которая загружает в поисковую машину web-страницы. Работает аналогично браузеру, установленному на компьютере пользователя, но ничего не отображает ни на каком экране. Передает в поисковую систему HTML-код документа.

- «Червяк» (crawler) - Программа, способная найти на web-странице все ссылки на другие страницы.

Ее задача – определить, куда дальше должен «ползти» «паук», руководствуясь ссылками или заранее заданным списком адресов.

- Индексатор (Indexer)- Программа, которая «разбирает» web-страницу на составные части и анализирует их. Вычленяются и анализируются заголовки, ссылки, текст документов. Отдельно анализируется текст, набранный полужирным шрифтом, курсивом и т.п.

- База данных (database) - Хранилище всех данных, которые поисковая система загружает и анализирует.

Требует огромных ресурсов как для хранения, так и для последующей обработки.

Система выдачи результатов поиска (SearchEngineResultsEngine) - Программа, которая решает, какие страницы удовлетворяют запросу пользователя и в какой степени. Именно с этой частью поисковой машины «общается» пользователь.

- Работа поисковой системы: Таким образом, после получения запроса ПС анализирует ту информацию, которую собрала ранее. Плюсы: многократно повышается скорость обработки запроса.

Минусы: область поиска ограничена внутренними ресурсами ПС, информация в базе данных быстро устаревает.

- Индексация - Процесс загрузки информации из интернета и предварительного анализа ее поисковой машиной.

Саму базу данных ПС, в которой храниться вся информация – индекс. Глубина индексации может быть разной.

Полные тексты документов, хранящихся на сайте, в базу данных копируются не всегда, иногда поисковые роботы ограничиваются урезанными версиями или вообще только заголовками.

Каждая ПС использует свой алгоритм поиска и его детали представляют собой ноу-хау разработчиков поисковика.

- Алгоритм поиска – метод, руководствуясь которым ПС принимает решение, включать или не включать ссылку на web-страницу в результаты поиска.

- Релевантность - Релевантным называется документ, имеющий отношение к сделанному Вами запросу, т.е. формально содержащий запрашиваемую Вами информацию (Англ. relevant– «подходящий, относящийся к делу»).

Конкретное общепринятое определение релевантности еще не сложилось.

- Полнота поиска - Коэффициентом полноты поиска называют отношение количества полученных релевантных документов к общему количеству существующих в базе данных релевантных документов:В идеальной ПС коэффициент полноты поиска = 1. А противоположный ему коэффициент потерь информации = 0.

В реальности коэффициент полноты поиска = 0,7-0,9

- Точность поиска - Коэффициентом точности поиска называют отношение количества релевантных результатов к общему количеству документов, содержащихся в ответе ПС на запрос: В идеальной ПС коэффициент точности поиска = 1. А противоположный ему коэффициент поискового шума= 0. В реальности коэффициент точности поиска = 0,1-1

Нередко количество размещенных в интернете релевантных пользователю документов может составлять десятки тысяч.

В то же время релевантная информация в них совпадает, и пользователю достаточно изучить лишь несколько документов из числа найденных. Таким образом, полнота в сравнении с точностью является второстепенным критерием качества информационного поиска.

- Пертинентность - На практике используется еще и неформальное понятие – пертинентность.

Это соотношение объема полезной для пользователя информации к объему полученной.

Зачастую это соотношение имеет решающее значение.

Браузеры

Веб-обозреватель, браузер — программное обеспечение для просмотра веб-сайтов, то есть для запроса веб-страниц (преимущественно из Сети), их обработки, вывода и перехода от одной страницы к другой.

Большинство браузеров умеют также показывать оглавление FTP-серверов.

Браузер способен отображать веб-страницы и, как правило, входит в состав операционной системы, а функции его обновления и сопровождения лежат на поставщике операционной системы. Логика приложения сосредотачивается на сервере, а функция браузера заключается в основном в отображении информации, загруженной по сети с сервера, и передаче обратно данных пользователя. Одним из преимуществ такого подхода является тот факт, что клиенты не зависят от конкретной операционной системы пользователя, и веб-приложения, таким образом, являются межплатформенными сервисами.

Браузеры постоянно развивались со времени зарождения Всемирной паутины и с её ростом становились всё более востребованными программами. Ныне браузер — комплексное приложение для обработки и вывода разных составляющих веб-страницы и для предоставления интерфейса между веб-сайтом и его посетителем.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-02 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: