- «Паук» (spider) - программа, которая загружает в поисковую машину web-страницы. Работает аналогично браузеру, установленному на компьютере пользователя, но ничего не отображает ни на каком экране. Передает в поисковую систему HTML-код документа.
- «Червяк» (crawler) - Программа, способная найти на web-странице все ссылки на другие страницы.
Ее задача – определить, куда дальше должен «ползти» «паук», руководствуясь ссылками или заранее заданным списком адресов.
- Индексатор (Indexer)- Программа, которая «разбирает» web-страницу на составные части и анализирует их. Вычленяются и анализируются заголовки, ссылки, текст документов. Отдельно анализируется текст, набранный полужирным шрифтом, курсивом и т.п.
- База данных (database) - Хранилище всех данных, которые поисковая система загружает и анализирует.
Требует огромных ресурсов как для хранения, так и для последующей обработки.
Система выдачи результатов поиска (SearchEngineResultsEngine) - Программа, которая решает, какие страницы удовлетворяют запросу пользователя и в какой степени. Именно с этой частью поисковой машины «общается» пользователь.
- Работа поисковой системы: Таким образом, после получения запроса ПС анализирует ту информацию, которую собрала ранее. Плюсы: многократно повышается скорость обработки запроса.
Минусы: область поиска ограничена внутренними ресурсами ПС, информация в базе данных быстро устаревает.
- Индексация - Процесс загрузки информации из интернета и предварительного анализа ее поисковой машиной.
Саму базу данных ПС, в которой храниться вся информация – индекс. Глубина индексации может быть разной.
Полные тексты документов, хранящихся на сайте, в базу данных копируются не всегда, иногда поисковые роботы ограничиваются урезанными версиями или вообще только заголовками.
|
Каждая ПС использует свой алгоритм поиска и его детали представляют собой ноу-хау разработчиков поисковика.
- Алгоритм поиска – метод, руководствуясь которым ПС принимает решение, включать или не включать ссылку на web-страницу в результаты поиска.
- Релевантность - Релевантным называется документ, имеющий отношение к сделанному Вами запросу, т.е. формально содержащий запрашиваемую Вами информацию (Англ. relevant– «подходящий, относящийся к делу»).
Конкретное общепринятое определение релевантности еще не сложилось.
- Полнота поиска - Коэффициентом полноты поиска называют отношение количества полученных релевантных документов к общему количеству существующих в базе данных релевантных документов:В идеальной ПС коэффициент полноты поиска = 1. А противоположный ему коэффициент потерь информации = 0.
В реальности коэффициент полноты поиска = 0,7-0,9
- Точность поиска - Коэффициентом точности поиска называют отношение количества релевантных результатов к общему количеству документов, содержащихся в ответе ПС на запрос: В идеальной ПС коэффициент точности поиска = 1. А противоположный ему коэффициент поискового шума= 0. В реальности коэффициент точности поиска = 0,1-1
Нередко количество размещенных в интернете релевантных пользователю документов может составлять десятки тысяч.
В то же время релевантная информация в них совпадает, и пользователю достаточно изучить лишь несколько документов из числа найденных. Таким образом, полнота в сравнении с точностью является второстепенным критерием качества информационного поиска.
|
- Пертинентность - На практике используется еще и неформальное понятие – пертинентность.
Это соотношение объема полезной для пользователя информации к объему полученной.
Зачастую это соотношение имеет решающее значение.
Браузеры
Веб-обозреватель, браузер — программное обеспечение для просмотра веб-сайтов, то есть для запроса веб-страниц (преимущественно из Сети), их обработки, вывода и перехода от одной страницы к другой.
Большинство браузеров умеют также показывать оглавление FTP-серверов.
Браузер способен отображать веб-страницы и, как правило, входит в состав операционной системы, а функции его обновления и сопровождения лежат на поставщике операционной системы. Логика приложения сосредотачивается на сервере, а функция браузера заключается в основном в отображении информации, загруженной по сети с сервера, и передаче обратно данных пользователя. Одним из преимуществ такого подхода является тот факт, что клиенты не зависят от конкретной операционной системы пользователя, и веб-приложения, таким образом, являются межплатформенными сервисами.
Браузеры постоянно развивались со времени зарождения Всемирной паутины и с её ростом становились всё более востребованными программами. Ныне браузер — комплексное приложение для обработки и вывода разных составляющих веб-страницы и для предоставления интерфейса между веб-сайтом и его посетителем.