Сеть Интернет растет очень быстрыми темпами, поэтому найти нужную информацию среди сотен миллиардов Web-страниц и сотен миллионов файлов становится все сложнее. Для поиска информации используются специальные поисковые системы, которые содержат постоянно обновляемую информацию о местонахождении Web-страниц и файлов на сотнях миллионов серверов Интернета.
Поисковые системы содержат тематически сгруппированную информацию об информационных ресурсах Всемирной паутины в базах данных. Специальные программы-роботы периодически "обходят" Web-серверы Интернета, читают все встречающиеся документы, выделяют в них ключевые слова и заносят в базу данных Интернет-адреса документов.
Большинство поисковых систем разрешают автору Web-сайта самому внести информацию в базу данных, заполнив регистрационную анкету. В процессе заполнения анкеты разработчик сайта вносит адрес сайта, его название, краткое описание содержания сайта, а также ключевые слова, по которым легче всего будет найти сайт.
Поиск по ключевым словам
Поиск документа в базе данных поисковой системы осуществляется с помощью введения запросов в поле поиска.
Запрос должен содержать одно или несколько ключевых слов, которые являются главными для этого документа. Например, для поиска самих систем поиска в Интернете можно в поле поиска ввести ключевые слова "российская система поиска информации Интернет
Поиск в иерархической системе каталогов
В базе данных поисковой системы Web-сайты группируются в иерархические тематические каталоги, которые являются аналогами тематического каталога в библиотеке.
Тематические разделы верхнего уровня, например: Интернет, Компьютеры, Наука и образование и т. д., содержат вложенные каталоги. Например, каталог Интернет может содержать подкаталоги Поиск, Почта и др.
|
Поиск информации в каталоге сводится к выбору определенного каталога, после чего пользователю будет представлен список ссылок на Интернет-адреса наиболее посещаемых и содержательных Web-сайтов. Каждая ссылка обычно аннотирована, т. е. содержит короткий комментарий к содержанию документа.
Наиболее полный многоуровневый иерархический тематический каталог русскоязычных Интернет-ресурсов имеет поисковая система Апорт (www.aport.ru). Каталог содержит подробную аннотацию содержания Web-сайтов и указание на их географическое положение.
Поиск файлов
Для поиска файлов на серверах файловых архивов существуют специализированные поисковые системы, в том числе поисковая система FileSearch (www.filesearch.ru). Для поиска файла необходимо ввести имя файла в поле поиска, и поисковая система выдаст Интернет-адреса серверов файловых архивов, на которых хранится файл с заданным именем.
Поиск информации в русскоязычной части Интернета с помощью наиболее поисковых систем: Google, Rambler, Апорт, Япс1ех и файловой поисковой системы Research можно производить с использованием интегрированной поисковой системы Gogle.ru Для этого достаточно ввести ключевые слова в строку поиска, с помощью переключателей установить тип необходимой информации и щелкнуть по кнопке с названием поисковой системы Gogle.ru.Для этого достаточно ввести ключевые слова в строку поиска, с помощью переключателей установить тип необходимой информации и щелкнуть по кнопке с названием поисковой системы.
|
Мета-поисковая система (также называемая метакраулером или мульти-поточной системой) - это поисковый инструмент, посылающий ваш запрос одновременно на несколько поисковых систем (ПС), каталогов и, иногда, в так называемую невидимую (скрытую) паутину - собрание онлайновой информации, не проиндексированной традиционными поисковыми системами. Собрав результаты, мета-поисковая система (МПС) удаляет дублированные ссылки и, в соответствии со своим алгоритмом, объединяет/ранжирует результаты в общем списке.
Важно: в отличии от отдельных поисковых систем и директорий, мета-поисковые системы:
- не имеют собственных баз данных
- не регистрируют URLы сайтов
МПС бывают четырех видов:
- "Реальные" МПС, которые объединяют/ранжируют результаты на одной странице
- "Псевдо" МПС первого типа, которые группируют результаты по поисковым системам на одной длинной странице
- "Псевдо" МПС второго типа, которые открывают для каждой используемой поисковой системы новое окно
- Поисковые утилиты - программные поисковые средства
Поисковый алгоритм — сложная математическая модель, позволяющая поисковой системе составить поисковую выдачу, наиболее релевантную запросу пользователя. Представляет собой классический «черный ящик» с набором параметров, на входе в который задается проблема, а на выходе — ее решение.
общий список параметров, которые учитывают поисковые системы и на основании которых регулируется поисковая выдача:
|
· Количество ключевых слов или запросов на странице и на сайтеОтношение числа слов на сайте к их количеству на сайте
· Отношение числа слов на странице к их количеству на странице.
· Индекс цитирования
· Тематика и ее популярность.
· Количество запросов по ключевому запросу за период времени.
· Общее количество проиндексированных страниц сайта.
· Применение стиля к страницам ресурса.
· Объём текста всего сайта.
· Общий размер сайта.
· Размер каждой страницы сайта.
· Объём текста на каждой странице сайта.
· Возраст домена и время существования сайта.
· Домен и URL сайта и его страниц, наличие в нем ключевых слов.
· Частота обновления информации на сайте.
· Последнее обновление сайта и его страниц.
· Общее число картинок (рисунков, фотографий) на сайте и на странице.
· Количество мультимедийных файлов.
· Наличие описаний (замещающих надписей) на картинках.
· Количество символов (длина) в описании картинок.
· Использование фреймов.
· Язык сайта.
· Географическое положение сайта.
· Шрифты и теги, которыми оформлены ключевые слова и фразы.
· Где на странице располагаются ключевые слова.
· Стиль заголовков.
· Наличие и анализ мета-тегов «title» «dеscription» «keywords».
· Параметры файла «robot.txt».
· Программный код сайта.
· Присутствие в составе сайта flash модулей.
· Наличие дублей страниц или контента.
· Соответствие содержания сайта разделу каталога поисковика.
· Наличие «стоп слов».
· Количество внутренних ссылок сайта.
· Количество внешних входящих и исходящих ссылок.
· Использование java скриптов.
· Другие параметры.