Сбор данных поисковым роботом пауком
Обычно делится на 2 этапа – скачивание веб-страницы и анализ ссылок. Первый этап выполняет Spider (быстрый поисковый паук) – программа для последовательного перебора и скачивания веб-страниц для анализа. Она получает веб-страницы с сайтов по определенному алгоритму и отдает их другой программе Crawler-у. После этого в дело вступает Crawler (медленный паук анализатор), который находит все ссылки и составляет дальнейший маршрут для spider-а. У spider-а есть определенный список сайтов для посещения, заранее подготовленный другими подсистемами поиска. Из этого списка spider получает все необходимые данные.
Индексация найденных данных
После того, как проходит первый этап, в дело вступает вторая подсистема – подсистема индексации. Она размещает найденную пауками информацию так, чтобы было удобно в дальнейшем к ней обращаться. Для этого программа Индексатор разбирает страницу на различные ее части и анализирует их. Из страницы выделяются заголовки страниц, ссылки, текст, структурные элементы и т.д. Все полученные данные структурируются по определенному алгоритму и затем полученные данные заносятся в базу данных.
Поиск по индексированным данным
Эта подсистема выдачи результатов, которая использует сформированную индексатором базу данных. Она определяет, какие страницы удовлетворяют запросу пользователя и показывает результаты поиска. Когда вы вводите ключевое слово и делаете поиск, поисковая система отбирает результаты на основании следующих критериев:
1. Title (заголовок): Есть ли ключевое слово в заголовке?
2. Domain/URL (Домен/адрес): Есть ли ключевое слово в имени домена или в адресе страницы?
3. Style (стиль): Анализ стиля текста на страницы. Используется ли Жирный текст или Курсив, используются ли заголовки H1, H2 и т.д.
4. Density (плотность): Как часто употреблено ключевое слово на странице? Какова величина плотности ключевого слова?
5. MetaInformation (мета данные) – поиск совпадений в метаданных.
6. Outbound Links (ссылки наружу): Есть ли ссылки на странице и на кого они ведут, а также встречается ли ключевое слово в тексте ссылки?
7. Inbound Links (внешние ссылки): Кто ссылается на искомую страницу? Каков текст ссылки?
8. Insite Links (ссылки внутри страницы): На какие страницы данного сайта содержит ссылки эта страница?
В результате этого сравнения подсистема поиска выбирает нужные веб-страницы и показывает их пользователю, который осуществляет поиск.
Что можно найти через поисковики
Технически найти можно любую информацию, которая проиндексирована поисковиком, находиться в общем доступе в сети интернет и не запрещена политикой поисковой системы. При поиске в интернете имейте ввиду следующее:
· Большая часть информации в интернете не контролируется и любой человек с компьютером и доступом в интернет может публиковать информацию. Поэтому нужно понимать, что данные могут быть недостоверными.
· Не всегда легко узнать кто автор найденной информации.
· Вы не всегда знаете откуда приходит информация.
· Информация может быть предвзятой, специально вводящей в заблуждение или просто неверной.
· Дата публикации данных может быть не указано и будет трудно понять, является ли информация актуальной.
Строка поиска
С этим видом поиска мы пользуемся постоянно, каждый день. Для того, чтобы найти ответ на какой-то наш вопрос нам достаточно ввести запрос в адресную строку и нажать Enter
По мере набора нашего запроса браузер предлагает возможные сочетания с ним, которые набирали ранее другие пользователи интернета. Перед нами есть выбор: искать точно по нашему запросу или выбрать другую фразу из предлагаемого списка браузера.
Строка поиска на странице браузера обычно находится:
· в левом верхнем углу браузера Опера
· в левом нижнем углу браузера Мазила
· в правом верхнем углу Гугл Хром
· в левом верхнем углу браузера Internet Explorer
· в правом верхнем углу Яндекс Браузера
В появившейся строке поиска пишем слово, которое необходимо найти.
Так же с помощью функции поиска на странице можно найти не только слово, цифру, но и любой знак, код или словосочетание вбитый в строку поиска с помощью клавиатуры, или вставленный из буфера обмена.
Найденное слово выделится на странице браузера другим цветом.
В браузере Опера поиск на странице можно вызвать и нажатием одной клавиши, эта клавиша «/»
Если же курсор будет помещен в одно из полей, например для вставки логина, то данный способ вызова строки поиска не сработает.
Для закрепления навыка и лучшего запоминания клавиш вызови функцию браузера «поиск на странице» еще раз жми клавиши: «Ctrl» + «F»
·