Порядок и методика выполнения работы




Лабораторная работа №2

Средства поиска информации в интернете

Цель работы: ознакомление с основными понятиями и принципами работы поисковых систем, получение основных навыков по поиску необходимой информации в интернете с помощью поисковых систем.

Программа работы

1. Изучение поиска информации в сети Интернет с помощью поисковых машин.

2. Изучение поиска информации в сети Интернет с помощью с помощью каталогов.

Краткие сведения

Основные понятия

Постановка задачи поиска

Отправляясь в увлекательное путешествие по Сети, включающей в себя колоссальный объем информации, вы рискуете заблудиться и не суметь отыскать нужной информации. Интернет не только является крупнейшей базой данных, но и, безусловно, активизирует полёт творческой мысли, в отличие от других средств массовой информации, которые оставляют вам лишь роль пассивного наблюдателя.

Не имеет смысла перечислять различные объекты поиска в Интернете. Они могут быть самыми разнообразными. Отличия в схемах поиска научной статьи и детской игрушки могут оказаться совсем незначительными.

Представьте себе, что вы - посетитель огромной библиотеки, хранящей многие тысячи томов. Вы оказываетесь на распутье, от которого (по традиции) ведут три дороги:

· Отправиться на поиск по известным вам ключевым словам;

· Полистать предлагаемые тематические каталоги,

· Обратиться в специальную службу по поиску информации.

Прежде, чем решиться на окончательный выбор пути, попытайтесь зримо представить себе объект поиска. Помните, - чтобы грамотно задать вопрос, надо знать большую часть ответа.

Если Вам удается определить искомый объект несколькими признаками (словами или числами), - решайтесь на самостоятельный поиск с помощью специальных поисковых машин. Кстати, не пренебрегайте возможностью проверить наличие искомого адреса прямой подстановкой ключевого слова в URL. Например, очевидно, что при поиске сайта компании Intel, было бы разумным проверить адреса www.intel.com или www.intel.org.

В случае если ваш интерес имеет весьма размытые границы и определяется лишь некой областью человеческих знаний, - обратитесь к тематическому каталогу.

Поисковые машины

Поисковая машина - поисковая система с формируемой программным "роботом" базой данных, содержащей информацию об информационных ресурсах.

Все поисковые машины, предназначенные для сети Интернет, имеют более или менее схожие принципы работы. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками.

Почти каждая поисковая система (скажем так — классическая поисковая система) состоит из трех основных ком­понентов:

· веб-паука (web spider);

· индексатора;

· алгоритма поиска и оценки результатов.

Веб-паук, несмотря на всю экзотичность подобного названия, -это всего-навсего специальная программа, которая запускается на компьютере (компьютерах), подключенном к Интернету, и ее основная задача — шерстить весь этот Интернет (точнее, интер­нетовские странички) во всех возможных направлениях. Ведь странички, как мы говорили, состоят из гиперссылок, так вот паук и носится как угорелый по гиперссылкам «паутины» сайтов и скачивает полученные таким образом странички для второго компонента - индексной базы.

Индексатор — это обработчик скачанных веб-пауком страниц. Он извлекает оттуда все слова и складывает их в поисковую базу (индексную базу). При этом индексатор записывает, где именно было найдено то или иное слово, и данная информация потом используется в поиске.

Алгоритм поиска — это главное ноу-хау любой поисковой сис­темы. От алгоритма зависит эффективность полученного резуль­тата - то есть насколько быстро и точно пользователь найдет то, что его интересует.

Таким образом, когда пользователь вводит свой запрос, поисковая машина ищет ответ в своей индексной базе и выводит результаты в соответствии со своим алгоритмом поиска.

Для хорошей работы поисковой системы важны все три ком­понента. Причем каждый из них, на самом деле, весьма сложен, и его работа подчиняется огромному количеству всевозможных хитрых правил, которые, к тому же, постоянно корректируются.

Поисковик должен иметь и шустрого паука, и мощную индекс­ную базу, и эффективный алгоритм поиска — только тогда вы будете получать действительно полезные результаты.

Невероятно распространено заблуждение, что во время поиска по вашему запросу избранная поисковая машина обходит миллионы известных ей адресов и сверяет соответствие ключевых слов содержимому "свежих" гипертекстов. Не так! Поиск интересующих вас ссылок ведется в постоянно обновляемой собственной информационной базе (колоссального размера индексные файлы) поисковой машины, и в ответ на ваш запрос выдаются подходящие URL-адреса во всех концах сети Интернет. Поисковая машина самостоятельно постоянно ведет циклический опрос заданных адресов в Сети, пополняя собственную базу данных. В значительной степени, доступность документа для поисковой системы зависит от его автора. В его власти использовать в гипертексте наиболее запрашиваемые ключевые слова, поместить документ на доступном для основных поисковых машин сервере и не забыть заявить о себе поисковым службам международной сети Интернет.

Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы сохранить окно с результатами запроса к поисковой машине.

Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определения похожести - весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим ожиданиям. Некоторые поисковые машины позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

Поскольку поисковые машины существуют в Интернете, в основном, за счёт публикуемой рекламы, как правило, самые популярные системы поиска могут предоставить вам наилучшие возможности. Для рядового пользователя услуги поисковых серверов, как правило, предоставляются бесплатно. Достаточно лишь указать адрес поисковой системы в рабочей строке браузера или обратиться к ней через каталог закладок.

Главной задачей любой поисковой машина является поиск информации, соответствующей информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность.

Релевантность - это степень соответствия результатов поиска сформулированному запросу.

Что значит «степень соответствия»? Вот смотрите. Например, вы студент (школьник, аспирант, кандидат, профессор), и вам нужно написать какой-то реферат. Как продвинутое дитя интер­нетовского века, вы не собираетесь его писать самостоятельно, а надеетесь найти соответствующий текст в Интернете и выдать его за свой. Не берясь оценивать подобное действо с точки зре­ния морали, будем рассматривать это просто как пример.

Итак, прежде всего вам нужно найти сайт с рефератами. Вы заходите на поисковую систему и вводите слово для поиска «ре­фераты». Поисковая система заглядывает в свою индексную базу и видит там ссылки примерно на 7 864 295 страниц, на которых это слово встречается 31 378 327 раз. (Цифры абсолютно реаль­ные и предоставлены поисковой системой Япс1ех.) Причем это слово присутствует как на страницах сайта «Банк рефератов», так и на страницах дневника Леночки, где дословно написано следующее: «Сегодня пыталась писать реферат. Шесть ногтей покрасила, но так ни черта и не написала. Какой-то се­годня прям нерефератный день, дивчонки, да?»

Так какую ссылку пользователь хочет получить первой: на банк рефератов или на страничку Леночки, где про­сто употребляется слово «реферат»? Разумеется, на банк рефера­тов! Вот это и называется — релевантность, то есть степень соот­ветствия запросу.

Каким образом поисковая система может определить эту ре­левантность, то есть какие из страничек с заданной поисковой строкой наиболее интересны и полезны пользователю? В этом как раз и заключается ноу-хау различных поисковиков, однако общий принцип у них достаточно похож, и анализ результатов прово­дится примерно следующим образом:

· Проверяется, сколько раз заданное слово (словосочетание) встречается на отобранных страничках. Разумеется, чем больше, тем лучше, потому что больше вероятность того, что эти страницы посвящены именно данной тематике.

· Проверяется расстояние между словами, если введена целая фраза. То есть если пользователь ищет «Герберт фон Кара-ян», то страничка, на которой встречается «Герберт фон Ка-раян родился» будет более релевантной, чем страничка с тек­стом: «Герберт утром встал, побрился, достал из кармана фон дер пшик, а потом включил Караян по телевизору».

· Количество ссылок на данную страницу (индекс цитируе­мое™). Чем больше на данную страницу ссылаются (ста­вят гиперссылку) другие страницы, тем больше вероят­ность того, что именно эта страница нужна пользователю.

· Каким шрифтом (стилем) набрана на странице искомая фраза. Если фраза написана крупным шрифтом (является заголовком) или выделена жирным — это тоже признак бо­лее высокой релевантности данной страницы.

· Возраст сайта. Чем дольше существует данный сайт, тем луч­ше это влияет на релевантность.

Таким образом, как видите, уровень релевантности — это це­лый комплекс всевозможных параметров, которые нужно не только получить и сохранить в поисковой базе, но и правильно интерпретировать.

Наиболее известные и популярные системы для поиска информации:

· Яndex (русскоязычная) - https://www.yandex.ru

· Rambler (русскоязычная) - https://www.rambler.ru

Кроме рассмотренных, существуют также системы для поиска файлов (files.ru), людей (whowhere.ru) и т. д. Список ссылок на различные поисковые системы размещен на Web-странице monk.newmail.ru.

Организация поиска

Рассмотрим работу поисковой машины на примере поисковой системы Яндекс.

Для вызова поисковой системы, пользователь вводит в адресной строке обозревателя Интернет ее адрес, в нашем примере мы используем поисковую систему Яндекс: www.yandex.ru или www.ya.ru (в варианте упрощенной загрузки). После загрузки поисковой системы в строке для поиска вводите запрос (ключевую фразу), который представляет собой строку текста (на русском, английском или любом другом языке) и нажимайте кнопку Найти.

Советы по поиску

1.Пишите грамотно слова поискового запроса. Вы будете смеять­ся, но многие люди не могут найти сайты по интересующей их тематике и на все лады костерят поисковые системы, меж­ду тем как слово для поиска просто введено с ошибкой, и по­исковик протирает жесткие диски до дыр, пытаясь отыскать «ателье по срочному пошиву польтов», тогда как в ателье «польты» никто не шьет, а шьют «пальто».

2.Используйте синонимы. Если поиск нужных результатов не принес, попробуйте переформулировать запрос, используя синонимы. Например, вместо «чоппер» введите «крутой мотоцикл», вместо «тачка» - «автомобиль», вместо «курсо­вая работа» — «реферат».

3.Уточняйте запрос. Чем точнее будет построен поисковый запрос, тем больше шансов, что в первых строках результата поиска будет нужный вам ресурс. Поэтому если вы ищете уже упоминавшуюся технологию вышивания крестиком по молочным бидонам, просто и тупо напишите это в строке поиска. Если результат вас не удовлетворит, тогда уже на­чинайте варьировать строку.

4.Используйте ключевые слова. Если результат поиска вас не удовлетворил, включайте в поисковый запрос как можно больше уточняющих слов. Если вы ищете инфор­мацию по автомобилю Honda — так и пишете «автомобиль Honda», а не просто «автомобиль».

5.Не вводите запрос в верхнем регистре. Все запросы желатель­но вводить в нижнем регистре, потому что поиск обычно регистрозависимый и строку «ПЯТЬ МИЛАНСКИХ КА­ФЕДРАЛЬНЫХ СОБОРОВ» вам найдут только в том слу­чае, если она где-то на сайте набрана заглавными буквами. Однако если вы ищете какие-то имена собственные — на­пример, группу «Черный кофе», а не продукт питания чер­ный кофе, — тогда пишите их с заглавных букв (именно с заглавных, а не все заглавными).

6.В сложных случаях используйте язык запросов. Практически все поисковые системы поддерживают так называемый язык за­просов, позволяющий задавать мощнейшие комбинации раз­личных критериев поиска.

Язык запросов

Язык запросов – специальные символы, используемые в запросе для поиска необходимой информации.

Исключение/включение определенных слов — знаки «+» и «—»

Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минуса. И наоборот, чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс. Обратите внимание, что между словом и знаком плюс или минус не должно быть пробела. Например, если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос "путеводитель по Парижу -агентство -тур". Плюс стоит использовать в том случае, когда нужно найти так называемые стоп-слова (наиболее частотные слова русского языка, в основном это местоимения, предлоги, частицы). Чтобы найти цитату из Гамлета, надо задать запрос "+быть или +не быть".

Перечисление альтернатив — знак «|»

Вертикальная черта позволяет задать альтернативы: система ищет хотя бы одно из перечисленных слов. Например, если вы хотите найти страницы, где встречается одно из слов «папа», «мама», «дочка», «внучка», поисковый запрос будет выглядеть сле­дующим образом: «папа | мама | дочка | внучка».

Поиск точного соответствия — знак «!»

Обычно поисковики ищут все словоформы введенного сло­ва, даже если оно задано полностью: например, если в строке введено «блондинка», то первыми будут выведены страницы, где встречается именно «блондинка», но далее в результатах поиска окажутся «блондинки», «блондинкой», «блондинкою», «блондинкам» и т.д. Однако если вам нужно найти только дан­ную конкретную форму — «блондинка», — тогда задавайте по­исковую строку так: «!блондинка».

Поиск точной фразы — кавычки

Если вам нужна точная фраза «гипервизионный квазиконвер­тер», а не «гипервизионный анализатор, включающий в себя темно-зеленый квазиконвертер в пупырышках» — тогда при по­иске заключите фразу в кавычки: «гипервизионный квазиконвер­тер», и в этом случае поисковик выведет только те страницы, где эти слова располагаются строго рядом.

Задание расстояния между словами — «/n»

Если вы хотите найти все варианты фразы «высокая [любое слово] блондинка» — можно отразить это неуемное желание в поисковом запросе с помощью знака «/», означающего «не пре­вышало», и числа, показывающего допустимое количество слов, причем 1 — это значит отсутствие слов. Поясняю. Запрос «высо­кая /+2 блондинка» означает команду искать все сочетания, где между «высокая» и «блондинка» не больше 1 слова. То есть «вы­сокая блондинка» — подойдет, «высокая длинноногая блондин­ка» — тоже подойдет, а «высокая длинноногая и страстная блон­динка» — уже нет. Значок «+» означает, что слово (слова) должны быть справа, а «—» — слева. То есть запрос «высокая /(—2 4) блон­динка» означает, что «высокая» должно находиться от «блондин­ка» в интервале расстояний от 2 слов слева до 4 слов справа.

Ограничение по адресам — команда #url

Если вас интересует поиск, например, только на конкретном сервере или по конкретной группе адресов, либо же наоборот — поиск, который исключает конкретные адреса или группы адре­сов, — можно воспользоваться командой #иг1="адрес или груп­па". Например, если вы хотите найти все страницы, на которых встречается слово «квадроид», исключив сайт www.kvadroid.ru, дайте следующую команду: квадроид —#url=" www.kvadroid.ru ".

Поиск ссылок — команда # link

Иногда (особенно это бывает актуальным для владельцев соб­ственных страничек) бывает очень интересно узнать, какие сай­ты ссылаются (ставят гиперссылку) на тот или иной адрес. В этом случае достаточно в строке поиска задать следующие данные: # link ="адрес". То есть команда #link=" www.exler.ru " покажет все страницы, где стоят ссылки на www.exler.ru.

Выше были перечислены только основные возможности языка запросов поисковой системы Яndex. Отмечу, что эти параметры, как пра­вило, весьма похожи и в других поисковых системах, хотя в лю­бом случае перед их использованием желательно посмотреть опи­сание на конкретном поисковике.

Также следует иметь в виду, что практически каждый поиско­вик позволяет создавать довольно сложные запросы с помощью специальной формы под названием «расширенный вопрос», для работы с которой вам уже не нужно знать, как именно работает язык запросов в данном поисковике.

Результаты поиска

После того, как вы задали запрос, Яндекс выведет список ссылок на документы, наиболее точно ему соответствующие. На этой странице результатов вы обнаружите некоторые специальные обозначения и ссылки, предназначенные облегчить просмотр и сортировку найденных страниц. На рисунке приведен общий вид страницы результатов:

1. Поисковая форма. Главный ее элемент - строка запроса. При желании можно искать только в результатах предыдущего поиска ("искать в найденном"). Можно также задать запрос по любому из источников информации ("Везде", "Каталог", "Новости", "Маркет", "Энциклопедии", "Картинки").

2. Статистика поиска: число найденных документов и частота заданных в запросе слов. По ссылке "страниц" можно перейти на несгруппированную по серверам выдачу.

3. Рубрики каталога. По нажатию на ссылку происходит переход в соответствующий раздел каталога (выводится только при точном соответствии запросу).

4. Результаты поиска по вебу. Для каждого документа выдается следующая информация: заголовок - ссылка на ресурс, краткое описание ресурса, информация о размере, кодировке и, дате документа, его URL. Найденные слова - переход на "подсвеченный" документ, в котором контекст запроса выделен стрелочками, поиск похожего документа и, если найденный сайт описан в каталоге, переход в рубрику каталога.

5. Переход на следующие страницы результата. Сортировка по убыванию дат или релевантности.

6. Возможность поискать в других русскоязычных поисковых машинах.

7. Результат поиска в новостных лентах информационных агентств (выводится только при точном соответствии запросу). При высоком соответствии и актуальности эта секция может оказаться над результатами поиска по вебу.

8. Результат поиска в базе товарных предложений магазинов (выводится только при точном соответствии запросу).

Расширенный поиск

Яндекс обладает развитым языком запросов, позволяющим осуществлять тонкий поиск. Для того, чтобы воспользоваться широким спектром возможностей, используйте страницу "расширенный поиск", где большая часть настроек Яндекса задается простым образом.

Искомые слова. Здесь вы можете указать, какие слова обязательно должны встретиться в документе, каких быть не должно, а какие желательны (то есть могут быть, а могут не быть).
Зоной поиска слова может быть как текст документа (слова находятся в одном предложении или всем документе), так и его заголовок, аннотация (тэг description), ссылка (подпись URL) или адрес (сам URL).

Страницы. Яндекс умеет определять язык документа. Вы можете задать язык документа, где надо провести поиск: русский (кириллица) или не русский. В базе Яндекса находятся только документы русскоязычного Интернета (по умолчанию в поисковую машину вносятся сервера в доменах su, ru, am, az, by, ge, kg, kz, md, tj, ua, uz), а также зарубежные сайты, представляющие интерес для русскоязычного поиска. Так же вы можете указать ограничение выдачи документов по дате и формат документа.

Внизу страницы вы можете посмотреть ваш запрос и все указанные параметры.

Каталоги

Каталог - поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Такая классификация, как правило, проводится людьми.

Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем, разделов, подразделов и т.д. Кроме этого, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную специалистами создающими каталог. Некоторые каталоги используют автоматическое обновление индекса.

Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.

Порядок и методика выполнения работы

1. Выполните поиск информации по интересующей Вас тематике.

2. Проработать тему с использованием следующих поисковых машин:
https://www.yandex.ru, https://www.rambler.ru.

3. Сделать более глубокий поиск по заданной теме на основе технологии расширенного поиска.

4. Запишите сколько источников с заданной комбинацией слов обнаружено каждой поисковой системой.

5. Сравнить полученные результаты от нескольких поисковых машин.

6. Отобрать и сохранить результаты поиска по заданной теме.

Содержание отчета

1. Указать цель работы.

2. Описать принципы работы поисковых машин.

3. Привести основные правила организации поиска в поисковых машинах.

4. Привести результаты поиска по заданной теме.

Контрольные вопросы

1. Принципы поиска информации в Интернете.

2. Типы поисковых систем в Интернете.

3. Принцип работы поисковой машины.

4. Правила составления запроса из ключевых слов.

5. Дополнительные возможности расширенного поиска.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-11-01 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: