Описание языков запросов различных поисковых машин




 

Умение искать информацию с помощью поисковых машин очень важно для создания и последующей раскрутки блога.

Благодаря поисковым машинам можно своевременно собирать информацию, появляющуюся в Интернете по теме, которой посвящен блог. Это, в свою очередь, дает возможность своевременно прокомментировать ситуацию и разместить на своем блоге готовый материал, предложив его вниманию читателей. Важно, что язык запросов поисковой машины работает не только при поиске во всем Интернете, но и при поиске по блогам и форумам, что значительно расширяет возможности блоггера. Несмотря на то, что принципы языка современных поисковых машин действительно одинаковы, синтаксис запросов у них различен. Некоторые операторы языка запросов универсальны, но большинство – нет.

Рассмотрим языки запросов трех основных поисковых машин, работающих с русскоязычными текстами, более подробно.

 

Поиск в Яндексе

 

Лучшая, на наш взгляд, работа по изучению операторов поисковой машины Яндекс, выполнена специалистом из Санкт-Петербурга Денисом Фурсовым. На его блоге в статье «Хозяйке на заметку. Поиск через Яндекс для специалистов» [19]постоянно публикуются результаты исследований, отслеживаются, оцениваются и обсуждаются изменения в работе операторов поисковой машины Яндекс (рис. 22).

 

Рис. 22. Внешний вид страницы «Хозяйке на заметку. Поиск через Яндекс для специалистов»

Ниже речь пойдет о том, как с помощью специальных фильтров, основанных на булевой алгебре, создавать запросы, максимально соответствующие потребностям специалиста, который ищет информацию в Интернете. При изучении этого вопроса не следует забывать, что компьютер очень исполнителен, но лишен способности думать, поэтому следует составлять запрос исходя из того, что он будет обработан буквально, а не с учетом того, что же на самом деле имел в виду пользователь, создавая обращение к поисковой машине. Лучше всех эту мысль проиллюстрировал летом 2005 года Алексей Амилющенко, главный аналитик отдела маркетинга Яндекса, на таком примере.

 

? Вот еще одна история с семинаров, но ее приходится рассказывать не очень часто. Иногда случается, что заходит разговор о том, что хорошо бы поисковым системам учитывать не только слова, которые есть в индексируемых документах, но и смысл написанного. В ответ говорю, что знаю фразу, про которую и человек-то не скажет, о чем это. Вот она: «Эти типы стали есть в прокатном цехе». И что тут написано? Я вижу минимум три смысла. Не подглядывайте в ответ сразу (он ниже). Попробуйте сначала самостоятельно… Обычно, когда зал видит это предложение, сначала становится тихо (видно, что думают), потом начинаются смешки (до кого-то дошло). Потом хихикают уже все. Но к делу, что же здесь все-таки написано?

1. Скучный такой вариант: «Эти типы стали (варианты металлопроката) есть (имеются в наличии) в прокатном цехе».

2. Более творческий, с элементами мизантропии: «Эти типы (неприятные автору личности) стали (начали) есть (принимать пищу) в прокатном цехе».

3. Несколько надуманный, конечно, и тем не менее: «Эти типы стали (варианты металлопроката) есть (надлежит принимать в пищу) в прокатном цехе».

Вот видите, даже протеиновые мозги не справляются, а вы хотите, чтобы силиконовые умели [20].

 

Текст запроса мы будем помещать в квадратные скобки для того, чтобы визуально его выделить. Если уважаемый читатель решит ввести приведенные ниже запросы в поисковую строку поисковой машины, чтобы проверить их работоспособность на практике, то эти квадратные скобки вводить не надо.

Итак, перейдем непосредственно к операторам запросов Яндекса.

Логическое «И». Яндекс поддерживает три разных оператора, относящихся к логическому «И», что делает его самым гибким из всех поисковиков, работающих с русским языком. Столь развитая, практически уникальная, система операторов поисковых запросов дает возможность предельно точно настроить запрос и сформировать такой фильтр для данных в Интернете, который максимально качественно выбирает нужную информацию и отсекает ненужную.

Пробел. Слова, разделенные пробелом, должны быть недалеко друг от друга.

Специалисты поясняют, что термин «недалеко» фиксированной величиной не является и меняется в зависимости от того, с какими словами оператор «пробел» в каждом конкретном случае используется.

Если слова часто употребляемые, то «недалеко» – значит на расстоянии нескольких слов друг от друга. Если слова редко встречаются в обиходе, то даже их нахождение в разных концах документа будет восприниматься как «недалеко».

При этом, несмотря на то, что логическое «И» в общем виде булевой алгебры подразумевает присутствие всех упомянутых слов, Яндекс тем не менее действительно выдает сначала те документы, в которых есть все ключевые слова, упомянутые в запросе. Но после этого он дает и те, в которых содержатся не все ключевые слова.

На наш взгляд, сказанного об операторе «пробел» достаточно, для того чтобы решать основные проблемы, связанные с поиском в Интернете. Но на самом деле решение вопроса о том, что такое «не очень далеко» и «очень далеко», с точки зрения Яндекса, вопрос не простой, и для полного его понимания мы вновь рекомендуем держать в поле зрения статью Дениса Фурсова.

Мы еще неоднократно обратимся к этому замечательному руководству.

 

ПРИМЕР

Запрос: [маркетинг менеджмент]

Результат поиска: страниц – 7 174 687, сайтов – не менее 2070, в каталоге – 57.

В выдаче: менеджмент и маркетинг в бизнесе.

 

Амперсанд (&). Слова, разделенные амперсандом, находятся в одном предложении.

Внимание! Амперсанд должен быть отделен пробелами с двух сторон от любых других слов.

 

ПРИМЕР

Запрос: [маркетинг & менеджмент]

Результат поиска: страниц – 2 628 927, сайтов – не менее 1670, в каталоге – 53.

В выдаче: Маркетинг Менеджмент: Главная 2006 «Маркетинг Менеджмент ».

 

Двойной амперсанд (&&). Слова, разделенные двойным амперсандом, находятся в любом месте одного и того же документа.

ВНИМАНИЕ! Между амперсандами не должно быть пробелов, но сам оператор должен быть отделен пробелами с двух сторон от любых других слов.

 

ПРИМЕР

Запрос: [маркетинг && менеджмент]

Результат поиска: страниц – 9 665 609, сайтов – не менее 1948, в каталоге – 57.

 

В выдаче будут присутствовать, например, учебные планы вузов, в которых слова «маркетинг» и «менеджмент» находятся в разных частях текста, в том числе на разных страницах опубликованного в Интернете многостраничного плана занятий.

Чтобы наглядно это увидеть, мы рекомендуем читателям нажать в результатах выдачи гиперссылку «Сохраненная копия», которая есть под каждым результатом поиска. В этом случае слова, которые есть в запросе, будут подсвечены в тексте и сократится время на их поиск.

Логическое «НЕ». Логическое «НЕ» представлено двумя операторами. Прежде чем рассказать о них, отвечу на вопрос, который часто возникает у людей, впервые приступивших к изучению операторов поиска. Они говорят: «Зачем нужно логическое “НЕ”? Можно ведь просто его не вводить, и тогда оно нам не понадобится!» Ответ таков: «Если мы сами решаем, что нам вводить, а что нет, то это утверждение справедливо. Но проблема в том, что обычно в выдаче принудительно оказывается “мусор”, и часто нет другого способа избавиться от него, кроме как убрать эти слова при помощи логического “НЕ”. Так, например, если вас интересует конек крыши, то по слову “конек” в выдаче будут и роликовые, и фигурные коньки, и даже Конек-Горбунок. Для них-то логическое “НЕ” и придумано». Итак, перейдем к двум оператором логического «НЕ» в Яндексе.

1. Тильда (~).

Знак тильды – это верхняя левая клавиша на буквенно-цифровой клавиатуре. Символ вводится на английском регистре с нажатой клавишей Shift. Как и амперсанд, тильда должна быть отделена с обеих сторон пробелами. Часто допускают ошибку, «приклеивая» тильду к следующему за ней слову. Иногда отсутствие пробела между тильдой и последующим словом не влияет на результат, но бывает и наоборот, поэтому лучше внимательно проследить за пробелами вокруг знака тильды. Тильда означает, по аналогии с диаметрально противоположным символом – амперсандом, что слова не должно быть в предложении.

 

ПРИМЕР

Запрос: [маркетинг ~ менеджмент]

Результат поиска: страниц – 29 907 227, сайтов – не менее 5347, в каталоге – 281.

В выдаче: форум Маркетинг и реклама – Маркетинг и…

Новости маркетинга и рекламы, история рекламы и маркетинга.

Управление маркетингом и продажами, организация маркетинговой деятельности: отдел продаж, отдел рекламы и отдел маркетинга – работа отдела маркетинга

 

2. Двойная тильда (~~).

По аналогии с двойным амперсандом двойная тильда пишется слитно внутри самого этого оператора, но отделяется от остальных слов пробелами с обеих сторон.

Двойная тильда означает, что слова, которое за ней расположено, не должно быть в документе совсем.

 

ПРИМЕР

Запрос: [маркетинг ~~ менеджмент]

Результат поиска: страниц – 21 936 571, сайтов – не менее 4720, в каталоге – 276.

В выдаче: Промо.Текарт – продвижение сайтов, интернет- маркетинг и реклама в Интернете…

Департамент Промо.Текарт является подразделением маркетинговой группы «Текарт», оказывающим услуги комплексного интернет- маркетинга: маркетинговый… комплексный подход к услуге интернет- маркетинга, охватывающий все возможности для продвижения интернет-представительств компаний в сети Интернет.

 

Обратите внимание: в результатах выдачи слова «маркетинг» и «маркетинга» выделены как релевантные, тогда как слово «маркетинговый» – нет. Это происходит потому, что «маркетинг» – существительное, «маркетинга» – его словоформа, тогда как «маркетинговый» – совсем другое слово иной части речи, а отнюдь не словоформа «маркетинга». Подобное явление надо учитывать, если вы рассчитываете на способность Яндекса самостоятельно перебирать словоформы. Игнорирование этого факта нередко приводит к искажению результатов выдачи и также является частой ошибкой начинающих специалистов по поиску в Интернете.

На самом деле в Яндексе есть еще один оператор логического «НЕ», который обозначается знаком минус. По мнению Дениса Фурсова, с которым автор полностью согласен, знак «минус» – не всегда корректно работающая двойная тильда, поэтому пользоваться им смысла нет. Мы не знаем наверняка, но предполагаем, что знак «минус» в качестве логического «НЕ» – способ унифицировать Яндекс с другими поисковыми машинами, поскольку в большинстве машин именно знаком «минус» логическое «НЕ» и обозначают. Мы не пользуемся оператором «минус» при поиске в Яндексе.

Логическое «ИЛИ» (оператор |). Логическое «ИЛИ» представлено оператором, имеющим вид вертикальной черты: | На клавиатуре этот оператор находится обычно выше (реже он расположен ниже) клавиши Enter и вводится в английском регистре, при нажатой клавише Shift.

В подавляющем большинстве случаев оператор | и слова, с которыми он используется, заключается в скобки, так как часто в запросе есть больше двух слов, к которым этот оператор относится.

 

ПРИМЕР

Запрос, который должен показать, что нас интересует документ, в котором в одном предложении содержатся слова «маркетинг» и «менеджмент», но при этом нигде в документе не должно быть слов «курс», «работа», «конференция», «теория», «книга», «семинар», «бизнес», «прибыль», «клиент», может выглядеть так: [маркетинг & менеджмент ~~ (курс | работа | конференция | теория | книга | семинар | бизнес | прибыль | клиент)].

Результат поиска: страниц – 302 567, сайтов – не менее 2177, в каталоге – 19.

В выдаче: Журналы маркетинг, менеджмент, финансы, управление персоналом. Издательский дом…

Наша периодика – журналы по менеджменту, маркетингу, логистике и финансам.

Или: МАРКЕТИНГ - МЕНЕДЖМЕНТ: Национальная экономическая энциклопедия.

МАРКЕТИНГ - МЕНЕДЖМЕНТ: экономическая энциклопедия охватывает десятки тысяч экономических терминов, также обеспечен поиск по отдельным или всем словарям.

 

ВНИМАНИЕ! Скобки, как в арифметике при вынесении за скобку общего множителя, позволяют распространить оператор «двойная тильда» на все слова, расположенные внутри нее.

Кстати, для удобства восприятия этот запрос лучше записать так, чтобы заодно сгруппировать с помощью скобок и слова «маркетинг» и «менеджмент». Смысловой нагрузки это не несет, поэтому и на выдачу не влияет, но снижает вероятность, что вы сами запутаетесь в своем запросе, если он будет достаточно длинным. Поэтому мы бы советовали написать запрос вот так: [(маркетинг & менеджмент) ~~ (курс | работа | конференция | теория | книга | семинар | бизнес | прибыль | клиент)].

Яндекс учитывает морфологию. Это означает, что по запросу «блог» он выдаст результаты, содержащие слова «блогу», «блогом» и т. п., которые выделит как релевантные запросу.

 

ПРИМЕР

Запрос 1: [Блог]

Результат поиска: страниц – 38 733 590, сайтов – не менее 1901, в каталоге – 93.

В выдаче: Блог – Википедия.

Отличия блога от традиционного дневника обусловливаются средой, т. е. его «сетевостью»: блоги обычно публичны или хотя бы доступны определенному…

…первые обычно предполагают сторонних читателей, которые могут вступить в публичную полемику с автором (в отзывах к блог -записи или своих блогах)…

Запрос 2: [Блогом]

Результат поиска: тот же.

 

Можно отключить поддержание морфологии: если слова с изменяющимися окончаниями «замусоривают» результаты, то можно принудительно заставить Яндекс искать только слова в нужной словоформе. Это бывает полезно, например, при совпадении названия компании с общеупотребительными словами. Скажем, маловероятно, чтобы фирма «Река» упоминалась в публикациях со словами «реке» или «реку».

Восклицательный знак. Этот оператор используют для того, чтобы принудительно искать в Яндексе только нужную словоформу. Он пишется слитно со словом, которое стоит за ним, как если бы восклицательный знак был первой буквой нужного слова.

 

ПРИМЕР

Запрос 1: [!Река]

Результат поиска: страниц – 1 321 155, сайтов – не менее 2547, в каталоге – 4.

В выдаче: Екатеринбург Турфирма Река Желаний, туры, путевки, горящие туры из Екатеринбурга.

Турфирма Река Желаний 2004–2007 Екатеринбург.

Запрос 2 (без восклицательного знака): Река.

Результат поиска: страниц – 23 423 159, сайтов – не менее 19 368, в каталоге – 5.

В выдаче: Речные круизы на теплоходах по рекам России и Украины. Путешествия и отдых … Москва- реке.

Цены и Расписание круизов по рекам России и Украины.

 

Видно, что количество страниц и сайтов в случае запроса с оператором восклицательный знак уменьшается почти в восемь раз за счет исключения словоформ слова «река», таких как «реки», «рекой», «рекам» и пр.

Заглавные и строчные буквы. Яндекс периодически меняет некоторые нюансы в этом вопросе, но при этом старается придерживаться главного правила: слова, написанные с маленькой буквы, будут выдаваться и с маленькой, и с заглавной, а те, что написаны с заглавной буквы, – только с заглавной. Изменения, которые периодически происходят в подходах Яндекса к этому вопросу, обычно касаются попыток исправить наиболее распространенные ошибки пользователей. Ознакомиться с текущим состоянием дел можно как на странице помощи Яндекса, так и в уже упоминавшейся статье Дениса Фурсова. Однако для эффективной работы достаточно просто следовать приведенному в этом разделе правилу.

Если же слово написано целиком заглавными буквами, Яндекс будет рассматривать его как написанное строчными. То есть если слово «РИТЕЙЛЕР» даст такие же результаты, как «ритейлер».

 

ПРИМЕР

Запрос 1: [Мой Персональный Блог]

Результат поиска: страниц – 492, сайтов – не менее 59.

В выдаче (первое сообщение на шестой странице): Day.Az Forum > Netty-2007

Мой блог участвует в номинации «Персональные страницы».

Запрос 2: [мой персональный блог]

Результат поиска: страниц – 1372, сайтов – не менее 167.

В выдаче (первое сообщение на шестой странице): Форум по WordPress/

www.lehis.com.ua– блог lehis, повседневные заметки

www.lehis.com.ua– мой персональный блог.

 

К шестой странице результатов по запросу мы обратились для того, чтобы наглядно показать разницу, поскольку первые страницы по двум этим запросам оказались одинаковыми.

Оператор «плюс» (+). Этот оператор используется для того, чтобы слова были обязательно включены в документы, присутствующие в выдаче.

Покажем работу этого оператора наглядно. Для этого сделаем запрос со словами, которые редко оказываются в одном документе, и разделим их пробелом.

А затем сделаем точно такой же запрос, но поставим знак «плюс» перед каждым словом, запретив таким образом Яндексу выдавать документы, в которых набор слов неполный.

 

ПРИМЕР

Запрос 1: [литейщик провизор стоматолог маркшейдер] Результат поиска: страниц – 63, сайтов – не менее 43. Запрос 2: [+ литейщик + провизор + стоматолог + маркшейдер]

Результат поиска: страниц – 15, сайтов – не менее 10.

В выдаче: Lindex-стандарт, ДСТУ, ГОСТ, ДБН, ДНАОП, СНиП,СН,СанПиН, МИ и другие…

…1237.1 20801 – Главный кулинар 1237.1 20807 – Главный маркшейдер

1237.1 20810 – Главный мелиоратор 1237.1 20813 – Главный…

Врач-эндокринолог 2222.1 23667 – Научный сотрудник (стоматология)

2222.2 20459 – Врач- стоматолог 2222.2 20462 – Врач- стоматолог

Служба занятости по НСО, РАБОТА В НОВОСИБИРСКЕ, ТРУДОУСТРОЙСТВО

Литейщик санитарно-строительных изделий на стенде (134046)

Провизор (258501)

ОБЩЕСОЮЗНЫЙ КЛАССИФИКАТОР. ПРОФЕССИИ РАБОЧИХ, ДОЛЖНОСТИ СЛУЖАЩИХ И ТАРИФНЫЕ…

8 Лесник 00 13378 7Лесоруб 2 – 4 39 13380 4 Летчик-наблюдатель 13382 3 Листобойщик 2 – 5 07 13384 2 Литейщик

…2 Врач- стоматолог 2 20462 4Врач- стоматолог -ортодонт 2 20465 8Врач- стоматолог -протезист 2 20468 1Врач- стоматолог -хирург 2…

 

Оператор «плюс» бывает незаменим также в тех случаях, когда есть необходимость обязательно включить в выдачу стоп-слова.

Очень хорошо это описано в уже упоминавшейся выше работе Дениса Фурсова.

 

? Если какие-то слова должны быть в результатах, поставьте перед ними +. Запрос «коллапс овощебаза майя астрофизик жжот» предлагает только «нестрогие соответствия» – страницы, на которых отсутствуют некоторые (на усмотрение Яндекса) из заданных слов. Если вы хотите, чтобы слово «майя» обязательно присутствовало на найденных страницах, то запрос должен быть «коллапс овощебаза + майя астрофизикжжот».

Яндекс учитывает стоп-слова (предлоги, местоимения, частицы и пр.) только в запросах из трех и менее слов. Если стоп-слово должно быть в результате, поставьте перед ним +. +не покупай телефоны samsung позволит найти негативные отзывы о продукции этой фирмы (сравните с простым – не покупай телефоны samsung). Если хотите обязательно исключить стоп-слово, используйте «~»: иду шагаю москве ~ +по. Не забудьте при этом ставить перед стоп-словом +, иначе наткнетесь на глюк: иду шагаю москве ~ по21.

 

 

ПРИМЕР

Запрос 1: [+не покупай (samsung | lg)]

Результат поиска: страниц – 9193, сайтов – не менее 2000.

В выдаче: Куплю не рабочие мобильники LG – Интернет-аукцион AUCTION.ua

Куплю поломанные телефоны марки LG на запчасти!

Запрос 2: [не покупай (samsung | lg)]

Результат поиска: страниц – 3 262 203, сайтов – не менее 899.

В выдаче: Dreamphones.ru – купить мобильный телефон твоей мечты Nokia, Samsung

Dreamphones.ru – купить мобильный телефон твоей мечты всего за 20 долларов!

 

Яндекс периодически меняет нюансы своего отношения к алгоритму включения слов в выдачу, при неизменном общем подходе, а обычный пользователь вряд ли имеет возможность проверить, как Яндекс отреагировал на запрос в каждом конкретном случае. Поэтому мы рекомендуем воспользоваться советом Дениса и ставить знак «плюс» перед стоп-словами, да и вообще перед теми словами, которые вы считаете совершенно необходимыми в выдаче.

Слова находятся на определенном расстоянии. Этот оператор очень часто используется на практике, так как он позволяет достаточно четко ограничить поиск. Он выглядит как /n, где n, по определению самого Яндекса, – «максимально допустимое расстояние между двумя любыми словами запроса».

Денис Фурсов определяет этот оператор как «расстояние между словами» [21].

Мы предлагаем следующим образом запомнить значение цифры в операторе: эта цифра (n) показывает, каким по счету будет второе слово после первого.

Например, если в запросе написано: [редкий /1 блог], то в выдаче будет «редкий блог». Потому что слово «блог» будет первым после слова «редкий».

Если в запросе написано: [редкий /2 блог], то в выдаче может появиться «редкая птица блог», потому что слово «блог» может быть вторым после слова «редкий», а первым может быть любое другое слово.

Мы надеемся, что это понятно, поэтому расскажем еще о двух нюансах оператора расстояния между словами.

На самом деле, по запросу [редкий /2 блог] документы, содержащие «редкий блог», также будут выданы, потому что меньшее значение расстояния возможно, а большее – нет. Мало того, не только «редкий блог», но и «блог редкий» попадут в выдачу. Расстояние между словами распространяется на оба слова.

Легко проверить, что это эквивалентно запросу: [редкий /1 блог ~ (блог /+1 редкий)].

Количество документов в выдаче совпадает, и в первых рядах в момент составления запроса был: Fashion – Мода стиль и красота.

И строчки Зъявински, и иллюстрации Брауна пользователи мгновенно растащили по всему миру – редкий блог пропустил Future Fetish.

Мы не будем загружать читателя дальнейшими подробностями работы оператора «расстояние между словами», так как сказанного вполне достаточно, а изучение всех нюансов поискового движка Яндекса не является нашей основной задачей.

Оператор «двойные кавычки» (аналогичные тем, что применяются в прямой речи). Используют в случае, когда необходим поиск точной фразы. Это бывает важно, когда необходимо найти чью-либо цитату, либо рекламный слоган компании, либо сайты, содержащие одинаковые фрагменты текста.

В выдаче при поиске цитаты будут документы, содержащие все ее слова, в той же словоформе и последовательности, что и в самой цитате.

Если вас интересует только цитата, без каких-либо других слов в запросе, то вы можете просто ввести ее в кавычках – и получите результат. Однако если кроме цитаты вы хотите включить в запрос какие-то другие слова, в кавычки не заключенные, то спрогнозировать результат в Яндексе вряд ли возможно. Дело в том, что Яндекс время от времени меняет алгоритм работы оператора «кавычки».

Периодически допускается сохранение порядка слов, но меняются их словоформы. В другое время Яндекс может, например, словоформы сохранять неизменными, но исключать стоп-слова и т. д. Чтобы не проводить постоянных экспериментов, мы считаем наиболее правильным прислушаться к совету Дениса Фурсова.

 

? Официальная документация сообщает, что «порядок слов можно указать с помощью запроса в кавычках». Это не так: кавычки также задают и форму слов. То есть запросом “красными шапочками” вы «красную шапочку» не найдете. Отношение Яндекса к словам в кавычках неоднократно менялось: когда-то требовалось совпадение формы, потом учитывался только порядок слов, затем форма учитывалась, если в запросе было только словосочетание в кавычках и больше ничего. Думаю, это еще далеко не конец. В общем случае, если вам важен порядок слов и не важна их форма, используйте оператор расстояния /+1 – его действие на протяжении лет не менялось. Так, умная хороший мальчики – 0 результатов, а умная /+1 хороший /+1 мальчики ищет все формы этих слов и находит множество страниц со словосочетанием умный хороший мальчик [22].

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2022-11-01 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: