Умение искать информацию с помощью поисковых машин очень важно для создания и последующей раскрутки блога.
Благодаря поисковым машинам можно своевременно собирать информацию, появляющуюся в Интернете по теме, которой посвящен блог. Это, в свою очередь, дает возможность своевременно прокомментировать ситуацию и разместить на своем блоге готовый материал, предложив его вниманию читателей. Важно, что язык запросов поисковой машины работает не только при поиске во всем Интернете, но и при поиске по блогам и форумам, что значительно расширяет возможности блоггера. Несмотря на то, что принципы языка современных поисковых машин действительно одинаковы, синтаксис запросов у них различен. Некоторые операторы языка запросов универсальны, но большинство – нет.
Рассмотрим языки запросов трех основных поисковых машин, работающих с русскоязычными текстами, более подробно.
Поиск в Яндексе
Лучшая, на наш взгляд, работа по изучению операторов поисковой машины Яндекс, выполнена специалистом из Санкт-Петербурга Денисом Фурсовым. На его блоге в статье «Хозяйке на заметку. Поиск через Яндекс для специалистов» [19]постоянно публикуются результаты исследований, отслеживаются, оцениваются и обсуждаются изменения в работе операторов поисковой машины Яндекс (рис. 22).
Рис. 22. Внешний вид страницы «Хозяйке на заметку. Поиск через Яндекс для специалистов»
Ниже речь пойдет о том, как с помощью специальных фильтров, основанных на булевой алгебре, создавать запросы, максимально соответствующие потребностям специалиста, который ищет информацию в Интернете. При изучении этого вопроса не следует забывать, что компьютер очень исполнителен, но лишен способности думать, поэтому следует составлять запрос исходя из того, что он будет обработан буквально, а не с учетом того, что же на самом деле имел в виду пользователь, создавая обращение к поисковой машине. Лучше всех эту мысль проиллюстрировал летом 2005 года Алексей Амилющенко, главный аналитик отдела маркетинга Яндекса, на таком примере.
|
? Вот еще одна история с семинаров, но ее приходится рассказывать не очень часто. Иногда случается, что заходит разговор о том, что хорошо бы поисковым системам учитывать не только слова, которые есть в индексируемых документах, но и смысл написанного. В ответ говорю, что знаю фразу, про которую и человек-то не скажет, о чем это. Вот она: «Эти типы стали есть в прокатном цехе». И что тут написано? Я вижу минимум три смысла. Не подглядывайте в ответ сразу (он ниже). Попробуйте сначала самостоятельно… Обычно, когда зал видит это предложение, сначала становится тихо (видно, что думают), потом начинаются смешки (до кого-то дошло). Потом хихикают уже все. Но к делу, что же здесь все-таки написано?
1. Скучный такой вариант: «Эти типы стали (варианты металлопроката) есть (имеются в наличии) в прокатном цехе».
2. Более творческий, с элементами мизантропии: «Эти типы (неприятные автору личности) стали (начали) есть (принимать пищу) в прокатном цехе».
3. Несколько надуманный, конечно, и тем не менее: «Эти типы стали (варианты металлопроката) есть (надлежит принимать в пищу) в прокатном цехе».
Вот видите, даже протеиновые мозги не справляются, а вы хотите, чтобы силиконовые умели [20].
|
Текст запроса мы будем помещать в квадратные скобки для того, чтобы визуально его выделить. Если уважаемый читатель решит ввести приведенные ниже запросы в поисковую строку поисковой машины, чтобы проверить их работоспособность на практике, то эти квадратные скобки вводить не надо.
Итак, перейдем непосредственно к операторам запросов Яндекса.
Логическое «И». Яндекс поддерживает три разных оператора, относящихся к логическому «И», что делает его самым гибким из всех поисковиков, работающих с русским языком. Столь развитая, практически уникальная, система операторов поисковых запросов дает возможность предельно точно настроить запрос и сформировать такой фильтр для данных в Интернете, который максимально качественно выбирает нужную информацию и отсекает ненужную.
Пробел. Слова, разделенные пробелом, должны быть недалеко друг от друга.
Специалисты поясняют, что термин «недалеко» фиксированной величиной не является и меняется в зависимости от того, с какими словами оператор «пробел» в каждом конкретном случае используется.
Если слова часто употребляемые, то «недалеко» – значит на расстоянии нескольких слов друг от друга. Если слова редко встречаются в обиходе, то даже их нахождение в разных концах документа будет восприниматься как «недалеко».
При этом, несмотря на то, что логическое «И» в общем виде булевой алгебры подразумевает присутствие всех упомянутых слов, Яндекс тем не менее действительно выдает сначала те документы, в которых есть все ключевые слова, упомянутые в запросе. Но после этого он дает и те, в которых содержатся не все ключевые слова.
|
На наш взгляд, сказанного об операторе «пробел» достаточно, для того чтобы решать основные проблемы, связанные с поиском в Интернете. Но на самом деле решение вопроса о том, что такое «не очень далеко» и «очень далеко», с точки зрения Яндекса, вопрос не простой, и для полного его понимания мы вновь рекомендуем держать в поле зрения статью Дениса Фурсова.
Мы еще неоднократно обратимся к этому замечательному руководству.
–
ПРИМЕР
Запрос: [маркетинг менеджмент]
Результат поиска: страниц – 7 174 687, сайтов – не менее 2070, в каталоге – 57.
В выдаче: менеджмент и маркетинг в бизнесе.
–
Амперсанд (&). Слова, разделенные амперсандом, находятся в одном предложении.
Внимание! Амперсанд должен быть отделен пробелами с двух сторон от любых других слов.
–
ПРИМЕР
Запрос: [маркетинг & менеджмент]
Результат поиска: страниц – 2 628 927, сайтов – не менее 1670, в каталоге – 53.
В выдаче: Маркетинг Менеджмент: Главная 2006 «Маркетинг Менеджмент ».
–
Двойной амперсанд (&&). Слова, разделенные двойным амперсандом, находятся в любом месте одного и того же документа.
ВНИМАНИЕ! Между амперсандами не должно быть пробелов, но сам оператор должен быть отделен пробелами с двух сторон от любых других слов.
–
ПРИМЕР
Запрос: [маркетинг && менеджмент]
Результат поиска: страниц – 9 665 609, сайтов – не менее 1948, в каталоге – 57.
–
В выдаче будут присутствовать, например, учебные планы вузов, в которых слова «маркетинг» и «менеджмент» находятся в разных частях текста, в том числе на разных страницах опубликованного в Интернете многостраничного плана занятий.
Чтобы наглядно это увидеть, мы рекомендуем читателям нажать в результатах выдачи гиперссылку «Сохраненная копия», которая есть под каждым результатом поиска. В этом случае слова, которые есть в запросе, будут подсвечены в тексте и сократится время на их поиск.
Логическое «НЕ». Логическое «НЕ» представлено двумя операторами. Прежде чем рассказать о них, отвечу на вопрос, который часто возникает у людей, впервые приступивших к изучению операторов поиска. Они говорят: «Зачем нужно логическое “НЕ”? Можно ведь просто его не вводить, и тогда оно нам не понадобится!» Ответ таков: «Если мы сами решаем, что нам вводить, а что нет, то это утверждение справедливо. Но проблема в том, что обычно в выдаче принудительно оказывается “мусор”, и часто нет другого способа избавиться от него, кроме как убрать эти слова при помощи логического “НЕ”. Так, например, если вас интересует конек крыши, то по слову “конек” в выдаче будут и роликовые, и фигурные коньки, и даже Конек-Горбунок. Для них-то логическое “НЕ” и придумано». Итак, перейдем к двум оператором логического «НЕ» в Яндексе.
1. Тильда (~).
Знак тильды – это верхняя левая клавиша на буквенно-цифровой клавиатуре. Символ вводится на английском регистре с нажатой клавишей Shift. Как и амперсанд, тильда должна быть отделена с обеих сторон пробелами. Часто допускают ошибку, «приклеивая» тильду к следующему за ней слову. Иногда отсутствие пробела между тильдой и последующим словом не влияет на результат, но бывает и наоборот, поэтому лучше внимательно проследить за пробелами вокруг знака тильды. Тильда означает, по аналогии с диаметрально противоположным символом – амперсандом, что слова не должно быть в предложении.
–
ПРИМЕР
Запрос: [маркетинг ~ менеджмент]
Результат поиска: страниц – 29 907 227, сайтов – не менее 5347, в каталоге – 281.
В выдаче: форум Маркетинг и реклама – Маркетинг и…
Новости маркетинга и рекламы, история рекламы и маркетинга.
Управление маркетингом и продажами, организация маркетинговой деятельности: отдел продаж, отдел рекламы и отдел маркетинга – работа отдела маркетинга …
–
2. Двойная тильда (~~).
По аналогии с двойным амперсандом двойная тильда пишется слитно внутри самого этого оператора, но отделяется от остальных слов пробелами с обеих сторон.
Двойная тильда означает, что слова, которое за ней расположено, не должно быть в документе совсем.
–
ПРИМЕР
Запрос: [маркетинг ~~ менеджмент]
Результат поиска: страниц – 21 936 571, сайтов – не менее 4720, в каталоге – 276.
В выдаче: Промо.Текарт – продвижение сайтов, интернет- маркетинг и реклама в Интернете…
Департамент Промо.Текарт является подразделением маркетинговой группы «Текарт», оказывающим услуги комплексного интернет- маркетинга: маркетинговый… комплексный подход к услуге интернет- маркетинга, охватывающий все возможности для продвижения интернет-представительств компаний в сети Интернет.
–
Обратите внимание: в результатах выдачи слова «маркетинг» и «маркетинга» выделены как релевантные, тогда как слово «маркетинговый» – нет. Это происходит потому, что «маркетинг» – существительное, «маркетинга» – его словоформа, тогда как «маркетинговый» – совсем другое слово иной части речи, а отнюдь не словоформа «маркетинга». Подобное явление надо учитывать, если вы рассчитываете на способность Яндекса самостоятельно перебирать словоформы. Игнорирование этого факта нередко приводит к искажению результатов выдачи и также является частой ошибкой начинающих специалистов по поиску в Интернете.
На самом деле в Яндексе есть еще один оператор логического «НЕ», который обозначается знаком минус. По мнению Дениса Фурсова, с которым автор полностью согласен, знак «минус» – не всегда корректно работающая двойная тильда, поэтому пользоваться им смысла нет. Мы не знаем наверняка, но предполагаем, что знак «минус» в качестве логического «НЕ» – способ унифицировать Яндекс с другими поисковыми машинами, поскольку в большинстве машин именно знаком «минус» логическое «НЕ» и обозначают. Мы не пользуемся оператором «минус» при поиске в Яндексе.
Логическое «ИЛИ» (оператор |). Логическое «ИЛИ» представлено оператором, имеющим вид вертикальной черты: | На клавиатуре этот оператор находится обычно выше (реже он расположен ниже) клавиши Enter и вводится в английском регистре, при нажатой клавише Shift.
В подавляющем большинстве случаев оператор | и слова, с которыми он используется, заключается в скобки, так как часто в запросе есть больше двух слов, к которым этот оператор относится.
–
ПРИМЕР
Запрос, который должен показать, что нас интересует документ, в котором в одном предложении содержатся слова «маркетинг» и «менеджмент», но при этом нигде в документе не должно быть слов «курс», «работа», «конференция», «теория», «книга», «семинар», «бизнес», «прибыль», «клиент», может выглядеть так: [маркетинг & менеджмент ~~ (курс | работа | конференция | теория | книга | семинар | бизнес | прибыль | клиент)].
Результат поиска: страниц – 302 567, сайтов – не менее 2177, в каталоге – 19.
В выдаче: Журналы маркетинг, менеджмент, финансы, управление персоналом. Издательский дом…
Наша периодика – журналы по менеджменту, маркетингу, логистике и финансам.
Или: МАРКЕТИНГ - МЕНЕДЖМЕНТ: Национальная экономическая энциклопедия.
МАРКЕТИНГ - МЕНЕДЖМЕНТ: экономическая энциклопедия охватывает десятки тысяч экономических терминов, также обеспечен поиск по отдельным или всем словарям.
–
ВНИМАНИЕ! Скобки, как в арифметике при вынесении за скобку общего множителя, позволяют распространить оператор «двойная тильда» на все слова, расположенные внутри нее.
Кстати, для удобства восприятия этот запрос лучше записать так, чтобы заодно сгруппировать с помощью скобок и слова «маркетинг» и «менеджмент». Смысловой нагрузки это не несет, поэтому и на выдачу не влияет, но снижает вероятность, что вы сами запутаетесь в своем запросе, если он будет достаточно длинным. Поэтому мы бы советовали написать запрос вот так: [(маркетинг & менеджмент) ~~ (курс | работа | конференция | теория | книга | семинар | бизнес | прибыль | клиент)].
Яндекс учитывает морфологию. Это означает, что по запросу «блог» он выдаст результаты, содержащие слова «блогу», «блогом» и т. п., которые выделит как релевантные запросу.
–
ПРИМЕР
Запрос 1: [Блог]
Результат поиска: страниц – 38 733 590, сайтов – не менее 1901, в каталоге – 93.
В выдаче: Блог – Википедия.
Отличия блога от традиционного дневника обусловливаются средой, т. е. его «сетевостью»: блоги обычно публичны или хотя бы доступны определенному…
…первые обычно предполагают сторонних читателей, которые могут вступить в публичную полемику с автором (в отзывах к блог -записи или своих блогах)…
Запрос 2: [Блогом]
Результат поиска: тот же.
–
Можно отключить поддержание морфологии: если слова с изменяющимися окончаниями «замусоривают» результаты, то можно принудительно заставить Яндекс искать только слова в нужной словоформе. Это бывает полезно, например, при совпадении названия компании с общеупотребительными словами. Скажем, маловероятно, чтобы фирма «Река» упоминалась в публикациях со словами «реке» или «реку».
Восклицательный знак. Этот оператор используют для того, чтобы принудительно искать в Яндексе только нужную словоформу. Он пишется слитно со словом, которое стоит за ним, как если бы восклицательный знак был первой буквой нужного слова.
–
ПРИМЕР
Запрос 1: [!Река]
Результат поиска: страниц – 1 321 155, сайтов – не менее 2547, в каталоге – 4.
В выдаче: Екатеринбург Турфирма Река Желаний, туры, путевки, горящие туры из Екатеринбурга.
Турфирма Река Желаний 2004–2007 Екатеринбург.
Запрос 2 (без восклицательного знака): Река.
Результат поиска: страниц – 23 423 159, сайтов – не менее 19 368, в каталоге – 5.
В выдаче: Речные круизы на теплоходах по рекам России и Украины. Путешествия и отдых … Москва- реке.
Цены и Расписание круизов по рекам России и Украины.
–
Видно, что количество страниц и сайтов в случае запроса с оператором восклицательный знак уменьшается почти в восемь раз за счет исключения словоформ слова «река», таких как «реки», «рекой», «рекам» и пр.
Заглавные и строчные буквы. Яндекс периодически меняет некоторые нюансы в этом вопросе, но при этом старается придерживаться главного правила: слова, написанные с маленькой буквы, будут выдаваться и с маленькой, и с заглавной, а те, что написаны с заглавной буквы, – только с заглавной. Изменения, которые периодически происходят в подходах Яндекса к этому вопросу, обычно касаются попыток исправить наиболее распространенные ошибки пользователей. Ознакомиться с текущим состоянием дел можно как на странице помощи Яндекса, так и в уже упоминавшейся статье Дениса Фурсова. Однако для эффективной работы достаточно просто следовать приведенному в этом разделе правилу.
Если же слово написано целиком заглавными буквами, Яндекс будет рассматривать его как написанное строчными. То есть если слово «РИТЕЙЛЕР» даст такие же результаты, как «ритейлер».
–
ПРИМЕР
Запрос 1: [Мой Персональный Блог]
Результат поиска: страниц – 492, сайтов – не менее 59.
В выдаче (первое сообщение на шестой странице): Day.Az Forum > Netty-2007
Мой блог участвует в номинации «Персональные страницы».
Запрос 2: [мой персональный блог]
Результат поиска: страниц – 1372, сайтов – не менее 167.
В выдаче (первое сообщение на шестой странице): Форум по WordPress/
www.lehis.com.ua– блог lehis, повседневные заметки
www.lehis.com.ua– мой персональный блог.
–
К шестой странице результатов по запросу мы обратились для того, чтобы наглядно показать разницу, поскольку первые страницы по двум этим запросам оказались одинаковыми.
Оператор «плюс» (+). Этот оператор используется для того, чтобы слова были обязательно включены в документы, присутствующие в выдаче.
Покажем работу этого оператора наглядно. Для этого сделаем запрос со словами, которые редко оказываются в одном документе, и разделим их пробелом.
А затем сделаем точно такой же запрос, но поставим знак «плюс» перед каждым словом, запретив таким образом Яндексу выдавать документы, в которых набор слов неполный.
–
ПРИМЕР
Запрос 1: [литейщик провизор стоматолог маркшейдер] Результат поиска: страниц – 63, сайтов – не менее 43. Запрос 2: [+ литейщик + провизор + стоматолог + маркшейдер]
Результат поиска: страниц – 15, сайтов – не менее 10.
В выдаче: Lindex-стандарт, ДСТУ, ГОСТ, ДБН, ДНАОП, СНиП,СН,СанПиН, МИ и другие…
…1237.1 20801 – Главный кулинар 1237.1 20807 – Главный маркшейдер
1237.1 20810 – Главный мелиоратор 1237.1 20813 – Главный…
Врач-эндокринолог 2222.1 23667 – Научный сотрудник (стоматология)
2222.2 20459 – Врач- стоматолог 2222.2 20462 – Врач- стоматолог …
Служба занятости по НСО, РАБОТА В НОВОСИБИРСКЕ, ТРУДОУСТРОЙСТВО
Литейщик санитарно-строительных изделий на стенде (134046)
Провизор (258501)
ОБЩЕСОЮЗНЫЙ КЛАССИФИКАТОР. ПРОФЕССИИ РАБОЧИХ, ДОЛЖНОСТИ СЛУЖАЩИХ И ТАРИФНЫЕ…
8 Лесник 00 13378 7Лесоруб 2 – 4 39 13380 4 Летчик-наблюдатель 13382 3 Листобойщик 2 – 5 07 13384 2 Литейщик …
…2 Врач- стоматолог 2 20462 4Врач- стоматолог -ортодонт 2 20465 8Врач- стоматолог -протезист 2 20468 1Врач- стоматолог -хирург 2…
–
Оператор «плюс» бывает незаменим также в тех случаях, когда есть необходимость обязательно включить в выдачу стоп-слова.
Очень хорошо это описано в уже упоминавшейся выше работе Дениса Фурсова.
? Если какие-то слова должны быть в результатах, поставьте перед ними +. Запрос «коллапс овощебаза майя астрофизик жжот» предлагает только «нестрогие соответствия» – страницы, на которых отсутствуют некоторые (на усмотрение Яндекса) из заданных слов. Если вы хотите, чтобы слово «майя» обязательно присутствовало на найденных страницах, то запрос должен быть «коллапс овощебаза + майя астрофизикжжот».
Яндекс учитывает стоп-слова (предлоги, местоимения, частицы и пр.) только в запросах из трех и менее слов. Если стоп-слово должно быть в результате, поставьте перед ним +. +не покупай телефоны samsung позволит найти негативные отзывы о продукции этой фирмы (сравните с простым – не покупай телефоны samsung). Если хотите обязательно исключить стоп-слово, используйте «~»: иду шагаю москве ~ +по. Не забудьте при этом ставить перед стоп-словом +, иначе наткнетесь на глюк: иду шагаю москве ~ по21.
–
ПРИМЕР
Запрос 1: [+не покупай (samsung | lg)]
Результат поиска: страниц – 9193, сайтов – не менее 2000.
В выдаче: Куплю не рабочие мобильники LG – Интернет-аукцион AUCTION.ua
Куплю поломанные телефоны марки LG на запчасти!
Запрос 2: [не покупай (samsung | lg)]
Результат поиска: страниц – 3 262 203, сайтов – не менее 899.
В выдаче: Dreamphones.ru – купить мобильный телефон твоей мечты Nokia, Samsung …
Dreamphones.ru – купить мобильный телефон твоей мечты всего за 20 долларов!
–
Яндекс периодически меняет нюансы своего отношения к алгоритму включения слов в выдачу, при неизменном общем подходе, а обычный пользователь вряд ли имеет возможность проверить, как Яндекс отреагировал на запрос в каждом конкретном случае. Поэтому мы рекомендуем воспользоваться советом Дениса и ставить знак «плюс» перед стоп-словами, да и вообще перед теми словами, которые вы считаете совершенно необходимыми в выдаче.
Слова находятся на определенном расстоянии. Этот оператор очень часто используется на практике, так как он позволяет достаточно четко ограничить поиск. Он выглядит как /n, где n, по определению самого Яндекса, – «максимально допустимое расстояние между двумя любыми словами запроса».
Денис Фурсов определяет этот оператор как «расстояние между словами» [21].
Мы предлагаем следующим образом запомнить значение цифры в операторе: эта цифра (n) показывает, каким по счету будет второе слово после первого.
Например, если в запросе написано: [редкий /1 блог], то в выдаче будет «редкий блог». Потому что слово «блог» будет первым после слова «редкий».
Если в запросе написано: [редкий /2 блог], то в выдаче может появиться «редкая птица блог», потому что слово «блог» может быть вторым после слова «редкий», а первым может быть любое другое слово.
Мы надеемся, что это понятно, поэтому расскажем еще о двух нюансах оператора расстояния между словами.
На самом деле, по запросу [редкий /2 блог] документы, содержащие «редкий блог», также будут выданы, потому что меньшее значение расстояния возможно, а большее – нет. Мало того, не только «редкий блог», но и «блог редкий» попадут в выдачу. Расстояние между словами распространяется на оба слова.
Легко проверить, что это эквивалентно запросу: [редкий /1 блог ~ (блог /+1 редкий)].
Количество документов в выдаче совпадает, и в первых рядах в момент составления запроса был: Fashion – Мода стиль и красота.
И строчки Зъявински, и иллюстрации Брауна пользователи мгновенно растащили по всему миру – редкий блог пропустил Future Fetish.
Мы не будем загружать читателя дальнейшими подробностями работы оператора «расстояние между словами», так как сказанного вполне достаточно, а изучение всех нюансов поискового движка Яндекса не является нашей основной задачей.
Оператор «двойные кавычки» (аналогичные тем, что применяются в прямой речи). Используют в случае, когда необходим поиск точной фразы. Это бывает важно, когда необходимо найти чью-либо цитату, либо рекламный слоган компании, либо сайты, содержащие одинаковые фрагменты текста.
В выдаче при поиске цитаты будут документы, содержащие все ее слова, в той же словоформе и последовательности, что и в самой цитате.
Если вас интересует только цитата, без каких-либо других слов в запросе, то вы можете просто ввести ее в кавычках – и получите результат. Однако если кроме цитаты вы хотите включить в запрос какие-то другие слова, в кавычки не заключенные, то спрогнозировать результат в Яндексе вряд ли возможно. Дело в том, что Яндекс время от времени меняет алгоритм работы оператора «кавычки».
Периодически допускается сохранение порядка слов, но меняются их словоформы. В другое время Яндекс может, например, словоформы сохранять неизменными, но исключать стоп-слова и т. д. Чтобы не проводить постоянных экспериментов, мы считаем наиболее правильным прислушаться к совету Дениса Фурсова.
? Официальная документация сообщает, что «порядок слов можно указать с помощью запроса в кавычках». Это не так: кавычки также задают и форму слов. То есть запросом “красными шапочками” вы «красную шапочку» не найдете. Отношение Яндекса к словам в кавычках неоднократно менялось: когда-то требовалось совпадение формы, потом учитывался только порядок слов, затем форма учитывалась, если в запросе было только словосочетание в кавычках и больше ничего. Думаю, это еще далеко не конец. В общем случае, если вам важен порядок слов и не важна их форма, используйте оператор расстояния /+1 – его действие на протяжении лет не менялось. Так, умная хороший мальчики – 0 результатов, а умная /+1 хороший /+1 мальчики ищет все формы этих слов и находит множество страниц со словосочетанием умный хороший мальчик [22].