14 июл. 2012 г.

Как построить запрос в поисковике

Как построить запрос в поисковике

автор Нежданов Игорь
Разбираться с темой будем на примере Яндекса. Почему? – да по тому, что у него есть оператор следования, чего нет у других «больших» поисковиков и он лучше работает с русским языком. Точнее Яндекс единственный из крупных, кто вообще работает с русской морфологией.
Для начала нужно запомнить, что поисковики периодически меняют  правила поиска (алгоритм поиска, значение операторов, принцип построения весовых значений) и Яндекс не исключение. Они же предоставляют сервис бесплатно и на условии «как есть», а по тому не обязаны что то соблюдать с его стабильностью.
Теперь пара слов о самих поисковых операторах. Для Яндекса они хорошо расписаны в «Помощи» к Яндексу вот здесь http://help.yandex.ru/search/?id=1111313 Там же найдете и примеры их применения и еще массу полезной информации, а «на соседней странице» можно увидеть полезные документальные операторы http://help.yandex.ru/search/?id=1111369  . Поэтому исходим из того, что пользоваться поисковыми операторами вы умеете и не тратим время на эту тему, а сразу переходим к самому формированию запросов.
И для окончания вступления – уверен, что для многих эта тема давно пройденный этап. Но почему то ко мне достаточно часто обращаются с просьбой рассказать как правильно составлять запросы для поисковых систем. Видимо появляются новые поклонники «Больших» поисковых систем :)

Как строиться запрос

Мы регулярно что то ищем. От значения не знакомого слова до адресов, инструкций, людей. Но чаще всего мы ищем вполне определенные объекты – объекты, которые понятны и относительно просты в своем описании. Например мы ищем конкретного человека зная как его зовут, примерный возраст и город проживания. Вполне себе определенная информация.  Гораздо реже пользователю нужны абстрактные понятия.
Когда нужно найти что то конкретное – то именно это (обозначение, название, имя…) и вносим в поисковую строку. Все просто – поисковики приучили нас к простоте. А вот что делать, когда нужно найти нечто абстактное? Не такое конкретное как название компании или книги. Вот тут то и начинаются сложности с формированием поискового запроса.

Шаг 1 Фиксируем проблему
Для начала нужно хоть как то сформулировать проблему. Просто необходимо превратить мысль в слова. Иначе поисковик вас не поймет – он работает только со словами. Итак, записываем вашу проблему на бумагу (так будет проще работать с ней). Записываем так как она «вас посетила». Затем приводим ее к удобоваримой форме.
Шаг 2 Уточняем формулировку
Переформулируем  проблему по возможности кратко и в то же время достаточно однозначно. Например из «как бы мне узнать что может меня ожидать из плохого при путешествии пешком по горному Алтаю…» путем сжатия формулировки получаем «проблемы пешего путешествия по горному Алтаю». Получилось более кратко и в то же время не потеряло смысл.
Такое «сжатие» осуществляется путем сначала понимания сути проблемы, а затем формулирования этой сути по новой. Но даже если не получается сжать, не отчаивайтесь – переходите к Шагу 3. Этот шаг также позволяет взглянуть на проблему с другой стороны и в конце концов перефразировать ее.
Шаг 3 Выбираем ключевые слова
Это ни что иное как отбор тех слов из формулировки проблемы, без которых теряется ее смысл. Возьмем ту же тему, что обозначена выше «проблемы пешего путешествия по горному Алтаю». Какие слова определяют смысл? Видимо слова и словообразования «проблемы», «пешее путешествие» и «горный Алтай». Даже их простое перечисление позволяет понять, о чем идет речь.
Шаг 4 «Расширяем» запрос
Данный шаг обусловлен многообразием и многовариантностью русского языка. Да и любого языка. Дело в том, что одну и ту же мысль можно выразить разными словами и по тому полезная для вас информация может оказаться не с тем набором ключевых слов, что вы использовали. А поисковики ищут именно по словам. В результате будет упущена полезная информация. Чтобы избежать такого развития нужно «расширить» ваш запрос. «Расширение» в нашем случае это нахождение дополнительных понятий, которые могут быть использованы другими людьми для описания интересующей вас проблемы. Например синонимы для слова «переход» это слова путь, ходьба, движение и т.д..
«Проблемы»
Как люди могут еще назвать проблему? – «сложность», «трудность», «опасность». Возможны еще варианты, но оставлю их для развития вашей фантазии.
«Пешее путешествие»
«Переход», «ходьба», возможно «туризм»…
«Горный Алтай»
Поскольку речь о горах, а они и бывают весьма похожи, то это слова обозначающие горы – «горы» и , при необходимости, названия разных гор «Урал», «Кавказ», «Памир», «Альпы», «Анды»…  Ведь там скорее всего те же трудности и опасности подстерегают путешественника.
Направления «расширения» понятий
Для выявления всего возможного материала запрос необходимо расширять за счет использования слов и выражений ассоциированных с искомыми. Некоторые примеры (но не все) приведены ниже.
Синонимы (полные и частичные)
самолет – аэроплан; налог – подать – сбор;
кушать – есть – питаться  или получить – принять
Однокоренные слова
поставить – доставить – подставить – проставить
Иные части речи
стройка – строительство – строить – построенный
Слэнг, жаргон, вульгаризм, просторечие
шарман, гёрла, юзер, доллар – бакс, голова – башка, сегодня – сёдня
Иностранные эквиваленты
налог – tax, taxes
Простые сокращения
страница – стр, статья – ст,
Аббревиатура и сокращения
СПС – союз правых сил, профком – профессиональный союз
Иные варианты написания слов
1 – I – один – первый

Шаг 5 Составляем используя операторы
Посредством лексики поисковой системы описывается взаимное положение поисковых блоков и их взаимная зависимость и составляется сам запрос с использованием операторов эксплуатируемой поисковой системы.
Берем ту же тему «проблемы пешего путешествия по горному Алтаю». Для слова «проблемы» мы выявили синонимы и синонимические выражения «сложность», «трудность», «опасность». Предположим, что больше нет вариантов. Значит данный блок запроса будет выглядеть так [(проблема | сложность | трудность | опасность)] Здесь и далее квадратные скобки в самом запросе не нужны – они нужны для визуального отделения тела запроса от остального текста.
Также поступаем с «пешим путешествием» и «горным Алтаем» и получаем [(путешествие | переход | туризм)] и  [(алтай | горы | урал | памир | альпы | анды)] Теперь пробуем составить первый полноценный запрос [+(проблема | сложность | трудность | опасность) +(путешествие | переход | туризм) +(алтай | горы | урал | памир | альпы | анды)]  и пробуем его в работе. Он выдает неимоверное количество ответов, прочитать которые не хватит и полжизни. Значит нужно уточнять запрос.
Уточнение может идти несколькими путями. Во-первых смотрим какое слово «приносит» больше всего «информационного мусора» — информации не по теме. В нашем случае это слово «туризм». Оно и понятно – ведь туризм на три четверти не связан с экстримом и опасностями…  Значит убираем это слово из запроса. И так проделываем пока не сведем выборку до приемлемых результатов.
Во-вторых нужно задействовать дополнительные операторы поисковика. Например, поставив себя на место человека публикующего информацию о сложностях альпинизма (к стати еще одно слово для поиска), попробуйте понять как он может сформулировать свои мысли в части обозначения трудностей путешествия. В частности, скорее всего, слова «трудность» и «путешествие» будут стоять рядом или не далеко друг от друга. Например возможны такие конструкции как «трудности путешествия» или «трудности в ходе путешествия» или «трудности, с которыми мы столкнулись путешествуя по…». В общем эти слова будут точно в одном предложении. Вот и задействуем это правило в запросе, используя соответствующий оператор. И получаем вот такую конструкцию [((проблема | сложность | трудность | опасность) & (путешествие | переход)) +(алтай | горы | урал | памир | альпы | анды)]
При необходимости далее уточняем запрос до получения приемлемых результатов.

И еще
В силу наличия человеческого фактора, в документах достаточно часто встречаются ошибки. А ошибка в искомом документе (тексте) приводит к тому, что этот документ не будет найден. Поэтому при составлении запросов необходимо учитывать и ошибочное написание слов. Такие варианты задействуются как синонимы основных понятий запроса.
Безусловно, количество возможных ошибочных написаний одного слова огромны, поэтому в первую очередь необходимо учитывать наиболее распространенные ошибочные написания искомого слова.
Причины появления таких ошибок разные:
1- случайная опечатка при вводе информации;
2- безграмотность автора или того кто вводил информацию;
3- намеренные ошибки для облегчения обнаружения сайта пользователями, которые неверно вводят искомое слово в поисковую строку сервера-поисковика;
4- намеренные ошибки для усложнения обнаружения сайта пользователями, которые не в теме (своего рода маскировка);
5- принадлежность автора к некой субкультуре использующей соответствующий  сленг (сюда же относятся и сетевые традиции написания слова.