28 июл. 2012 г.

Как построить запрос в поисковике. Часть 2

 
Начало тут "Как построить запрос в поисковике. Часть 1"
автор Нежданов Игорь
Продолжим – теперь рассмотрим наиболее часто возникающие задачи по поиску информации на просторах интернета. Изучение проводим всё так же на основе поисковых операторов Яндекса, как наиболее приспособленных под русский язык.
Если ищем информацию о человеке
Что является идентификатором человека
Или другими словами – по каким признакам мы можем определить, что это тот самый человек, которого мы ищем? Таких признаков достаточно много, но нужно помнить, что есть уникальные признаки, а есть не уникальные. Уникальные это те, которые однозначно указывают на искомый объект или те, которые могут принадлежать только одному человеку. Например это ИНН. А вот адрес прописки уже не может быть уникальным – ведь по этому адресу может быть прописано более одного человека. Или возьмем ФИО человека. Ведь всегда существует вероятность существования полного тезки, но чем необычнее эти самые Фамилия-Имя-Отчество, тем эта вероятность ниже. И в ряде случаев ею можно пренебречь. Но и не уникальные признаки нужны. Используя их в сочетании друг с другом можно также однозначно идентифицировать объект поиска. Например сочетание «ФИО» + «дата рождения» делает два не уникальных признака весьма близким к уникальному.
Что же может являться идентификаторами человека, в т.ч. и не уникальными?
ФИО;
Дата рождения;
Адрес проживания (прописки);
ИНН (уникальный);
Данные документов — номер и серия паспорта, водительского удостоверения, пенсионного свидетельства (уникальны);
Номер телефона (домашнего, мобильного);
e-mail (уникальный);
ник на форуме;
номер icq, ник в skype… (уникальны);
адрес блога, личного сайта….
Другими словами всё, что связано с человеком может выступать его идентификатором или поисковым признаком.
Как строится запрос
Теперь, понимая по каким признакам можно найти информацию о человеке в интернете, рассмотрим несколько вариантов поиска.
1 по уникальным признакам.
Это довольно просто – если мы знаем уникальный признак, то используя его в качестве условия поиска мы должны получить те странички в интернете, на которых этот признак фигурирует. А значит на этих страничках упоминается и искомое лицо. Но увы это не совсем так. Для примера возьмем «ИНН». Признак уникальный – один человек – один ИНН. Проблема заключается в том, что ИНН это набор цифр. А такой же набор цифр может быть и номере фотографии (коих много) или в icq… Получается много «информационного шума» — не нужной нам информации.
Значит нужно ограничить выдачу. Это дополнение – когда  вместе с самим поисковым признаком (в данном случае набором цифр) использовать и идентификатор этого поискового признака (в данном случае «ИНН»). Тогда запрос получиться таким:
["ИНН" /2 "1234567890"]
Оператор следования в данном случае нужен чтобы отсечь страницы, где «ИНН» находится за несколько предложений от «1234567890» — вряд ли это то, что нам нужно. При этом мы понимаем, что в некоторых случаях этот самый набор букв «ИНН» могут поставить и после самого номера и перед. Есть еще один способ — он основан на последовательном исключении из выдачи того, что нас не устраивает. Но он менее удобен и не так однозначен. Тем ни менее рассмотрим его – вполне возможно подойдет для решения других задач. Например задали мы запрос «1234567890» и получили в выдаче поисковика и номера телефонов, и номера фотографий, и еще что то…. Тогда начинаем добавлять исключения из выдачи. Напомню – это оператор «~~» двойная тильда. Она означает, что всё, что стоит после нее НЕ должно присутствовать в выдаче поисковика. В нашем случае это будет выглядеть примерно так:
["1234567890" ~~(телефон | фото | icq | номер)]  – думаю его недостаток для этой конкретной задачи очевиден. Ведь на целевой странице вполне может содержаться и искомый «1234567890» и одно из исключенных слов (телефон | фото | icq | номер). А значит вы такую страницу не увидите. В общем не рекомендую использовать этот метод для аналогичных случаев.
Поисковый запрос для поиска по skype, следуя той же логике, будет выглядеть так:
[(skype | скайп) /2 "ник в скайпе"] А по icq вот так [(icq | ася | аська | месенджер) /2 1234567]
Если же вы знаете несколько уникальных идентификаторов, то поисковый запрос будет выглядеть так: [«номер ИНН» | «номер страхового свидетельства»| «номер и серия паспорта» | «номер и серия водительского удостоверения»]
Отдельно нужно рассказать о таком идентификаторе как номер телефона. Во первых это набор цифр со всеми вытекающими отсюда сложностями. Во вторых этот набор могут писать по разному (слитно, с пробелами, через тире, через точку и т.п..). Всё это нужно учесть в составлении поискового запроса. Если это «семизнак» (что постепенно отходит в историю),  то здесь в качестве дополнительного идентификатора нужен или код города или указатель на то, что это телефон (тел, тлф и т.п.). Для таких случаев запрос может выглядеть так:
[(тел | тлф | телефон|) /(+1 +3) ("1234567" | "123 4567"| "123 45 67")]
Если же номер из числа «красивых», то нужно учитывать и эти «красивости». Например если номер 2340432 , то в варианты написании нужно добавить и «234-0-432″. Если же что то вроде «7272134″ то нужно учесть вариант написания «72-72-134″. Поскольку Яндекс все спецсиволы воспринимает как пробел, то достаточно написания одно варианта (например с пробелом или с тире), а остальные найдутся.
2 по не уникальным признакам
Теперь посмотрим как поступить, кода в нашем распоряжении есть не уникальные признаки. Например «ФИО» и город проживания. И тот и другой признак в отдельности может принадлежать более чем одному человеку. Вместе они уменьшают такую вероятность (но не исключают). Для начала нужно понять как написать в запросе ФИО. Ведь оно может быть написано по разному так «ФИО» или так «ИОФ». А если использовать сокращения (инициалы) то количество вариантов увеличивается. Итак «Нежданов Игорь Юрьевич» (потренируемся на мне для исключения кривотолков) – для Яндекса это будет выглядеть так:
[нежданов /1 "игорь юрьевич"]
Т.е. одим запросом мы собираем и «нежданов игорь юрьевич» и «игорь юрьевич нежданов». Теперь предположим, что объект проживает в Москве. Тогда запрос будет выглядеть так:
[+(нежданов /1 "игорь юрьевич") +москва]
Но у меня есть еще один идентификатор – профессиональная деятельность – «конкурентная разведка». Если использовать ее, то запрос будет выглядеть так:
[+(нежданов /1 "игорь юрьевич") +"конкурентная разведка"]
Можно задействовать несколько признаков тем самым сузив выдачу. Например помимо указанного про меня известно, что когда то был членом СПКР – тогда запрос приобретет такую форму:
[+(нежданов /1 "игорь юрьевич") +"конкурентная разведка" +СПКР +москва]
Если ищем информацию об организации
Что является идентификатором организации
Теперь точно так же попробуем понять как искать информацию о компании на просторах интернета. Для начала нужно понять что может являться поисковыми признаками организации.
Название организации – если оно уникально, а не набор общеупотребительных слов, то такой признак можно назвать уникальным.
ИНН организации – уникальный идентификатор как и ее ОГРН.
Бренд, торговая марка – также как и название, если они уникальны, а не являются набором общеупотребительных слов, то такой признак также является уникальным.
ФИО руководителя, ТОПов, учредителей – это тоже поисковый признак, но не уникальный. Если только ФИО не состоит из редких слов.
Контакты компании (телефон, факс, e-mail, сайт, skype, icq и т.п.) – к сожалению тоже могут быть уникальными с оговоркой т.к. и на одном телефоне может быть несколько компаний и одним e-mal могут пользоваться несколько юрлиц.
Домен (сайт) – скорее уникальный идентификатор.
Товар или услуга компании – не уникальный идентификатор, если только компания не является единственным в мире производителем товара.
Логика же построения запросов такая же как и при поиске информации о человеке.