Новости конкурентной разведки. Нежданов Игорь Юрьевич

8 авг. 2012 г.

Мониторинг интернета и мониторинговые центры

Потребность в мониторинге интернета

Бизнес, да и не только бизнес, всё больше и больше понимает необходимость «видеть» реальное отношение клиентов к нему. Не данные маркетологов о группах, тенденциях, сегментациях и т.п… , а именно мнение конкретных клиентов и вполне конкретные ситуации. Такое желание стало следствием нескольких причин. Первая – это эффективность обратной связи «клиент-бизнес». Эффективность в плане понимания всё ли правильно делает бизнес. Вторая – это опасность для бизнеса негативной «волны» со стороны клиентов, которая может возникнуть и навредить бизнесу. Опасность ставшая очень реальной с развитием интернета. В общем всё как в классике – есть и пряник и есть кнут. И что для кого является более значимым аргументом порой понять не просто.
Как бы там ни было бизнес последнее время активно пробует такой инструмент как мониторинг настроений клиентов по отношению к себе, к своим продукции и услугам. Что касается не бизнеса, то тенденция эта также наблюдается. Всё больше министерств и ведомств пробует создать такой мониторинг в своих интересах. Госкомпании, кои назвать бизнесом можно с оговоркой, также последнее время активно ищет варианты, что видно и по проводимым тендерам (на разработку или закупку мониторинговых систем) и по новостям. Правда у НЕ бизнеса свои интересы. Например госструктуры также нуждаются в информации «с земли», но использовать данные того же Госкомстата не могут в силу их некоторой не адекватности – нет им доверия по разным причинам. Одна из основных – чуть ли не полугодовая задержка информации. Вторая – отсутствие у ГКС возможности отслеживать настроения людей. Но принимать решения нужно, а данных, на основе которых можно принимать решения, нет. Вот и пробуют создать канал альтернативный ГКС и прочим государственным аналогам, путем создания, отделов мониторинга, мониторинговых центров и т.п..

Зачем мониторим

Что хочет увидеть бизнес в результатах такого мониторинга?

Чаще всего основной целью мониторинга является своевременное выявление негатива по отношению к компании, к ее продукции или к ее сотрудникам (особенно ключевым). Это вполне понятно и обоснованно. Это первое что беспокоит бизнесмена – риск потерять прибыль, а то и бизнес.
Что касается госструктур и госкомпаний, то цель у них практически та же – вовремя увидеть угрозы. Правда к угрозам тут добавляется политический аспект. Помимо получения «обратной связи» и т.п., это еще и угрозы попасть «в немилость» к руководителю. Для самого ведомства это обычно означает реформирование, дополнительный контроль и снижение финансирования, а для руководства такого ведомства – поиск нового места работы.

Что полезного может увидеть бизнес в результатах такого мониторинга?

Однако кроме указанного выше, мониторинг интернета на предмет высказываний клиентов может дать куда больше. Взятый отдельно мониторинг Твиттера уже позволяет делать обоснованные выводы. Фактически наблюдая за потоком общения клиентов можно получить массу полезной информации, которая открывает глаза не только на угрозы, но и на возможности для вашего бизнеса.
Единственный важный нюанс – вполне возможная дезинформация или соответствующая активность ваших оппонентов. Последнее время это становиться серьезной проблемой. Но это отдельный разговор.

Мнение клиентов о вашем продукте/услуге/компании
Это то, что «лежит на поверхности». Простое наблюдение за изменением настроений клиентов по отношению к вашему продукту поможет своевременно заметить ухудшение и успеть среагировать.

Чем именно недовольны клиенты в вашем продукте
Если же копнуть поглубже, то помимо нарастания негатива можно понять и причину такой ситуации, что также дает возможность быстро повлиять на ситуацию.

Мнение клиентов о продукте конкурента
А что мешает также наблюдать за изменением мнения клиентов о продукте ваших соперников? Если вы видите нарастание негатива по отношению к продукту конкурентов, то это открывает ряд возможностей для вас.

В чем именно слабость или преимущество продукта конкурентов
Точно так же можно посмотреть внимательнее и понять в чем именно слабость и сила продукта конкурентов. Это не совсем знание о сильных и слабых сторонах продукта – это знание о мнении клиентов по этим вопросам. А это несколько иное.

Что и как нужно изменить в вашем продукте чтобы он стал более востребован у клиентов
Зная недовольства клиентов разными продуктами на рынке, можно составить представление об идеальном продукте с точки зрения клиента. А такое знание позволит приблизить ваш продукт к этому идеалу…

Как конкурент общается со своими клиентами и как этим можно воспользоваться
Знание того как ваши конкуренты общаются со своими клиентами может дать дополнительный козырь. Ведь если конкурент (его сотрудники) хамит клиентам, а вы нет, то клиент с большей вероятностью предпочтет ваш продукт при прочих равных условиях.

Планы конкурента
Общаясь в социальных сетях, люди забывают, что их диалог идет не дома на кухне, а транслируется для всех. Мало того – информация еще и сохраняется и индексируется поисковиками. А обсуждаются самые разные вопросы и место проведения и состав совещания, и компетенции ответственного лица на новое направление, и проблемы освоения новой технологи…. Достаточно «прислушаться» и можно весьма обоснованно предположить каковы чаянья и приоритеты конкурента в данный момент.

Что мониторим

Здесь логика простая – под наблюдение нужно поставить все площадки, где может появиться интересующая вас информация. Понятно, что контролировать совсем всё не получиться. Поэтому нужно помимо общего наблюдения (через глобальные поисковые системы) нужно задействовать и индивидуальное. Это поиск и постановка на контроль тех площадок, где обсуждаются проблемы (продукция, услуги…) вашей отрасли. Таковыми площадками обычно бывают

Новостные сервисы
Причем новости как общие так и профильные, которые специализируются на интересующем вас секторе экономики (регионе, социальной группе, проблеме…).
Выбрать из всего многообразия общих новостных сервисов те, которые с большей вероятностью осветят проблемы в вашей отрасли можно с помощью следующего метода. В глобальной поисковой системе (Яндекс, Гугл…) задайте поиск по новостям специфического термина, свойственного вашей отрасли. После чего посмотрите на каких новостных сервисах есть найденная информация – они то и нужны вам для начала. Если таковых окажется много, то выберите те, на которых будет найдено больше новостей по вашей проблематике.

Социальные сети
От глобальных до локальных. Здесь нужно изначально выяснить есть ли в данной сети представители интересующих организаций. Если есть – нужно наблюдать, общаться, входить в группы… Особо нужно выделить Твиттер. По своей «проникающей способности» он стал настоящим бичом систем безопасности. А благодаря своей глобальности сделал наблюдение за сотрудниками конкурента делом простым и не затратным.

Форумы
Та же ситуация, что и с соцсетями – есть сотрудники интересующих организаций – значит форум интересен. Даже если на данный момент и не обсуждаются интересующие вас вопросы.

Блоги
Безусловно интересны корпоративные блоги как источник «слабых сигналов». Но еще более интересны личные блоги сотрудников. Их владельцы уверены, что это «их территория» и они вправе на не делать то что считают нужным. И делают…

С уважением!
Нежданов Игорь

28 июл. 2012 г.

Как построить запрос в поисковике. Часть 2

Начало тут "Как построить запрос в поисковике. Часть 1"
автор Нежданов Игорь
Продолжим – теперь рассмотрим наиболее часто возникающие задачи по поиску информации на просторах интернета. Изучение проводим всё так же на основе поисковых операторов Яндекса, как наиболее приспособленных под русский язык.

Если ищем информацию о человеке

Что является идентификатором человека
Или другими словами – по каким признакам мы можем определить, что это тот самый человек, которого мы ищем? Таких признаков достаточно много, но нужно помнить, что есть уникальные признаки, а есть не уникальные. Уникальные это те, которые однозначно указывают на искомый объект или те, которые могут принадлежать только одному человеку. Например это ИНН. А вот адрес прописки уже не может быть уникальным – ведь по этому адресу может быть прописано более одного человека. Или возьмем ФИО человека. Ведь всегда существует вероятность существования полного тезки, но чем необычнее эти самые Фамилия-Имя-Отчество, тем эта вероятность ниже. И в ряде случаев ею можно пренебречь. Но и не уникальные признаки нужны. Используя их в сочетании друг с другом можно также однозначно идентифицировать объект поиска. Например сочетание «ФИО» + «дата рождения» делает два не уникальных признака весьма близким к уникальному.

Что же может являться идентификаторами человека, в т.ч. и не уникальными?
ФИО;
Дата рождения;
Адрес проживания (прописки);
ИНН (уникальный);
Данные документов — номер и серия паспорта, водительского удостоверения, пенсионного свидетельства (уникальны);
Номер телефона (домашнего, мобильного);
e-mail (уникальный);
ник на форуме;
номер icq, ник в skype… (уникальны);
адрес блога, личного сайта….
Другими словами всё, что связано с человеком может выступать его идентификатором или поисковым признаком.

Как строится запрос
Теперь, понимая по каким признакам можно найти информацию о человеке в интернете, рассмотрим несколько вариантов поиска.

1 по уникальным признакам.
Это довольно просто – если мы знаем уникальный признак, то используя его в качестве условия поиска мы должны получить те странички в интернете, на которых этот признак фигурирует. А значит на этих страничках упоминается и искомое лицо. Но увы это не совсем так. Для примера возьмем «ИНН». Признак уникальный – один человек – один ИНН. Проблема заключается в том, что ИНН это набор цифр. А такой же набор цифр может быть и номере фотографии (коих много) или в icq… Получается много «информационного шума» — не нужной нам информации.
Значит нужно ограничить выдачу. Это дополнение – когда вместе с самим поисковым признаком (в данном случае набором цифр) использовать и идентификатор этого поискового признака (в данном случае «ИНН»). Тогда запрос получиться таким:

["ИНН" /2 "1234567890"]

Оператор следования в данном случае нужен чтобы отсечь страницы, где «ИНН» находится за несколько предложений от «1234567890» — вряд ли это то, что нам нужно. При этом мы понимаем, что в некоторых случаях этот самый набор букв «ИНН» могут поставить и после самого номера и перед. Есть еще один способ — он основан на последовательном исключении из выдачи того, что нас не устраивает. Но он менее удобен и не так однозначен. Тем ни менее рассмотрим его – вполне возможно подойдет для решения других задач. Например задали мы запрос «1234567890» и получили в выдаче поисковика и номера телефонов, и номера фотографий, и еще что то…. Тогда начинаем добавлять исключения из выдачи. Напомню – это оператор «~~» двойная тильда. Она означает, что всё, что стоит после нее НЕ должно присутствовать в выдаче поисковика. В нашем случае это будет выглядеть примерно так:

["1234567890" ~~(телефон | фото | icq | номер)] – думаю его недостаток для этой конкретной задачи очевиден. Ведь на целевой странице вполне может содержаться и искомый «1234567890» и одно из исключенных слов (телефон | фото | icq | номер). А значит вы такую страницу не увидите. В общем не рекомендую использовать этот метод для аналогичных случаев.

Поисковый запрос для поиска по skype, следуя той же логике, будет выглядеть так:

[(skype | скайп) /2 "ник в скайпе"] А по icq вот так [(icq | ася | аська | месенджер) /2 1234567]

Если же вы знаете несколько уникальных идентификаторов, то поисковый запрос будет выглядеть так: [«номер ИНН» | «номер страхового свидетельства»| «номер и серия паспорта» | «номер и серия водительского удостоверения»]
Отдельно нужно рассказать о таком идентификаторе как номер телефона. Во первых это набор цифр со всеми вытекающими отсюда сложностями. Во вторых этот набор могут писать по разному (слитно, с пробелами, через тире, через точку и т.п..). Всё это нужно учесть в составлении поискового запроса. Если это «семизнак» (что постепенно отходит в историю), то здесь в качестве дополнительного идентификатора нужен или код города или указатель на то, что это телефон (тел, тлф и т.п.). Для таких случаев запрос может выглядеть так:

[(тел | тлф | телефон|) /(+1 +3) ("1234567" | "123 4567"| "123 45 67")]

Если же номер из числа «красивых», то нужно учитывать и эти «красивости». Например если номер 2340432 , то в варианты написании нужно добавить и «234-0-432″. Если же что то вроде «7272134″ то нужно учесть вариант написания «72-72-134″. Поскольку Яндекс все спецсиволы воспринимает как пробел, то достаточно написания одно варианта (например с пробелом или с тире), а остальные найдутся.

2 по не уникальным признакам
Теперь посмотрим как поступить, кода в нашем распоряжении есть не уникальные признаки. Например «ФИО» и город проживания. И тот и другой признак в отдельности может принадлежать более чем одному человеку. Вместе они уменьшают такую вероятность (но не исключают). Для начала нужно понять как написать в запросе ФИО. Ведь оно может быть написано по разному так «ФИО» или так «ИОФ». А если использовать сокращения (инициалы) то количество вариантов увеличивается. Итак «Нежданов Игорь Юрьевич» (потренируемся на мне для исключения кривотолков) – для Яндекса это будет выглядеть так:

[нежданов /1 "игорь юрьевич"]

Т.е. одим запросом мы собираем и «нежданов игорь юрьевич» и «игорь юрьевич нежданов». Теперь предположим, что объект проживает в Москве. Тогда запрос будет выглядеть так:

[+(нежданов /1 "игорь юрьевич") +москва]

Но у меня есть еще один идентификатор – профессиональная деятельность – «конкурентная разведка». Если использовать ее, то запрос будет выглядеть так:

[+(нежданов /1 "игорь юрьевич") +"конкурентная разведка"]

Можно задействовать несколько признаков тем самым сузив выдачу. Например помимо указанного про меня известно, что когда то был членом СПКР – тогда запрос приобретет такую форму:

[+(нежданов /1 "игорь юрьевич") +"конкурентная разведка" +СПКР +москва]

Если ищем информацию об организации

Что является идентификатором организации
Теперь точно так же попробуем понять как искать информацию о компании на просторах интернета. Для начала нужно понять что может являться поисковыми признаками организации.
Название организации – если оно уникально, а не набор общеупотребительных слов, то такой признак можно назвать уникальным.
ИНН организации – уникальный идентификатор как и ее ОГРН.
Бренд, торговая марка – также как и название, если они уникальны, а не являются набором общеупотребительных слов, то такой признак также является уникальным.
ФИО руководителя, ТОПов, учредителей – это тоже поисковый признак, но не уникальный. Если только ФИО не состоит из редких слов.
Контакты компании (телефон, факс, e-mail, сайт, skype, icq и т.п.) – к сожалению тоже могут быть уникальными с оговоркой т.к. и на одном телефоне может быть несколько компаний и одним e-mal могут пользоваться несколько юрлиц.
Домен (сайт) – скорее уникальный идентификатор.
Товар или услуга компании – не уникальный идентификатор, если только компания не является единственным в мире производителем товара.

Логика же построения запросов такая же как и при поиске информации о человеке.

21 июл. 2012 г.

Проблемы автоопределения негатива в текстах

Проблемы автоопределения негатива в текстах
автор Нежданов Игорь

Для чего нужно выявление негатива в текстах

Выявление в текстах негатива по отношению к объекту это один из элементов более глобальной задачи – автоматизировать работу со смыслом текстов. А работа с негативом это лишь часть этой большой проблемы.
По большому счету автоматическое определение негатива в текстах нужно для следующего:
- для своевременного выявления появления негативных высказываний или оценок по отношению к объекту (будь то бренд, физическое лицо, организация, тема…);
- для отслеживания изменений информационного фона вокруг объекта (увеличение или уменьшение негатива по отношению к объекту).
Отслеживание общих изменения информационного шума необходимо, например для понимания отношения клиентов к товару, для понимания изменения этого отношения – тенденций. Это своего рода барометр того каков общий тон обсуждений продукта (опубликованных материалов). Тут как в маркетинге – важно увидеть общую картину, общее направление движения. При этом, если сравнивать например объем негатива между несколькими конкурентами, погрешность не важна – ведь система координат единая, а значит и ошибка при измерениях одинаковая. Следовательно соотношение не пострадает. А «плюс-минус» уже не важно – общий тренд виден.
Своевременное выявление негативных высказываний нужно для «сигнальной системы», которая вовремя обнаружит появление этого самого негатива, дав возможность (время) на реагирование. Это уже больше похоже на противоугонную сигнализацию. И здесь становиться важно не пропустить ту самую публикацию (материал, высказывание и т.п.) которое окажется «спусковым крючком» или «последней каплей». И погрешность может стать роковой для заказчика.
Задачи достаточно близкие, но тем ни менее разные. Если использовать аллегорию коллег, то в первом случае, наблюдая за поведением толпы готовой начать «массовые беспорядки», мы обращаем внимание на направление движения основной массы участвующих. А перемещения отдельных субъектов (спонтанные, хаотичные или целенаправленные) нам не интересны. Ведь важно увидеть общую тенденцию – куда направиться эта толпа. Но вот во втором случае, при наблюдении за той же толпой, нам становятся важны и действия отдельных личностей. Ведь это может быть провокатор, подогревающий агрессивные настроения участников беспорядков, или некто, готовящий теракт. И видя их перемещения можно спрогнозировать дальнейшее изменение ситуации, а значит появляется возможность их предотвратить.

Почему важна точность в таких оценках

Если без теоретических изысканий («так отвлекающих от практики»), то при НЕ точном определении негативно ли высказывание по отношению к объекту наблюдения, всегда есть вероятность пропустить то самое высказывание, с которого всё и начнется. Если по аналогии с наблюдением за толпой – пропустить перемещение «дирижера» радикальных настроений, изменение направления его усилий. Или вероятность принять за негативное высказывание совсем и не негативное, и посчитать это поводом для начала «войны на уничтожение». Причем слово «вероятность» в данном контексте имеет до не приличия низкий уровень для систем работающих без семантического, синтаксического и морфологического анализа текста – по общим оценкам от 60 до 90%. Т.е. в самом лучшем случае каждое десятое негативное высказывание будет пропущено (!) системой, а каждое десятое НЕ негативное будет признано системой как негатив. Причем с ложным отнесением к негативу еще можно бороться – оператор (человек) может банально просматривать всё, что отнесено к негативу и подтверждать это. Если текст негативным не является, то оператор его отклонит. А вот как быть с пропущенным не понятно – такие сообщения оператор просто не увидит, а значит они будут выведены из дальнейшей оценки событий.
В ситуации, когда нужно увидеть общую тенденцию (без особой конкретизации) вполне можно не обращать внимание на точность замеров. «Ведь погрешность получается одинаковой для всех объектов замера…» Когда нужно наблюдать за ситуацией со стороны и при этом ее развитие не сильно отразится на состоянии наблюдателя, то также можно пренебречь точностью.
И совсем по другому начинаешь относиться к точности системы, когда от результатов ее замеров на прямую зависит благосостояние исследователя. Когда от своевременности обнаружения негативной публикации зависит не столько колебания прибыли, сколько существование бизнеса.
Но к сожалению, в большинстве случаев Заказчик замеров и Исполнитель это разные люди, мало того Заказчик не понимает всех тонкостей и ограничений такой системы. А Исполнитель не особо распространяется на эту тему, зато предлагает посмотреть красочные графики, диаграммы так магически действующие на менеджмент компаний. В результате Заказчик и не подозревает, что вероятность обнаружения именно той негативной публикации (а не вообще какой то) лежит где то между «наверное» и «с большой долей вероятности». Но ни как не «гарантирую вам».

Почему компьютеру сложно определить негатив об объекте
Негатив как таковой, чаще всего (но не всегда) определить не сложно. Для этого достаточно заложить возможность определения слов, несущих негатив, составить несколько словарей. Несколько по причине того, что есть слова прямо несущие негатив, а есть слова, которые становяться негативом при определенном «окружении», а есть слова с позитивным смыслом, которые при инверсии становяться негативными. Мало того, такие словари уже созданы и программы их использующие есть, в том числе и бесплатные. Тот же ВААЛ (http://www.vaal.ru/ ) или сервис анализа тональности Х-file (http://x-file.su/tm/Default.aspx) или интересный сервис «Анализ тошноты текста» http://www.tekto.biz/sick/ns.php
А вот негатив по отношению к конкретному объекту выделить бывает довольно не просто. Ведь в тексте могут присутствовать упоминания других объектов, а ваш объект интереса будет обозначен своим названием только один раз в начале текста. А далее для его обозначения будут использоваться местоимения, которые программно сложно четко связать с конкретным объектом. Есть и другие сложности в плане автоматизации определения в тексте негатива по отношению к объекту.

Ложные признаки негатива

Сложности работы с эмоциями в тексте связаны с многовариантностью языка. Ниже приведены наиболее часто встречающиеся «препятствия» на пути автоматизации выявления негатива в текстах.
Сарказм, юмор, намеки — одно из самых сложных проявлений негатива. Пример: «Какая отличная у них служба поддержки, через четыре дня перезвонили». Или: «Прекрасное изделие – всё так удобно и практично, что начинаю сомневаться – нужно ли оно мне».
Неоднозначные негативные слова: их смысл зависит от того, в «окружении» какого находиться фраза. Например: «Какой прыжок, с ума сойти!» можно истолковать как негатив или позитив в зависимости от окружающего текста. «Какой прыжок, с ума сойти! Как всё красиво, как весело – обязательно повторю.» или «Какой прыжок, с ума сойти! Тот что в оранжевом костюме вряд ли захочет повторить, а того что в синем до сих пор ищут.»
Сравнение — не прямой негатив, но вполне может иметь отрицательный окрас. Пример: «Я предпочитаю Андроид», что хорошо для Google, но не для MS или Apple.
Смешение негатива и позитива или многомерные настроения: присутствие позитива и негатива в одном предложении (фразе). Пример: «Мне нравится астрономия, но меня раздражают слабые преподаватели».
Будущий негатив: это связано с действиями, которые могут произойти в будущем, а могут и не произойти. Пример: клиент не раздражен в данный момент, но говорит, что будет недоволен, если приобретенный товар выйдет из строя через несколько месяцев.
Разница в проявлении эмоций у разных народов: у разных национальностей проявление эмоций могут сильно различаться, поэтому такие тексты надо интепретировать с «поправкой на ветер».
Вот и получается, что впервые столкнувшись с проблемой автоопределения негатива по отношению к объекту в тексте, исследователи полагают, что это не сложно. И делают примерно одинаковые ошибки – ниже несколько наиболее распространенных приемов, которые применяют на ранней стадии понимания проблемы.

Наличие негатива в тексте

Наличие в исследуемом тексте негативно окрашенного слова. Самый простой способ определения негативности текста. Но увы и самый не точный. Определить негативный текст или не негативный при такой схеме оценки еще можно с какой то вероятностью. Но вот определить относится этот негатив к какому то конкретному объекту в тексте или нет уже практически не возможно. Особенно если упоминание объекта и негатив разнесены между собой на несколько предложений.
Например «Есть такой Бар – «ККК», а убогое место под названием «ООО» по сравнению с ним полный отстой» используя в качестве признака словарь негатива, вряд ли удастся определить по отношению к какому из объектов автор настроен негативно.

Близкое расположение негатива

Основным критерием в такой схеме является то, что негативно окрашенное слово стоит рядом или не далеко от идентификатора объекта интереса. Или несколько видоизмененный признак – негативное слово и объект должны находиться в одном предложении. Безусловно, часто негативное слово располагается рядом с обозначением объекта, по отношению к которому применяется. Возьмем тот же пример «Есть такой Бар – «ККК», а убогое место под названием «ООО» по сравнению с ним полный отстой» здесь объект «ККК» расположен в тексте ну очень рядом с негативным словом «убогое». Тем ни менее негатив проявлен по отношению к другому объекту.
Не редки также тексты, в который объект обозначается в начале текста, а негатив (например в виде вывода) находиться в конце. Особенно это характерно для обзорных статей, аналитических работ, обзоров рынка или его сегмента и т.п. И такие тексты выпадают из выборки, а ведь они формируют мнение людей в основном опираясь на логику, т.е. формируют более устойчивое мнение у читателя (потребителя), чем эмоциональные выкрики в Твиттере.
К стати о Твиттере – вот на таких текстах (на коротких текстах) принцип близкого расположения негатива работает не плохо. Тут даже подойдет принцип наличия в тексте идентификатора объекта и негативного слова. И есть вполне себе работоспособные системы такие как Sentiment140 http://www.sentiment140.com/

Неопределенность ситуации

Еще одна важная проблема с автовыявления негатива это эффект неопределенности. Связан он с тем, что заранее не известно как могут назвать Объект, какие клички, прозвища, характеристики ему дадут-припишут. И по тому способ «посмотрите как называли раньше и используйте эти слова» мягко говоря не поможет выявить новые приемы обливания грязью. Ведь новых вы еще не знаете и по тому в словарь не внесли. Значит они будут пропущены системой. А часто именно выявление новых способов является важным.

Виды примеры проявления негатива

Теперь систематизируем знания о проявлении негатива в текстах по отношению к определенному объекту. Вот признаки, на которые нужно ориентироваться в самом общем случае при работе с негативом.
Негативное слово или фраза
Присутствие в тексте слова, несущего негативный оттенок и характеризующего объект в любой форме. Это самый простой признак негативного текста. Главное не забывать о его ограничениях.

Сравнения
Фраза «Отель 1 лучше чем Отель 2» вроде бы не несет негатива для «Отеля 2», но раз уж «Отель 1» лучше, значит «Отель 2» хуже. А это уже негатив для «Отеля 2».

Инверсия
Отрицание позитива, т.е. указание, что позитива нет по отношению к объекту. Например «Отель 2 не хороший» или чуть более сложный случай «Отель 2 самый комфортабельный? – Ага, конечно…». Здесь слово «НЕ» и словообразование «АГА, КОНЕЧНО» являются инверсионными – меняющими смысл на противоположный.

Шкалы и рейтинги
Использование в характеристике объекта низкие показатели разнообразных рейтингов и шкал сравнения. Например «Уровень Отеля 2 максимум пол звезды» или «Отель 2 находиться за пределами ТОП-100».

Сарказм, юмор, намеки
«Отель 2 самый классный отель! Правда теперь я предпочитаю останавливаться в других отелях, на всякий случай» или «Менеджер Отеля 2 молодец – всё сделал правильно. Только вот где теперь мои деньги?» или «Вы видели задний двор Отеля 2? И как вам это зрелище?».

Как можно автоматизировать определение негатива

Теперь, понимая проблемы автоопределения негатива, можно попробовать разобрать наиболее известные варианты решений. Понять их ограничения и соответственно сферу применения.

Словари

Составляется словарь негативных слов – слов, которые несут в себе негатив. И при наличии в тексте слова из такого словаря текст относится к негативному. Самый простой и самый малооэффективный способ. Его ограничения описаны выше, в связи с чем сфера применения весьма узкая.
Чуть более сложный вариант составить словари «негатива», словари слов производящих инверсию и словари слов, которые при инверсии приобретают негативный оттенок. Еще один «словарный» вариант это составление словаря выражений, а не только отдельных слов. Этот подход «покрывает» гораздо большую часть возможных вариантов, но увы тоже не всю.
Варианты со словарями можно без особых усилий реализовать в таких программах как СайтСпутник. Его Рубрики позволяют создавать очень сложные условия и работать с внешними словарями. А вместе с возможностью ведения статистики Рубрик, этот инструмент становиться приемлимой пользовательской альтернативой дорогим сетевым решениям.

Шаблоны
Эта технология похожа на составление словарей с тем отличием, что составляется не набор слов, а набор возможных словосочетаний, словообразований и устойчивых выражений. Делается это так — на большом количестве негативных текстов выявляются схемы (шаблоны) построения негативных высказываний. Именно схемы типа «Объект Словарь1 Словарь2» , где «Объект» это возможные варианты именования объекта, «Словарь1» это словарь прилагательных, а «Словарь2» словарь существительных. Затем используя словари синонимов и каждый новый текст проверяется на наличие таких конструкций (шаблонов). И при наличии таковых помечается как негативный.
Такой подход значительно сложнее, но и значительно эффективнее предыдущих. А при некоторых усилиях его вполне можно реализовать и в программах использующих рубрикацию материала. Например на том же СайтСпутнике.

Фильтр Байеса
Он же статистический метод. При таком подходе каждому слову присваивается его негативный вес. «Негативный вес» слова это вероятность того, что слово является негативным. По сумме слов вычисляется «средний вес текста» — средний вес всех его слов и если он выше какой то условной отметки, то это негативный текст. Например если выше 60%, то текст признается негативным. Правда не понятно негативным к какому объекту. По тому самостоятельно вряд ли применим.

Метод, основанный на словарях, правилах, и на морфологическом и синтаксическом анализе теста (rule-based)
В данном случае заранее составляются словари эмоциональной лексики – словари негатива и позитива (а так же потенциально эмоциональной, зависящей от окружения), словари инверсионных слов, составляются правила определения тональности словосочетаний на основании тональности слов, тональности простых предложений на основе тональности словосочетаний и тональности текстов по взаимосвязи предложений. И определяются способы отождествления негатива и объекта. Этот метод может использовать как списки шаблонов, так и правила соединения тональной лексики внутри предложения и внутри текстов, основанные на грамматическом и синтаксическом разборе.
Данный метод наиболее эффективный, но и наиболее сложный в реализации. Разбор предложений и текстов на основные и подчиненные структуры требует серьезных познаний в лингвистике. Кроме того система должна быть самообучаемая – ведь язык не статичен. Он постоянно меняется, приобретает новые слова, обороты, устойчивые выражения…

Новости конкурентной разведки. Нежданов Игорь Юрьевич - частный взгляд на проблему.

8 авг. 2012 г.

Мониторинг интернета и мониторинговые центры

Потребность в мониторинге интернета

Что хочет увидеть бизнес в результатах такого мониторинга?

Что полезного может увидеть бизнес в результатах такого мониторинга?

28 июл. 2012 г.

Как построить запрос в поисковике. Часть 2

21 июл. 2012 г.

Проблемы автоопределения негатива в текстах

Постоянные читатели

Конкурентная разведка - Российские ресурсы

Архив блога

Автор блога

Ярлыки

Поиск по этому блогу

Ресурсы по конкурентной разведке

Новости конкурентной разведки. Нежданов Игорь Юрьевич - частный взгляд на проблему.

8 авг. 2012 г.

Мониторинг интернета и мониторинговые центры

Потребность в мониторинге интернета

Что хочет увидеть бизнес в результатах такого мониторинга?

Что полезного может увидеть бизнес в результатах такого мониторинга?

28 июл. 2012 г.

Как построить запрос в поисковике. Часть 2

21 июл. 2012 г.

Проблемы автоопределения негатива в текстах

Подписаться на новости блога

Постоянные читатели

Конкурентная разведка - Российские ресурсы

Архив блога

Автор блога

Ярлыки

Поиск по этому блогу

Ресурсы по конкурентной разведке

8 авг. 2012 г.

28 июл. 2012 г.

21 июл. 2012 г.