Что и как могут узнать в инете о нас?

Глобальный контроль по силам только глобальным организациям – это госструктуры. Вряд ли такое может себе позволить частная организация. Таким компаниям по силам контроль своего (узкого в территориальном и персонализированном смыслах) сектора интернете, а то и локальной сети. Уж очень велики вложения, а целесообразность контролировать всё очень сомнительна. Другое дело государство с глобальными амбициями. Поэтому ответ на вопрос «КТО может слушать» вполне очевиден.
Если посмотреть «КАК можно получить ко всей информации интернета», то данная проблема состоит из нескольких блоков. Первый – как «снять» (получить» информацию. Второй – как сохранить такой объем. Третий – как анализировать всё это богатство, чтобы не «утонуть». В рамках этого третьего блока есть одно очень важное направление – идентификация пользователя. Именно эта часть обычно вызывает наибольшие споры у пользователей. Уверенность в своей анонимности, а значит и безнаказанности приводит к фатальным ошибкам. Но об этом чуть ниже.

Как снимают информацию

Государственные разведки имеют возможность получить доступ ко всем данным, передаваемым в интернете. Это достигается за счет контроля магистральных сетей передачи данных. С них банально снимается вся информация, что не является серьезной проблемой с технической или организационной точек зрения. Магистральных провайдеров на законодательном уровне обязывают сотрудничать с соответствующими госорганами.

Как хранят собранное

Действительно сложным моментом является хранение и обработка всего этого массива данных. Именно для решения проблем хранения и обработки Американское Агентство Национальной Безопасности (NSA) построило распределенную сеть хранения и обработки данных. Данная сеть состоит из пяти суперкомпьютерных кластеров с хранилищами данных, автономным энергообеспечением и специализированной оптоволоконной связью между кластерами. Это так называемый проект First Intelligence Community Comprehensive National Cyber-security Initiative Data Center.
На данный момент запущено самое большое хранилище данных в пустыне в штате Юта. Так называемый «Центр данных Юты» стал завершающим элементом, недостающим в этом колоссальном комплексе (помимо уже эксплуатируемых суперкомпьютерных кластеров штаб-квартиры АНБ Форт Мид (шт.Мерилэнд), исследовательского криптоаналитического центра Оук Ридж (шт. Теннеси), дата-центра Лекленд в Сан-Антонио (шт. Техас)). Там же (в Юте) установлен один из самых мощных в мире суперкомпьютеров. Проект First Intelligence Community Comprehensive National Cyber-security Initiative Data Center стоимостью два миллиарда долларов создан для хранения и обработки цифровых данных, собранных в результате слежки: интернет-трафик, видео с камер наблюдения, записи телефонных разговоров и т.д. По оценкам экспертов, дата-центр АНБ сможет хранить и обрабатывать йоттабайты информации.

Как обрабатывают информацию

Следующей проблемой является обработка таких объемов информации. Здесь уже есть ряд решений, которые эксплуатируются. Вот некоторые «наработки» в этом направлении наших заокеанских коллег.
В 2001 году DARPA запустила проект Terrorism Information Awareness — TIA («Знания информации о терроризме»), который заключается в создании и испытании опытного образца системы, позволяющей на основе больших объемов не связанной информации в различных базах данных (в т.ч. и в соцсетях) выявить группу лиц, готовящихся совершить террористический акт на территории США. Система эффективно работает и развивается.
В 2009 году DARPA запустила проект Machine Reading Program («Машинное чтение»). Результатом программы стало создание автоматизированной системы чтения и понимания текстов на естественном языке, способной извлекать востребованную информацию из текста без участия человека.
В 2010 году запущена программа Integrated Crisis Warning System (ICEWS ) — информационная интегрированная система раннего предупреждения о возникновении кризисных ситуаций. Система ICEWS предназначена для мониторинга, оценки и выделения основных индикаторов, указывающих на нарастание социальной напряженности в обществе (не обязательно в американском обществе). Параллельно с 2010 года разрабатывалась программа Anomaly Detection at Multiple Scales, которая предназначена для выявления аномальных процессов, происходящих в обществе, наблюдения за неадекватным поведением отдельных индивидуумов и групп людей. Обе системы работают.
В 2010 г. Пентагон приобрел систему Surrogate Subjugation (разработка компании Visual Purple) — система автоматизированного мониторинга социальных сетей, чатов и тематических форумов и активной работы на них с целью оказания необходимого влияния на аудиторию. Система создает виртуальную копию человека (так называемый «суррогат»), участвующего в онлайн-обсуждениях определенной темы. В каждом конкретном случае при регистрации «суррогата» на форумах в его профиле указывается специально подобранная биографическая легенда, политико-экономические взгляды, а также круг интересов и увлечений.
В 2011 году DARPA запустила новую программу Math for Social Networks, целью которой является разработка новых математических методов анализа социальных сетей с построением в реальном времени связей, указывающих на происходящие изменения в реальном мире.
С начала 2011 года Пентагон развивает систему Social Media in Strategic Communication — SMISC (в переводе «социальные медиа в стратегической коммуникации»), которая отслеживает все политические дискуссии и устанавливает является ли это случайный продукт коллективного разума или пропагандистская операция со стороны враждебной нации или группы. Проект уникальный тем, что в нем поставлена задача революционного прорыва в использовании сетевых технологий для контроля и управления обществом.
В июне 2012 года по заказу DARPA военный подрядчик Raytheon BBN Technologies создал компьютерную систему, которая автоматически составляет досье на граждан и организации, собирая информацию из открытых источников (социальных сетей, форумов, чатов, блогов …). Помимо работы по прямому упоминанию объекта система идентифицирует изучаемого по косвенным признакам, по связям, по образам (фото и видео материалы), по голосу (радио). С февраля 2013 года система работает в «боевом» режиме.

Как идентифицируют пользователя

Еще одной «интересной» проблемой является идентификация пользователя, особенно если у него несколько аккаунтов в разных системах, если он использует разные почтовые сервисы и вообще пытается спрятаться. Но для понимания этого вопроса нужно «погрузиться» в некоторые технические моменты.
Итак, любые действия в сети (инете) так или иначе оставляют следы. Вопрос в том, чтобы эти следы распознать, собрать и состыковать между собой. Эти самые следы условно можно разделить на несколько больших групп. Если рассматривать только техническую составляющую, то пусть они называются: «адресные», «программные», и «не легитимные».

Адресные следы это IP-адрес устройства, с которого вы заходите в интернет и mac-адрес этого устройства. Эти «адреса» остаются в логах провайдера, через которого вы выходите в сеть, на серверах через которые проходят ваши пакеты, на сайтах, которые вы посещаете, в письмах, которые рассылаете. По ним можно узнать когда, куда вы ходили, что делали в сети, проследить маршрут ваших пакетов…

Программные следы это разного рода особенности того софта, который установлен на вашем компьютере, смартфоне… Например операционная система имеет свой уникальный номер, браузер имеет свой идентификатор, да к тому же специфическую конфигурацию (набор плагинов), набор программного обеспечения, установленного на вашем устройстве. По этим признакам можно вас идентифицировать с высокой точностью, даже если вы используете анонимайзеры или иным образом меняете IP. Кроме этого в отдельную подгруппу выделяются куки – те самые минипрограммы, оставляемые посещаемым вами сайтом у вас в браузере для вашего удобства (особые настройки сайта, ваша идентификация и т.п..). Даже без использования «полицейских» и маркетинговых функций эти куки позволяют однозначно идентифицировать пользователя.

Не легитимные следы – это разные вредоносные программы, которые уже попали на ваши устройства или которые можно «подсадить» при необходимости. От так называемых «идентификаторов», рекламных модулей и сборщиков статистики, до кейлогеров, троянов и модификаторов данных.
Использование хотя бы этих способов позволяет достаточно точно идентифицировать пользователя если тот не применяет специальных методов сокрытия следов. Таких как разные устройства для разных задач, разные провайдеры для разных задач, виртуальные машины, принудительная маршрутизация и прочее. А таких «продвинутых» пользователей очень мало. По оценкам экспертов не более одного процента от общего числа пользователей (реальных, а не ботов).

С уважением!
Игорь Нежданов

Новости конкурентной разведки. Нежданов Игорь Юрьевич - частный взгляд на проблему.

20 сент. 2013 г.