3 февр. 2013 г.

Конкурентная разведка: анализ открытой информации

Анализируя новости, исследователи могут предсказывать стихийные бедствия

Исследователи разработали программное обеспечение, которое предсказывает, когда и где могут возникнуть вспышки болезней, основываясь на двадцатилетнем архиве статей New York Times и других интернет-данных, сообщает Mashable. Авторами разработки являются Microsoft и Технион — Израильский технологический институт.
Система показывает поразительные результаты при тестировании на исторических данных. Например, сообщения о засухе в Анголе в 2006 году вызвали предупреждение о возможной вспышке холеры в стране, потому что предыдущие события научили систему, что вспышки холеры более вероятны в годы после засухи. Второе предупреждение о холере в Анголе было вызвано новостями о бурях в Африке в начале 2007 года; менее чем через неделю появились сообщения о том, что в регионе действительно распространилась холера. В подобных испытаниях, связанных с прогнозированием болезней, насилия и значительного числа смертей, предупреждения системы были правильными в 70—90 % случаев.

В будущем система может помочь гуманитарным организациям более эффективно бороться со вспышками заболеваний или другими проблемами, говорит Эрик Хорвиц, учёный и содиректор Microsoft Research. Хорвиц проводил исследование в сотрудничестве с Кирой Радински, исследователем из Техниона — Израильского технологического института.
По словам Хорвица, нынешние показатели эффективности системы достаточно хороши, чтобы предположить, что её улучшенный вариант можно будет использовать в реальных условиях. Система была разработана с использованием архива новостей New York Times за 22 года — с 1986 по 2007 год, а также использует данные из Сети, чтобы узнать о том, что приводит к заметным событиям.
«Одним из источников, который мы нашли полезным, была DBpedia, в которой с помощью краудсорсинга представляется информация из Википедии в структурированной форме», — говорит Радински. «Мы можем понять или увидеть расположение мест в новостных статьях, сколько люди там зарабатывают, и даже информацию о политике». Среди других источников были WordNet, который помогает системе понимать смысл слов, и OpenCyc, база данных общих знаний.
Все они дают ценный контекст, который не доступен в новостях, и который необходим, чтобы выяснить общие правила, какие события предшествуют другим. Например, система может вывести связь между событиями в городах Руанды и Анголы, основываясь на том, что обе страны в Африке, имеют аналогичные ВВП, и другие факторы. Такой подход привёл систему к выводу, что в прогнозировании вспышек холеры следует учитывать местоположение страны или города, долю водной поверхности, плотность населения, ВВП, и была ли засуха в предыдущем году.
Сама идея о поиске путей для прогнозирования вспышек болезней не нова, равно как и концепция интеллектуального анализа данных для прогнозирования, но масштаб этого проекта потенциально делает его очень полезными. Поскольку система в состоянии успешно проводить корреляцию между событиями и достаточно обобщить данные, чтобы сделать результат полезными, она может быть применена в самых разных сферах.

Комментариев нет: