30.05.2013
Введение

Развивающаяся отрасль науки – «Культуромика» («Culturomics») направлена на изучение культурных тенденций посредством компьютерного анализа огромных оцифрованных архивов с целью получения новых общественных ценностей (Michel, et al., 2011). Книги представляют собой «переваренную историю человечества» и, в большинстве своем, описывают уже произошедшие события (Stierholz, 2008). В свою очередь, новости содержат в себе гораздо больше, чем просто фактические данные, т.к. в зависимости от их подачи, они могут существенно повлиять на целевую аудиторию (Gerbner, Marvanyi, 1977). Некоторые работы показали, что измерение «тональности новостей» позволяет прогнозировать поведение социумов, к примеру, на фондовом рынке (Mishne, Glance, 2006), (Bollen, et al., 2011).

Для исследования был использован архив новостей практически всех стран мира за 30 лет, а обрабатывающая программа содержит несколько алгоритмов контент-анализа, включающих механизмы определения «тональности», геокодирования и др., тем самым расширяя традиционные подходы культуромики. При проведении расчетов был использован суперкомпьютер Nautilus SGI UV, принадлежащий Национальному Центру вычислительных наук университета Теннесси.

Источники данных

Основное требования к источнику данных достаточно высокое – необходимо, чтобы база данных была актуальной, а также пополнялась информацией от первоисточников по всему миру. Глобальные базы данных новостей, типа NewsBank Access World News или LexisNexis (сконцентрированная в первую очередь на США) охватывают только информацию с печатных изданий, в то время как во многих регионах (к примеру, на Ближнем Востоке) новости в основном передаются посредством теле- и радиовещания (Howard, 2010). 

Понимая необходимость анализа локальных средств массовой информации, спецслужбы США и Великобритании, еще во время второй мировой войны сформировали информационные системы Foreign Broadcast Information Service (FBIS) и Summary of World Broadcasts (SWB), которые ежедневно отслеживают новости, статьи, материалы конференций по различным тематикам, теле- и радиопередачи на родных языках более 130 стран мира. Использование этих систем позволило получить более 80% информации о происходящем в СССР в период холодной войны (Studeman, 1993).

Интернет-ресурсы

Хотя теле- и радиопередачи, а также печатные материалы доминировали в качестве основных источников информации в SWB на протяжении почти всей ее 70-летней истории, Интернет-новости заметно увеличили свою долю в общем объеме анализируемых службой ресурсов, которая составила в 2010 г. 46% (рис. 1).

revolution1.jpg
Рис. 1. Доля Интернет-новостей в общем объеме анализируемой SWB информации за период с января 1994 по июль 2010, в процентах

Поскольку не со всеми новостями можно ознакомиться в Интернете (т.к. есть регионы с низким уровнем развития Интернета), то дополнительными источниками информации, поставляемой SWB, являются теле- и радиопередачи, а также бумажные газеты и журналы. За счет сочетания различных видов источников SWB удалось построить уникальный массив информации, позволяющий, в том числе, выявить тренды и цикличность в развитии той или иной страны.

Помимо SWB, исследователи использовали базу данных всех статей New York Times за период с 1945-2005 гг., включающий более 5,9 млн. статей, а также статьи со многих других англоязычных новостных интернет ресурсов за период с января 2006 г. по н.в.

Методология

Все новостные источники были обработаны с помощью следующих технологий: 1) анализ тональности текста (или «sentiment mining» см. Hu and Liu, 2004); а также 2) текстовое геокодирование («fulltext geocoding» см. Goldberg, et al., 2007). Алгоритм, используемый в первой технологии, подсчитывает количество слов в анализируемом документе, которые могут быть отнесены к «позитивным» и «негативным» с целью определения плотности эмоционального языка и его общую тональность. К примеру, текст с большим количеством таких слов, как «ужасный», «страшный» или «чудовищный» будет отнесен алгоритмом к документу с выраженной негативной тональностью.

Важно отметить, что компьютерный анализ текста позволяет ухватить только общую тональность анализируемого документа, которая является комбинацией фактов, а также точки зрения конкретного репортера. Классический пример подачи одной и тоже новости (не меняя ее сути) является описание результата матча двух футбольных команд. Новостные издания, относящиеся к разным городам, представителями которых являются обе команды сообщат одинаковые факты о результатах игры, но эмоциональный окрас текста, скорее всего, будет отличаться в зависимости от того, является ли победившая команда «домашней» по отношения к изданию. В тоже время, авторы исследования говорят, что тональность новостей как раз и является важной составляющей для построения прогноза.

Что касается второй технологии, то текстовое геокодирование необходимо для привязки описываемых в статьях событий к определенным географическим координатам. К примеру, соответствующий алгоритм сканирует документ с сообщением о произошедшем в Каире событии, и использует окружающий контент для определения, в каком из 39 мест на планете с одноименным названием, оно произошло.

Обе используемые технологии были взяты и адаптированы под задачи исследования из проекта The Carbon Capture Report.

Прогнозирование волнений: раннее предупреждение конфликтов

Одним из первых результатов анализа информации с помощью информационной системы FBI, проведенного 6 декабря 1941 г. показал, что японские СМИ увеличили критику в адрес США, а уже на следующее утро по Перл-Харбору был нанесен удар. Конечно же, мониторинг новостей не позволяет предсказать детали возможного конфликта в будущем, однако может дать сигналы для необходимости проведения более тщательного анализа сложившейся ситуации. Осознавая эту возможность, правительство США уже более 40 лет финансирует систему «раннего предупреждения конфликтов». Отметим, что эта система, в том числе, базируется на годовых показателях, таких как ВВП, хотя последние мало что дают. К примеру, ВВП Египта был устойчив в последние годы, однако другие показатели, почерпнутые из новостей (уровень насилия, число беспорядков и др.), позволяли сделать предположение о возможной эскалации конфликта.

Рассмотрим пример Египта подробнее. 25 января 2011 г. начались массовые акции протеста, завершившиеся 11 февраля отставкой Хосни Мубарака. На рис. 2 представлены среднемесячные значения тональности 52 438 статей, в которых упоминается название хотя бы одного египетского города, за период с января 1979 г. по март 2011 г. Ось ординат показывает стандартные отклонения от средних значений, где наибольшим значениям соответствует позитивная тональность, а наименьшим – негативная. Как видно, за всю историю наблюдений, значительные отклонения от средних значений в отрицательную сторону наблюдались в январе 1991 г. (США наносит воздушные удары по иракским войскам в Кувейте), в марте 2003 г. (США вторгается в Ирак) и, собственно, в январе 2011 г.

revolution2.jpg
Рис. 2. Тональность новостей, посвященных Египту (январь 1979 г. – март 2011 г.), ось ординат – стандартные отклонения от средних значений

Результаты расчетов тональностей новостей для ряда других стран приведены на соответствующих рисунках:
  • рис. 3. – Тунис (обработано 16856 статей);
  • рис. 4. – Ливия (обработано 14 109 статей);
  • рис. 5. – Сербия (обработано 96 251 статей);
  • рис. 6. – Саудовская (обработано Аравия 31196 статей). 

revolution3.jpg
Рис. 3. Тональность новостей, посвященных Тунису (январь 1979 г. – март 2011 г.), ось ординат – стандартные отклонения от средних значений

revolution4.jpg
Рис. 4. Тональность новостей, посвященных Ливии (январь 1979 г. – март 2011 г.), ось ординат – стандартные отклонения от средних значений

revolution5.jpg
Рис. 5. Тональность новостей, посвященных Сербии (январь 1979 г. – март 2011 г.), ось ординат – стандартные отклонения от средних значений

revolution6.jpg
Рис. 6. Тональность новостей, посвященных Саудовской Аравии (январь 1979 г. – март 2011 г.), ось ординат – стандартные отклонения от средних значений

Отдельный интерес представляет оценка тональностей новостей в целом по всем миру (безотносительно какой-либо страны) с целью ответа на вопрос – имеется ли определенная тенденция? На рис. 7 приведены результаты расчетов, полученных с использованием новостей, опубликованных New York Times за период с января 1945 г. по декабрь 2005 г. Явная тенденция в область отрицательных значений прослеживалась с начала 1960-х до начала 1970-х с последующим относительным восстановлением. Однако следует отметить, что основная аудитория статей New York Times – жители США и в этой связи имеет смысл посмотреть расчеты, полученные с помощью более репрезентативного материала. На рис. 8 приведены результаты, полученные с использованием новостей, опубликованных SWB за период c января 1979 г. по июль 2010 г. Как видно, в этом случае негативная тенденция еще более очевидна, что говорит в целом об отрицательном характере статей и, как следствии, нарастании общей тревожности и пессимизма.

revolution7.jpg
Рис. 7. Тональность новостей, опубликованных New York Times за период с января 1945 г. по декабрь 2005 г., ось ординат – стандартные отклонения от средних значений

revolution8.jpg
Рис. 8. Тональность новостей, опубликованных SWB за период c января 1979 г. по июль 2010 г., ось ординат – стандартные отклонения от средних значений

Пространственная привязка новостей

Важным моментом является геокодирование анализируемого текста. Архив New York Times за период 1945-2005 гг. содержит более 2,9 млрд. слов, а также примерно 10,4 млн. упоминаний о 369 тыс. уникальных географических местоположениях. В свою очередь, архив SWB за период 1979-2010 гг. содержит 1,2 млрд. слов и приблизительно 5,81 млн. упоминаний о 201 тыс. местоположений. На рис. 9 отображена карта мира, составленная на основе материалов New York Times за 2005 год. Каждый географический объект (город, остров, река, гора и т.д.) имеет свой окрас по 400-бальной градиентной шкале от ярко-зеленого цвета (означающего максимально позитивную новость) до ярко-красного цвета (означающего максимально негативную новость). Как правило, в статьях указывается не одно, а два или более местоположений, которые графически связываются друг с другом посредством линий, имеющих такую же цветовую раскраску, что и у связываемых объектов. На рис. 10 отображена карта мира, составленная на основе материалов SWB также за 2005 г.

revolution9.jpg
Рис. 9. Тональность мировых новостей, имеющих географическую привязку (по материалам New York Times за 2005 год)

revolution10.jpg
Рис. 10. Тональность мировых новостей, имеющих географическую привязку (по материалам SWB за 2005 год)

Как видно, географическая информация на обеих картах заметно отличается. Причины видятся в том, что, во-первых, новости New York Times за этот период содержат упоминания в новостях о 19785 местоположениях, а SWB о 29592. Во-вторых, новости New York Times в 40,7% случаев имели отношение к географическим объектам, находящимся на территории США, а новости SWB, в свою очередь, к объектам этой страны соотносились только в 1,1% случаев. В-третьих, что, наверное, является самым главным, New York Times, принимая во внимание плохую осведомленность американских читателей в географии (особенно других стран), при описании событий старались указывать в качестве ориентиров ближайшие знаковые места или крупнейшие города, не упоминая мелких населенных пунктов.

По приведенным ниже ссылкам можно посмотреть изменение тональности мировых новостей в динамике (это анимированные GIF):

Более подробно про результаты исследования, дополнительно включающие цивилизационные аспекты развития населения земли, вычисляемые на основе геокодирования, а также про «поимку» Усамы бен Ладена с погрешностью в несколько десятков километров посредством анализа тональностей новостей можно прочитать в оригинале статьи.

Методологические принципы, закладываемые в соответствующие алгоритмы, описаны на персональной странице автора.
rss
Назад

Статьи
Суперкомпьютерные технологии Транспортные модели пешеходная модель Монография Биомедицина Parallel computing Параллельные вычисления Axum Repast Агент-ориентированные модели Исследования Модель экономики Евросоюза Пространственно-распределенные агентные модели большие данные CUDA Russian Supercomputing Days Агент-ориентированный подход Исторические процессы Мониторинг планеты Пространственные модели FuturICT SEGMEnT БРИКС Контакты Публикации Экономические процессы GPU SSC Междисциплинарное исследование Новости Революция Эксафлопная производительность HPABM SWAGES Высокопроизводительные вычисления Методология запуска О проекте Социальная сеть Эпидемия Microsoft Social Simulation Conference ГИС Механизм раделяемой памяти Пандемия Ссылки Ядерная атака на США POLARIS TSUBAME Демография Моделирование мира Пандора Стратегии распараллеливания автоматическое распараллеливание XAXIS Иерархическая платформа Моделирование эпидемий Суперкомпьютерная Академия агентная модель