В то время как вы читаете это предложение, в мире появляются более тысячи новых твитов и море новых постов в блогах. Большинство из этой информации является ничего не значащей чепухой: это «лытдыбр» и сплетни, неинтересные никому, кроме их участников. Но, несмотря на все это, можно использовать такой поток информации, чтобы делать прогнозы по поводу социальных и экономических тенденций, которые затрагивают нас всех.
Интерес к предсказаниям на основе анализа данных Сети появился около года назад, когда исследователи из Google использовали периодичность тех или иных поисковых запросов, чтобы предсказать динамику цен на недвижимость, автомобили и другие товары. Этой теме посвящена статья портала New Scientist в переводе “Руформатора”.
В своих исследованиях Хэл Вэриан (Hal Varian), ведущий экономист Google, и его коллега Цой Хен Йон (Choi Hyunyoung) показали, как массивы поисковых данных по некоторым продуктам, таким как типы автомобилей, поднимались и опускались в рейтинге в соответствии с ежемесячными продажами. Google ведет обширные хроники того, что в настоящее время ищут люди, и вся эта информация доступна практически мгновенно. Это может сделать метод Вэриана и Цоя куда более быстрым, чем традиционные способы исследования покупательских предпочтений и прогнозы продаж, которые часто создаются с учетом приобретенных ранее моделей.
Другие исследователи анализировали поисковые запросы по всем типам поведения. В конце 2009 года экономисты Банка Италии показали, что тонны поисковых запросов вроде “как искать работу” являются хорошим индикатором предстоящих изменений показателя уровня безработицы в США. Исследователи Рурского университета в Бохуме, Германия, показали, что отслеживание поисковых запросов в Google по поводу товаров народного потребления позволяет лучше прогнозировать уровень розничных продаж в США по сравнению с традиционными методами опросов пользователей – так называемого индекса потребительского доверия.
Другие источники информации, наподобие постов в блогах и твитов, тоже имеют значение, и большое количество разных тем означает, что может быть изучено больше различных аспектов. “Возможности просто невероятны”,- говорит Джозеф Энгельберг (Joseph Engelberg), финансовый исследователь Университета Северной Каролины в Чапел-Хилл.
Твиты могут доказать пользу и политических опросов. Брайан Рутледж (Brian Rutledge) и его коллеги из Университета Карнеги Меллон в Питтсбурге, Пенсильвания, запустили анализ настроений в твитах в момент предвыборной борьбы 2008 года за президентское кресло США, чтобы попытаться предугадать результаты выборов.
Исследователи обнаружили, что этот рейтинг Twitter позволяет внимательней следить и за традиционными формами опросов. И хотя это не может положительно повлиять на их точность, но это показывает, как Twitter может обеспечить дешевую и быструю альтернативу обычным поллам, добавил Рутледж.
Посты в блогах могут быть использованы и для предсказаний курсов на фондовых биржах, утверждают Эрик Гилберт (Eric Gilbert) и Кэрри Карахалиос (Karrie Karahalios) из Университета Иллинойса в Урбана-Шампейне, которые представили свои исследования в прошлом месяце на Международной конференции по веб-блогам и социальным медиа в Вашингтоне, округ Колумбия.
Они использовали более 20 млн постов в ЖЖ для создания “индекса настроения жителей США”, который они назвали “Индекс страха”. Он является отражением частоты использования в блогах слов, относящихся к арестам, например, “нервно”. Гилберт и Карахалиос описали, как они использовали индекс для улучшения предсказаний колебаний S&P 500, индекса фондовой биржи, который базируется на основе мнений крупных компаний в США. Этот индекс может быть предсказан с высоким уровнем точности, используя модель, которая обрабатывает цены на бирже за последние три дня. Гилберт и Карахалиос обнаружили, что когда “Индекс страха” резко возрастает, S&P 500 к концу дня обязательно снижается, вне зависимости от того, что происходило в предыдущие три дня. Это показывает, как говорят исследователи, что индекс может быть использован как очень хороший индикатор поведения экономики. “Блоги обеспечивают образец того, что происходит в обществе”, – отметил Гилберт.
Посты в Twitter могут обладать похожей силой. Йохан Боллен (Johan Bollen) и его коллеги из Университета Индианы в Блумингтоне создали “рейтинг беспокойства”, основываясь на анализе сотен миллионов твитов жителей США. Их исследования пока еще не опубликованы, но Боллен говорит, что они обнаружили изменение рейтинга в сторону увеличения на шкале, скоррелированной с падением цен на бирже. “Мы поражены, – говорит он. – Мы не думали, что это может быть настолько предсказуемо”.
Это произошло потому, что очень мало твитов действительно посвящены биржам. Вместо этого появляются сообщения о “национальном настроении”, которые в массе влияют на решения о покупке и продаже акций.
Такие знания могут быть полезны для брокеров. Они будут менее подвержены опасности, если знают, что потребители настроены пессимистично, например, из-за того, что их расходы составляют большую часть бюджета.
Еще одна группа, которая может воспользоваться результатами подобных исследований, –это хедж-фонды. Для них неправильные предсказания могут стоить миллионы долларов. Энгельберг анализирует ключевые слова в поисковых системах для прогнозирования поведения рынка, и ему было предложено представить свои результаты главе нью-йоркского хедж-фонда в этом месяце. “Они были хорошо знакомы с данными, – говорит он. – У меня сложилось ощущение, что они уже используют их”.
Вполне вероятно, что сила предсказаний с помощью этих методов будет возрастать по мере того, как исследователи будут разрабатывать все более сложные способы оценки эмоционального содержания блогов и твитов. Например, вполне возможно, что Гилберт и Карахалиос отладят свой “Индекс страха” для мониторинга более широкого спектра эмоциональных сигналов.
Другие исследователи, однако, настроены скептически в отношении блогов и твитов. Пол Тетлок (Paul Tetlock) из Колумбийского Университета в Нью-Йорке исследовал, как фондовые рынки подвергаются влиянию неожиданных событий. В 2007 году он доказал, что мнения, отраженные в колонках Wall Street Journal, могут влиять на поведение фондового рынка.
Проблема с использованием анализа настроений в блогах и тому подобных средствах, по словам Тетлока, заключается в том, что они имеют лишь косвенное отношение к принимаемым решениям на биржах. “Человек, сообщающий о своем беспокойстве в блоге или твите, может питать неприязнь к торговым рискам. А может и не питать, – говорит он. – Кроме того, люди на многих этих сайтах еще являются детьми, и общее беспокойство, вероятно, слабо коррелирует с поведением их родителей”.
Поисковые запросы, с другой стороны, “действительно перспективны” в сфере прогнозирования поведения рынка, говорит Тетлок. Они являются прямым показателем того, на что люди обращают внимание, и поэтому, вероятно, могут быть скоррелированы с поведением в реальном мире.