Where Einstein Meets Edison

Работа с большими данными требует дисциплины

Using Big Data Takes Discipline

20 июня 2013

«Это всё равно, что сказать, я дал Стейси ручку, следовательно, она журналист», - сказал Глава ZestFinance Дуглас Мерилл на прошедшей в марте этого года конференции "Структура GigaOM: Данные". То, что мы работаем с большими массивами данных, не значит, что мы априори выдаём отличные решения.

На самом деле, принимая решение, рискованно полагаться только на данные. На это обращали внимание многие, включая Девида Брукса (смотрите здесь, тут и тут). Он говорит, что пока мы подкрепляем свою уверенность данными, картина мира, завязанная на данных никогда не предскажет, например, лояльность клиента, которую бизнес может потерять, если он выпустит из вида некоторые рынки – даже если согласно финансовым показателям эти рынки не особо привлекательны. Вот отвлечённый пример: согласно данным о вреде курения, мы все должны бросить курить, но никто этого не делает.

Аргументы Брукса и Мерилла были подвергнуты критике (вот отличный образец), но предприниматели должны быть осторожными, особенно те, кто активно используют бизнес модели, требующие переработки большого количества данных. Представляю вам несколько действий, которые должен выполнять именно человек и на которые предпринимателю нужно выделять время при принятии решений.

1. Подумайте о разных вариантах человеческой реакции. Netflix использует данные весьма эффективно: в 2012 году 75 процентов просмотров стали результатом рекомендаций на основе данных. Несмотря на достоверность использованных данных, Netflix не смог предсказать реакцию людей, когда в 2011 году было принято решение о разделении их потокового бизнеса. В течение нескольких недель около 800 000 подписчиков отказались от сервиса, а грубоватое извинение, присланное электронной почтой, только усугубило ситуацию.

Конечно, это не означает, что данные вовсе не могут предсказать человеческое поведение. Мой любимый пример – это Продольные исследования молодёжи, проводимые Бюро трудовой статистики. Оно следит за американцами с детства и до 40 лет, отслеживая тысячи микроповеденческих особенностей от отношения к религии и участия в школьных кружках, до преступлений, включая «кто-то кого-то ударил». Исследователи Брукингского института смогли с помощью анализа данных предсказать случаи ухода детей из школы.

А ведь люди ведут себя непредсказуемо, и даже когда данных больше, чем достаточно, они не заменят обдумывание и взвешивание того, как люди отреагируют на наши действия.

2. Анализируйте то, что на данный момент ещё не проанализировано. Как рассуждает Нейт Силвер в The Signal and the Noise, если среднюю скорость броска питчера бейсбольный аналитик может точно измерить, то оценить траекторию броска он может только качественно. Понимая, что траектория броска важна, Sportvision разработал PITCHf/x технологию её вычисления с помощью видео съёмки, и теперь аналитик может включить эти результаты в уже имеющиеся данные о питчере.

Предприниматель может точно вычислить долю рынка, принадлежащую конкуренту, или количество посещений сайта, пока продукт выводится на рынок. Грамотные предприниматели могут искать способы квантитативной оценки других феноменов, которые ранее оценивали только качественно: опыт конкурента в определённой нише рынка, скажем, анализируя количество нанятых сотрудников, имевших опыт в данной области.

3. Детализируйте то, что кажется детализированным, но по сути таким не является. Когда в 2006 году цены на жильё в США снизились, согласно моделям данных банковские условия на ипотеку тоже должны были смягчиться, и прогноз оказался правильным. Но в связи с тем, что в среднем цены на жильё в США только росли c 1930 года, не было данных для того, чтобы предсказать невыплаты по займам, которые будут сопровождать снижение цены, или риск банкротства, которому подвергнутся целые финансовые организации. Поначалу казалось, что ситуация ясна – на Уолл-Стрит стоимость активов регулярно растёт и падает – но последующие события показали, что прогноз был неполным.

Грустный пример: американский космический корабль Челленджер был запущен в условиях, которые с точки зрения данных, казались безопасными. Термоустойчивость уплотнительного кольца измерялась в различных температурных условиях. Collectively the measurements adhered to a trend, convincing involved parties the part would function even at temperatures under which it had not actually been measured (credit kelly). Шаттл был запущен при температуре 31 градус по Фаренгейту, которая была ниже ранее испытанной, это и привело к трагическим последствиям

На конференции "Структура GigaOM:Данные" учредитель Vibrant Data Labs Эрик Берлоу рассказал о том, что ограниченные данные могут иметь эффект самоусиления. Например, сайт газеты может рекомендовать статьи, основываясь на том, что мы читали ранее. Но если статьи будут только из списка тех, что рекомендует сайт, появится циклическая зависимость в алгоритме рекомендации, тем самым мы ограничим читателю выход на другие интересные статьи.

По своей природе, предприниматели рискуют и входят на новые территории, несмотря на то, что данных о них не хватает. Предпринимателям стоит задуматься о том, чего данные нам не сообщают – о разнообразных ситуациях, которые не были учтены в данных – и о том, не следует ли приостановить процесс с целью получения дополнительной информации.

4. Имейте ввиду, что алгоритм может неверно распознать ситуацию. Представьте студента, готовящегося к экзамену. Чтобы получить хорошую оценку, студенту необходимо как готовиться, так и хорошенько выспаться в ночь перед экзаменом. Статистика называет такой тип связи взаимосвязью между двумя переменными. Алгоритм, который независимо учитывает подготовку к экзамену и сон, может сообщить нам, что время, потраченное на подготовку более ценно, чем время, потраченное на сон. Это может быть и так, но более точный алгоритм может учитывать взаимодействие переменных и сообщить, что подготовка будет эффективной только совместно с полноценным сном.

К сожалению, при учёте большого объёма данных, отслеживание всех возможных отношений между всеми возможными переменными может потребовать больших вложений в вычислительную технику, даже по современным меркам. Чтобы оптимизировать выбор параметров предприниматели и все те, кто принимают решения, основываясь на данных, должны понимать какие взаимосвязи надо задать алгоритму для анализа.

На конференции "Структура GigaOM:Данные", глава Digital Reasoning Тимоти Эстес рассуждал о том, как конкретные алгоритмы автоматической обработки естественного языка, выделяют определённые значения из текста, созданного человеком. Обычно, после введения нескольких страниц необработанного текста в алгоритм, он начинает выявлять структуры языка. Компьютерные системы обучения английскому языку и традиционному китайскому языку требуют различных алгоритмов. Алгоритм обучения английскому языку рассматривает пробелы между знаками как подсказки при определении языковой структуры, но в то же время пробелы не свойственны китайскому языку. Человек должен указать компьютеру, какой алгоритм использовать.

5. Сообщайте результаты в понятной форме. Истории и повествования важны при передаче данных не только для придания им более привычной человеку формы. Они важны еще и потому, что конкуренты также будут их использовать и, возможно, очень эффективно. Экономисты годами исследовали влияние налогов на экономику, и их анализы данных стали довольно подробными. Но на телевизионных дебатах политик, завоевавший доверие электората, чтобы сделать следующий шаг и уйти от налогов тем или иным способом, часто является политиком с яркой харизмой.

Для предпринимателя история может стать дополнением к рыночным данным, подтверждающим эффективность продукта. Или история сама может быть частью продукта. Крис Ховард из Redstar Ventures тестирует сервис, который на основании данных о состоянии здоровья конкретного человека выдает персональные рекомендации по снижению веса. «Мы уверены, что усложнение технологий по отслеживанию поведения совершит революцию в системах по снижения веса. Но нельзя просто выдать клиенту данные о нем. Вы должны сформировать из них историю, которая заставит его избавиться от многолетних привычек».

Большие массивы данных – это, определённо, оружие победителей. Wal-Mart сейчас объединяет данные о клиентах с их отзывами в Твиттере и другой информацией из социальных сетей, чтобы предоставлять клиентам рекомендации в выборе товаров – включая подарки, которые бы понравились друзьям клиента. Девид Брукс был приятно удивлён скоростью, с которой Google смог определить места возможного распространения гриппа, используя ключевые слова. Но несмотря на всю мощь данного оружия, корректное использование данных предполагает их использование лишь как дополнения к набору существующих средств по принятию решений и требует некоторой дисциплины .

 

Neil McQuarrie

About

Neil McQuarrie is an MBA candidate at the MIT Sloan School of Management and an MPA candidate at the Harvard Kennedy School of Government. Before returning to school, Neil analyzed data as a consultant to the healthcare industry. He holds a BA in physics from Cornell University and a Master's in Information Technology from the Rensselaer Polytechnic Institute.