Электронная библиотека » Томас Дэвенпорт » » онлайн чтение - страница 5


  • Текст добавлен: 25 апреля 2017, 21:14


Автор книги: Томас Дэвенпорт


Жанр: Зарубежная деловая литература, Бизнес-Книги


Возрастные ограничения: +12

сообщить о неприемлемом содержимом

Текущая страница: 5 (всего у книги 17 страниц) [доступный отрывок для чтения: 6 страниц]

Шрифт:
- 100% +
Пример аналитического мышления: People vs. Collins

Под названием People vs. Collins известен суд присяжных, слушавший нашумевшее дело супругов Коллинз, в ходе которого математические методы и теория вероятности были использованы для доказательства виновности подсудимых. Однако проблему идентифицировали неверно, и результат оказался неутешительным[25]25
  People vs. Collins, 68 Cal. 2d 319 (1968). URL: http://scholar.google.com/scholar_case?case=2393563144534950884; People vs. Collins. URL: http://en.wikipedia.org/wiki/People_v._Collins.


[Закрыть]
. Суд признал Малкольма Коллинза и его жену Джанет Коллинз виновными в ограблении второй степени. Малкольм обжаловал это решение, и Верховный суд штата Калифорния отменил его, подвергнув сомнению результаты статистических выкладок и способ их представления в суде. Рассмотрим этот случай в соответствии с требованиями к стандартной процедуре количественного анализа.


Определение проблемы. Сделав кое-какие покупки, миссис Хуанита Брукс шла домой по переулку в районе Сан-Педро. Внезапно ее швырнул на землю человек, лица которого ей не удалось разглядеть. Придя в себя от шока и болезненного ушиба, миссис Брукс обнаружила пропажу кошелька, в котором оставалось от 35 до 40 долларов. Очевидец происшествия сообщил, что грабителей было двое: чернокожий мужчина с бородой и усами и белая женщина с белокурыми волосами, завязанными в конский хвост. Они скрылись с места преступления на желтой машине. Подозреваемых задержали быстро, но идентифицировать их как лиц, совершивших ограбление, не удалось и через неделю. Потерпевшая не смогла опознать Джанет Коллинз и не видела лица мужчины. Показаний свидетеля также оказалось недостаточно. Прокурор, видимо, стремясь спасти разваливающееся дело, решил построить обвинение на расчете вероятности случайного совпадения внешности обвиняемых с описанной свидетелем.


Изучение предыдущих поисков решения. Известно, что обычно суд не считает несовместимыми математические расчеты и право и не отрицает, что математику можно использовать в качестве инструмента для поиска доказательств. Существует несколько судебных прецедентов, когда обвинение использовало математическую вероятность для доказательства вины подсудимого.


Моделирование (выбор переменных). Прокурор решил рассчитать математическую вероятность того, что внешность и машина задержанных супругов Коллинз случайно совпали с описанием преступников.


Сбор данных. Прокурор вызвал в качестве свидетеля преподавателя математики из местного колледжа. В своих показаниях он постарался убедить присяжных в том, что вероятность совпадения характерных особенностей случайной пары жителей города с описанием преступников ничтожна. В данном случае частные вероятности совпадения каждой из особенностей, упомянутых в описании преступников, можно оценить следующим образом:



Анализ данных. Преподаватель математики предположил, что все эти частные вероятности независимы, и тогда вероятность их совпадения можно рассчитать, перемножив показатели из таблицы.

Р(А) = вероятность того, что произвольно выбранная пара совпадет по описанию с описанием подозреваемых равна

или один шанс из 12 миллионов.

Презентация результатов и проведение мероприятий. Прокурор заключил, что вероятность наличия у случайно выбранной пары всех указанных характерных особенностей составляет один шанс на двенадцать миллионов. Соответственно, отсюда можно сделать вывод о том, что у пары, у которой присутствуют все эти особенности, лишь один шанс из двенадцати миллионов оказаться невиновными. Жюри присяжных вынесло вердикт: «Виновны».

Коллинзы подали апелляцию. Верховный суд штата Калифорния решил, что жюри присяжных оказалось под чрезмерным впечатлением от мистики математических терминов и расчетов и не сумело оценить их значимость и связь с делом. Верховный суд отменил приговор, подвергнув сомнению статистические выкладки и способ их представления присяжным. В частности, расчеты имели два существенных недостатка. Во-первых, следствие не привело никаких доказательств надежности исходных данных. Во-вторых, существенным недостатком этих расчетов было отсутствие уверенности во взаимной независимости частных вероятностей (так, например, мужчины с бородой, как правило, носят и усы).

Еще более важно то, что прокурор неправильно сформулировал проблему. Даже если допустить, что сами расчеты выполнены корректно, из них не следует, что Коллинзы виновны, поскольку они не дают ответа на вопрос о том, что если в мире найдется несколько пар с такими характерными особенностями, то какая из них действительно виновна в преступлении?

Но самое главное – это тот факт, что расчеты отвечают вовсе не на тот вопрос, который ставило обвинение, а именно какова вероятность того, что подозреваемые случайно подошли под описание преступников. На самом деле расчеты отвечают на вопрос, какова вероятность существования других пар с аналогичными характерными особенностями при том, что обвиняемые тоже подходят под описание. В зависимости от того, сколько всего пар в Лос-Анджелесе, вероятность существования хотя бы одной пары с такими же характерными особенностями может достигать 40 процентов (см. сайт книги). В этом случае об отсутствии обоснованных сомнений в виновности Коллинзов речь уже не идет; напротив, вероятность существования в Лос-Анджелесе более чем одной такой пары и того, что именно другую пару видели на месте преступления, становится весьма существенной.

После рассмотрения всех обстоятельств дела, в том числе свидетельских показаний, Верховный суд отменил обвинительный приговор. Некорректная формулировка проблемы привела к принятию неверного решения.

Глава 3
Решение проблемы

Многие считают это словосочетание, по крайней мере в некоторых отношениях, главным в количественном анализе – ведь именно здесь проводятся аналитические процедуры и проблема получает решение. Конечно, все это очень важно. Но операции на этом этапе более структурированы и точнее определены, чем на предшествующей и последующей фазах. Если у вас нет математической и статистической подготовки, то, скорее всего, вы передадите выполнение этих операций людям с необходимыми навыками и знаниями (см. вставку «Как найти кванта»). Но вне зависимости от ваших личных познаний в математике полезно получить общее представление об основных этапах решения проблемы.

Как найти кванта

Если для решения вашей проблемы требуется количественный аналитик, то существует несколько способов отыскать его.

• Если вы работаете в большой компании, наверняка несколько квантов найдутся в штате. Загляните в отдел маркетинговых исследований, производственную лабораторию, отдел бизнес-аналитики.

• Если ни одного кванта среди сотрудников отыскать не удалось, то можно обратиться к целой армии независимых консультантов. Проведите интернет-исследование по запросу «консультанты по бизнес-аналитике».

• Если вы хотите привлечь кванта из-за рубежа, то лучше всего обратить внимание на Индию, в частности на компании Mu Sigma, Fractal Analytics и Genpact.

• Возможно, в местном университете удастся найти профессоров или студентов-старшекурсников, специализирующихся на количественном анализе; позвоните заведующему кафедрой статистики, к примеру.

• Если вы считаете необходимым взять кванта на постоянную работу, можно просмотреть объявления на сайтах вакансий, где, как правило, есть соответствующие предложения: например, на сайте Simply Hired есть страница с резюме количественных аналитиков, а на сайте analyticrecruiting.com – с резюме статистиков. Можно обратиться в специализированную рекрутинговую фирму.

Сначала ознакомимся с последовательностью выполняемых этапов. Мы ведь помним, что речь идет об аналитическом проекте, направленном на проверку гипотезы. Сначала мы формулируем проблему (глава 2), затем переходим к моделированию и выбору переменных (первый шаг на этом этапе решения проблемы), а в результате можно будет выдвинуть гипотезу, требующую подтверждения или опровержения. Затем аналитик собирает данные и решает проблему. На каждом из этих шагов необходимо понимать или хотя бы предполагать, как функционирует исследуемый мир, и тогда на основе анализа данных можно будет сделать вывод о том, была ли правильной исходная гипотеза. Однако есть несколько видов анализа, не требующих предварительного выдвижения гипотезы. В интеллектуальном поиске данных и машинном обучении (когда модели разрабатываются на основе закономерностей, выявленных в имеющихся данных, с помощью программного обеспечения давая быстрый и оптимальный результат) аналитик просто вводит в компьютер массив данных и запускает поиск закономерностей. Все гипотезы выдвигаются уже потом, на этапе интерпретации и распространения результатов.

Нам не слишком нравится этот подход: в основном потому, что зачастую он дает необъяснимые результаты. А поскольку ни один аналитик не пытался использовать анализ данных для подтверждения своих взглядов на происходящее вокруг, то и комментировать результаты анализа или убеждать в необходимости изменить решение на их основе никто не будет. Однако иногда случаются обстоятельства, в которых подход к анализу как к «черному ящику» может сэкономить немало времени и труда аналитикам. В среде больших данных, где постоянно генерируются колоссальные массивы информации, у аналитика не всегда есть возможность формулировать гипотезы до проведения анализа данных. Например, при размещении рекламы на сайтах издательств решения принимает автоматизированная система в тысячные доли секунды, а компании, занимающиеся этой работой, генерируют несколько тысяч статистических моделей каждую неделю. Очевидно, такой вид анализа не рассчитан на выдвижение гипотез и рассмотрение результатов людьми, поэтому машинная работа здесь абсолютно необходима. Но по большей части в дальнейшем изложении мы будем иметь дело с этапами и методикой анализа на основе проверки гипотез.

Шаг 3. Моделирование (выбор факторов)

Модель – это преднамеренно упрощенное представление определенного события или ситуации. Термин «преднамеренно» означает, что модель разрабатывается специально для решения конкретной проблемы. Термин «упрощенно» говорит о том, что следует исключить из рассмотрения все банальные и несущественные детали, выделив важные, полезные и ключевые особенности, определяющие специфику проблемы. Проиллюстрируем процедуру выбора факторов на примере.

3. Моделирование

Модель можно сравнить с карикатурой. Она заостряет внимание на некоторых чертах – носе, улыбке, кудрях, – и на их фоне другие черты теряют выразительность. Хорошая карикатура отличается тем, что отдельные черты выбираются обдуманно и эффективно. Точно так же модель акцентирует внимание на отдельных особенностях реального мира. При построении любой модели вам придется действовать избирательно. Нужно выбрать именно те особенности, которые имеют отношение к решению вашей проблемы, и пренебречь остальными. Модель носит схематичный характер, чтобы помочь пользователю сфокусироваться на исследуемой проблеме[26]26
  Starfield A., Smith K., and Bleloch A. How to Model It: Problem Solving for the Computer Age. – New York: McGraw-Hill, 1994. P. 19.


[Закрыть]
.

Отсюда следует, что модели не могут быть абсолютно корректными. Знаменитый статистик Джордж Бокс как-то заметил, что «…все модели некорректны, но некоторые при этом полезны»[27]27
  Box G. and Drape N. Empirical Model-Building and Response Surfaces. New York: Wiley, 1987. P. 424.


[Закрыть]
. Ключевая проблема в том, чтобы определить, когда модель приносит пользу, а когда она некорректна настолько, что искажает реальность. В главе 5 мы подробнее поговорим об этом. А пока заметим, что одним из ключевых является вопрос о выборе факторов для включения в модель.

Каким образом отбираются факторы для модели и прогнозируются их взаимосвязи? По большей части мы в этом вопросе руководствуемся субъективными соображениями. Гипотеза, то есть априори разработанная концепция анализа, представляет собой не более чем наукообразные предположения о том, какие факторы имеют наибольшее значение в каждом конкретном случае. На этом этапе разработка модели требует логического мышления, опыта и знакомства с предшествующими исследованиями. Только в этом случае можно с большой долей уверенности предположить, какие зависимые (те, которые нужно прогнозировать или объяснить) или независимые факторы сыграют основную роль. Можно попытаться протестировать модель – именно это отличает аналитическое мышление от менее точных методов принятия решений вроде интуиции.

Например, если вы социолог и пытаетесь прогнозировать динамику дохода семьи (зависимая переменная), то можно предположить, что независимыми переменными в вашей модели будут возраст, образование, семейный статус и количество работающих постоянно членов семьи. Именно эти переменные имеют смысл при прогнозировании семейного дохода. Впоследствии, в процессе количественного анализа (а точнее, на этапе анализа данных) вы можете обнаружить, что модель недостаточно точно отражает реальную ситуацию, и захотите пересмотреть состав переменных при условии, что по новым переменным можно получить данные.

Даже очень субъективные модели и переменные могут быть полезны для уточнения проблемы. Например, Гарт Сандем, известный популяризатор науки, математики, юморист и писатель на темы гик-культуры, многие жизненные проблемы решал путем анализа субъективно отобранных, но все равно полезных переменных[28]28
  Sundem G. Geek Logik: 50 Foolproof Equations for Everyday Life. New York: Workman, 2006.


[Закрыть]
. В частности, так он подходил к решению вопроса о том, какое именно домашнее животное лучше выбрать и стоит ли его заводить вообще.

Какие переменные человек принимает во внимание, решая, заводить ли домашнее животное? Сандем отобрал следующие:

• Постоянная жизненная потребность в любви (D, 1–10, где 10 баллам соответствует жизнь как у начальника тюрьмы днем и честного налогоплательщика ночью).

• Общий уровень ответственности (R, 1–10, где 1 балл соответствует убежденности в том, что «дети, налоговый инспектор и дела как-нибудь сами устроятся, если оставить их в покое»).

• Наиболее продолжительная поездка в последние шесть месяцев (T, дней).

• Продолжительность сверхурочных (H, часов в день).

• Ваша терпимость к проделкам других существ (M, 1–10, где 1 балл означает, что вы ведете себя как Стервелла де Виль, а 10 баллов – как доктор Дулиттл).

• Насколько вы заботливы (N, 1–10, где 1 балл означает «мой кактус засох»).


Все эти переменные весьма субъективны, но они, по всей видимости, полезны и, уж конечно, забавны. Сандем вывел следующее уравнение (выглядит довольно устрашающе!), где обобщающим показателем является Fido – индекс готовности к заведению домашнего питомца:



Наиболее важной переменной в этом уравнении является D – потребность в любви, которая прямо пропорционально связана с результирующим показателем. Неплохо также, если у вас есть немного свободного времени (H), чтобы проводить его с питомцем, и вы ответственный человек (R). Эти две переменные также прямо пропорционально влияют на Fido. Но если вам приходится много ездить, значение вашего индекса существенно снизится. В зависимости от итогового результата Сандем предлагает выбрать одно из следующих домашних животных:

• если Fido менее 1, то даже морские рачки будут слишком обременительны;

• если Fido составляет от 1 до 2, попробуйте завести золотых рыбок;

• если Fido составляет от 2 до 3, можно завести кошку;

• если Fido превышает 3, то можно взять собаку.


Джин Хо подставил собственные значения в это уравнение и получил значение индекса готовности к заведению домашнего питомца 0,7, а значит, ему не стоит рисковать даже с кактусом.

Конечно, кто-то может сказать, что слишком большая точность расчетов при решении данного вопроса не требуется, но так или иначе этот пример показывает, что даже очень субъективные и банальные решения можно оценить количественно и смоделировать.

Какие переменные отобрать, а какие отбросить – зависит от цели разработки модели и того, связана ли переменная непосредственно с решением проблемы. Например, если вы рисуете карту Нью-Йорка, то расстояния между точками имеют большое значение и должны быть пропорциональны реальным расстояниям. Однако если вы рисуете схему нью-йоркского метро, то расстояния между станциями на карте совсем не обязательно должны быть пропорциональны расстояниям на местности. Ведь главная цель схемы метро – это показать, как можно добраться от одной станции до другой.

Еще один прекрасный пример важности тщательного выбора переменных модели – это спор по поводу того, кто является автором серии опубликованных в 1861 году писем. Десять писем, подписанных Квинтусом Куртиусом Снодграссом, появились в New Orleans Daily Crescent. В них мистер Снодграсс (ККС) описывал свои военные приключения во времена службы в Национальной гвардии Луизианы. Сразу после публикации письма не привлекли особого внимания. Они впервые попали в поле зрения широкой публики лишь в 1934 году, то есть спустя семьдесят три года после выхода из печати. О них в своей книге Mark Twain, Son of Missouri упомянула Минни Брашер. В частности, она привела текст одного из писем, пересказала содержание трех других и сделала смелый вывод о том, что «письма ККС имеют огромное значение в качестве свидетельства становления Марка Твена как юмориста; именно Марка Твена следует признать их автором, а некоторые различия в стиле можно объяснить его стремлением выработать свой собственный литературный стиль»[29]29
  Brashears M. Mark Twain: Son of Missouri. Whitefish, MT: Kessinger Publishing, 2007.


[Закрыть]
. Оставшиеся шесть писем ККС опубликовал и проанализировал Эрнст Лейзи в 1946 году[30]30
  Leisy E. (ed.). The Letters of Quintus Curtius Snodgrass. Irving, TX: University Press of Dallas, 1946.


[Закрыть]
. Проведенный им тщательный анализ аналогий позволил утверждать, что письма действительно написаны Твеном, но кое-кто из литературных исследователей до сих пор считает, что у них был другой автор.

В русле исследований вопроса о том, действительно ли Шекспир был автором всех приписываемых ему произведений, Томас Менденхолл в конце двадцатого века опубликовал две статьи, в которых изложил статистический подход к проблеме определения авторства. Топ-менеджер нефтяной компании Клод Бринегар, имевший хорошее университетское образование и увлекавшийся коллекционированием первых изданий книг Марка Твена, изучил историю вопроса и применил метод Менденхолла, впоследствии получивший название стилометрии, или количественного анализа литературного стиля, к письмам ККС.

Этот метод основан на предположении о том, что, хочет он того или нет, каждый автор чаще использует одни слова, чем другие, и сохраняет одинаковый литературный стиль, по крайней мере в долгосрочной перспективе. С позиций количественного анализа это означает, что доля слов определенной длины будет постоянной во всех текстах, написанных данным автором. Если доля слов определенной длины в двух разных текстах существенно отличается, это можно считать подтверждением того, что тексты написаны разными авторами. В качестве переменных для анализа писем ККС выбирались слова различной длины, и их удельный вес сравнивался с аналогичными показателями из работ, определенно принадлежавших перу Твена. Для проверки авторства проводился тест по критерию согласия. Результаты тестирования показали, что расхождения по набору переменных слишком велики, чтобы считать их случайными, – поэтому вряд ли Марк Твен является автором этого произведения (подробности см. на сайте книги)[31]31
  Brinegar C. Mark Twain and the Quintus Curtius Snodgrass Letters: A Statistical Test of Authorship // Journal of the American Statistical Association. 1963, no. 58.


[Закрыть]
.

Далее в этой главе мы еще поговорим об анализе текстов (в противоположность анализу чисел), а пока отметим, что Бринегар в процессе анализа перевел слова в числа.

Шаг 4. Сбор данных (измерения)

На следующем шаге анализа проводится сбор данных и измерения выбранных переменных. Измерение – это определение значения переменной; массив данных – это набор таких значений. Существуют разные способы измерения переменных (см. вставку «Способы измерения переменных»). Сформулированная проблема сначала представляется в виде набора переменных в процессе моделирования, а затем приобретает вид массива данных в результате измерения.

Способы измерения данных

Известны три основных метода измерения данных.

Двоичные переменные. Такие переменные имеют только два значения, и для целей статистического анализа лучше определять их как наличие или отсутствие определенного фактора со значениями 0 и 1. В качестве примера можно привести данные о поле респондентов, когда возможен выбор двух значений: женщина или мужчина (в первом случае переменная приобретает значение 1, во втором – 0), или о наличии гражданства США (либо гражданин, либо нет).

Категориальные (также называемые номинальными) переменные. В этом случае переменная может приобретать одно из нескольких заранее определенных значений. Так измеряются цвет глаз, вкус мороженого, штат или район проживания. Поскольку перевод таких значений в количественную форму представляет определенные сложности, существует отдельное направление статистики, занимающееся анализом категориальных данных.

Ординальные переменные. Эти переменные имеют упорядоченные количественные значения, причем чем оно больше, тем сильнее выражен соответствующий признак. Таким образом, у этих переменных разница между 1 и 2 – это не то же самое, что разница между 5 и 6. Типичный пример ординальных переменных – шкала Ликерта, получившая название в честь автора, социолога Ренсиса Ликерта. Обычно применяется в опросах и включает такие значения, как «полностью согласен», «отчасти согласен», «не могу выразить отношение», «отчасти не согласен», «не согласен». Несколько ординальных переменных, сведенных вместе, носят название шкалы Ликерта.

Количественные (интервальные и рациональные) переменные. Значения этих переменных выражены числами, обычно в стандартных единицах: вес в фунтах или килограммах, рост в дюймах или сантиметрах. Чем больше значение, тем сильнее выражен соответствующий параметр. Количественные переменные хорошо подходят для традиционных видов статистического анализа, например корреляционного или регрессионного.

Таким образом, массив данных организован с учетом переменных, выбранных на предыдущем шаге.

Если значения нужных вам переменных часто собирает и анализирует кто-то еще (иногда такие факты всплывают во время изучения предыдущих поисков решения), то этот этап будет несложным. Можно просто позаимствовать результаты измерений, полученные вашими предшественниками. Однако в некоторых случаях приходится вести работу самостоятельно. Нужно помнить, что даже субъективные события можно систематически измерять.

4. Сбор данных

Предположим, что вам нужно собрать данные по волнующей в наше время многих (если судить по телевизионной рекламе) проблеме мужской потенции. Оказывается, что вам повезло: на эту тему уже проводился сбор данных, которые вполне подходят для ваших целей. Однако если бы вы были первопроходцем в этой области, то пришлось бы проводить сбор данных самостоятельно.

В 1990-е годы Р. С. Розен и его коллеги разработали компактный, надежный и простой для изучения критерий потенции, чувствительный к изменениям в состоянии здоровья пациентов в результате лечения[32]32
  Rosen R. et al. The International Index of Erectile Function (IIFF): A Multidimensional Scale for Assessment of Erectile Function // Urology. 1997. Vol. 49, no. 6. P. 822–830; Rosen R. et al. Development and Evaluation of an Abridged, 5-item Version of the International Index of Erectile Function (IIEF-5) as a Diagnostic Tool for Erectile Dysfunction // International Journal of Impotence Research. 1999. Vol. 11. P. 319–326.


[Закрыть]
. О проблемах с потенцией можно узнать только от самого пациента. Объективных диагностических тестов не существует, и это весьма усложняет жизнь практикующим врачам. Розен и его коллеги определили, что ключевыми переменными для анализа проблемы мужской потенции являются:

• регулярность эрекции

• сила эрекции

• частота возбуждения

• способность к половому акту

• удовлетворение


В их разрезе был организован сбор информации с использованием вопросов, приведенных в табл. 3.1.


Таблица 3.1

Ключевые переменные для диагностирования эректильной дисфункции



Вопрос о том, возможно ли ответы на них перевести в диагноз, решается довольно просто. Каждому варианту ответа присваивается балл от 5 до 25. Проблему с потенцией классифицировали по пяти степеням: серьезная (5–7), умеренная (8–11), от умеренной до незначительной (12–16), незначительная (17–21) и отсутствие проблемы (22–25). Этот простой в применении диагностический тест называется IIEF-5 (вариант Международного индекса эректильной функции из пяти вопросов) и прекрасно иллюстрирует способы сбора субъективной информации.

Неважно, каким объемом данных вы располагаете, – всегда остаются возможности собрать еще больше или расширить круг показателей, по которым собирались данные. После начала работы над проектом обычно выявляется, что тех показателей, которые были отобраны на этапе идентификации проблемы, недостаточно. Талантливый квант Рама Рамакришнан, о котором мы уже говорили в главе 2, в своем блоге описал интересный способ улучшить качество данных: «Одно из моих любимых занятий – улучшать качество данных. Это означает не увеличивать их количество, а, скорее, получать новые по характеру данные по сравнению с теми, которые использовались до этого момента. Если у вас имеются демографические данные, добавьте данные об объемах закупок. Если у вас и те и другие, попробуйте добавить функцию их свободного просмотра. Если у вас есть количественные данные, добавьте к ним текстовые (кстати говоря, в последней работе мы получили весьма обнадеживающие результаты, добавив к традиционным данным об объемах продаж и сбытовых мероприятиях текстовые данные о покупателях с целью их персонификации и моделирования потребительского поведения)»[33]33
  Ramakrishnan R. Three Ways to Analytic Impact // The Analytic Age (blog), July 26, 2011. URL: http://blog.ramakrishnan.com/.


[Закрыть]
.

Специалист по интеллектуальному поиску данных Ананд Раджараман также писал в своем блоге о возможностях улучшения качества анализа за счет включения новых данных.

Я веду курс по интеллектуальному поиску данных в Стэнфордском университете. Студентам поручают выполнить аналитический проект, включающий нетривиальный вариант интеллектуального поиска данных. Многие из них пытались разработать более совершенную методику подбора рекомендаций по поводу кино, чем в проекте Netflix Challenge.

Это яркий пример того, как действует конкуренция. Netflix предоставляет огромный массив данных о рейтингах 18 тысяч фильмов, выставленных почти полумиллионом посетителей сайта. Основываясь на этой информации, надо спрогнозировать рейтинги, которые выставят пользователи тем фильмам, которые они еще не оценивали. Первая группа аналитиков, которой удастся разработать методику, работающую лучше, чем Netflix Challenge, получит миллион долларов!

Студенты в моей группе пытались применить разные подходы для решения этой проблемы, причем одна команда использовала уже известные алгоритмы, а вторая – новые идеи. Их результаты позволяют взглянуть на проблему шире. Первая команда предложила очень сложный алгоритм, основанный на имеющихся данных. Вторая использовала довольно простой алгоритм, но зато на основе не только имеющихся, но и новых данных, которых в базах Netflix не было. Их позаимствовали из онлайновой базы данных о фильмах (Internet Movie Database). Какая из команд, по вашему мнению, добилась лучших результатов? Представьте себе, вторая! Ее результаты оказались почти так же хороши, как и результаты лучших участников конкурса Netflix![34]34
  Rajaraman A. More Data Usually Beats Better Algorithms // Datawocky (blog), March 24, 2008. URL: http://anand.typepad.com/datawocky/2008/03/more-data-usual.html.


[Закрыть]

В том же посте Раджараман отмечает, что появившийся недавно источник информации – гипертекстовые ссылки – стал отличительной чертой поискового механизма Google по сравнению с прочими поисковиками, использовавшими только текст на веб-страницах. В своем высокорентабельном алгоритме AdWords, предназначенном для размещения рекламы, Google также использовал дополнительные данные, которыми на тот момент не интересовался ни один из конкурентов – коэффициент эффективности баннеров (отношение числа щелчков к общему числу показов), рассчитывавшийся для каждого баннера рекламодателей.

Раджараман и Рамакришнан в один голос утверждают, что больший объем и лучшее качество данных почти в любом случае важнее, чем лучший алгоритм расчетов. Оба ссылаются на опыт розничного бизнеса и электронной коммерции, но и в других областях существует множество подобных примеров. Топ-менеджер команды НБА Houston Rockets Дэррил Морей является одним из лучших аналитиков в профессиональном баскетболе (мы вспомним о нем в главе 6). Он считает, что «реальное преимущество обеспечивают лишь эксклюзивные данные», и держит в штате нескольких квантов, анализирующих действия соперников в защите в каждой игре[35]35
  Morey D. Success Comes from Better Data, Not Better Analysis // Harvard Business Review (blog). August 8, 2011. URL: http://blogs.hbr.org/cs/2011/08/success_comes_from_better_data.html.


[Закрыть]
. Кроме того, Морей стал одним из первых менеджеров в НБА, которые начали анализировать видеозаписи отдельных матчей.

В страховом бизнесе одним из факторов, долгое время отличавших компанию Progressive от менее склонных к аналитике компаний, стала ее уникальная база данных. Компания первой стала использовать кредитный рейтинг агентства FICO (этот пример рассматривается в главе 4) в качестве одной из переменных в модели страховых тарифов, а также в течение долгого времени использовала гораздо больше данных и переменных в анализе клиентского риска и расчете страховых тарифов, чем ее конкуренты. Progressive выступила первопроходцем в сборе данных о манере вождения автомобилей клиентами (конечно, с разрешения последних) и расчете страховых тарифов в зависимости от их водительских привычек (эту программу компания сейчас называет Snapshot). Вы можете не захотеть сообщать страховой компании такие сведения, но если проявите себя осторожным водителем, то получите скидку по страховке.


Страницы книги >> Предыдущая | 1 2 3 4 5 6 | Следующая
  • 0 Оценок: 0

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации