Текст книги "Почему. Руководство по поиску причин и принятию решений"
![](/books_files/covers/thumbs_240/pochemu-rukovodstvo-po-poisku-prichin-i-prinyatiyu-resheniy-132821.jpg)
Автор книги: Саманта Клейнберг
Жанр: Зарубежная деловая литература, Бизнес-Книги
Возрастные ограничения: +12
сообщить о неприемлемом содержимом
Текущая страница: 8 (всего у книги 23 страниц) [доступный отрывок для чтения: 8 страниц]
Когда вещи изменяются со временем
Может ли исчезновение пиратов вызвать повышение температуры в глобальном масштабе? Правда ли, что поедание сыра моцарелла побуждает изучать информационные технологии?[166]166
Эта корреляция взята с сайта, который автоматически генерирует корреляции между различными временными рядами: http://www.tylervigen.com.
[Закрыть] В самом деле поставки лимонов в страну снижают количество аварий на дорогах?
На рис. 4.2 (a) показана взаимосвязь между импортом лимонов и количеством погибших в ДТП: чем выше объемы импорта, тем меньше смертельных случаев[167]167
Пример был впервые использован в Johnson (2008). Данные об уровне смертности взяты с http://www-fars.nhtsa.dot.gov/Main/index.aspx. Сведения по лимонам оценивались исходя из оригинальных цифр в Johnson (2008).
[Закрыть].
![](i_016.jpg)
Рис. 4.2. Объемы ввоза лимонов в США (в тоннах) и смертность на дорогах в США [число летальных случаев на 100 человек]: а) как отношение одной переменной к другой и б) как временная функция
Хотя коэффициент корреляции Пирсона для этих данных составляет –0,98, что означает практически абсолютное отрицательное соотношение, никто почему-то до сих пор не предложил увеличить импорт цитрусовых, чтобы снизить количество погибших на дорогах.
А теперь взглянем, что получится на рис. 4.2 (б), если выстроить график данных по импорту и смертельным случаям в виде временной функции. Выходит, импорт со временем неуклонно падает, а смертность за тот же период растет. Данные на рис. 4.2 также представляют динамический ряд в обратном хронологическом порядке. Но мы можем заменить импорт лимонов любым другим динамическим рядом, падающим во времени (долей рынка Internet Explorer; акваторией арктических вод, покрытой льдом; распространением курения в США), и обнаружить точно такую же зависимость.
Причина в том, что подобные временные ряды не стационарны, а это значит, что их свойства – к примеру, средние значения – со временем меняются. Например, дисперсия свойства может модулироваться: средний объем импорта цитрусовых окажется стабильным, а годовые колебания – нет. Спрос на электроэнергию при двух подсчетах в год может проявить нестационарность, поскольку общая потребность будет, вероятнее всего, со временем расти, а тенденции – зависеть от сезонности. С другой стороны, результаты длинных серий подбрасывания монеток считаются стационарными, поскольку вероятность выпадения орлов или решек в каждой временной точке абсолютно одинакова.
Если на длинном временном горизонте наблюдается одинаковый (или абсолютно противоположный) тренд, некоторые ряды будут коррелировать, но это не значит, что один фактор станет причиной другого. Существует и другой метод поиска корреляций без соответствующей каузальной зависимости. Если цена на все акции в определенной группе за конкретный промежуток времени растет, можно обнаружить корреляцию между этими ценами, даже если дневные тренды совершенно отличаются.
В другом примере, который показан на рис. 4.3, количество диагнозов аутизма растет в том же темпе, что и число кофеен Starbucks[168]168
Информация с сайтов http://www.autismspeaks.org и http://www.telegraph.co.uk/finance/newsbysector/retailandconsumer/8505866/Forty-years-young-A-history-of Starbucks.html.
[Закрыть], поскольку и те и другие показатели растут по экспоненте – но то же справедливо и для многих других временных рядов (ВВП, количество веб-страниц и научных статей). Здесь причинно-следственная связь весьма правдоподобна, но это далеко не всегда так, и можно придумать кучу убедительных историй, объясняя различные корреляции динамических рядов. Если бы я вместо этого взяла, скажем, процент домохозяйств[169]169
Домохозяйство (household) – это субъект экономики, который состоит из одного ведущего самостоятельное хозяйство индивидуума или, чаще, группы людей, живущих совместно и ведущих общее хозяйство. Как правило, такая группа лиц объединена родственными или семейными связями. Прим. ред.
[Закрыть] с высокоскоростным интернетом, вряд ли можно было найти убедительные свидетельства взаимосвязи, кроме того, что – уж так случилось – оба фактора растут со временем. Хотя кое-кто мог бы и придумать объяснение их взаимоотношений. Но это всего лишь корреляция, которая легко исчезнет, если мы учтем разную степень детализации данных по времени или сделаем поправку на их нестационарность.
![](i_017.jpg)
Рис. 4.3. Два нестационарных динамических ряда, которые кажутся коррелирующими только потому, что оба со временем растут по экспоненте
Еще один вид нестационарности – если группа населения, среди которого проводилась выборка, изменяется со временем. В 2013 году Американская кардиологическая ассоциация (American Heart Assosiation, AHA) и Американская коллегия кардиологов (American College of Cardiology, ACC) выпустили новые справочники по борьбе с избытком холестерина вместе с онлайн-калькулятором, чтобы прогнозировать риск инфарктов и инсультов на 10 лет вперед[170]170
Stone et al. (2013).
[Закрыть]. Однако некоторые исследователи обнаружили, что калькулятор завышает риски на 75–100 %, что может вести к назначению избыточного объема лекарств, потому что рекомендации основаны на уровнях риска для каждого пациента[171]171
Ridker and Cook (2013).
[Закрыть].
Калькулятор учитывает такие факторы риска, как диабет, гипертензия и курение, но не берет – и не способен брать – в расчет все возможные моменты, влияющие на уровень риска, к примеру, подробную историю курения в прошлом. Коэффициенты в уравнениях (значимость каждого фактора) оценивались на основании данных, собранных в 1990-х годах, поэтому допущение заключается в том, что и другие свойства этой группы населения совпадут для ее текущего состава. Однако привычки курильщиков и другие важные факторы касательно образа жизни со временем изменились. Согласно анализу Кука и Ридкера (2014), 33 % белого населения на дату начала долгосрочного исследования курили по сравнению с 20 % той же группы на сегодня[172]172
См. http://www.cdc.gov/tobacco/data_statistics/fact_sheets/fast_facts/.
[Закрыть], что дало иной базовый уровень риска и в потенциале привело к переоценке этого фактора[173]173
Велись дискуссии относительно этой критики калькулятора, некоторые утверждали, что сравнения когорт занижали данные о случаях инсультов и сердечных приступов. См. Muntner et al. (2014).
[Закрыть].
Мы часто говорим о внешней валидности, то есть можно ли экстраполировать некое заключение за пределы исследуемой выборки (подробнее об этом – в главе 7). Но есть и другой тип валидности – по времени.
Внешняя валидность определяет, как то, что мы узнаём в одном месте, способно информировать, что будет происходить в другом: к примеру, смогут ли результаты выборочного контролируемого эксперимента в Европе сказать что-либо об эффективности этого лекарства в США? Со временем также могут наблюдаться изменения в причинно-следственных взаимосвязях (новые законы спровоцируют перемены, влияющие на цену акций) или их силе (если люди начнут читать новости только в Сети, печатные объявления утратят воздействие на умы). Точно так же рекламный агент может выяснить, как конкретная социальная сеть влияет на объем продаж; но если цель, с которой люди пользуются соцсетями, со временем изменится, эта зависимость прекратит существование (например, вместо того чтобы «френдить» только близких друзей, люди начнут массово расширять знакомства).
Используя причинные зависимости, можно сделать косвенное предположение, что вещи, образующие взаимосвязь, со временем проявляют стабильность. Аналогичный сценарий реален, если мы рассматриваем, скажем, данные о повторной госпитализации пациентов на некоем временном отрезке. Возможно, количество рецидивов со временем возросло, и это было вызвано новой политикой или сменой руководства. Но могло случиться так, что население, лечившееся в больнице, также изменилось: к примеру, люди стали менее здоровыми. Получается, политика сама по себе привела к изменениям в населении. Мы узнаем об этом подробнее в главе 9, так как нередко стараемся понять, как причинные зависимости влияют на политику, хотя она сама приносит перемены. В результате первичные причинные зависимости могут прекратиться, и вмешательство окажется неэффективным. Один из примеров – программа сокращения числа учащихся в калифорнийских школах, когда внезапный рост спроса на учителей привел к снижению их профессионального уровня.
Могут также образовываться новые причинно-следственные связи, такие как появление нового канцерогена. Может меняться значение переменных. К примеру, язык постоянно трансформируется, возникают новые слова, а существующие используются иначе (например, слово «плохо» в значении «хорошо»). Или сначала речи политика повышали его рейтинг, поскольку его слова одобрялись обществом, а затем, когда люди перестали с ним соглашаться, его популярность снизилась. В результате прогнозы о повышении рейтингов не сработают, а действия – к примеру, написание новых речей – окажутся неэффективными. А на более коротком временном отрезке зависимость может оказаться истинной, если не учитывать дневные колебания.
Существует несколько стратегий для работы со нестационарными временными рядами. Можно, конечно, проигнорировать нестационарность, однако лучшие подходы используют более короткое время (набор рядов должен обладать стационарностью), если для этого достаточно данных, или же трансформируют временные ряды в стационарные.
В качестве примера нестационарности очень часто берется ситуация, предложенная Эллиотом Собером[174]174
Эллиот Собер (1948) – профессор Висконсинского университета в Мэдисоне. Известен работами в философии биологии и общей философии науки. Прим. ред.
[Закрыть], [175]175
Sober (1987, 2001).
[Закрыть], – зависимость между уровнем воды в Венецианской лагуне и ценами на хлеб в Англии, которые видимым образом коррелируют и со временем растут. Действительно, если взять данные Собера из этого примера с рис. 4.4 (а) (единицы переменных не приводятся), корреляция Пирсона для переменных составляет 0,8204. Хотя два временных ряда всегда растут, точный размер этого роста каждый год варьируется. Что мы действительно хотим понять – как эти изменения соотносятся.
![](i_018.jpg)
Рис. 4.4. Уровень моря и цены на хлеб
Простейший подход заключается в изучении различий, а не голых фактов. Иными словами, насколько сильно увеличивается уровень моря или цены на хлеб относительно измерений предыдущего года?
Если взять изменения по годам, как показано на рис. 4.4 (б), корреляция падает до 0,4714.
Такой подход называется дифференцированием (что буквально означает вычисление разности между последовательными точками данных): это простейший способ превратить временной ряд в стационарный.
Даже если два временных ряда показывают одинаковые долгосрочные тренды (например, неуклонный прирост), дифференцированные данные могут уже не коррелировать, если разнятся дневные или годовые колебания. В целом одно только дифференцирование не гарантирует стационарность измененного временного ряда; требуются более сложные трансформации данных[176]176
Можно повторно дифференцировать данные или проводить различение по годам, чтобы устранить сезонный фактор. Классические тесты на стационарность см. Dickey and Fuller (1981); Kwiatkowski et al. (1992).
[Закрыть].
Это одна из причин, по которым работа с фондовым рынком обычно использует прибыли (изменение цены), а не фактические ценовые данные. Обратите внимание: именно здесь обнаружилась связь с лимонами и смертностью в ДТП, и именно поэтому можно выявить одинаковые зависимости для многих пар динамических рядов. Если общие тренды аналогичны и значимы, они обеспечивают основную часть измерений корреляции, доминируя над любыми различиями краткосрочных трендов, которые могут совершенно не коррелировать[177]177
Аргументацию против дифференциации см. Reiss (2007).
[Закрыть].
Использование причин. Все дело во времени
Можно ли назвать оптимальный день недели для заказа билетов на самолет? Когда лучше заниматься спортом: утром или вечером? Сколько нужно выждать, прежде чем просить о прибавке жалованья?
Экономисты часто упоминают сезонные эффекты – паттерны, которые проявляются каждый год в одно и то же время и представляют собой форму нестационарности. Однако временные тренды обнаруживаются во многих других видах динамических рядов, таких как посещение кинотеатров (на которое влияет фактор сезонности и выходных дней) или травмопунктов (резкий рост совпадает с сезонными болезнями). То есть, если мы найдем условия, активирующие продажи билетов в кино зимой, они могут оказаться неприменимыми, если мы попытаемся приложить их к росту летних продаж. Другие паттерны могут объясняться днем недели (к примеру, тренды внутригородской ежедневной миграции) или графиком государственных праздников.
Последовательность событий способна помочь при выяснении причин и качества прогнозирования (или получения информации о том, когда ожидать некое следствие). Но эффективное использование причин требует больше информации, чем простое знание о том, что случилось первым.
Во-первых, мы должны узнать, не оказывается ли некая зависимость истинной только в некоторых случаях, а во-вторых, каково запаздывание между причиной и следствием. Вот почему необычайно важно собирать сведения о временных паттернах и делиться ими. Немедленное лечение может улучшить исход многих болезней (к примеру, инсульта), но эффективность не всегда демонстрирует линейный спад по времени. К примеру, сообщалось, что если лечение синдрома Кавасаки[178]178
Синдром Кавасаки – детское острое лихорадочное заболевание, характеризующееся поражением коронарных и других сосудов с возможным образованием аневризм, тромбозов и разрывов сосудистой стенки. Прим. перев.
[Закрыть] начать не позднее 10 дней после его проявления, риск будущего повреждения коронарных артерий значительно снижается. Еще лучше, если лечение начнется не позднее 7 дней; но, если атаковать болезнь через 5 дней, это не окажет дополнительного влияния на благоприятный исход[179]179
Newburger et al. (2004).
[Закрыть]. В других случаях прием препарата утром или вечером мог сказаться на его действенности: если в процессе тестирования лекарство давалось в конкретные часы или просто каждый день в одно и то же время, но в реальной жизни, вне рамок тестирования, график приема существенно варьировался, оно могло не оказывать действия, предсказанного на основе клинических испытаний.
Чтобы определить, когда именно действовать, надо знать, сколько времени нужно, чтобы причина вызвала следствие. То есть необходимо определить, когда именно до начала выборов распространять конкретный агитационный материал; когда продавать акции, получив определенную информацию; или в какой момент до поездки в тропики принимать таблетки против малярии. В ряде случаев действия могут оказаться неэффективными, если совершаются без учета времени: к примеру, слишком ранний показ рекламы (когда воздействуют иные причины), принятие торгового решения до того, как акции окажутся на пике, или запоздалый прием профилактического средства (которое не успевает оказать эффект).
Точно так же временные паттерны могут влиять на наши решения, предпринимать ли некие действия вообще, поскольку от них зависят наши суждения как о полезности причин, так и об их потенциальных рисках. Полезность причины зависит и от вероятности того, что наступит следствие (при прочих равных причина, дающая 90 % успеха, предпочтительнее той, что обеспечивает только 10 %), и от срока ее срабатывания. Известно, к примеру, что курение вызывает рак легких и сердечно-сосудистые заболевания, но они не развиваются немедленно после начала курения. Знания только о вероятности рака недостаточно, чтобы принять обоснованное решение учесть риск курения, если вам также неизвестны временные паттерны. Возможно, кому-то невысокая вероятность заболевания в ближайшем будущем покажется более рискованной, чем почти стопроцентное ее проявление в отдаленное время.
Однако, принимая решение о вмешательстве, мы, как правило, не просто думаем, использовать ли некую конкретную причину для получения результата: мы выбираем между потенциальными вмешательствами. В одном из эпизодов сериала Seinfeld[180]180
Seinfeld («Сайнфелд») – американский телесериал, транслировавшийся с 1989 по 1998 год. В 2002 году стал первым в списке 50 лучших телешоу, по версии журнала TV. Прим. перев.
[Закрыть] Джерри задумчиво рассуждает о многочисленных средствах от насморка и кашля: «Это действует быстро, а у этого действие запоздалое, но пролонгированное. Так когда мне нужно чувствовать себя хорошо – теперь или потом?»[181]181
David et al. (1991).
[Закрыть]
Хотя такая информация усложняет принятие решений, она дает возможность лучше строить планы, исходя из ограничений (например, важная встреча через час или долгий день на лекциях в институте).
Время обманывает
Время – одно из ключевых свойств, позволяющих отличать причины от корреляций. Просто мы исходим из предпосылки, что там, где наблюдается соотношение, проявляющийся первым фактор и есть единственная потенциальная причина.
Но, поскольку последовательность событий критически важна, ее достоверности при установлении причинных зависимостей может придаваться слишком большой вес.
Скажем, руководство школьной столовой решает сократить число жареных и высококалорийных блюд и увеличить ассортимент фруктов, овощей и цельнозерновых продуктов. После этого каждый месяц вес учащихся снижается.
Рис. 4.5 показывает искусственную медианную кривую значений веса учащихся по временному параметру (половина значений выше медианы, половина ниже). После изменений в меню заметно внезапное снижение, которое устойчиво держится месяцами. Значит ли это, что такой показатель вызван новыми блюдами здорового питания?
![](i_019.jpg)
Рис. 4.5. Значение переменной по временному критерию. После изменения значение измеренной переменной падает
Такой вид графика, где наблюдается четкое изменение значения переменной после некоторого события, часто применяется для подтверждения вывода; но вряд ли можно считать его убедительным аргументом. Общий пример подобной ситуации – когда сторонники некоего закона заявляют о падении уровня смертности сразу после его введения в действие, или когда человек уверен, что лекарство вызвало побочный эффект, потому что тот проявился через несколько дней после его приема.
В примере со столовой мы понятия не имеем, идет ли речь о той же самой группе учащихся (возможно, в школу поступили новые дети, которым нравится здоровая пища, а те, кто терпеть не может фрукты, разом переехали); а может, дети или их родители потребовали изменить меню, потому что уже раньше пытались регулировать вес; или в отмеченный период произошло некое изменение, вызвавшее такое следствие (возможно, одновременно наметился рост физической активности в каникулы). Редко бывает так (если бывает вообще), чтобы единственная вещь трансформировалась, а остальной мир пребывал в полнейшей неизменности; поэтому представление динамического ряда всего лишь с двумя переменными ведет к ошибочному представлению о том, что следствие нового фактора проявляется изолированно. Это опять-таки лишь корреляция, пусть и временная.
Вмешательства в реальный мир – это гораздо более сложные и гораздо менее безусловные явления, чем лабораторные эксперименты. Скажем, в районе, где располагается промышленное предприятие, регистрируется ряд предположительных диагнозов рака. В итоге предприятие закрывается, и принимаются меры по ликвидации последствий загрязнения воды и почвы. Если после этого снижается число диагнозов рака, можно ли сделать вывод, что именно производство было причиной заболевания?
Мы действительно не представляем, стал ли зарегистрированный спад совпадением (или сам первоначальный рост был таковым), или же что-то другое в то же самое время вызвало изменения и стало истинной причиной, и тому подобное. Помимо того, количественная статистика порой столь мала, что любые вариации не могут быть статистически значимыми.
Есть общеизвестный софизм, который звучит так: post hoc ergo propter hoc, или «после этого, следовательно, по причине этого». Иными словами, некто ошибочно заключает, что одно событие вызвано другим просто потому, что происходит после него.
Например, можно выяснить, как некий рейтинг поменялся после определенного исторического события: действительно ли уровень смертности в ДТП упал после принятия закона о ремнях безопасности? Однако многие изменения случаются в одно и то же время, и даже вся система целиком может трансформироваться в результате вмешательства. О вызове под названием «смерть» мы поговорим в главе 7. Но возможно, однако, что здоровая пища в школьной столовой лишь косвенно вызвала потерю веса, просто побуждая учеников активнее заниматься спортом. Аналогично временные паттерны (к примеру, если спортивная команда побеждает каждый раз, когда перед матчем идет дождь) могут заставить кого-то решить, что это причинная зависимость, даже если события с большой долей правдоподобия можно объяснить совпадениями.
Такая проблема нередко возникает, если концентрироваться на коротком временном промежутке, игнорируя долгосрочные колебания. Две экстремально снежные зимы подряд, рассматриваемые в отрыве от исторических данных, ведут к ошибочному выводу о погодных паттернах холодного сезона. Но если вместо этого проанализировать данные за десятилетия, мы увидим годовые колебания в рамках общего тренда. Наконец, два события могут происходить одновременно только потому, что такую вероятность создают другие факторы. К примеру, если детям дают новую пищу примерно в том же возрасте, когда у них проявляются симптомы определенного заболевания, многие отметят видимую связь между двумя событиями, потому что они всегда случаются примерно в одно время.
Итак, здесь имеет место софизм cum hoc ergo propter hoc («вместе с этим, значит, вследствие этого»), или выявление причинной связи между событиями, которые всего лишь произошли одновременно. Отличие от post hoc («после этого») в том, что это временная последовательность событий, и поэтому такая ошибка встречается особенно часто.
Как всегда, для первого события и следствия может быть общая причина (к примеру, действительно ли лекарства от депрессии заставляют людей совершать самоубийство, или люди, подверженные депрессии, более склонны к самоубийству и употреблению антидепрессантов?); однако следствие также могло случиться само по себе и просто случайно предшествовало причине.
У меня разболелась голова, и я принял некое средство. Через несколько часов боль ушла. Можно ли утверждать, что помогло лекарство? Временной паттерн позволяет сделать предположение, что ослабление симптома произошло благодаря приему лекарства, однако я не могу сказать наверняка, что боль не прошла бы сама. Мне пришлось бы провести множество выборочных экспериментов, где я бы принимал или не принимал препарат, а потом записывал, как быстро исчезала головная боль, чтобы иметь возможность утверждать хоть что-то относительно подобной причинной зависимости. В главе 7 мы рассмотрим, почему результаты такого эксперимента окажутся малоубедительными и почему придется сравнивать действия лекарства и плацебо.
Точно так же, как близлежащие по времени события могут привести к ошибочным заключениям о причинности, длительные задержки между причиной и следствием способны помешать достоверному установлению причинно-следственных связей. Некоторые следствия наступают быстро (удар по бильярдному шару заставляет его двигаться), а некоторые процессы протекают в замедленном режиме. Известно, что курение вызывает рак легких; но между первой сигаретой и днем, когда диагностируют рак, пролегают долгие годы. Побочные эффекты от приема некоторых препаратов проявляются через десятилетия. Перемены в состоянии здоровья благодаря физическим упражнениям достигаются медленно и не сразу, и, если мы будем ориентироваться только на стрелку весов, может показаться, что вес сначала даже увеличивается, потому что мускулы наращиваются быстрее, чем уходит жир. Ожидая, что следствие должно идти непосредственно за причиной, мы не видим связи между этими глубоко взаимозависимыми факторами. Ученым чисто технически непросто собрать данные за десятилетия, чтобы выявить факторы, влияющие на здоровье. Но проблема частично заключается в том, что и обычным людям сложно выявить условия, коррелирующие с их состоянием здоровья, такие как диета и физическая активность.
Внимание! Это не конец книги.
Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?