Текст книги "Почему. Руководство по поиску причин и принятию решений"

Текст добавлен: 5 июня 2017, 00:12

Автор книги: Саманта Клейнберг

Жанр: Зарубежная деловая литература, Бизнес-Книги

Возрастные ограничения: +12

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 6 (всего у книги 23 страниц) [доступный отрывок для чтения: 6 страниц]

Скачать книгу

Шрифт:

- 100% +

Почему корреляция не причинно-следственная связь

Когда я читала лекцию о причинном осмыслении, один студент задал вопрос: «Разве Юм не утверждал, что причинность – всего лишь корреляция?»

И да, и нет. Да, причинно-следственная связь возможна, но мы не можем знать наверняка. А то, что мы способны наблюдать, – по сути, корреляция (или особый вид закономерности). Это, однако, не означает, что причинность представляет взаимосвязь только потому, что мы способны ее наблюдать. Это говорит еще и о том, что в большинстве работ, связанных с выявлением и оценкой причинных зависимостей, разрабатываются способы отличия каузальных корреляций от остальных.

Это можно проделать на основе экспериментов или статистических методов, но дело не только в том, чтобы выявить корреляцию. В этой книге мы проанализируем ситуации, в которых причинно-следственная связь кажется очевидной, но в реальности ее нет. В последующих главах мы также рассмотрим некоторые случаи, когда соотношения возникают без соответствующей причинной зависимости.

Первое – меры корреляции симметричны. Соотношение роста и возраста в точности соответствует зависимости между возрастом и ростом. С другой стороны, причинно-следственная связь может быть асимметрична. Если кофе вызывает бессонницу, это не значит, что бессонница также должна стать причиной потребления кофе, хотя такое может случиться, когда не выспавшийся ночью человек утром вынужден пить больше кофе.

Точно так же любая мера значимости причин (например, условные вероятности) отличается в двух направлениях. Если мы выявили корреляцию, не имея никакой информации о том, какой фактор имеет место в начале, то с равной вероятностью каждый из них может оказаться причиной другого (или будет наличествовать петля обратной связи), а мера взаимосвязи сама по себе не дает представления о различиях между двумя (или тремя) возможностями.

Если мы попытаемся придумать историю причинной взаимосвязи для пары коррелирующих вещей, нам придется, основываясь на базовых знаниях, предположить, какая из них, вероятнее всего, повлечет за собой другую. Например, даже если пол человека связан с риском инсульта, трудно представить, чтобы инсульт определял пол. Но если мы выявили соотношение между набором веса и пассивным образом жизни, никакие данные о том, как коррелируют эти факторы, не скажут о направленности найденной взаимосвязи.

Ошибочные корреляции могут возникать по многим причинам. В случае с СХУ и вирусом XMR соотношение возникло из-за загрязнения экспериментальных образцов. В других ситуациях это мог быть баг в компьютерной программе, ошибки в расшифровке результатов или некорректный анализ данных. Видимая связь может также возникнуть из-за статистических отклонений или простого совпадения, как в примере с фондовым рынком и футболом. Но есть еще одна причина – необъективность. Иногда, если выборка нерепрезентативна, мы можем увидеть корреляцию там, где ее нет. Точно та же проблема приводит к обнаружению соотношения и без причинной зависимости.

Важно понимать, что причинно-следственные связи не единственное, хотя и возможное в ряде случаев, объяснение корреляций. К примеру, мы нашли соотношение в ситуации, когда человек, съевший плотный завтрак, вовремя успевает на работу; однако, вероятно, оба фактора имеют общую причину: человек рано встал, а значит, у него было время хорошо позавтракать, вместо того чтобы в спешке бежать на службу. Выявив корреляцию между двумя переменными, нужно проверить, способен ли подобный неизмеренный фактор (общая причина) объяснить эту взаимосвязь.

В ряде случаев (о которых мы поговорим в главе 4) таким общим фактором оказывается время. Можно обнаружить множество ошибочных корреляций между факторами с устойчивыми по времени тенденциями. К примеру, если количество пользователей интернета всегда увеличивается и национальный долг – тоже, эти факторы будут взаимосвязаны. Но в целом мы ссылаемся на переменную или набор переменных, объясняющих корреляцию. Например, можно задуматься: действительно ли усердное учение обеспечивает лучшие оценки, или более вероятно, что лучшие студенты и усердно учатся, и получают высокие оценки. Возможно, врожденная способность становится общей причиной и оценок, и времени, проведенного за учебниками. Если бы была возможность изменить способность, это могло повлиять и на оценки, и на время обучения, но любое экспериментирование с оценками и усердием в учении не оказало бы никакого воздействия на два других фактора.

Аналогичная причина корреляции без прямой причинной зависимости – промежуточная переменная. Скажем, проживание в городе соотносится с низким индексом массы тела (ИМТ), поскольку горожане больше ходят, чем ездят на машине, и проявляют высокую физическую активность. Таким образом, жизнь в городе косвенно приводит к низкому ИМТ, однако переезд в город и постоянное использование транспорта – плохая стратегия для желающих похудеть. Большую часть времени мы ищем косвенные причины (например, курение вызывает рак легких, а не особые биологические процессы, посредством которых и происходит воздействие), но, если знать механизм (как именно причина производит следствие), можно найти лучшие пути для вмешательства.

Наконец, агрегированные данные могут приводить к странным результатам. В статье за 2012 год в журнале New England Journal of Medicine рассказывалось о поразительном соотношении между количеством шоколада на душу населения и числом Нобелевских лауреатов на 10 000 000 жителей[126]126
Messerli (2012).

[Закрыть]. Коэффициент корреляции составлял 0,791. Этот показатель возрос до 0,862 после исключения статистики по Швеции – стране, давшей гораздо больше лауреатов престижной премии, чем ожидалось, судя по статистике потребления шоколада.

Заметим, однако, что данные о шоколаде и Нобелевских премиях были взяты из различных источников, где каждая страна оценивалась отдельно. Это означает, что на самом деле мы не имеем ни малейшего представления, действительно ли потребители шоколада и лауреаты Нобелевки – представители одной и той же группы. Далее, количество награжденных – лишь малая доля населения, а значит, несколько дополнительных премий могли драматичным образом изменить расчеты. Большинство сообщений об отмеченной корреляции фокусировалось на потенциальном наличии причинной взаимосвязи между потреблением шоколада и получением награды, подавляя заголовками вроде «Шоколад делает нас умнее!»[127]127
Pritchard (2012).

[Закрыть]; и «Хотите Нобелевку? Ешьте больше шоколада!»[128]128
Waxman (2012).

[Закрыть]. Работа ученых, однако, не поддерживает ни одно из подобных утверждений, и страны с большим числом лауреатов могли просто отметить это событие увеличенным количеством шоколада (не будем забывать, что коэффициент корреляции симметричен).

Более того, мы не способны ничего сказать о том, действительно ли любовь к шоколаду улучшит шансы на победу, если страны будут стимулировать его потребление у своих граждан, или этот продукт – просто индикатор иного фактора, к примеру экономического положения. Если нужны дополнительные причины, чтобы скептически отнестись к этой корреляции, вот еще факт.

Ученые, специально старавшиеся продемонстрировать всю глупость попыток интерпретировать взаимосвязь как причинно-следственную без дальнейших исследований, обнаружили статистически значимое соотношение между популяцией аистов и уровнем рождаемости[129]129
Höfer et al. (2004); Matthews (2000).

[Закрыть].

Да, к исследованию про шоколад можно отнестись с юмором. Но подобный вид агрегированных данных часто используется для установления корреляции среди населения, и, по всем указанным причинам, эти данные особенно сложно использовать. Сведения за большой временной интервал несколько упростят задачу (например, росло ли потребление шоколада перед присуждением премий), но все равно придется учитывать разнообразные события, которые могут быть поводом для изменений (например, внезапный рост потребления шоколада и одновременная смена образовательной политики). Кроме того, Нобелевские премии часто присуждаются гораздо позже, чем случаются соответствующие события. Может найтись огромное количество иных условий, которые сформируют аналогичные корреляции. Если говорить об этом исследовании, «анализ по горячим следам» выявил еще одну забавную связь – между Нобелевскими премиями и молоком[130]130
Linthwaite and Fuller (2013).

[Закрыть].

Множественные сравнения и p-значения

Участника исследования помещают в аппарат МРТ и показывают фотографии различных социальных ситуаций. Он должен определить эмоции, которые выражает человек на каждом кадре. С помощью МРТ ученые измеряют ток крови в локальных областях мозга и часто пользуются этим измерением как показателем мозговой активности[131]131
Heeger and Ress (2002).

[Закрыть], чтобы определить, какие области мозга задействованы в решении различного рода задач. Итоговые цветные изображения отражают, в каких областях наблюдается усиленный кровоток: именно это имеют в виду авторы статей, говоря, что некая область мозга «светится», реагируя на определенный стимул. Выявление активируемых областей помогает понять взаимосвязи в мозге.

Исследование обнаружило, что некоторые области мозга участника эксперимента демонстрировали статистически значимые изменения тока крови. Действительно, при том, что значение 0,05 часто используется как пороговое для p-измерений[132]132
P-значение (англ. p-value) – величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Проверка гипотез с помощью p-значения служит альтернативой классической процедуре проверки через критическое значение распределения. Прим. ред.

[Закрыть] (меньшие показания более значимы), уровень активности, ассоциированный с одной областью, имел p-значение 0,001[133]133
Bennett et al. (2011).

[Закрыть].

Может ли эта область мозга быть связана с представлением эмоций других существ («принятие перспективы»)?

Если учесть, что объектом исследования был пойманный лосось, это кажется невероятным.

Так как же дохлая рыбина могла реагировать на визуальный стимул?

Результаты могли бы считаться высокозначимыми с учетом любых обычных пороговых значений, поэтому дело не в попытке преувеличить их важность. Чтобы понять, откуда они вообще могли взяться, сделаем небольшое отступление статистического характера.

Исследователи часто надеются определить, имеет ли некий эффект значимость (корреляция истинна, или это результат статистического отклонения), либо просто есть различие между двумя группами (активны ли разные области мозга, когда люди смотрят на людей или на животных). Но, чтобы объективно определить, какие выводы важны, необходима некая количественная мера. Одна из общепринятых мер – так называемое p-значение, которое используется для сравнения двух гипотез (нулевой и альтернативной).

P-значение показывает вероятность результата, который как минимум столь же нехарактерен, как и наблюдаемый, при условии истинности нулевой гипотезы.

Для наших целей такие гипотезы могут заключаться в следующем: между двумя вещами существует причинная зависимость (нулевая гипотеза) или нет (альтернативная гипотеза)[134]134
Вообще, более привычна обратная постановка: нуль-гипотеза – причинной зависимости нет, альтернативная – зависимость есть. Таким образом, стандартное исследование сводится к попытке отвергнуть нуль-гипотезу на некотором заранее выбранном уровне. То есть если получаем p=0,000001, значит можем отвергнуть нуль-гипотезу об отсутствии зависимости на уровне 0,001. Иными словами, p-величину можно рассматривать как вероятность получения нехарактерного результата при истинности нуль-гипотезы. Прим. науч. ред.

[Закрыть].

Еще одна нулевая гипотеза: монета симметрична (альтернативная гипотеза – монета со смещением). P-значения часто интерпретируются неверно – как вероятность того, что нулевая гипотеза истинна. Хотя обычно используется пороговое значение 0,05, нет никакого закона, по которому результаты с p-значениями меньше 0,05 значимы, а больше 0,05 – нет. Это просто договоренность, и показатель 0,05 редко вызывает возражения у других ученых[135]135
Fisher (1925) изначально предположил, что значение 0,05 может хорошо работать, а не то, что его следует применять во всех случаях.

[Закрыть]. Условные знания не соответствуют понятиям «истинно-ложно», поскольку незначимые результаты могут иметь очень маленькие p-показатели, а значимый результат иногда не достигает критического уровня.

Фильм «Розенкранц и Гильденстерн мертвы» начинается с эпизода, в котором герои бросают найденную монетку – и оказываются в полной растерянности, когда она 157 раз падает орлом вверх[136]136
Stoppard (1990). Интересно, что количество орлов, выпадающих подряд, увеличилось со времени первой игры.

[Закрыть]. Вероятность того, что монетка упадет орлом вверх 157 раз подряд, действительно крайне мала (1: 2¹⁵⁷, если быть точными), и единственный равно экстремальный результат для 157 бросков – это все решки. То, что наблюдали Розенкранц и Гильденстерн, в самом деле имело очень низкое p-значение. Но это не означает, что обязательно происходило нечто странное – только то, что подобный результат невероятен для симметричной монеты.

Для менее экстремального случая, скажем, мы подбросим монету 10 раз, и выпадут 9 орлов и 1 решка.

P-значение такого результата (здесь нулевая гипотеза – что монета симметрична, а альтернативная – что она смещена в любом направлении) – это вероятность тех самых 9 орлов и 1 решки + вероятность 9 решек и 1 орла + вероятность 10 орлов + вероятность 10 решек[137]137
P-значение равно 0,022, так как вероятность 10 орлов (или 10 решек) равна 0,001, а вероятность 9 орлов (или 9 решек) – 0,01, и мы складываем эти значения.

[Закрыть]. Причина, по которой сюда включены две серии со всеми орлами и всеми решками, в том, что мы рассчитываем вероятность события как минимум такого же экстремального, как и наблюдаемое, а эти серии – самые экстремальные. Наша альтернативная гипотеза – смещение монеты в любом направлении, а не просто в сторону орлов или решек; вот почему мы включили длинные серии решек.

На рис. 3.6 представлены гистограммы для орлов в серии из 10 бросков по 10 монет. Если бы результатом для каждой монеты было в точности 5 орлов и 5 решек, каждый график представлял бы одну черту длиной 10 пунктов с центром на отметке 5. Но в реальности случаются и большие, и меньшие значения, и даже одна серия из всех решек (показанная маленькой чертой, которая пересекает один график справа налево).

Рис. 3.6. Каждая гистограмма представляет эксперимент, где 10 монет подбрасывают 10 раз. Каждая серия из 10 монет образует точку данных на графике в зависимости от количества орлов. Показано 8 примерных экспериментов

Такое событие все равно невероятно при наличии одной симметричной монеты; но что будет, если мы подбросим 100 монет? Увеличивая число экспериментов, мы создаем больше возможностей, чтобы некое по видимости аномальное событие произошло случайно. К примеру, вероятность того, что конкретный человек выиграет в лотерею, на самом деле мала; но, если играют достаточно людей, можно гарантировать, что кто-нибудь победит. На рис. 3.7 показана такая же гистограмма, но уже для 100 монет. Действительно, будет странно, если мы не увидим как минимум одной серии из 9 или более орлов или решек, когда бросают так много монет (или лотерею, где не будет победителей, если шансы 1: 1 000 000, а играют 100 000 000 человек).

Рис. 3.7. Результаты подбрасывания 100 монет по 10 раз для каждой. Показано 4 эксперимента

Именно проблема одновременного проведения многочисленных тестов и оказалась во главе угла исследования МРТ, с рассказа о котором мы начали разговор. Проверке подверглись тысячи малых областей мозга (а в исследованиях на людях их еще больше, потому что человеческий мозг включает множество областей), поэтому совсем неудивительно, что одна из них продемонстрировала значительный кровоток. Проблемы такого вида именуются проверкой многомерной гипотезы, что означает одновременную проверку большого количества гипотез. Вопрос становится еще более существенным с появлением нового метода, генерирующего громадные наборы информации (например, множества МРТ и экспрессии генов) с так называемыми большими данными. Ранее было возможно в рамках одного эксперимента проверить только одну гипотезу, теперь же, когда мы способны анализировать тысячи переменных, неудивительно, что между ними обнаруживаются корреляции в силу количества проведенных тестов.

В эксперименте с лососем ученые протестировали тысячи гипотез, и каждая утверждала, что некая область мозга проявит значительную активность.

В действительности же исследование доказало: все эти тесты могут дать кажущиеся значимыми результаты по чистой случайности. Было показано, что при использовании статистических методов, корректных для множества сравнений (фактически каждый тест требует более жесткого порогового показателя), значимой активности выявлено не было даже при очень нежестких порогах p-значений[138]138
Подробное (техническое) введение в корректировку при тестировании множества гипотез см. Efron (2010).

[Закрыть].

Важная вещь, которую стоит запомнить: читая отчет о некой необходимой находке, которая была взята из громадного набора одновременных тестов, обязательно обращайте внимание на то, как авторы решают проблему множественного сравнения. Статистики расходятся во мнении, как именно (и когда) корректировать этот фактор, но все дебаты в целом сводятся к тому, какой тип ошибки хуже. Корректируя множество сравнений, мы, по сути, заявляем о желании снизить количество ложных открытий и готовы мириться с возможностью пропустить из-за этого некие значимые находки (и генерировать ложноотрицательные результаты). С другой стороны, выступая против поправок, заявляем о нежелании упускать истинно положительные результаты за счет нескольких ложных открытий.

Между этими двумя типами ошибок всегда идет поиск компромисса, а предпочтения зависят от индивидуальных целей[139]139
Больше о точке зрения, что не стоит проводить корректировку для множественных сравнений, см. Rothman (1990).

[Закрыть]. Возможно, для эксплораторного анализа, где поиск ведется экспериментальным образом до получения конечного результата, мы считаем нужным, образно говоря, раскинуть обширную сеть. С другой стороны, если мы стараемся отобрать узкоцелевую группу кандидатов для разработки дорогостоящего препарата, каждое ложное умозаключение способно привести к массе впустую потраченного времени и средств.

Причинность без корреляции

Мы часто спорим, почему корреляция может не иметь причинного характера, но важно признать, что также могут существовать истинные причинные взаимосвязи без видимого соотношения. То есть корреляцию нельзя считать демонстрацией причинности, и выявление взаимосвязи также не необходимое условие причинности.

Известен пример, именуемый парадоксом Симпсона (мы поговорим о нем в главе 5). В общем, даже если в рамках неких подгрупп есть взаимосвязь (скажем, тестируемый препарат в сравнении с известным лекарством улучшает результаты у некой группы населения), мы можем не обнаружить зависимости или найти, но обратную, если подгруппы объединить. Если новый препарат больше используют пациенты в наиболее тяжелом состоянии, а те, кто чувствует себя лучше, чаще получают обычное лекарство, то, если не принимать во внимание серьезность заболевания, может показаться, что тестовое лекарство приводит к худшим результатам для населения.

В качестве еще одного примера причинности без корреляции рассмотрим влияние длительных пробежек на вес. Да, пробежки могут снижать вес за счет траты калорий, но бег также приводит к повышению аппетита, что, в свою очередь, ведет к увеличению веса (и, таким образом, отрицательно влияет на его потерю). В зависимости от силы каждого конкретного воздействия или исследуемых данных положительный эффект пробежек может полностью нивелироваться отрицательным, а значит, между бегом и потерей веса соотношения не будет. Структура этого примера представлена на рис. 3.8. Причина обладает положительными и отрицательными воздействиями, которые осуществляются различными путями; вот почему мы можем либо не наблюдать корреляции вообще, либо наблюдать нечто близкое к ней (вспомним: любые меры не абсолютны).

Рис. 3.8. Набор положительных (стрелка вверх) и отрицательных (стрелка вниз) причинных зависимостей. В разных группах населения они могут нивелироваться

Мы уже рассмотрели причины, по которым невозможно обнаружить существующую корреляцию (например, ошибка отбора, недостаточная вариация, предвзятость подтверждения, нелинейные зависимости и т. д.), и часто можно услышать, что соотношение не обязательно предполагает причинность. Но важно помнить об обратном: причинно-следственная связь не всегда подразумевает корреляцию[140]140
В главе 6 мы рассмотрим вопрос подробнее и увидим, как эти так называемые нарушения допущений о верности влияют на нашу способность определять причины вычислительными методами.

[Закрыть].

4. Время. Как время влияет на способность причинного восприятия и осмысления

В выборочном контролируемом эксперименте (2001) проверялось, могут ли молитвы улучшить здоровье пациентов, например сократить время их пребывания в больнице[141]141
Leibovici (2001). Отклики на статью были опубликованы в выпуске BMJ от 27 апреля 2002 г.

[Закрыть]. В двойном слепом исследовании (ни врачи, ни пациенты не знали, кто в какой группе) принимали участие 3393 взрослых больных с инфекциями кровотока, примерно половина из которых была отнесена к контрольной группе, а вторая половина – к группе «молитвенного вмешательства». По итогам и показатель времени пребывания в больнице, и показатель лихорадочного состояния в группе вмешательства снизились, причем со статистически значимым различием (p-значения равнялись 0,01 и 0,04).

Но, если подобное вмешательство столь эффективно, почему его практикуют не во всех больницах?

Одна причина в том, что участники исследования находились в больнице с 1990 по 1996 год, то есть молебны за их выздоровление устраивались задолго до того, как были зарегистрированы сроки пребывания и результаты. Действительно, молитвы были мерой не только ретроактивной, но также и дистанционной, читались в разных местах и в разное время людьми, которые не были в контакте с пациентами.

Причина, влиявшая на нечто в прошлом, целиком противоречит нашему пониманию причинности. Мы считаем, что причины предшествуют следствиям (если только не приближены по времени), и существует убедительная физическая зависимость, связывающая причину и следствие. И все же эксперимент проводился согласно обычным стандартам выборочных экспериментов (например, двойным слепым методом), а результаты оказались статистически значимыми в соответствии с общепринятыми критериями.

Статья об этом эксперименте вызвала вал писем на адрес редактора. В его издании обсуждались философские и религиозные соображения, и вопросы веры были не главными. На самом деле исследование требовало от читателей ответа на вопрос: смогли бы они принять результаты, серьезно противоречащие их устоявшимся верованиям, если бы стандарты испытания соответствовали их пониманию методологической разумности и статистической значимости.

Можете представить эксперимент, который уверит вас, что причина способна вызвать нечто, уже случившееся в прошлом? Даже если такой опыт кажется разумным, мы вряд ли поверим, что причиной стало произведенное вмешательство, поскольку это противоречит нашему пониманию временного паттерна причин и следствий. Если вы прежде слабо верили в некую гипотезу, возможно, ни один эксперимент не сможет значимым образом поменять ваши верования.

В причинности порядок событий оказывается центральным, да и мы сами прекрасно чувствуем, что между причиной и следствием должно пройти определенное время. К примеру, если вы смотрите фильм вместе с другом, который болен гриппом, и сами заболеваете через три месяца, вы вряд ли скажете, что это друг вас заразил. Но, если вы верите, что контакт с больным вызывает болезнь, почему бы не поставить грипп в вину другу? Дело не просто в подверженности болезнетворному вирусу, а скорее в том, что эта расположенность не способна моментально вызвать симптомы вируса из-за инкубационного периода, и на нее нельзя возлагать вину за заболевание гриппом в нескором будущем. Действительно, временной коридор, когда контакт приводит к болезни, очень уж узкий, и можно использовать это знание, чтобы ограничить диапазон контактов, вызывавших конкретный исход.

* * *

Именно время часто позволяет провести различие между причиной и следствием (болезнь, предшествующая потере веса, говорит о том, что похудение не могло ее спровоцировать), делает вмешательство эффективнее (некоторые лекарства необходимо принимать после контакта с вирусом) и помогает предсказывать события (знать, когда цены на акции пойдут вверх, намного полезнее, чем знать, что это случится в неопределенном будущем). Но время тоже способно вводить в заблуждение: мы можем обнаружить корреляции между несвязанными временными рядами со схожими трендами, можем оказаться не способны выяснить причину для запаздывающих следствий (например, между воздействием окружающей среды и состоянием здоровья), а между несвязанными событиями ошибочно установить связь, если одно из них предшествует другому (изготовители зонтиков, которые открыли свой магазин до сезона дождей, разумеется, не стали его причиной).

Внимание! Это не конец книги.

Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!