Текст книги "Искусство статистики. Как находить ответы в данных"
Автор книги: Дэвид Шпигельхалтер
Жанр: Базы данных, Компьютеры
Возрастные ограничения: +16
сообщить о неприемлемом содержимом
Текущая страница: 5 (всего у книги 19 страниц) [доступный отрывок для чтения: 6 страниц]
Что такое генеральная совокупность?
Рассмотренные выше индуктивные этапы хорошо работают с плановыми исследованиями, однако значительная часть статистических анализов не так легко вписывается в эту структуру. Мы видели, что иногда (например, при использовании полицейской документации о преступлениях) у нас могут быть все доступные данные. И хотя это не выборка, идея лежащей в их основе какой-то генеральной совокупности все же имеет ценность.
Вернемся к данным об операциях на сердце у детей из главы 1. Мы сделали довольно смелое предположение, что проблем с измерениями не было – иными словами, что у нас есть полный набор операций и всех выживших детей в течение 30 дней во всех больницах, то есть идеальное знание выборки (этап 2).
Но что такое изучаемая совокупность? Мы располагаем данными обо всех больницах и всех детях, поэтому нет большей группы, из которой они могут быть взяты. Хотя идея генеральной совокупности обычно вводится в курсах статистики довольно буднично и вскользь, наш пример показывает, что это сложное и запутанное понятие, требующее подробного изучения, поскольку на нем основаны многие важные идеи.
Существуют три вида генеральных совокупностей, из которых мы можем делать выборки – вне зависимости от того, являются ли источниками данных люди, сделки, деревья или что-либо другое.
• Буквальная совокупность. Это идентифицируемая группа, откуда мы, к примеру, выбираем случайным образом человека при опросе. Или группа людей, для которых можно провести измерения, и, хотя мы на самом деле не выбираем наугад, у нас есть данные от добровольцев. Например, мы можем рассматривать людей, угадавших число драже в банке, как выборку из совокупности всех любителей математики, которые смотрят видеоролики на YouTube.
• Виртуальная совокупность. Мы часто проводим измерения с помощью каких-либо устройств, скажем, измеряем кровяное давление или уровень загрязнения воздуха. Мы знаем, что всегда можем сделать еще несколько измерений и получить немного другие результаты – вам это прекрасно известно, если вы когда-нибудь повторно измеряли артериальное давление. Близость полученных результатов зависит от точности прибора и неизменности обстановки. Мы могли бы думать об этом как о получении наблюдений из некой виртуальной совокупности всех измерений, которые могли бы сделать, если бы имели достаточно времени.
Метафорическая совокупность. В этом случае никакой большей совокупности нет вообще. Это необычное понятие. Мы действуем так, будто наши данные получены случайным образом из какой-то большей совокупности, хотя это не так. Например, в случае детей, перенесших операцию на сердце, у нас не было никакой выборки, а были полные данные, и ничего сверх них мы собрать уже не могли. Подумайте о количестве ежегодно совершаемых убийств, результатах экзаменов для определенного класса или данных обо всех странах мира – ни в одном из этих случаев мы не можем считать имеющиеся данные выборкой из какой-то фактической совокупности.
Идея метафорической совокупности требует осмысления: возможно, предпочтительнее думать, что наши наблюдения берутся из некоего воображаемого пространства возможностей. Например, мировая история такая, какая есть, но мы можем представить, что она развивалась по совершенно иному сценарию, а мы просто оказались в одном из ее возможных состояний. Это множество альтернативных историй можно считать метафорической совокупностью. А если конкретнее, то, когда мы рассматривали детские операции в Соединенном Королевстве за 2012–2015 годы, у нас были полные данные о детях за этот период: мы знали и число смертей, и число выживших. Однако мы можем себе представить гипотетические истории, в которых выжили бы другие дети вследствие непредвиденных обстоятельств, которые мы склонны именовать «случайностью».
Должно быть очевидно, что в статистике выборка редко составляется буквально наугад и что более распространены ситуации, когда потенциально доступны полные данные. Тем не менее крайне полезно придерживаться концепции воображаемой генеральной совокупности, из которой взята наша «выборка», поскольку в этом случае мы можем использовать все математические методы, разработанные для составления выборок из реальных генеральных совокупностей.
Лично мне больше нравится действовать так, будто происходящее вокруг – результат случайного выбора из всех вероятных сценариев. От нас зависит, будем ли мы верить, что это действительно случайность, или воля Божья или богов, или какая-то иная теория причинности: для математики разницы нет. Это всего лишь одно из расширяющих кругозор требований при работе с данными.
Выводы
• Для перехода от данных к выборке, а затем к изучаемой и далее к целевой совокупности требуются индуктивные умозаключения.
• На каждом из этапов могут возникать ошибки и проблемы.
• Лучший способ перейти от выборки к исследуемой совокупности – обеспечить случайность выборки.
• Генеральную совокупность можно представлять и как группу объектов, и как отображение вероятностного распределения для случайного наблюдения, полученного из этой совокупности.
• Описывать совокупности можно с помощью тех же характеристик, что и выборки.
• Часто данные не являются выборкой из буквальной совокупности. Когда в выборку входят все данные, мы можем вообразить, что они взяты из метафорической совокупности событий, которые могли бы случиться, но не произошли.
Глава 4. Причины и следствия
Повышает ли поступление в университет риск развития опухоли мозга?
Эпидемиология изучает, как и почему возникают и распространяются заболевания, при этом скандинавские страны – мечта эпидемиолога. А все потому, что в них каждый человек имеет личный идентификационный номер, который используется при регистрации во всех сферах: здравоохранение, образование, налогообложение и прочие. Это позволяет исследователям комплексно изучать различные аспекты жизни людей, что невозможно сделать (и, наверное, не всегда целесообразно) в других государствах.
Одно масштабное исследование, проведенное более чем на 4 миллионах шведов и шведок, в рамках которого связывались сведения о налогообложении и здоровье за 18 лет, установило, что у людей с более высоким социально-экономическим положением чаще диагностировали опухоль головного мозга. Это было одно из тех солидных, но весьма неинтересных исследований, которые обычно не привлекают особого внимания, поэтому специалист по связям с общественностью посчитал, что в пресс-релизе гораздо лучше написать так: «Высокий уровень образования связан с повышенным риском развития опухоли головного мозга», хотя работа посвящалась скорее социально-экономическому положению, чем образованию. Однако к тому времени, когда результаты были представлены широкой публике, помощник редактора одной из газет выдал классический заголовок: «Почему поступление в университет повышает риск развития опухоли мозга»[85]85
‘Why Going to University Increases Risk of Getting a Brain Tumour’, Mirror Online, 20 June 2016. Исходная статья: A. R. Khanolkar et al., ‘Socioeconomic Position and the Risk of Brain Tumour: A Swedish National Population-Based Cohort Study’, Journal of Epidemiology and Community Health 70 (2016), 1222–8.
[Закрыть].
Такой заголовок встревожил бы любого, кто имеет высшее академическое образование. Но стоит ли на самом деле беспокоиться? Исследование основывалось на всей доступной генеральной совокупности, а не на выборке, поэтому мы с уверенностью можем заключить, что у более образованных людей действительно немного чаще выявляли опухоль головного мозга. Но неужели интенсивные нагрузки в библиотеке действительно перегревали мозг и вели к неблагоприятным мутациям клеток? Несмотря на газетный заголовок, я в этом сомневаюсь. Как, собственно, и авторы статьи, которые добавили: «Потенциальным объяснением такого результата могут быть полнота регистрации рака и ошибка выявления». Другими словами, люди с более высоким уровнем образования с большей вероятностью пройдут обследование, а значит, опухоли будут регистрироваться чаще (пример того, что в эпидемиологии называется ошибкой обращаемости[86]86
Ошибка обращаемости – это систематическая ошибка, при которой в выборке собраны случаи, не представляющие равным образом все категории генеральной совокупности (популяции). Прим. пер.
[Закрыть]).
Корреляция не означает причинность
Из главы 2 мы узнали, что коэффициент корреляции Пирсона показывает, насколько близко к прямой расположены точки на диаграмме рассеяния. Когда мы рассматривали английские больницы, проводившие в 1990-х операции на сердце у детей, и отображали на диаграмме точки, отражавшие число операций и уровень выживаемости, высокая корреляция демонстрировала, что более крупные больницы ассоциировались с более низким уровнем смертности. Однако мы не могли сделать вывод, что более крупные больницы и есть причина более низкой смертности.
У такого осторожного отношения солидная родословная. Когда в журнале Nature в 1900 году обсуждали предложенный Карлом Пирсоном коэффициент корреляции, один комментатор предупредил, что «корреляция не означает причинно-следственной связи». В течение следующего столетия эта фраза стала мантрой, постоянно повторяемой статистиками при столкновении с заявлениями, основанными на простом наблюдении, что какие-то две вещи имеют тенденцию изменяться вместе. Существует даже специальный сайт, который автоматически находит невероятные связи: например, очаровательную корреляцию 0,96 между ежегодным потреблением сыра моцарелла в США за 2000–2009 годы и количеством докторских степеней по гражданскому строительству, полученных за этот период[87]87
T. Vigen, http://www.tylervigen.com/spurious-correlations.
[Закрыть].
Похоже, у людей есть глубокая внутренняя потребность объяснять происходящее в виде простейшей зависимости «причина → следствие». Уверен, что каждый из нас мог бы придумать увлекательную историю обо всех этих остепененных инженерах, поглощающих пиццу с сыром. Существует даже специальное слово для склонности конструировать связи между событиями, которые в реальности не связаны, – апофения, причем ее крайнее проявление – объяснять простую случайность или невезение злонамеренностью других и даже колдовством.
К сожалению (а, возможно, к счастью), мир несколько сложнее, чем колдовство. И первая сложность появляется при попытке понять, что подразумевается под «причиной».
Что такое причинность?
Причинность – это довольно спорный и активно обсуждаемый вопрос, что, вероятно, кажется удивительным, поскольку в реальной жизни все выглядит просто: мы что-то делаем, и это к чему-то приводит. Дверь машины зажала мой большой палец, и теперь он болит.
Но откуда мне знать, что большой палец не заболел бы в любом случае? Возможно, мы могли бы обратиться к тому, что называется контрфактуальным мышлением[88]88
Размышления о том, что могло бы произойти, но не произошло. Прим. пер.
[Закрыть]. Если бы мой палец не зажало дверью, то он бы не болел. Но это всегда будет предположением, требующим переписывания истории, поскольку мы никогда точно не узнаем, что я мог бы почувствовать (хотя в данном случае я могу быть вполне уверен, что мой палец не заболит внезапно сам по себе).
Ситуация осложняется еще больше, когда мы начинаем учитывать неизбежную изменчивость, лежащую в основе событий в реальной жизни. Например, медицинское сообщество сейчас соглашается с тем, что курение вызывает рак легких, однако врачам потребовались десятилетия, чтобы прийти к такому заключению. Почему так долго? Потому что большинство курильщиков не заболевают раком легких, в то время как некоторые некурящие заболевают. Все, что мы можем сказать, – это то, что у вас выше риск заболеть раком легких, если вы курите, чем если не курите; и это одна из причин того, почему для принятия законов об ограничении курения понадобилось столько времени.
Таким образом, наша «статистическая» идея причинности не будет строго детерминистской. Когда мы говорим, что X обусловливает Y, мы не имеем в виду, что каждый раз, когда наступает X, наступает и Y. Мы всего лишь подразумеваем, что если вмешаемся и заставим X происходить чаще, то и Y будет случаться чаще. Соответственно, мы никогда не сможем сказать, что X вызывает Y в данном случае, а можем лишь утверждать, что X увеличивает долю случаев, когда происходит Y. Из этого вытекают два важнейших следствия относительно того, что нам нужно делать при намерении понять причинно-следственную связь. Во-первых, чтобы вывести причинно-следственную связь с полной уверенностью, в идеале нам нужно вмешаться и провести эксперименты. Во-вторых, поскольку мир статистический и стохастический, вмешаться нужно не один раз, чтобы собрать доказательства.
Все это естественным образом подводит нас к очень деликатной теме – проведению клинических испытаний на больших группах людей. Мало кому понравится идея экспериментов над собой, особенно если речь идет о жизни и смерти. Это тем более примечательно, что тысячи людей изъявляли желание участвовать в масштабных исследованиях, в которых ни они, ни врачи не знали, какое лечение в итоге будет применено.
Уменьшают ли статины риск инфарктов и инсультов?
Каждый день я принимаю маленькую белую таблетку – статин, потому что мне сказали, что он понижает уровень холестерина и тем самым уменьшает риск инфарктов и инсультов. Но как это сказывается на мне? Я почти уверен, что эти таблетки снижают уровень холестерина липопротеинов низкой плотности (ЛПНП)[89]89
Липопротеины низкой плотности (ЛПНП) – белки крови, которые переносят холестерин. Хотя такой белок и называют пренебрежительно «плохим холестерином», на самом деле такие белки вовсе не холестерин, а лишь его переносчики. Прим. пер.
[Закрыть], поскольку мне сообщили, что он упал вскоре после того, как я начал их принимать. Снижение ЛПНП – непосредственный, по сути, детерминированный эффект, который, как я полагаю, вызван приемом статина.
Однако я никогда не узнаю, принесет ли мне этот ежедневный ритуал пользу в долгосрочной перспективе; все зависит от того, какой из многочисленных сценариев моей дальнейшей жизни будет на самом деле разыгран. Если инфаркта или инсульта у меня никогда не будет, то я так и не узнаю, в какой-то степени это результат приема таблеток, или их многолетнее глотание здесь ни при чем и просто оказалось напрасной тратой времени. Если инфаркт или инсульт все же случится, то я не узнаю, было ли это событие отложено благодаря приему статина. Все, что мне дано знать, – это то, что в среднем препарат приносит пользу большой группе похожих на меня людей и что это знание основано на масштабных клинических испытаниях.
Цель клинических испытаний – провести «правильный тест», который верно определяет причинность и оценивает средний эффект нового медицинского метода лечения, и при этом избежать ошибок, которые могли бы дать ложное представление о его эффективности.
Правильное клиническое исследование в идеале должно соответствовать следующим принципам:
1. Контроль. При намерении изучить влияние статинов на популяцию мы не можем просто дать их нескольким добровольцам, а затем, если инфаркта не будет, заявить, что его удалось избежать благодаря приему таблеток (несмотря на наличие сайтов, которые используют подобные смехотворные рассуждения для продвижения своей продукции). Нам нужна экспериментальная группа, которой будут давать статины, и контрольная группа, принимающая сахарные таблетки или плацебо.
2. Распределение при лечении. Важно сравнивать подобное с подобным, поэтому и лечение, и группы сравнения должны быть максимально похожи. Лучший способ этого добиться – случайно распределить участников по группам, а потом наблюдать, что с ними происходит. Такой метод называется рандомизированным контролируемым исследованием (РКИ). В тестировании статинов задействуется значительное количество людей, поэтому обе группы должны быть сходны по всем факторам, которые могли бы повлиять на результат, включая (что критически важно) те, о которых мы не знаем. Такие исследования могут быть весьма масштабными: в исследовании по защите сердца (HPS), проведенном в Великобритании в конце 1990-х годов, 20 536 человек с повышенным риском инфаркта или инсульта были случайным образом распределены на две группы: одним ежедневно давали 40 мг симвастатина, а другим – пустую таблетку[90]90
‘MRC/BHF Heart Protection Study of Cholesterol Lowering with Simvastatin in 20,536 High-Risk Individuals: A Randomised Placebo-Controlled Trial’, The Lancet 360 (2002), 7–22.
[Закрыть].
3. Подсчет количества людей в обеих группах. Люди, попавшие в группу «статинов» в исследовании по защите сердца, включались в итоговый анализ, даже если не принимали свои таблетки. Такой принцип называется «анализ по назначенному лечению» и может показаться довольно странным. Это означает, что итоговая оценка эффекта статинов в действительности измеряет эффект прописанных статинов, а не фактически принимаемых. На практике, конечно, людям настоятельно рекомендовали пить таблетки в течение всего исследования, хотя через пять лет HPS 18 % тех, кому были прописаны статины, прекратили их принимать, в то время как целых 32 % тех, кому было назначено плацебо, в действительности начали принимать статины в ходе испытаний. Поскольку люди, изменяя лечение, как правило, размывают различия между группами, мы можем ожидать, что видимый эффект в анализе по назначенному лечению может быть меньше, чем эффект от реального приема препарата.
4. Если возможно, люди не должны знать, в какую из двух групп входят. В испытаниях статинов и настоящие препараты, и плацебо выглядели одинаково, поэтому участники не знали, что именно принимают[91]91
Такой метод называется слепым (пациенты не знают важных деталей испытания). В нашем случае они не знают, принимают лекарство или плацебо. Если же и экспериментаторы не знают важных деталей испытания, метод называется двойным слепым. Прим. пер.
[Закрыть].
5. Процедуры для групп должны быть одинаковыми. Если бы группу, которая употребляла статины, чаще приглашали в больницу или более тщательно обследовали, то было бы невозможно разграничить пользу от применения препарата и от улучшенного ухода. В HPS персонал, наблюдавший за пациентами, не знал, кто из них принимает статины, а кто – плацебо.
6. По возможности те, кто оценивает итоговые результаты, не должны знать, к какой группе относятся испытуемые: полагая, что лечение помогает, врач может преувеличить пользу для экспериментальной группы, то есть допустить неосознанную ошибку.
7. Измеряйте всех. Нужно приложить максимум усилий, чтобы отследить всех участников, поскольку люди, бросившие исследование, могли, например, это сделать из-за побочных эффектов препарата. У HPS были замечательные 99,6 % полного наблюдения за всеми в течение пяти лет – эти результаты приведены в табл. 4.1.
Таблица 4.1
Результаты пяти лет исследования защиты сердца в соответствии с лечением, назначенным пациентам. Абсолютное снижение риска инфаркта составило 11,8–8,7 = 3,1 %. Таким образом, в группе из 1000 человек, принимавших статины, был предотвращен примерно 31 инфаркт. Это означает, что для предотвращения одного инфаркта примерно 30 человек должны принимать статины в течение пяти лет
Те, кто попал в группу, принимавшую статины, явно в среднем имели лучшие показатели здоровья, а поскольку пациенты распределялись случайным образом и в остальном лечились одинаково, результат можно считать следствием приема статинов. Однако мы видели, что многие люди на самом деле не придерживались назначенного лечения, и это приводит к некоторому размыванию разницы между группами: специалисты, проводившие HPS, оценивают реальный эффект от приема статинов примерно на 50 % выше, чем показано в табл. 4.1.
Два важных итоговых замечания:
1. Не полагайтесь на одно исследование. Один отдельный эксперимент может нам сказать, что лекарство работало в определенной группе в определенном месте, но надежные выводы требуют нескольких исследований.
2. Систематически проверяйте доказательства. При рассмотрении нескольких испытаний обязательно включайте каждое проведенное исследование, создавая таким образом систематический обзор. Затем результаты можно формально объединить в метаанализ.
Например, недавний систематический обзор собрал данные двадцати семи рандомизированных контролируемых исследований статинов, в которых участвовало более 170 тысяч человек с пониженным риском сердечно-сосудистых заболеваний[92]92
Cholesterol Treatment Trialists’ (CTT) Collaborators, ‘The Effects of Lowering LDL Cholesterol with Statin Therapy in People at Low Risk of Vascular Disease: Meta-Analysis of Individual Data from 27 Randomised Trials’, The Lancet 380 (2012), 581–90.
[Закрыть]. Но вместо того чтобы фокусироваться на разнице между экспериментальной (принимающей статины) и контрольной группами, оценивался эффект от снижения уровня ЛПНП. По сути, исследователи предположили, что эффект статинов достигается посредством изменения липидов в крови, и основывали свои расчеты на среднем уменьшении ЛПНП, установленном в каждом из испытаний, учитывающем любое несоблюдение назначенного лечения. Такое дополнительное предположение позволило оценить эффект от фактического приема статинов. Ученые пришли к выводу, что снижение уровня ЛПНП на 1 ммоль/л (миллимоль на литр) уменьшает риск серьезных проблем (в том числе преждевременную смерть) с сердечно-сосудистой системой на 21 %. Мне, например, этого достаточно, чтобы продолжать принимать такие таблетки[93]93
Согласно заключению исследователей, для людей с моим базовым риском и без предшествующего заболевания уменьшение ЛПНП на 1 ммоль/л снижает риск серьезных проблем с сердечно-сосудистой системой на 25 %. После начала приема статинов мой уровень ЛПНП снизился на 2 ммоль/л, а значит, ежедневное употребление статинов изменило мой годовой риск развития инфаркта или инсульта примерно на 0,75 × 0,75 = 0,56, то есть снизило мой риск на 44 %. Поскольку у меня риск инфаркта или инсульта за 10 лет составлял примерно 13 %, прием статинов уменьшил бы его до 7 %. Это означает, что прописанные мне статины полезны – и хорошо, что я их действительно принимаю.
[Закрыть].
Мы проигнорировали вероятность того, что любая наблюдаемая связь необязательно является причинно-следственной, а может быть просто результатом случайности. Большинство лекарственных препаратов на рынке обладают лишь умеренным воздействием и помогают только меньшинству принимающих их людей; их общую полезность можно точно выявить исключительно в рамках крупных тщательных рандомизированных исследований. Испытания статинов довольно-таки масштабны, особенно когда они объединены в метаанализ, а значит, полученные результаты нельзя объяснить простым случайным отклонением. (Мы узнаем, как это проверить, из главы 10.)
Эффективна ли молитва?
Список принципов РКИ не нов: почти все они были введены в 1948 году в эксперименте, который считается первым правильным клиническим испытанием. Тогда исследовался стрептомицин – лекарство, предназначенное для борьбы с туберкулезом. Конечно, было бы слишком безнравственно случайным образом определять, кого лечить, а кого оставить без потенциально спасающего жизнь препарата. Однако принятию столь трудного решения способствовал тот факт, что имеющегося в то время в Великобритании лекарства в любом случае не хватило бы на всех, поэтому случайный выбор казался вполне справедливым и этически обоснованным. Но даже по прошествии стольких лет и тысяч проведенных РКИ общество все еще может удивиться, узнав, что медицинские решения о том, какое лечение рекомендовать человеку (даже такие драматичные, как радикальная мастэктомия или лампэктомия при раке молочной железы[94]94
Мастэктомия – операция по полному удалению молочной железы. Лампэктомия – удаление опухоли с частичным удалением здоровой ткани. Прим. пер.
[Закрыть]), фактически принимаются путем подбрасывания монеты (пусть это и метафорическая монета, воплощенная в генераторе случайных чисел в компьютере)[95]95
Возможно, еще более удивительно и отрадно то, что так много людей согласилось участвовать в испытаниях исключительно для пользы будущих пациентов.
[Закрыть].
На практике процесс назначения лечения в испытаниях гораздо сложнее, чем простая рандомизация в каждом случае, так как мы хотим убедиться, что все типы людей одинаково представлены в группах, получающих различные виды лечения. Например, мы можем захотеть, чтобы количество пожилых людей с повышенным риском, принимающих статины и плацебо, распределялось примерно поровну. Эта схема позаимствована из сельскохозяйственных экспериментов, где многие идеи рандомизированных исследований возникли в основном благодаря работе Рональда Фишера (о котором мы расскажем чуть позже). Например, большое поле делится на отдельные участки, а затем для каждого участка случайным образом выбирается удобрение – так же как люди случайным образом получают назначение на лечение. Но части поля могут разниться по дренажу, затененности и другим признакам, поэтому предварительно поле нужно разделить на блоки, содержащие примерно сходные участки, а уже затем осуществить рандомизацию, чтобы в каждом блоке было равное число участков с тем или иным удобрением. В таком случае способы обработки земли будут сбалансированными, скажем на заболоченных участках одинаково применят все виды удобрений.
Например, однажды я работал над рандомизированным испытанием, где сравнивались два альтернативных метода лечения грыжи: стандартная «открытая» операция и лапароскопия (операция с минимальным вмешательством). Предполагалось, что мастерство хирургической бригады во время испытаний может возрастать, поэтому было важно, чтобы в течение всего исследования эти два метода были сбалансированы. Поэтому я разбил цепочку пациентов на блоки по 4 и 6 человек, а затем случайно распределял их внутри каждого блока по методам операции. Используемые методы были напечатаны на листочках бумаги, которые я сложил и поместил в пронумерованные непрозрачные коричневые конверты. Помню, как я наблюдал за больными, лежащими на предоперационной каталке, понятия не имея, какую именно операцию им будут делать, в то время как анестезиолог открывал конверт и узнавал, что с ними случится дальше, в частности вернутся ли они домой с одним большим шрамом или несколькими точечными проколами.
Рандомизированные испытания стали золотым стандартом тестирования новых медицинских методов, а теперь все чаще используются и при оценке эффективности новых методик в сфере образовании или правоохранительной деятельности. Например, британская организация Behavioural Insights Team[96]96
Первоначально государственная, а затем частная британская компания, которая разрабатывает методики повышения эффективности управления с помощью психологии. Прим. пер.
[Закрыть] случайным образом отобрала половину школьников, пересдающих экзамены по математике и английскому языку, и регулярно отправляла им поощряющие текстовые сообщения, чтобы поддержать в учебе. В результате доля сдавших экзамены среди тех, кто имел такую поддержку, оказалась на 27 % выше. Эта же группа исследователей наблюдала и ряд положительных эффектов в рандомизированном испытании видеокамер, закрепленных на теле полицейских, – к примеру, снижение количества остановленных и безосновательно обысканных[97]97
Испытания организации Behavioural Insights Team описаны на сайтах http://www.behaviouralinsights.co.uk/education-and-skills/helping-everyone-reach-their-potential-new-education-results/ и http://www.behaviouralinsights.co.uk/trial-results/measuring-the-impact-of-body-worn-video-cameras-on-police-behaviour-and-criminal-justice-outcomes/.
[Закрыть].
Проводились даже эксперименты для определения эффективности молитвы. Например, в рамках исследования терапевтических эффектов ходатайственной молитвы (STEP) свыше 1800 пациентов с шунтированием сердца случайным образом разделили на три группы: за пациентов 1-й и 2-й групп, соответственно, молились и не молились, но при этом они не знали, молятся за них или нет, а вот члены 3-й группы знали, что за них молятся. Единственным заметным эффектом было незначительное увеличение осложнений в группе, где знали, что за них молятся. Один из исследователей прокомментировал это так: «Возможно, это заставило их сомневаться и задаться вопросом: “Неужели я настолько болен, что им пришлось вызвать свою молитвенную команду?”»[98]98
H. Benson et al., ‘Study of the Therapeutic Effects of Intercessory Prayer (STEP) in Cardiac Bypass Patients: A Multicenter Randomized Trial of Uncertainty and Certainty of Receiving Intercessory Prayer’, American Heart Journal 151 (2006), 934–42.
[Закрыть]
Основное из последних нововведений в рандомизированных экспериментах – A/B-тестирование в веб-дизайне[99]99
Хотя A/B-тестирование широко применяется в веб-дизайне, его можно использовать и в других областях – например, написать два электронных письма с каким-либо предложением двум группам людей. Прим. пер.
[Закрыть], при котором пользователей направляют на различные варианты веб-страницы (о чем они не знают). Далее измеряется количество времени, проведенного на том или ином варианте страницы, переходов по рекламным объявлениям и так далее. Серия A/B-тестов может быстро привести к оптимальному дизайну, а огромные размеры выборки означают, что даже небольшие, но потенциально выгодные эффекты гарантированно обнаружатся. Следовательно, совершенно новое сообщество людей должно было узнать о тонкостях пробных испытаний, в том числе о рисках при проведении множественных сравнений, которые мы рассмотрим в главе 10.
Что делать, если рандомизация невозможна?
Почему у стариков большие уши?
Легко провести рандомизацию, когда нужно, скажем, изменить сайт: можно без проблем найти участников, поскольку они даже не знают, что участвуют в эксперименте, и нет никаких этических проблем в использовании их в качестве подопытных кроликов. Однако иногда осуществить рандомизацию не просто трудно, а невозможно: мы не можем проверять влияние привычек, например, заставляя людей в рамках исследования курить или употреблять нездоровую пищу (даже если такие эксперименты проводятся на животных). Когда данные появляются не в результате эксперимента, а просто из наблюдений, их называют наблюдательными (а соответствующие исследования – наблюдательными, или обсервационными). Поэтому часто наша задача – постараться как можно лучше отделить корреляцию от причинно-следственной связи, применяя к наблюдательным данным статистические принципы и хороший план исследования в сочетании со здоровой дозой скептицизма.
Вопрос об ушах стариков, возможно, не так важен, как многие другие темы в этой книге, но он иллюстрирует необходимость выбора плана исследования, который подойдет для ответа на вопросы. Если мы обратимся к подходу на основе цикла PPDAC, то проблема строится на моем личном наблюдении, что у стариков, похоже, действительно слишком большие уши. Но почему? Очевидный план – посмотреть, коррелирует ли в генеральной совокупности возраст с длиной ушей взрослых людей. Как оказалось, группа медиков-исследователей в Великобритании и Японии собрала данные в таком поперечном исследовании: их анализ показал явную положительную корреляцию, и они пришли к заключению, что длина ушей связана с возрастом[100]100
J. Heathcote, ‘Why Do Old Men Have Big Ears?’, British Medical Journal 311 (1995), https://www.bmj.com/content/311/7021/1668. См. также ‘Big Ears: They Really Do Grow as We Age’, The Guardian, 17 July 2013.
[Закрыть].
Теперь наша задача – попытаться объяснить такую связь. Уши продолжают расти с возрастом? Или у нынешних пожилых людей они всегда были большими, а из-за каких-то событий, произошедших за последние десятилетия, у предыдущих поколений уши меньше? Или же люди с ушами меньшего размера просто умирают раньше по каким-то причинам, ведь существует же у китайцев поверье, что большие уши предсказывают долгую жизнь. Чтобы придумать, какие исследования могли бы проверить такие идеи, нужно определенное воображение. В проспективном когортном исследовании участники измеряли бы уши всю свою жизнь, проверяя, не растут ли они, или не умирают ли раньше люди с небольшими ушами. Но это требует много времени, поэтому можно применить альтернативу – ретроспективное когортное исследование, то есть взять нынешних стариков и попытаться выяснить, выросли ли у них уши, например, с помощью старых фотографий. Исследование типа «случай-контроль» могло бы к уже умершим людям подобрать живущих, которые соответствуют им по возрасту и прочим факторам, связанным (по нашим сведениям) с долголетием, и посмотреть, больше ли уши у тех, кто прожил дольше[101]101
К сожалению, маловероятно, что на подобные исследования найдется финансирование.
[Закрыть].
А затем цикл решения задачи запустится снова.
Что мы можем сделать, наблюдая какую-то связь?
Именно здесь требуется определенное статистическое воображение, и попытка догадаться о причинах того, почему наблюдаемая корреляция может быть ложной, обещает стать приятным упражнением. Некоторые причины довольно просты: значительная корреляция между потреблением моцареллы и числом инженеров, по-видимому, обусловлена тем, что обе категории увеличиваются со временем. Точно так же любые корреляции между продажами мороженого и числом утонувших зависят от погоды. Когда видимую связь между двумя величинами можно объяснить наличием какого-то наблюдаемого внешнего фактора, влияющего на обе величины, его называют возмущающим, или искажающим фактором. И год, и погода – это потенциальные возмущающие факторы, которые можно регистрировать и учитывать при анализе.
Простейший метод работы с возмущающим фактором – посмотреть на видимые связи при каждом его уровне. Это называется поправкой, или стратификацией. Например, мы могли бы изучить связь между продажами мороженого и числом утонувших в дни с примерно одинаковой температурой воздуха.
Однако поправка может привести к некоторым парадоксальным результатам, как показал анализ процента зачисления абитуриентов в Кембриджский университет для обоих полов в 1996 году. Общая доля поступивших на пять учебных дисциплин в Кембридже была чуть выше у мужчин (24 % из 2470 абитуриентов), чем у женщин (23 % из 1184 абитуриенток). Это те дисциплины, которые сегодня принято обозначать аббревиатурой НТИМ (STEM) – наука, технологии, инженерия и медицина[102]102
На самом деле буква M в аббревиатуре STEM традиционно означает математику (Science, Technology, Engineering and Mathematics). Иногда при добавлении к ним медицины пишут STEMM. Прим. пер.
[Закрыть], то есть предметы, исторически изучаемые преимущественно мужчинами. Была ли тут гендерная дискриминация?
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?