Электронная библиотека » Стюарт Ричи » » онлайн чтение - страница 7


  • Текст добавлен: 29 января 2024, 08:21


Автор книги: Стюарт Ричи


Жанр: Публицистика: прочее, Публицистика


Возрастные ограничения: +12

сообщить о неприемлемом содержимом

Текущая страница: 7 (всего у книги 20 страниц) [доступный отрывок для чтения: 7 страниц]

Шрифт:
- 100% +
Глава 4. Предвзятость

Однажды принятая гипотеза придает нам рысью зоркость по отношению ко всему, что ее подтверждает, и делает нас слепыми по отношению ко всему, что ей противоречит[288]288
  Перевод Ю. Айхенвальда. Цит. по: Шопенгауэр А. Мир как воля и представление // Собр. соч. в 6-ти т. Т. 2. М.: Республика, 2001.


[Закрыть]
.

Артур Шопенгауэр “Мир как воля и представление” (1818)[289]289
  Schopenhauer A. The World as Will and Presentation. Vol. II. New York: Routledge, 2011.


[Закрыть]


Наука… совершит самоубийство, если признает какие-то догмы.

Томас Гексли “Памятник Дарвину” (1885)[290]290
  Huxley T. H. The Darwin Memorial (1885) // Collected Essays. Cambridge: Cambridge University Press, 2011.


[Закрыть]

В 1830–1840-х годах Сэмюэль Мортон, знаменитый американский врач и ученый, опубликовал серию богато иллюстрированных книг, содержавших его измерения сотен человеческих черепов со всего мира[291]291
  См., например: Morton S. G. Crania Americana. London: Simkin, Marshall & Co., 1839.


[Закрыть]
. Его метод заключался в том, чтобы заполнить все пустоты черепа горчичными семенами (позднее – свинцовой дробью), а затем оценить, насколько крупным должен был быть мозг внутри черепа, по количеству семян или дробинок, которые удалось затолкать внутрь[292]292
  Или, возможно, горошинки черного перца. См. Mitchell P. W. The Fault in His Seeds: Lost Notes to the Case of Bias in Samuel George Morton’s Cranial Race Science. PLOS Biology. 16, no. 10 (2018): e2007008.


[Закрыть]
. По результатам измерений своей коллекции он заключил, что черепа европейцев вместительнее, чем черепа азиатов, индейцев и африканцев, и предположил, что эти различия демонстрируют отличные для разных групп “умственные и нравственные способности”[293]293
  Morton S. G. Aug. 8th, 1848, Vice President Morton in the Chair. Proceedings of the Academy of Natural Sciences of Philadelphia. 4 (1848): 75–6.


[Закрыть]
. Книги Мортона, в которых он также обсуждал свои надуманные теории о совершенно различном происхождении разных человеческих рас, стали международной сенсацией и сыграли ключевую роль в укреплении позиций расовой теории, пытавшейся разделить людей на иерархию высших и низших групп и способствовавшей разжиганию некоторых из наижутчайших кошмаров XIX и XX столетий.

Наряду с различиями средних значений по группам Мортон предоставил изобильные данные по своим измерениям большинства черепов. Подобная степень прозрачности для того времени была нетипична и позволила будущим исследователям перепроверить его данные. В 1978 году, когда Мортона и его теории уже почти полностью позабыли, палеонтолог Стивен Джей Гулд именно это и сделал.

Мортоновский анализ черепов, писал Гулд, страдал от целого ряда неувязок. Мортон делил группы произвольно: например, сообщал результаты для некоторых подгрупп черепов белых, где каждая характеризовалась высокими средними, но не делал того же для некоторых подгрупп индейцев, тоже обладавших крупными черепами. В некоторые группы он несправедливо включал больше мужчин – а ведь у них, как мы знаем, головы больше, поскольку и тела вообще крупнее, – тем самым неправомерно увеличивая среднее. Вычисления для каких-то групп он перепроверил на предмет ошибок, а для других – нет. Еще между измерениями с помощью семян и измерениями с помощью более надежных свинцовых дробинок было расхождение – и для черепов черных и индейцев оно было больше, чем для белых, а значит, ошибки в измерениях с помощью семян происходили избирательно. Позднее Гулд предложил “вероятный сценарий” того, как это могло происходить:


Мортон, проводя измерения с помощью семян, берет угрожающе большой череп черного, небрежно его заполняет и несколько раз легонько встряхивает. Затем берет удручающе мелкий череп кавказца, усердно его трясет и сильно нажимает большим пальцем[294]294
  Гулд объясняет: семена, в отличие от дробинок, легкие и разные по размеру, поэтому упаковываются неплотно. Если хорошенько трясти череп или нажимать пальцем на большое затылочное отверстие, это способствует тому, что семена утрясываются – и освобождается место для новых.


[Закрыть]
в районе большого затылочного отверстия [находится в основании черепа, через это отверстие входит позвоночник]. Это происходит легко, без сознательных побуждений; ожидания – мощное руководство к действию[295]295
  Gould S. J. The Mismeasure of Man. Rev. and Expanded. New York: Norton, 1996.


[Закрыть]
.


Таким образом у Мортона получалось бы, что черепа популяций белых крупнее, чем небелых. И действительно, все его огрехи смещали результаты в том же направлении. Ошибки, как выразился Гулд, отражали “тиранию априорного предпочтения”, то есть убеждение Мортона в превосходстве белых[296]296
  Gould S. J. Morton’s Ranking of Races by Cranial Capacity. Unconscious Manipulation of Data May Be a Scientific Norm. Science. 200, no. 4341 (1978): 503–9.


[Закрыть]
. Если анализировать данные должным образом, то различия между черепами разных этнических групп оказывались бы совсем незначительными – уж точно не на чем было бы выстраивать расовую иерархию. И это не единичная история. Те же уроки о влиянии предвзятости, говорил Гулд, вероятно, применимы ко всей науке: “Подозреваю, что неосознаваемые или слабо ощущаемые жульничество, искажение и манипулирование данными широко распространены, повальны и неотвратимы в профессии, присваивающей статус и авторитет за аккуратные и недвусмысленные открытия”[297]297
  Там же.


[Закрыть]
.

Гулд был абсолютно прав. Написал он эти слова в 1970-х, и с тех пор стало еще очевиднее: ученые регулярно проводят свои исследования таким образом, что до сознательного мошенничества не доходят, однако же сильно сдвигают шансы в свою пользу. И хотя далее мы вернемся к идеологическим предубеждениям ученых, политические взгляды, включая те, что подобны расовым предрассудкам, приписанным Гулдом Мортону, не являются главной темой этой главы. Прежде всего нас будут интересовать предубеждения, связанные с самим научным процессом: пристрастие к получению наглядных либо ярких результатов, подтверждение излюбленной теории или опровержение аргумента, выдвигаемого конкурентом. Любого из них может быть достаточно, чтобы спровоцировать неосознаваемое манипулирование данными, а в некоторых случаях – полное исчезновение неудовлетворительных результатов.

Ирония налицо. Как мы обсуждали, наука олицетворяет наше максимальное приближение к объективности: это процесс, способный преодолеть индивидуальные предубеждения благодаря тому, что чья угодно работа подвергается рецензированию и тщательной проверке. Однако, слишком сосредотачиваясь на этом идеальном представлении о науке как о непогрешимом, беспристрастном методе, мы забываем, что на практике предубеждения преследуют нас на каждом этапе процесса: при чтении предыдущих трудов, продумывании исследования, получении данных, анализировании результатов и принятии решения, публиковать ли их[298]298
  В приложении к этой статье приведена полезная классификация подобных предубеждений: Sackett D. L. Bias in Analytic Research. The Case-Control Study Consensus and Controversy. Journal of Chronic Diseases. 32, no. 1–2 (1979): 51–63.


[Закрыть]
. Тенденция не замечать эти предубеждения превращает научную литературу, которая должна представлять собой точное изложение всего добытого человечеством знания, в крайне субъективный сплав правды и самообмана[299]299
  Вообще термином “предубеждение” обозначается все то, что систематически смещает результаты прочь от истины. “Систематичность” важна: в отличие от случайных ошибок (измерения и выборки), которые мы обсуждали в предыдущей главе, у предубеждений есть направленность. Случайные ошибки сродни автомобилю с неисправным рулем, беспорядочно вихляющему то вправо, то влево. А вот предубеждение – это автомобиль с перекошенной осью, которая все время утягивает его на одну какую-то сторону. Некоторые предубеждения могут вызываться факторами, не связанными с человеком: например, сбоящими приборами или “глюками” в программном обеспечении компьютера. Но нам сейчас интересны именно те предубеждения, в коих виноваты сами ученые.


[Закрыть]
.

Мы начнем эту главу с обсуждения такого предубеждения, которое затрагивает всю научную литературу в целом. Затем присмотримся к тому, как предубеждения влияют на результаты индивидуальных исследований. Для этого нам потребуется совершить небольшой экскурс в статистические методы, чтобы увидеть, как они используются, неверно применяются и неправильно понимаются учеными, анализирующими свои данные. И наконец, мы рассмотрим множество сил, как внутренних, так и внешних, отталкивающих ученых от истины.


Есть такой старый как мир философский вопрос: “Почему существует нечто, а не ничто?” Мы вправе сформулировать похожий вопрос о научном процессе: почему в исследованиях всегда находят что-то, а не ничего? Когда читаешь в газете научный раздел, простительно подумать, что прогнозы ученых постоянно оправдываются, а гипотезы вечно подтверждаются, тогда как исследований, в которых ничего интересного не находят, кот наплакал. Оно и понятно: в газетах ведь должны преподноситься “новости”, а не “летопись абсолютно обо всем, что произошло”. А вот научная литература должна быть летописью абсолютно всего, что в науке произошло, – однако демонстрирует то же пристрастие к новым и захватывающим историям. Если просмотреть научные журналы, то обнаружатся бессчетные положительные результаты (когда предсказания ученых оправдываются или обнаруживается что-то новое), но крайне мало результатов отрицательных[300]300
  В англоязычной литературе их также называют “нулевыми”.


[Закрыть]
(когда исследователи остаются с пустыми руками). Буквально через секунду мы вплотную займемся техническим, статистическим определением “положительных” результатов в противоположность “отрицательным”. А пока нам достаточно знать, что ученые обычно стремятся к первым и оказываются разочарованы, если получают вторые.

Специалист по метанауке Дэниел Фанелли в исследовании 2010 года определил, насколько же научная литература позитивна: он перебрал почти две с половиной тысячи статей по всем научным дисциплинам и подсчитал, в скольких из них сообщалось о положительных результатах проверки первой предложенной гипотезы. В различных областях науки уровень позитивности оказался разным. Самым низким (но при этом все равно высоким) – 70,2 % – характеризовались космические исследования, а самым высоким – и вряд ли вас это удивит – психология/психиатрия, где положительные результаты содержались в 91,5 % публикаций[301]301
  Fanelli D. “Positive” Results Increase Down the Hierarchy of the Sciences. PLOS ONE. 5, no. 4 (2010): e10068.


[Закрыть]
. Увязать столь поразительную успешность с уровнем воспроизводимости в психологии, мягко говоря, довольно сложно[302]302
  Есть некоторое расхождение во мнениях относительно того, уменьшается или увеличивается с течением времени количество положительных и отрицательных результатов. Одну точку зрения на этот вопрос см. здесь: Fanelli D. Negative Results Are Disappearing from Most Disciplines and Countries. Scientometrics. 90, no. 3 (2011): 891–904; другую – тут: De Winder J. C. F., Dodou D. A Surge of p-Values between 0.041 and 0.049 in Recent Decades (but Negative Results Are Increasing Rapidly Too). PeerJ. 3 (2015): e733.


[Закрыть]
.

Возможно, вас удивляет, почему это нам не следует ожидать высокого уровня успеха в научных исследованиях. В конце концов, ученые обладают фундаментальными знаниями в своей области, и гипотезы обычно являются обоснованными предположениями, а не случайными тычками пальцем в небо. Но, если только ученые не настоящие провидцы, трудно ожидать столь высокого уровня позитивности, какой получился у Фанелли. Где же все тупики, те великие идеи, что не выдержали испытания? Где все пробы и ошибки? Где, если уж на то пошло, все ложноотрицательные результаты, когда в ходе исследования не удается получить ожидаемый результат просто по невезению, несмотря на то что гипотеза верна? Иными словами, доля положительных результатов в научной литературе не просто высока, а нереалистично высока[303]303
  Есть и другая причина, почему уровень успеха выше 90 % служил бы плохим знаком, даже если бы он был точен и не происходило ничего подозрительного: это бы означало, что ученые настолько хорошо выбирают правильные гипотезы, что еще до того, как приступить к проверке, знают, что верно, а что нет. В подобном мире почти стопроцентного успеха ученые воздерживались бы от изучения подлинно новых, острых вопросов, ответы на которые куда более неопределенные, а исследования которых рискованнее. И таким образом они бы пренебрегали важной ролью науки – исследовать неизведанное и углублять наши знания о мире.


[Закрыть]
.

Есть очевидная, но огорчительная причина такой неуемной позитивности: ученые решают, публиковать ли исследование, на основании его результатов. В идеальном мире значение имела бы лишь методология исследования: если все согласны в том, что это хорошая проверка сформулированной гипотезы и работа хорошо продуманная, оно публикуется. Это было бы истинным воплощением мертоновской нормы бескорыстности, когда ученым полагается заботиться не о конкретных результатах (сама идея, что у ученых есть свои “излюбленные теории”, – посягательство на эту норму), а только лишь о строгости, с коей проводится изучение.

От реальности это, однако, далеко. Результаты, подтверждающие теорию, оформляются и с помпой подаются в журналы, тогда как разочаровывающие “провалы” (как часто воспринимаются отрицательные результаты) ученые без лишнего шума бросают и переходят к следующему проекту. И это касается не только самих исследователей: редакторы журналов и рецензенты тоже решают, принимать ли статьи к публикации, на основании того, насколько интересно выглядят открытия, и не обязательно обращают внимание на то, сколь дотошны были исследователи в своей работе. И круг замыкается: зачем исследователям утруждать себя подачей в журнал статьи с отрицательными результатами, если ее шансы быть принятой к публикации ничтожны?

Это называют публикационным смещением. Оно также известно под старым названием “проблема картотечного ящика”: поскольку в таком ящике ученым предписывалось хранить все свои отрицательные результаты – скрытыми от лишних глаз[304]304
  Rosenthal R. The File Drawer Problem and Tolerance for Null Results. Psychological Bulletin. 86, no. 3 (1979): 638–41.


[Закрыть]
. Подумайте об этом в контексте фразы “История пишется победителями”, только применительно к научным результатам, либо же так: “Если у вас нет для публикации никаких положительных результатов, не публикуйте ничего вообще”.

Чтобы понять, чем публикационное смещение оборачивается на практике, нам нужно подробнее обсудить, как ученые решают, что есть результаты “положительные”, а что “отрицательные”. А значит, как данные анализируются и интерпретируются. Мы возвращаемся к идее из предыдущей главы, когда мы говорили о сфабрикованных результатах: в числовых данных всегда есть шум. Всякому измерению и всякой выборке сопутствует некоторая случайная статистическая флуктуация – ошибка измерения и ошибка выборки. Ее не только трудно подделать человеку – ее еще и непросто отделить от сигнала, который ищут ученые. Зашумленность чисел то и дело подкидывает случайные выбросы и исключения, образуя распределения, которые могут на самом деле быть бессмысленными и обманчивыми. Скажем, когда вы видите очевидное различие по жалобам на боли между группой, принимающей ваше новое лекарство, и контрольной группой, принимающей плацебо, хотя объясняется оно чистой случайностью. Или, казалось бы, вы видите корреляцию между двумя измерениями, которая возникла абсолютно случайно и не появится снова, если исследование повторить. Или вы думаете, что обнаружили энергетический сигнал в ускорителе частиц, а это все случайные флуктуации. Как распознать, где интересующий вас эффект, а где – прихоти случая и ошибок? Для подавляющего большинства ученых ответ кроется в вычислении p-значения.

Откуда берется это p-значение (сокращение от probability value, “значение вероятности”)? Представьте, например, что мы хотим проверить гипотезу, согласно которой шотландские мужчины выше, чем шотландские женщины. Конечно, мы знаем, что в реальности так и есть: в среднем мужчины выше женщин где угодно в мире. Но еще мы знаем, что не всякий мужчина выше всякой женщины; любой из нас вспомнит конкретные случаи, где все наоборот[305]305
  Поскольку рост в разных странах отличается, австрийские женщины, как выясняется, в среднем выше перуанских мужчин (хотя разница между полами внутри каждой из этих стран сохраняется: перуанки ниже своих мужчин-соотечественников, а австрийцы выше австриек). https://en.wikipedia.org/wiki/Average_human_height_by_country#Table_of_Heights


[Закрыть]
. Предположим, однако, что мы на самом деле не знаем, есть ли в целом разница в росте между мужчинами и женщинами в Шотландии. Тамошнее население составляет лишь пять с половиной миллионов человек, но все равно мы не в силах измерить рост каждого из них, так что для нашего исследования составим случайную выборку более удобоваримого размера. Положим, денег на это исследование у нас маловато, поэтому осилить мы можем только выборку из десяти мужчин и десяти женщин. И вот тут-то в дело и вступает шум. Поскольку рост существенно варьирует от человека к человеку, в итоге у нас случайно – или, если воспользоваться термином, введенным выше, из-за ошибки выборки – может получиться группа из необычно высоких женщин и группа из непривычно низких мужчин. Мало того, так как невозможно полностью избавиться от ошибки измерения, в нашем распоряжении не будет абсолютно точных значений для роста каждого из участников (вспомните, как мы обсуждали в предыдущей главе, что человек может ссутулиться, рулетка – чуть съехать и так далее).

Скажем, мы обнаружили, что женщины в нашей выборке в среднем на десять сантиметров ниже мужчин[306]306
  Это было бы недооценкой реального показателя: согласно Wikipedia, средняя разница в росте между мужчинами и женщинами в Шотландии в 2008 году составляла 13,7 сантиметра. См. ссылку из предыдущего примечания.


[Закрыть]
. Как нам понять, отражает ли этот результат реальную разницу в популяции (это означало бы, что мы уловили верный сигнал), либо же это только шум (то есть все, что мы видим, случайно)? Нам нужно сравнить две группы в строгом статистическом тесте. Таковых бессчетное множество: z-тесты, t-тесты, критерии хи-квадрат, отношения правдоподобия и прочие; выбор зависит в том числе от типа данных, с которыми вы работаете. Фактически любой статистический тест сегодня проводится так: вы загружаете свои данные в компьютерную программу и на выходе наряду со многими другими полезными числами получаете соответствующее p-значение[307]307
  Конкретные детали того, как вычисляется p-значение, не обязательно нужны для понимания, как оно работает. Четкое введение в статистику как таковую см. здесь: Spiegelhalter D. The Art of Statistics: Learning from Data. London: Penguin, 2019. Доступное обсуждение более философских вопросов, касающихся статистики, см. тут: Dienes Z. Understanding Psychology as a Science: An Introduction to Scientific and Statistical Inference. New York: Palgrave Macmillan, 2008.


[Закрыть]
.

Хотя в науке p-значение в качестве статистического критерия используется едва ли не чаще всего, общеизвестно, что определение у него весьма мудреное. Недавняя проверка показала, что в целых 89 % учебников по введению в психологию из рассматривавшейся выборки определение дано неверное. Постараюсь не попасть сейчас тоже впросак[308]308
  Cassidy S. A. et al. Failing Grade: 89 % of Introduction-to-Psychology Textbooks That Define or Explain Statistical Significance Do So Incorrectly. Advances in Methods and Practices in Psychological Science. 2, no. 3 (2019): 233–9. См. также Hubbard R., Bayarri M. J. Confusion Over Measures of Evidence (p’s) Versus Errors (α’s) in Classical Statistical Testing. American Statistician. 57, no. 3 (2003): 171–8.


[Закрыть]
. P-значение – это вероятность, что ваши результаты будут выглядеть так, как они выглядят, или еще лучше, если интересующего вас эффекта на самом деле нет[309]309
  Позиция Американской статистической ассоциации по вопросу p-значений удивительно доходчиво изложена здесь: Wasserstein R. L., Lazar N. A. The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician. 70, no. 2 (2016): 129–33. Там дается такое определение p-значению: “в рамках конкретной статистической модели это вероятность того, что статистический вывод по данным (то есть различие в средних по выборке между двумя сравниваемыми группами) будет таким же или еще значительнее, чем полученный”.


[Закрыть]
. Важно, что p-значение не говорит нам о вероятности того, что результат верен (что бы это ни значило), и не сообщает, насколько он важен. Оно лишь дает ответ на вопрос: если на самом деле эффект нулевой, каковы были шансы все равно получить те же результаты, что у вас на руках, или демонстрирующие, казалось бы, даже еще больший эффект?[310]310
  Здесь нужно оговорить еще два момента. Во-первых, другое распространенное заблуждение относительно p-значения заключается в том, что оно якобы показывает, насколько вероятна “нулевая гипотеза”, то есть насколько вероятно, что в ваших данных нет никакого эффекта (и обычно вы хотите, чтобы эта вероятность была низкой). Но это не так – на самом деле, как я указал в своем определении, p-значение предполагает, что эффекта нет (то есть оно предполагает, что “нулевая гипотеза” верна). Оно также предполагает, что верно и много чего другого о ваших данных: есть некоторые чисто математические допущения о формах распределения переменных, а также более сложные предположения, касающиеся того, стопроцентно ли ученые честны при описании исследования и сколько всего p-значений они вычислили. Как мы узнаем дальше из этой главы, такие предположения часто неверны. Чем сильнее нарушаются эти предположения, тем менее надежным и вразумительным становится p-значение. Во-вторых, почему в определении p-значения (“если на самом деле эффект нулевой, каковы были шансы все равно получить те же результаты, что у вас на руках, или демонстрирующие, казалось бы, даже еще больший эффект?”) есть оговорка “еще больший эффект”? (В определении от Американской статистической ассоциации ту же роль выполняют слова “или еще значительнее”.) Она необходима, поскольку вероятность получить любое конкретное значение крайне мала: представьте, например, насколько редко мы получали бы для своей выборки разницу в росте, в точности равную, скажем, 10,00144983823 сантиметра, если бы нам пришлось повторять свое исследование с шотландскими женщинами и мужчинами бесконечное число раз. Это четко определенное число было бы крайне маловероятным, независимо от того, есть ли в действительности разница в росте на уровне популяции, так что p-значение, которое просто говорило бы нам, насколько малы шансы получить вот это конкретное число, едва ли сильно бы нам помогало. Вот для чего нужна добавка “еще больший эффект”. В нашем вымышленном примере – единожды проведенном исследовании, в котором между выбранными наугад десятью мужчинами и десятью женщинами обнаружилась разница в росте десять сантиметров, – p-значение, равное 0,03, означало бы, что если бы “реального” эффекта в популяции шотландцев не существовало, то вероятность обнаружить разницу в десять сантиметров или больше была бы 3 %.


[Закрыть]

Предположим, в нашем исследовании роста p-значение оказалось равным 0,03. Это значит, что если бы в реальности между мужчинами и женщинами в популяции шотландцев не было никакой разницы в росте и мы составляли бы бесконечное число выборок вроде исходных, то лишь в 3 % случаев наблюдали бы разницу в десять сантиметров или больше. В этих 3 % случаев мы бы совершали ошибку, утверждая, что шотландские мужчины в среднем выше, чем шотландские женщины. Иначе говоря, обнаружить разницу в росте, равную или превышающую ту, что получилась для нашей выборки, было бы весьма маловероятно (однако не невозможно), если бы женщины и мужчины в Шотландии на самом деле по росту не отличались.

И поэтому для большинства случаев чем меньше p-значение, тем лучше. Но насколько маленьким оно должно быть, чтобы мы уверились в том, что наш результат обусловлен не шумом? Или по-другому: с насколько высокой вероятностью получить ложноположительный результат (когда мы совершаем ошибку, заявляя, что эффект есть, тогда как его на деле нет) должны мы мириться?[311]311
  Сразу же хочется сказать, что неплохо было бы иметь нулевые или очень близкие к нулю шансы получить ложноположительный результат. Но тут правит компромисс. Если мы будем чересчур осторожничать насчет того, какие результаты принимать, то увеличим вероятность пропустить реальные эффекты в своих наборах данных (то есть совершить ложноотрицательную ошибку).


[Закрыть]
Чтобы помочь ученым принимать решения, основоположник статистики Рональд Фишер в 1920-х годах предложил установить пороговое значение, выше которого соответствующий результат будет рассматриваться как отрицательный (ибо слишком уж походит на то, что мы наблюдали бы, если бы ничего на самом деле не происходило), а ниже – как “статистически значимый”.

Этот термин породил немало путаницы. Для современного уха “значимый” звучит так, будто указывает на значительный или важный тем или иным образом эффект. Однако, как мы только что обсудили, это не то, что подразумевается под p-значением, каким бы малым оно ни было. Величина эффекта (показывающая, например, насколько шотландцы выше своих соотечественниц; в нашем примере величина эффекта равняется десяти сантиметрам) – это не то же самое, что вероятность получить такие же результаты, если на самом деле эффекта нет (то есть если мужчины и женщины в Шотландии в среднем одного роста). Скажем, какое-нибудь лекарство, вполне возможно, очень мало помогает при болезни, но вы в достаточной степени уверены, что его эффект не является ложноположительным результатом, – влияние лекарства небольшое, но при этом статистически значимое. Во времена Фишера люди понимали слово “значимый” несколько иначе: подразумевалось, что результат “обозначил” нечто любопытное в данных, хотя, чем бы то ни было, оно не обязательно заслуживало внимания в смысле “реальности”[312]312
  Salsburg D. The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century. New York: Holt, 2002.


[Закрыть]
.

Так или иначе, Фишер изначально предложил установить “статистически значимый” порог на уровне 0,05 – это значит, что мы должны мириться не более чем с пятипроцентной вероятностью ложноположительного результата в рамках одного испытания (обратите внимание: это означает, что в нашем исследовании, посвященном росту, с p-значением 0,03 результат статистически значимый).

Уровень 0,05 выбран довольно-таки произвольно. Похожим образом на великолепном шотландском сайте taps-aff.co.uk, где отслеживается погода по всей стране, любая область с температурой, превышающей 17 градусов Цельсия (около 63 градусов по Фаренгейту), автоматически объявляется зоной “майки долой”[313]313
  В оригинале taps aff – на шотландском диалекте английского это tops off. Отсюда и название сайта.


[Закрыть]
– имеется в виду, что там достаточно тепло, чтобы мужчины имели полное право разгуливать на улице с голым торсом[314]314
  www.taps-aff.co.uk. Создатель этого чудесного сервиса, который на самом деле учитывает не просто температуру, а куда больше показателей, – Колин Уодделл.


[Закрыть]
. Семнадцать градусов – вполне разумный порог, но произвольный: пожалуй, некоторые мужчины и не подумают обнажаться, пока температура не поднимется до 20 градусов, а самые закаленные, возможно, начнут скидывать с себя одежду уже при 15 градусах. Поэтому Фишер позднее заметил, что каким-то исследователям, наверное, захочется установить критерий значимости иначе, в зависимости от предмета изучения[315]315
  То же было предложено в статье, которая стала частью серьезной дискуссии об уровне значимости. Lakens D. et al. Justify Your Alpha. Nature Human Behaviour. 2, no. 3 (2018): 168–71.


[Закрыть]
. Так, порог в “пять сигм”, активно обсуждавшийся физиками ЦЕРН после открытия бозона Хиггса в 2012 году, был просто вычурным способом говорить о крайне низком p-значении, использовавшемся для столь важного результата[316]316
  Spiegelhalter D. Explaining 5-Sigma for the Higgs: How Well Did They Do? Understanding Uncertainty. 8 July 2012.


[Закрыть]
: “пять сигм” соответствуют p-значению, примерно равному 0,0000003. Вбухав в строительство Большого адронного коллайдера колоссальные ресурсы, физики действительно не хотели обмануться шумом в своих числовых данных, поэтому установили очень высокий порог, который доказательство должно было преодолеть.

Если же оставить в стороне исключения вроде бозона Хиггса, порог 0,05 по общему соглашению, традиции и инерции остается на сегодня самым широко используемым критерием. Он заставляет ученых лихорадочно рыться в своих статистических таблицах, отыскивая p-значения ниже 0,05, чтобы иметь право сказать: результаты статистически значимы. Легко позабыть о произвольности этого выбора. Ричард Докинз сетовал на “дискретное мышление” – склонность человека мыслить отдельными, строго определенными категориями, а не беспорядочными, размытыми и неоднозначными, которые и характеризуют наш реальный мир[317]317
  Dawkins R. The Tyranny of the Discontinuous Mind. New Statesman. 19 Dec. 2011. Обсуждение этого вопроса также можно найти в прекрасной книге Докинза: Dawkins R., Wong Y. The Ancestor’s Tale: A Pilgrimage to the Dawn of Life. London: Weidenfeld & Nicolson, 2016. [Докинз Р. Рассказ предка. Паломничество к истокам жизни. М.: Corpus, 2015.]


[Закрыть]
. В качестве примера можно привести споры об абортах, когда внимание часто заостряется на том, в какой момент эмбрион или плод становится “личностью”, как будто тут вообще возможно провести четкую границу для принятия решения. Аналогично в эволюционной биологии, собственной области интересов Докинза, пытаться указать точный момент, когда один вид эволюционирует в другой, – дело безнадежное, как бы нам того ни хотелось. То же и с p-значением: порог отсечения 0,05 для статистической значимости подталкивает исследователей к тому, чтобы считать результаты, преодолевающие эту границу, так или иначе “правдивыми”, а остальные – безнадежными “нулевыми”. Однако значение 0,05 – это такая же условность, как и “правило 17 градусов” для оголения торса или, если говорить чуть серьезнее, как общественное заключение, что человек официально становится взрослым точно в определенный день рождения.


Прежде чем пуститься в этот несколько затруднительный (но необходимый) статистический обход, мы познакомились с понятием “публикационное смещение” – тенденцией ученых публиковать только положительные результаты и скрывать отрицательные. Теперь мы знаем, как они обычно принимают решение: “значимые” результаты, преодолевающие сакральное пороговое p-значение в 0,05, радостно подаются в журналы, тогда как остальные складываются в “картотечный ящик”. Отождествление произвольно заданного Фишером статистического порога и “правдивости” или важности результата пагубно повлияло на научную летопись.

Иногда мы замечаем характерные следы публикационного смещения, если рассматриваем весь сегмент научной литературы в целом. Такой широкий взгляд зачастую принимает форму метаанализа, в ходе которого за счет объединения результатов множества исследований, посвященных какой-то одной теме, можно вычислить общий эффект (иногда его называют, пожалуй, искушая судьбу, “истинным” эффектом). Это может быть, скажем, общее влияние вакцины на снижение смертности от какой-то болезни или общая связь между изменением климата и урожайностью[318]318
  Влиянию вакцинации на снижение смертности от болезни был посвящен самый первый в истории метаанализ по медицинской теме – его провел статистик Карл Пирсон в 1904 году (для брюшного тифа), хотя методика еще не получила названия “метаанализ”. Pearson K. Report on Certain Enteric Fever Inoculation Statistics. BMJ. 2, no. 2288 (1904): 1243–6. Познавательная история и обзор метаанализа изложены здесь: Gurevitch J. et al. Meta-Analysis and the Science of Research Synthesis. Nature. 555, no. 7695 (2018): 175–82. Изменение климата: Challinor A. J. et al. A Meta-Analysis of Crop Yield under Climate Change and Adaptation. Nature Climate Change. 4, no. 4 (2014): 287–91.


[Закрыть]
.

Подбирая релевантные исследования, специалисты по метаанализу уделяют большое внимание двум показателям. Первый – величина эффекта. Для двух наших примеров это будет выглядеть так: вакцина снижает смертность лишь на несколько случаев в год (маленький эффект) или спасает ежегодно тысячи жизней (значительный эффект)? Изменение климата оказывает небольшое, приемлемое влияние на пищевую культуру или же разрушительное? Мы знаем, что из-за ошибки измерения и ошибки выборки различные исследования могут давать очень разные оценки для величины эффекта, поэтому неблагоразумно было бы полагаться на оценку, полученную лишь в одной работе. Поскольку обычно по какому-либо вопросу лучше раздобыть больше доказательств (и поскольку случайные флуктуации, вызываемые ошибками, для разных выборок должны нивелировать друг друга), общая величина эффекта, вычисляемая в ходе метаанализа, считается, как правило, более надежной, чем оценки из отдельных исследований.

При метаанализе общий эффект вычисляется не просто усреднением всех значений для величины эффекта, полученных во включенных туда исследованиях. Учитывается еще и второй показатель, которому специалисты по метаанализу уделяют особое внимание: размер выборки. При прочих равных условиях ожидается, что крупные исследования, раз они содержат больше данных, ближе подбираются к “истинному” эффекту (среднему для всей популяции). Иными словами, наилучшая оценка истинного эффекта, полученная в масштабных работах, будет, как правило, точнее, чем оценка из работ небольших[319]319
  Так будет, если все остальные условия совершенно одинаковы. Однако на точность результатов исследования помимо размера выборки влияет еще много других факторов, например качество измерений. Хотя размер выборки обычно служит неплохим показателем, сейчас большинство специалистов по метаанализу используют более непосредственную меру точности результата – так называемое стандартное отклонение (стандартную ошибку среднего). Именно его чаще всего откладывают по вертикальной оси на воронкообразных диаграммах.


[Закрыть]
. Для нашего исследования жителей Шотландии с выборкой из десяти мужчин и десяти женщин легко представить себе, как мы случайно могли сделать нерепрезентативную выборку из нетипично низких мужчин или нетипично высоких женщин – и в итоге прийти к неверному выводу. Но вообразите, что мы сделали выборку из тысячи мужчин и тысячи женщин – тогда риск по случайности отобрать тысячу человек с необычной характеристикой, очевидно, гораздо меньше, чем при отборе лишь десяти. Это общее соображение справедливо для большинства ситуаций: в небольших исследованиях, которые представляют собой более ограниченные срезы реальности и сильнее подвержены влиянию ошибки выборки, вариабельность будет выше, то есть истинный эффект будет либо переоценен, либо недооценен больше. Вот почему при метаанализе больший вес придается величине эффекта, получившейся в масштабных исследованиях, ведь обычно они точнее[320]320
  При вычислении p-значений более существенные флуктуации небольших исследований учитываются. Если бы в действительности между мужчинами и женщинами в Шотландии различия в росте не было, то маловероятно было бы обнаружить в выборке столь значительную разницу, как десять сантиметров, однако это все равно могло бы получиться случайно при измерениях в маленькой выборке. Напомню, что p-значение для разницы в десять сантиметров в нашей выборке из десяти мужчин и десяти женщин равнялось 0,03. Вероятность обнаружить такую же разницу в десять сантиметров в выборке из тысячи мужчин и тысячи женщин была бы чрезвычайно мала, так что p-значение было бы мизерным (скажем, 0,0000001 или меньше). В таком случае у нас имелось бы более надежное свидетельство того, что в популяции действительно есть “истинный” эффект. Этот пример показывает нам, почему p-значение не является мерой величины или важности результата: одинаковая величина эффекта может давать разные p-значения – в зависимости от размера выборки.


[Закрыть]
.

Что же касается публикационного смещения, нас интересует, как величина эффекта и размер выборки друг с другом соотносятся. Если в одной системе координат по осям отложить два этих параметра, так чтобы каждая точка соответствовала одному исследованию, логично будет ожидать увидеть что-то вроде диаграммы, изображенной на рисунке 2А. (Обратите внимание: это идеализированная версия метаанализа, реальные наборы данных почти никогда не выглядят столь четко.) Глядя на эту “воронкообразную диаграмму” (названную так по очевидной, надеюсь, причине), вы можете заметить, насколько сильно разбросаны точки, соответствующие небольшим исследованиям, то есть располагающиеся ближе к горизонтальной оси. По мере того как мы поднимаемся по вертикали, точки, соответствующие уже более масштабным исследованиям, начинают собираться вокруг среднего эффекта, иллюстрируя принцип, который мы только что обсудили: более масштабные исследования точнее. Разброс вдоль горизонтальной оси показывает, почему принимать как данность эффект, оцененный в любом отдельном исследовании, – плохая идея: несмотря на то что в данном примере есть реальный эффект, отдельные исследования искажают его “истинную” величину в меньшую или большую сторону в различной степени (тогда как самые масштабные исследования демонстрируют несравненную точность). В любом случае все кажется закономерным: форма перевернутой воронки – это именно то, чего и следовало бы ожидать, если бы все исследования сходились к реальному эффекту.


Рис. 2. Два разных варианта воронкообразной диаграммы, полученные в ходе воображаемых метаанализов. На диаграмме А распределение тридцати точек примерно такое, какого следовало бы ожидать, если бы результаты каждого когда-либо проводившегося исследования на данную тему были опубликованы. На диаграмме Б шесть точек из левой нижней области (исследования с маленькими выборками и небольшими эффектами) пропали – такая картина может быть признаком публикационного смещения. Вертикальная линия посередине каждой из двух диаграмм показывает общую величину эффекта, вычисленную в ходе соответствующего метаанализа. На диаграмме Б она сдвинута вправо, а значит, в ходе этого метаанализа эффект получен больше, чем он должен быть


Как при археологических раскопках, когда отсутствие определенных предметов сообщает любопытную информацию об изучаемых исторических персонажах (например, отсутствие оружия указывает на то, что они были скорее гражданскими лицами, чем военными), мы можем многое узнать, проанализировав, чего в метаанализе не наблюдается. Что, если наша диаграмма больше походит на рисунок 2Б, когда утерян участок ожидаемой формы? Точки, соответствующие исследованиям с маленькими выборками и небольшими эффектами, которые мы бы ожидали увидеть в левой нижней части воронки, пропали. Рассуждая как археолог, специалист по метаанализу вправе заключить, что такие исследования проводились, но их результаты авторы, вместо того чтобы опубликовать, погребли в “картотечном ящике”. Почему? Вероятное объяснение: в этих исследованиях с маленькими выборками и небольшими эффектами p-значения получились выше 0,05 – и результаты сочли бесполезными, отрицательными.

Наверное, ученые, проводившие исследования, рассуждали примерно так: “Что ж, исследование небольшое, поэтому обнаруженный маленький эффект объясняется, пожалуй, просто зашумленными данными. Если подумать, глупо было вообще надеяться обнаружить здесь какой-то эффект! Нет никакого смысла публиковать эти результаты”. Важно, однако, что они не занимались бы подобной рационализацией задним числом, если бы то же самое исследование при небольшой выборке – с его потенциально зашумленными данными – показало значительный эффект, а охотно отослали бы свои положительные результаты в журнал. В этих двойных стандартах, в основе которых лежит неистребимая в человеке склонность к подтверждению своей точки зрения (интерпретировать данные так, чтобы подтверждались собственные априорные убеждения и ожидания), и коренится публикационное смещение.

При сравнении общих выводов из метаанализов, соответствующих рисункам 2Б и 2А, видно, как публикационное смещение искажает научную литературу. Если из воронкообразной формы удалены исследования с маленькими эффектами, то общий эффект, который получится в метаанализе, будет по определению больше оправданного. Мы получаем завышенную оценку важности эффекта и можем прийти к неверному заключению, поверив, что нечто существует, хотя на деле это не так. Не публикуя отрицательные или неоднозначные результаты исследований, ученые нацепляют шоры на любого читателя научной литературы.

Одна из самых поразительных недавних воронкообразных диаграмм была получена в метаанализе психологом Дэвидом Шэнксом и его коллегами[321]321
  Shanks D. R. et al. Romance, Risk, and Replication: Can Consumer Choices and Risk-Taking Be Primed by Mating Motives? Journal of Experimental Psychology: General. 144, no. 6 (2015): e142–58. Другой пример, на сей раз касающийся денежного прайминга, со сходными результатами: Lodder P. et al. A Comprehensive Meta-Analysis of Money Priming. Journal of Experimental Psychology: General. 148, no. 4 (2019): 688–712.


[Закрыть]
. Они изучали еще одну вариацию прайминга – “романтический прайминг”. Согласно этой идее, после того как мужчинам показали фотографию привлекательной женщины, они рвутся принимать на себя бо́льшие риски и больше тратить на потребительские товары (занимаясь “показным потреблением” для привлечения партнеров). Пятнадцать опубликованных на эту тему статей, описывающие в общей сложности сорок три отдельных эксперимента, вроде бы подтверждали такую гипотезу. Тем не менее, когда в ходе метаанализа по точкам, соответствующим этим исследованиям, была построена диаграмма, от воронки оказался откушен огромный кусок: веское доказательство, что многие из работ, в которых эффект не проявился, опубликования не удостоились. И действительно, когда Шэнкс с коллегами попытался воспроизвести эффект романтического прайминга в собственных масштабных экспериментах, тот вообще никак не проявился – значения для величины эффекта во всех повторах стремились к нулю.

Не менее ярко публикационное смещение выражено в медицине. Так, в анализе 2007 года обнаружилось, что в более чем 90 % статей, описывающих эффективность прогностических тестов при раке, сообщалось о положительных результатах. В реальности мы до сих пор не особенно хорошо предсказываем, у кого будет рак, а стало быть, что-то с этой литературой не в порядке[322]322
  Kyzas P. A. et al. Almost All Articles on Cancer Prognostic Markers Report Statistically Significant Results. European Journal of Cancer. 43, no. 17 (2007): 2559–79.


[Закрыть]
. В другом исследовании, когда изучалось сорок девять метаанализов, посвященных потенциальным маркерам заболеваний сердечно-сосудистой системы (например, в крови тех, кто в группе риска по инфаркту, определенных белков может присутствовать больше), было показано, что в целых тридцати шести из них есть следы пристрастия к положительным результатам[323]323
  Tzoulaki I. et al. Bias in Associations of Emerging Biomarkers with Cardiovascular Disease. JAMA Internal Medicine. 173, no. 8 (2013): 664.


[Закрыть]
. Иными словами, опубликованные статьи явно сильно раздували кажущуюся полезность этих биомаркеров.

Внимание! Это не конец книги.

Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!

Страницы книги >> Предыдущая | 1 2 3 4 5 6 7
  • 0 Оценок: 0

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации