Текст книги "Искусство статистики. Как находить ответы в данных"

Текст добавлен: 15 декабря 2020, 11:20

Автор книги: Дэвид Шпигельхалтер

Жанр: Базы данных, Компьютеры

Возрастные ограничения: +16

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 6 (всего у книги 19 страниц) [доступный отрывок для чтения: 6 страниц]

Скачать книгу

Шрифт:

- 100% +

Внимательно посмотрите на табл. 4.2. Хотя общий процент зачисления выше у мужчин, на каждую отдельную дисциплину он выше у женщин. Как мог возникнуть такой парадокс? Объяснение заключается в том, что женщины чаще подавали заявления на более популярные, конкурентные дисциплины – медицину и ветеринарию, и реже – на инженерию, где у них более высокий процент поступления. Поэтому мы можем заключить, что никаких подтверждений дискриминации нет.

Таблица 4.2

Иллюстрация парадокса Симпсона на примере данных о поступлении в Кембриджский университет в 1996 году. Общий процент зачисленных абитуриентов выше у мужчин, однако процент зачисления на каждую дисциплину отдельно выше у женщин

Описанная ситуация известна как парадокс Симпсона[103]103
Назван в честь английского статистика Эдварда Симпсона (1922–2019), описавшего парадокс в 1951 году. Впрочем, об этом эффекте упоминал Карл Пирсон еще в 1899 году и шотландский математик Джордж Удни Юл в 1903-м. Прим. пер.

[Закрыть], который возникает, когда видимое направление взаимосвязи становится обратным с учетом возмущающего фактора. В результате вывод, извлеченный из данных, становится противоположным. Статистики наслаждаются поиском подобных примеров в реальной жизни, так как каждый из них подчеркивает, насколько осторожно нужно обращаться с наблюдательными данными. Тем не менее такие случаи показывают идеи, возникающие при разделении данных по факторам, которые могут объяснить наблюдаемые связи.

Добавляет ли близость к супермаркету Waitrose 36 тысяч фунтов к стоимости вашего дома?

В 2017 году британские СМИ опрометчиво опубликовали заявление, что соседство с супермаркетом сети Waitrose «добавляет 36 тысяч фунтов к цене дома»[104]104
‘Waitrose Adds £36,000 to House Price’, Daily Mail, 29 May 2017.

[Закрыть]. Однако это было не исследование изменения цен на жилье в связи с открытием нового супермаркета, и Waitrose, конечно же, не размещает свои магазины случайным образом: эти данные всего лишь корреляция между ценами на жилье и близостью супермаркетов, особенного таких высококлассных, как Waitrose.

Эта корреляция практически наверняка отражает политику Waitrose по открытию магазинов в более богатых районах, а потому представляет собой прекрасный пример того, что фактическая причинно-следственная связь является полной противоположностью заявлению в газете. Неудивительно, что она называется обратной причинной зависимостью. Более серьезные примеры встречаются в исследованиях, изучающих взаимосвязь между употреблением алкоголя и состоянием здоровья: как правило, показатель смертности у непьющих людей в целом существенно выше, чем у умеренно пьющих. Как это понимать, учитывая, что мы знаем о влиянии алкоголя на печень? Частично это объясняется обратной причинной зависимостью: люди, которые умирают с более высокой вероятностью, не пьют, потому что уже больны (возможно, из-за чрезмерного употребления алкоголя в прошлом). Сегодня более тщательный анализ исключает бывших алкоголиков, а также игнорирует неблагоприятные для здоровья события, происходящие в первые несколько лет исследования, поскольку они могут быть результатом предыдущих условий. Однако даже при таких исключениях некоторая общая польза для здоровья от умеренного употребления алкоголя, похоже, остается, хотя и активно оспаривается.

Еще одно забавное упражнение – попробовать сочинить историю с обратной причинной зависимостью для любого статистического заявления, основанного исключительно на корреляции. Моя любимая история – о корреляции между потреблением безалкогольных газированных напитков американскими подростками и их склонностью к насилию. Хотя одна газета преподнесла это так: «Газированные напитки делают подростков жестокими»[105]105
‘Fizzy Drinks Make Teenagers Violent’, Daily Telegraph, 11 October 2011.

[Закрыть], что, скорее всего, так же правдоподобно, как и утверждение, что насилие вызывает жажду. Или, что более правдоподобно, мы могли бы придумать некие общие факторы, влияющие на обе величины, например принадлежность к какой-то группе сверстников. Потенциальные причины, которые мы не измеряем, называются скрытыми факторами, поскольку они остаются на заднем плане, не входят в поправки и только и ждут подходящего момента, чтобы опровергнуть наивные выводы из наблюдательных данных.

Вот еще несколько примеров того, как легко поверить в наличие причинно-следственной связи, хотя на самом деле на события влияет посторонний фактор.

• У многих детей диагностируется аутизм после вакцинации. Вызывает ли вакцинация аутизм? Нет, но эти события возникают примерно в одном возрасте, а потому неизбежны случайные совпадения.

• Среди ежегодно умирающих людей доля левшей меньше, чем во всей популяции. Означает ли это, что левши живут дольше? Нет, это происходит потому, что те, кто умирает сейчас, родились во времена, когда детей насильственно переучивали пользоваться правой рукой, поэтому пожилых левшей меньше[106]106
S. Coren and D. F. Halpern, ‘Left-Handedness: A Marker for Decreased Survival Fitness’, Psychological Bulletin 109 (1991), 90–106. Критику см. в работе ‘Left-Handedness and Life Expectancy’, New England Journal of Medicine 325 (1991), 1041–3.

[Закрыть].

• Средний возраст смерти римских пап выше, чем в среднем в популяции. Означает ли это, что избрание папой помогает жить дольше? Нет, просто пап выбирают из группы людей, которые не умерли молодыми (в противном случае они не были бы кандидатами)[107]107
J. A. Hanley, M. P. Carrieri and D. Serraino, ‘Statistical Fallibility and the Longevity of Popes: William Farr Meets Wilhelm Lexis’, International Journal of Epidemiology 35 (2006), 802–5.

[Закрыть].

Миллионы способов, которыми нас можно поймать в ловушку, могут подтолкнуть к мысли, что причинно-следственную связь можно выявить только в рандомизированном эксперименте. Но, по иронии судьбы, эту точку зрения опроверг человек, отвечавший за первое современное рандомизированное клиническое исследование.

Как сделать заключение о причинной связи по наблюдательным данным?

Остин Брэдфорд Хилл был блестящим британским прикладным статистиком, находящимся в авангарде двух изменивших мир научных достижений: он разработал упомянутые ранее клинические испытания стрептомицина, которые фактически установили стандарты для всех последующих РКИ, и провел вместе с Ричардом Доллом в 1950-х годах исследование, по сути, подтвердившее связь между курением и раком легких. В 1965 году он изложил список критериев, которые необходимо учесть, прежде чем делать вывод о том, что наблюдаемая связь между воздействием и результатом является причинной. Под воздействием здесь понимается что угодно – от химических веществ в окружающей среде до таких привычек, как курение или недостаточное количество физических упражнений.

Впоследствии эти критерии широко обсуждались. Представленная ниже версия разработана Джереми Хоуиком с коллегами, которые выделили в ней прямые, механистические и параллельные доказательства[108]108
J. Howick, P. Glasziou and J. K. Aronson, ‘The Evolution of Evidence Hierarchies: What Can Bradford Hill’s “Guidelines for Causation” Contribute?’, Journal of the Royal Society of Medicine 102 (2009), 186–94.

[Закрыть].

Прямое доказательство:

1. Масштаб эффекта настолько велик, что его нельзя объяснить разумными возмущающими факторами.

2. Существует соответствующая временная и/или пространственная близость, когда причина предшествует эффекту, а эффект возникает через разумный интервал, и/или причина происходит в том же месте, что и эффект.

3. Чувствительность к дозе и обратимость: при увеличении воздействия эффект увеличивается. Подтверждение еще сильнее, если эффект уменьшается при уменьшении дозы.

Механистическое доказательство:

4. Существует правдоподобный механизм действия, который может быть биологическим, химическим или механическим, с внешним подтверждением «причинно-следственной цепочки».

Параллельное доказательство:

5. Эффект соответствует тому, что уже известно.

6. Эффект обнаруживается при повторном воспроизведении исследования.

7. Эффект выявляется в аналогичных, но не идентичных исследованиях.

Такие принципы позволяют выявить причинно-следственную связь в наборе разрозненных данных даже при отсутствии рандомизированных испытаний. Например, установлено, что при втирании аспирина в ротовой полости (например, для облегчения зубной боли) образуются язвочки. Эффект силен (удовлетворяет критерию 1), происходит при втирании (2), является правдоподобной реакцией на кислотный компонент препарата (3), не противоречит современным научным данным и аналогичен известному эффекту, при котором аспирин вызывает язву желудка (4), а также регулярно наблюдается у различных пациентов (5). Итого соблюдены пять из семи критериев, оставшиеся два не проверялись, поэтому вполне резонно заключить, что мы имеем дело с истинной побочной реакцией на препарат.

Критерии Брэдфорда Хилла применяются к общим научным заключениям, касающимся генеральных совокупностей. Но нас могут интересовать и отдельные случаи – например, в гражданской тяжбе, когда суду нужно решить, привело ли определенное воздействие (скажем, наличие асбеста на работе) к негативному результату для конкретного лица (например, к раку легких у Джона Смита). Никогда нельзя установить с полной уверенностью, что асбест стал причиной рака, поскольку невозможно доказать, что без асбеста рак не развился бы. Тем не менее некоторые суды признают, что по «принципу большей вероятности» прямая причинная связь установлена, если показатель относительного риска, связанного с воздействием, превосходит 2. Но почему именно 2?

Предположительно аргументация этого решения такова:

1. Допустим, при обычных обстоятельствах из 1000 человек, подобных Джону Смиту, раком легких заболеют 10. Если асбест повышает риск более чем вдвое, то при его воздействии на 1000 человек наблюдалось бы, возможно, 25 случаев рака.

2. Таким образом, среди тех, кто подвергался воздействию асбеста и получил рак легких, меньше половины заболели бы раком при отсутствии асбеста.

3. Следовательно, более половины случаев рака в этой группе вызваны асбестом.

4. А поскольку Джон Смит принадлежит к этой группе, по принципу большей вероятности его рак вызван асбестом.

Подобные рассуждения привели к появлению новой области науки – судебной эпидемиологии, которая пытается использовать сведения, полученные из общей популяции, для заключения о том, что могло стать причиной конкретных событий. По сути, эта дисциплина обязана своим появлением людям, требующим компенсаций, но это очень интересная область для статистических рассуждений о причинно-следственных связях.

Правильная трактовка причинно-следственной связи по-прежнему остается предметом жарких споров в статистике, неважно, касается это фармацевтических препаратов или больших ушей, и без рандомизации редко удается сделать надежные выводы. Один творческий подход основывается на том, что многие гены распределяются по популяции фактически случайным образом, поэтому мы как будто рандомизированы при зачатии – получилась вот такая версия. Этот подход известен как менделевская рандомизация, названная так в честь Грегора Менделя, автора учения о наследственности[109]109
Менделевская рандомизация использовалась, например, для проверки спорного вопроса о том, приносит ли умеренное потребление алкоголя пользу здоровью. У людей, которые никогда не употребляли алкоголь, как правило, более высокий уровень смертности, чем у умеренно пьющих, но есть разногласия во мнениях, обусловлено это алкоголем или трезвенники менее здоровы по каким-то иным причинам. Одна версия гена связана с пониженной переносимостью алкоголя, поэтому унаследовавшие его люди пьют меньше. Носители гена и те, у кого его нет, должны быть сбалансированы по всем остальным факторам, из-за чего какая-либо систематическая разница в их здоровье может быть приписана именно этому гену – словно в рандомизированном испытании. Исследователи обнаружили, что люди с этим геном, как правило, более здоровы, и пришли к заключению, что в целом алкоголь вреден. Однако для подтверждения такого вывода нужны дополнительные предположения, и споры не утихают. См. Y. Cho et al., ‘Alcohol Intake and Cardiovascular Risk Factors: A Mendelian Randomisation Study’, Scientific Reports, 21 December 2015.

[Закрыть].

Чтобы максимально учесть все возмущающие факторы и тем самым приблизиться к оценке реального эффекта воздействия, были разработаны и другие сложные статистические методы, в значительной степени основанные на важной идее регрессионного анализа. И за это мы снова должны поблагодарить богатое воображение Фрэнсиса Гальтона.

Выводы

• Причинность в статистическом анализе означает, что при нашем вмешательстве шансы различных исходов изменяются по определенной системе.

• Причинно-следственную связь трудно установить статистически, однако хорошо спланированные рандомизированные исследования – наилучшая возможная схема.

• Принципы слепоты, анализа по назначенному лечению и прочего позволяют проводить масштабные клинические исследования для выявления умеренных, но важных эффектов.

• Наблюдательные данные могут отличаться фоновыми факторами, которые влияют на видимые наблюдаемые взаимосвязи между воздействием и результатом. Они могут оказаться либо наблюдаемыми возмущающими, либо скрытыми факторами.

• Для поправки на прочие факторы существуют специальные статистические методы, однако всегда требуется уточнение о степени уверенности, с которой можно говорить о предполагаемой причинно-следственной связи.

Глава 5. Моделирование зависимости с помощью регрессии

Идеи, изложенные в предыдущих главах, позволяют визуализировать и находить характеристики данных, а также рассматривать зависимости между парами переменных. Эти базовые методы могут помочь нам проделать будущий довольно долгий путь, хотя в целом современные данные намного сложнее. Часто появляется список переменных, возможно, имеющих отношение к вопросу, одна из них нам особенно интересна при объяснении или прогнозировании, будь то риска развития рака для одного человека или будущего жителей целой страны. В этой главе мы познакомимся с идеей статистической модели – формальным представлением взаимоотношений между переменными, – которую сможем использовать для желаемого объяснения или прогноза. Это означает неизбежное появление определенных математических идей, однако базовые концепции должны быть понятны без применения алгебры.

Но прежде вернемся к Фрэнсису Гальтону. Он был одержим идеей сбора данных (что характерно для классического джентльмена-ученого Викторианской эпохи), и обращение к мудрости толпы для выяснения массы быка – это всего лишь один из примеров. Он использовал свои наблюдения для составления прогнозов погоды, оценки эффективности молитвы и даже для сравнения относительной красоты молодых женщин в различных частях страны[110]110
Как писал Гальтон, «я ставлю Лондон на первое место по красоте, а Абердин на последнее».

[Закрыть]. Он также разделял интерес своего двоюродного брата Чарльза Дарвина к наследственности и намеревался изучить способы изменения личных характеристик людей от поколения к поколению. В частности, его заинтересовал такой вопрос:

Как предсказать будущий рост детей по росту их родителей?

В 1886 году Гальтон опубликовал данные о росте большой группы родителей и их взрослых детей. Характеристики выборки приведены в табл. 5.1[111]111
M. Friendly et al., ‘HistData: Data Sets from the History of Statistics and Data Visualization’ (2018), https://CRAN.R-project.org/package=HistData.

[Закрыть]. Рост людей в выборке Гальтона близок к росту современных взрослых (как сообщалось, средний рост взрослых женщин и мужчин в Соединенном Королевстве в 2010 году составлял примерно 63 и 69 дюймов [160 и 175 сантиметров соответственно]), что говорит о том, что эти люди хорошо питались и обладали высоким социально-экономическим статусом[112]112
Вот для сравнения российские данные примерно того же времени. Дмитрий Николаевич Анучин приводит величины среднего роста новобранцев в Российской империи для второй половины XIX века: Московская губерния – 164,4 см; Нижегородская – 164,0 см; Варшавская – 162,1 см. Выше всего средний рост призывников в Курляндской губернии – 167,0 см. «Очень высокорослыми рекрутами» именуются люди с ростом выше 177,8 см. (Д. Н. Анучин, «О географическом распределении роста мужского населения России [по данным о всеобщей воинской повинности в Империи за 1874–1883 гг.]: сравнительно с распределением роста в других странах: (с десятью раскрашенными картами)» / [соч.] проф. Д. Н. Анучина. – С.-Петербург: в тип. В. Безобразова и К°, 1889). Прим. пер.

[Закрыть].

Таблица 5.1

Характеристики выборки роста (в дюймах) 197 родительских пар и их взрослых детей, по данным Гальтона 1886 года. Для справки: 64 дюйма = 163 см, 69 дюймов = 175 см. Даже без построения диаграммы близость выборочных средних и медианы позволяет предположить, что распределение симметрично

Рис. 5.1 – это точечная диаграмма, где отображен рост 465 сыновей в зависимости от роста их отцов. Между ростом отцов и сыновей четко прослеживается корреляция, при этом коэффициент корреляции Пирсона равен 0,39. Как нам поступить, если мы хотим предсказать рост сына по росту его отца? Начать можно с построения прямой линии для прогноза: она позволит указать рост сына по росту отца. Первая мысль – провести линию точно «по диагонали», то есть при таком прогнозе рост сына будет точно таким же, как и у отца. Однако, оказывается, есть способ лучше.

Рис. 5.1

Точки отображают рост отцов и их сыновей, по данным Гальтона (многие отцы повторяются, потому что у них несколько сыновей). Для разделения точек добавлен случайный разброс, а диагональная пунктирная линия демонстрирует точное равенство между ростом отцов и сыновей. Сплошная линия – стандартная «прямая наилучшего соответствия» (регрессионная прямая). У каждой точки есть «остаток» (вертикальные пунктирные линии) – разность между наблюдаемым значением и значением, которое предсказывает регрессионная модель

Какую бы прямую мы ни выбрали, у любой точки данных будет остаток (вертикальные пунктирные линии на диаграмме), который представляет собой величину допускаемой ошибки при использовании для прогноза этой линии. Нам нужна линия, которая делает эти остатки маленькими, и стандартный способ ее провести – это выбор прямой по методу наименьших квадратов, то есть прямой, для которой сумма квадратов всех остатков будет наименьшей[113]113
Можно было бы проводить прямую, которая минимизирует сумму абсолютных величин этих остатков, а не сумму их квадратов, однако без современных компьютеров это практически невозможно.

[Закрыть]. Уравнение для такой прямой получить несложно (см. глоссарий); этот метод разработан одновременно, но независимо друг от друга французскими математиками Адриеном-Мари Лежандром и Карлом Фридрихом Гауссом в конце XVIII века. Прямую часто называют прямой наилучшего соответствия, и с ее помощью определяется лучший прогноз, который мы можем сделать для роста сына, зная рост его отца.

Линия, построенная по методу наименьших квадратов на рис. 5.1, проходит через середину облака точек, отражая средние значения роста для отцов и сыновей, но не совпадая с диагональю, отображающей «равенство». Она ниже диагонали у отцов выше среднего и выше диагонали у отцов ниже среднего роста. Это означает, что у высоких отцов сыновья в среднем ниже их, а у низкорослых – в среднем выше их. Гальтон назвал это явление «регрессией[114]114
То есть возвратом. Прим. пер.

[Закрыть] к посредственности», а позднее оно стало именоваться «регрессией к среднему значению», или «регрессом к среднему». Аналогичный феномен отмечается и для матерей и дочерей: дочери более высоких матерей в среднем ниже их, а низкорослых – в среднем выше. Это объясняет происхождение термина в названии главы: со временем любая стохастическая зависимость, определяемая по данным, стала называться регрессией.

В регрессионном анализе зависимой переменной (или переменной отклика) называется величина, которую мы хотим предсказать или объяснить; обычно ее откладывают по вертикальной оси y. Независимая переменная (или объясняющая переменная) – это величина, которую мы используем для прогноза или объяснения; обычно она откладывается по горизонтальной оси x. Наклон (точнее, угловой коэффициент) регрессионной прямой называется коэффициентом регрессии.

Табл. 5.2 показывает корреляцию между ростом родителей и потомков, а также наклон для регрессионных прямых[115]115
Например, мы можем предсказать рост дочери, используя формулу: средний рост всех дочерей + 0,33 × (рост матери – средний рост всех матерей).

[Закрыть]. Существует простая зависимость между угловыми коэффициентами, коэффициентом корреляции Пирсона и стандартными отклонениями и переменными[116]116
См. статью о методе наименьших квадратов в глоссарии.

[Закрыть]. В реальности если у зависимой и независимой переменной среднеквадратичные отклонения одинаковы, то угловой коэффициент просто совпадает с коэффициентом корреляции Пирсона, что и объясняет их сходство в табл. 5.2.

Таблица 5.2

Коэффициенты корреляции между ростом взрослых детей и родителей того же пола, а также коэффициенты регрессии для роста детей по отношению к росту родителей

Смысл углового коэффициента полностью зависит от наших предположений о взаимосвязи между изучаемыми переменными. Для корреляционных данных угловой коэффициент показывает, какое среднее изменение зависимой переменной можно ожидать, если значение независимой переменной изменится на единицу. Например, если Алиса на 1 дюйм выше Бетти, то мы можем предсказать, что взрослая дочь Алисы будет на 0,33 дюйма выше, чем взрослая дочь Бетти. Конечно, мы не ожидаем, что этот прогноз будет соответствовать их истинной разнице в росте, но это наилучшее предположение, которое мы можем сделать исходя из имеющихся данных.

Однако если мы предполагаем причинно-следственную связь, то у углового коэффициента будет совершенно иная интерпретация: это изменение, которого мы можем ожидать в зависимой переменной, если вмешаемся и изменим значение независимой переменной на единицу. Это точно не относится к примеру с ростом, так как рост нельзя изменить экспериментальным путем (по крайней мере, для взрослых). Даже с учетом описанных выше критериев Брэдфорда Хилла статистики, как правило, неохотно признают причинно-следственную связь без проведения эксперимента. Впрочем, некоторые исследователи, включая Джуда Перла, добились значительного прогресса в построении моделей причинной регрессии для наблюдательных данных[117]117
J. Pearl and D. Mackenzie, The Book of Why: The New Science of Cause and Effect (Basic Books, 2018), p. 471.

[Закрыть].

Линии регрессии – это модели

Линия регрессии для роста отцов и сыновей – очень простой пример статистической модели. Федеральная резервная система США определяет модель как «представление некоторого аспекта мира, основанное на упрощающих предположениях»: по сути, какое-нибудь явление представляется в математической форме, встраивается в программное обеспечение, а затем создается упрощенная «воображаемая» версия реальности[118]118
Прекрасное обсуждение рисков моделирования см. в работе: A. Aggarwal et al., ‘Model Risk – Daring to Open Up the Black Box’, British Actuarial Journal 21:2 (2016), 229–96.

[Закрыть].

У статистических моделей есть два основных компонента. Первый – это математическая формула, которая выражает детерминистский, предсказуемый компонент, например формула прямой линии, позволяющая нам делать прогноз о росте сына, зная рост его отца. Однако такая детерминистская часть модели не будет идеальным отображением реального мира. Как мы видели на рис. 5.1, рост весьма сильно рассеян вокруг регрессионной прямой. Разница между тем, что предсказывает модель, и тем, что происходит на самом деле, – второй компонент модели, известный как остаточная ошибка, хотя важно помнить, что в статистическом моделировании термин «ошибка» означает не какой-то просчет, а неизбежную неспособность модели точно представить наблюдаемый мир. Поэтому в целом мы можем считать, что

наблюдение = детерминистская модель + остаточная ошибка.

Эта формула может быть истолкована как утверждение, что в статистическом мире то, что мы видим и измеряем, можно рассматривать как сумму систематической математической идеализированной формы и некоего случайного компонента, который пока нельзя объяснить. Классическая идея сигнала и шума.

Уменьшают ли камеры контроля скорости количество ДТП?

Этот раздел содержит простой урок: тот факт, что мы что-то делаем и что-то меняется, сам по себе не означает, что мы несем ответственность за результат. Похоже, людям трудно уловить эту простую истину, мы всегда стараемся придумать какое-то объяснение, причем гораздо охотнее, если лично находимся в центре ситуации. Конечно, иногда такая интерпретация верна: если вы щелкнете выключателем и зажжется свет, то обычно ответственны вы. Но иногда ваши действия определенно не отвечают за результат: если вы не взяли зонтик, а пошел дождь, в том нет вашей вины (хотя может показаться, что это так). Однако порой последствия наших действий менее ясны. Предположим, у вас болит голова, вы приняли аспирин, и боль прошла. Но откуда вам знать, что она не прекратилась бы, если бы вы не принимали таблетку?

У нас сильная психологическая склонность приписывать перемены какому-нибудь вмешательству, и это делает сравнения «до и после» ненадежными. Классический пример относится к камерам контроля скорости, которые обычно размещают в местах повышенной аварийности. Последующее снижение аварийности приписывают наличию камер. Но разве не понизился бы этот уровень в любом случае?

Полосы удач и неудач не бесконечны, и в конце концов все возвращается на круги своя – это тоже можно воспринимать как регресс к среднему, как у высоких отцов, имеющих более низких в среднем сыновей. Но когда мы убеждены, что полосы везения-невезения отражают постоянное состояние дел, мы ошибочно будем рассматривать возврат к нормальному состоянию как следствие какого-либо нашего вмешательства. Возможно, все это кажется вам очевидным, но эта простая идея имеет примечательные последствия:

• Преемникам футбольных тренеров, уволенных после череды неудач, лавры достаются всего лишь за возврат к нормальному состоянию.

• Управляющие фондами ухудшают показатели эффективности работы после нескольких успешных лет (и вероятного получения хороших бонусов).

• «Проклятие обложки Sport Illustrated»: как только спортсмены за свои достижения попадают на обложку этого известного журнала, их результаты резко ухудшаются.

Удача играет немалую роль в положении спортивных команд в турнирной таблице, а регресс к среднему означает, что можно ожидать того, что команды, преуспевающие в этом году, ухудшат игру в следующем, а плохо играющие сегодня улучшат ситуацию в будущем, особенно если команды примерно равны по силам. Напротив, видя такие изменения, мы можем подозревать, что работает регресс к среднему, и не стоит слишком обращать внимание на заявления о влиянии, скажем, новых методов тренировок.

В турнирных таблицах ранжируются не только спортивные команды. Рассмотрим таблицы Международной программы по оценке образовательных достижений учащихся (PISA), где сравниваются результаты преподавания математики в школах разных стран. Изменение положения страны в сводной таблице за 2003–2012 годы отрицательно коррелирует с начальным ее положением в списке. Иными словами, страны из верхней части списка имеют тенденцию опускаться, а из нижней части – подниматься: коэффициент корреляции равен –0,60. Однако определенные теоретические выкладки показывают, что если бы ранжирование было полностью случайным и действовал исключительно регресс к среднему, то для коэффициента корреляции можно было бы ожидать значения –0,71, которое не очень отличается от реально наблюдаемого[119]119
По сути, мы говорим, что изменения будут коррелировать с исходными измерениями, даже если в реальности никаких изменений в базовом процессе не происходит. Мы можем выразить это математически. Предположим, я беру случайное наблюдение X из генеральной совокупности с каким-то распределением. Потом беру другое независимое наблюдение Y с тем же распределением и смотрю на их разность Y – X. Справедливо замечательное утверждение: коэффициент корреляции между величиной X – Y и первым наблюдением X равен –1/√2 = –0,71, причем вне зависимости от распределения генеральной совокупности. Например, если у какой-то женщины есть ребенок, а затем ребенок появляется у ее подруги, то они начинают сравнивать вес детей, вычитая вес второго ребенка из веса первого. Тогда эта разность будет иметь корреляцию –0,71 с весом первого ребенка. Объяснение тут простое: если первый ребенок легкий, то мы, по всей вероятности, можем ожидать, что второй будет тяжелее, поэтому разница будет положительной. А если первый ребенок тяжелый, то мы ожидаем, что второй будет легче, и разница между их весом будет отрицательной.

[Закрыть]. Это говорит о том, что различия между странами меньше, чем заявляется, и что у изменений в таблицах мало общего с изменениями в методиках преподавания.

Регресс к среднему проявляется и в клинических испытаниях. В предыдущей главе мы узнали, что для правильной оценки нового лекарственного препарата нужно провести рандомизированные испытания, поскольку даже люди из контрольной группы демонстрируют улучшение состояния – так называемый эффект плацебо. Это часто истолковывают так: простой прием сахарной пилюли (предпочтительно красной) на самом деле благотворно влияет на здоровье человека. Но значительная часть улучшений у людей, не проходивших активного лечения, может приходиться на регресс к среднему, поскольку пациентов включают в испытания, когда у них есть определенные симптомы, а многие из симптомов пропали бы в любом случае. Так что если мы хотим знать подлинный эффект установки камер контроля скорости в местах повышенной аварийности, нам нужно подойти к этому вопросу так же, как к проверке фармацевтического препарата, и распределить камеры случайным образом. (После проведения таких исследований оказалось, что примерно две трети пользы от камер приходится на регресс к среднему[120]120
L. Mountain, ‘Safety Cameras: Stealth Tax or Life-Savers?’, Significance 3 (2006), 111–13.

[Закрыть].)

Если у нас есть несколько независимых переменных

Со времен первой работы Гальтона появилось множество расширений базовой идеи регрессии, в значительной степени подкрепленных современными вычислительными возможностями. Такие обобщения включают:

• несколько независимых (объясняющих) переменных;

• независимые переменные, которые не являются числами;

• зависимости, которые отображаются не прямыми, а кривыми, и гибко подстраиваются под закономерность в данных;

• зависимые переменные, которые не являются непрерывными.

В качестве примера наличия более одной независимой переменной рассмотрим, как рост сына или дочери зависит от роста их отца и матери. Теперь точки на диаграмме расположены в трех измерениях, и на странице книги изобразить это сложнее. Однако мы по-прежнему можем применить метод наименьших квадратов, чтобы вывести формулу, которая наилучшим образом предскажет рост потомства. В этом случае говорят о множественной линейной регрессии[121]121
Слово «линейный» отражает тот факт, что в итоговое уравнение входит линейная комбинация независимых переменных (то есть сумма переменных, умноженных на какие-то коэффициенты). Такая модель называется линейной.

[Закрыть]. Когда у нас была всего одна независимая переменная, связь с зависимой переменной показывал наклон (угловой коэффициент) прямой, который одновременно интерпретировался как коэффициент в уравнении регрессии. Эту идею можно распространить на несколько независимых переменных.

В табл. 5.3 приведены результаты для семей Гальтона. Как можно интерпретировать показанные здесь коэффициенты? Прежде всего они являются частью формулы, которую можно использовать для прогнозирования роста взрослого потомства у конкретных отца и матери[122]122
Независимые переменные стандартизированы путем вычитания выборочного среднего. Таким образом, чтобы спрогнозировать рост сына, мы используем формулу: 69,2 + 0,33 (рост матери – средний рост матерей) + 0,41 (рост отца – средний рост отцов).

[Закрыть]. Одновременно они также иллюстрируют идею поправки для наблюдаемого отношения, учитывая третий, возмущающий фактор.

Таблица 5.3

Результаты множественной линейной регрессии для роста взрослого потомства в зависимости от роста их отцов и матерей. Отсекаемый на прямой отрезок (сдвиг) – это средний рост потомства (табл. 5.1). Коэффициенты линейной регрессии показывают прогнозируемое изменение в росте потомков при изменении среднего роста родителей на 1 дюйм

Например, мы видели в табл. 5.2, что угловой коэффициент регрессионной прямой, связывающей рост дочерей и матерей, равнялся 0,33 (вспомните, что угловой коэффициент прямой наилучшего приближения для точечной диаграммы – это всего лишь другое название коэффициента регрессии). Табл. 5.3 показывает, что если мы учтем еще и влияние роста отца, то этот коэффициент уменьшится до 0,30. Аналогично, если мы учтем при прогнозировании роста сына еще и рост матери, то коэффициент регрессии для отца снизится с 0,45 в табл. 5.2 до 0,41 в табл. 5.3. Таким образом, влияние роста одного родителя слегка снижается, если учитывать рост второго. Причиной может быть тот факт, что рост родителей не совсем независимая величина, ведь высокие женщины чаще выходят замуж за высоких мужчин. В целом эти данные говорят о том, что изменение роста отца на 1 дюйм сильнее сказывается на росте взрослого ребенка, чем изменение роста матери на 1 дюйм. Множественная регрессия часто используется, когда исследователей интересует одна объясняющая переменная, а остальные служат в качестве поправок для учета дисбаланса.

Давайте вернемся к шведскому исследованию опухолей мозга, о котором мы упоминали в главе 4, иллюстрируя то, как СМИ неверно трактуют причинность. В регрессионном анализе количество опухолей рассматривалось как зависимая переменная (переменная отклика), а образование как независимая (объясняющей) переменная. В регрессионную модель включались и другие факторы: возраст при диагностике, календарный год, регион Швеции, семейное положение и доход; все это считалось потенциальными возмущающими переменными. Поправка на возмущения была попыткой выделить чистую зависимость между образованием и опухолями мозга, однако полной адекватности здесь все равно никогда не добиться. Всегда будет оставаться подозрение, что могут срабатывать какие-то скрытые факторы, например, такой: более образованные люди больше заботятся о здоровье, поэтому активнее занимаются диагностикой.

В рандомизированном испытании нет необходимости вносить поправки из-за возмущающих факторов, поскольку случайное распределение по группам гарантирует, что все факторы, кроме изучаемого, будут равномерно сбалансированы между группами. Однако исследователи часто все равно проводят регрессионный анализ – на случай, если вкрадется какой-либо дисбаланс.

Различные виды зависимых переменных

Не все данные являются непрерывными измерениями, такими как рост. В статистическом анализе зависимые переменные часто могут иметь другой вид: доля случаев, когда произошло какое-нибудь событие (например, доля людей, переживших операцию), количество каких-нибудь событий (например, число выявленных случаев рака в год в определенном регионе) или продолжительность времени до определенного события (например, количество лет, которое пациент прожил после операции). Для каждого из таких видов зависимых переменных существуют собственные формы множественной регрессии, и соответственно меняется интерпретация получающихся коэффициентов[123]123
Следующая таблица показывает виды множественной регрессии, используемые для различных типов зависимых переменных, а также интерпретацию коэффициента для каждой независимой переменной. (Для просмотра таблицы перейти в текст сноски.)

[Закрыть].

Рассмотрим данные об операциях на сердце у детей, которые обсуждались в главе 2, где на рис. 2.5(a) показаны доли пациентов, переживших операцию, и количество операций, проведенных в каждой из больниц в 1991–1995 годах. На рис. 5.2 снова представлена точечная диаграмма и линия регрессии, которая построена без учета точки-выброса, соответствующей бристольской больнице.

Внимание! Это не конец книги.

Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!

Купить легальную копию

Страницы книги >> Предыдущая | 1 2 3 4 5 6

Скачать книгу "Искусство статистики. Как находить ответы в данных"

- 50
- 1
- 2
- 3
- 4
- 5
2.5 Оценок: 6

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?

Текст книги "Искусство статистики. Как находить ответы в данных"

Автор книги: Дэвид Шпигельхалтер

Жанр: Базы данных, Компьютеры

Глава 5. Моделирование зависимости с помощью регрессии

Линии регрессии – это модели

Популярные книги за неделю

Жанры библиотеки

Популярные серии книг

По году издания

Рекомендации