Текст книги "Цифры врут. Как не дать статистике обмануть себя"
Автор книги: Дэвид Чиверс
Жанр: Прочая образовательная литература, Наука и Образование
Возрастные ограничения: +12
сообщить о неприемлемом содержимом
Текущая страница: 3 (всего у книги 11 страниц) [доступный отрывок для чтения: 3 страниц]
Глава 5
Статистическая значимость
Верно ли, что мужчины больше едят в присутствии женщин, чтобы произвести на них впечатление? Так утверждалось в новости, вышедшей в 2015 году в The Daily Telegraph. Об этом же исследовании писали и в Reuters, и в The Economic Times в Индии.
В тех публикациях говорилось, что в присутствии женщин мужчины едят на 93 % больше пиццы и на 86 % больше салата, чем в присутствии других мужчин. Они опирались на исследования Брайана Вансинка, психолога из лаборатории пищевых продуктов и торговых марок Корнеллского университета, и двух его соавторов.
Вы уже могли догадаться, в историях, о которых мы рассказываем в этой книге, не все числа надежны. Однако в данном случае это не вина журналистов. Здесь само исследование оказалось совершенно неправильным, и этот случай очень показателен: на его примере видно, как работает и не работает наука. Чтобы разобраться, почему приведенной статистике нельзя доверять, нам придется углубиться в механизмы научной деятельности. Если вы в них разберетесь, то многое из того, о чем мы расскажем в последующих главах, будет гораздо прощепо– нять.
Почти в любой публикации о науке и числах встречается термин «статистическая значимость». Вам простительно думать, что речь идет о важности чисел, о которых вы читаете. К сожалению, все намного сложнее. Вот что это значит, согласно публикации 2019 года:
В предположении, что верна нулевая гипотеза и что исследование повторяется бесконечное число раз с помощью случайных выборок из той же самой совокупности людей, менее 5 % этих результатов будут более экстремальны, чем текущий результат.
Стало понятнее? Давайте разбираться.
Предположим, мы хотим что-то выяснить. Например, помогает ли чтение книг с названием «Цифры врут» лучше понимать статистику, которая приводится в новостях. Возьмем солидную выборку из тысячи человек: в нее войдут некоторые из тех миллионов людей, кто прочитал эту книгу, а также несколько людей, которые – увы! – этого не сделали. (Для простоты будем считать, что до того, как кто-то ознакомился с нашим трудом, группы были совершенно одинаковыми; хотя понятно, что на самом деле покупатели этой книги в среднем намного талантливее, умнее и красивее, чем остальное население.)
Потом проведем среди этих людей несложный тест, чтобы проверить их знания статистики и узнать, лучше ли результаты у тех, кто прочитал книгу.
Предположим, что да, лучше. А как узнать, не простая ли это случайность? Наши читатели действительно лучше справляются с тестом или это случайная вариация? Для ответа на этот вопрос мы воспользуемся специальной методикой – проверкой достоверности (или проверкой гипотезы).
Так, предположим, что «Цифры врут» никак не влияют на читателей, и представим результаты. Это называется нулевой гипотезой. При другом варианте – альтернативной гипотезе – книга произвела некий положительный эффект.
Это хорошо иллюстрируется графиком. Если верна нулевая гипотеза, то пик кривой будет возле среднего значения – большинство людей окажется в середине, оттеснив на края тех немногих, кто выполнит тест очень хорошо или очень плохо. Сама кривая будет похожа на кривую нормального распределения из главы 3. При этом среднее значение и график кривой окажутся похожими у обеих групп (тех, кто прочитал книгу, и тех, кто этого не сделал).
Если же верна альтернативная гипотеза, то средний балл читателей будет выше среднего балла другой группы и кривая распределения для этой группы сместится вправо.
Но даже если верна нулевая гипотеза и книга не оказывает никакого эффекта; если – внезапно – окажется, что обе группы одинаково хорошо разбираются в статистике, все равно останется одна проблема – вам не избежать случайных вариаций. У кого-то будет просто неудачный день. Вспомните фильм «Осторожно! Двери закрываются» – Гвинет Пэлтроу в одной вселенной пропускает свой поезд, опаздывает на наш тест, расстраивается и сдает его плохо; а в другой – приходит вовремя, блестяще отвечает на вопросы и влюбляется в Джона Ханну. Пунктуальность и душевное равновесие, вероятно, не сделают из девушки эксперта по статистике, однако благоприятно отразятся на результатах теста. Есть некоторая (пусть и небольшая) доля случайности в том, насколько хорошо каждый участник выполнит задания.[12]12
В оригинальном фильме Хелен (Гвинет Пэлтроу), главная героиня, не решает никаких математических задач: в одной параллельной вселенной она успевает на последний поезд и узнает об изменах бойфренда, в другой – опаздывает и остается в неведении. – Прим. ред.
[Закрыть]
Если несколько не читавших книгу выполнят тест очень плохо, а несколько прочитавших – очень хорошо, это может заметно изменить среднее значение – покажется, что читатели в общем проходят тест намного лучше.
Итак, представим, что по какой-то причине ваши результаты говорят, что читатели лучше справляются с тестом. Теперь важно узнать, насколько вероятно получить такие (или еще более экстремальные) результаты, если верна ваша нулевая гипотеза – чтение книги не влияет, а все вариации случайны. Это и называется проверкой достоверности.
Нет конкретного значения, при котором абсолютно ясно, что нулевая гипотеза неверна: теоретически даже самые сильные различия могут оказаться случайными. Но чем больше разница, тем меньше шансов, что это случайно. Ученые измеряют шансы случайного совпадения с помощью вероятности, или p-значения.
Чем менее правдоподобна случайность какого-нибудь события, тем меньше p. Если есть только один шанс из ста, что получится не менее экстремальный результат, если чтение книги не оказывает никакого эффекта, то p = 0,01. (Однако это не значит – и это ИСКЛЮЧИТЕЛЬНО ВАЖНО, настолько, что мы дважды напишем «ИСКЛЮЧИТЕЛЬНО ВАЖНО» прописными буквами, что вероятность того, что данный результат неверен, составляет одну сотую. Мы позже вернемся к этому, а пока просто отметим как факт.)
Во многих науках принято считать, что если p меньше или равно 0,05 – иными словами вы ожидаете увидеть столь экстремальные результаты не более чем в 5 % случаев, – то открытие статистически значимо, а нулевую гипотезу можно отвергнуть.
Предположим, что при тестировании средний балл у людей, прочитавших книгу, действительно оказался выше. Если p-значение такого результата меньше 0,05, будем считать, что мы достигли статистической значимости, отвергнем нулевую гипотезу (что книга не приносит пользы) и примем альтернативную (книга помогает лучше понимать статистику). Величина p-значения здесь показывает нам, что будь нулевая гипотеза верна и проведи мы тестирование сто раз, наши читатели показали бы не меньшее преимущество перед второй группой менее чем в пяти случаях.
* * *
Статистическая значимость сбивает с толку даже ученых. Исследование 2002 года показывает, что 100 % студентов-психологов и, хуже того, 90 % их преподавателей неправильно трактуют этот термин. В другом исследовании выяснилось, что в 25 из 28 рассмотренных учебников по психологии есть хотя бы одна ошибка в данном определении.
Давайте же разберемся с некоторыми возможными заблуждениями. Во-первых, важно помнить, что статистическая значимость – понятие условное. Нет ничего магического в числе 0,05. Вы можете взять за основу другое: меньшее, тем самым объявляя недостоверными большее число результатов (отнеся их к категории случайных), или большее, расширяя границы статистически значимых данных. Чем выше планка, тем выше риск ложноположительных результатов, чем ниже – тем выше риск ложноотрицательных. Ужесточив критерий, мы можем подумать, что чтение книги никак не сказывается, хотя на самом деле это не так. Ну и, конечно, наоборот.
Во-вторых, статистически значимый результат не обязательно значим в обыденном смысле. Например, если в группе тех, кто книгу не читал, средний балл – 65, а в другой – 68, то результат вполне может считаться статистически значимым, но для вас он вряд ли важен. Статистическая значимость какого-то результата характеризует вероятность его случайного получения, а не его важность.
И в-третьих: p = 0,05 для вашего результата не гарантирует, что вероятность ложности вашей гипотезы составляет всего одну двадцатую. Это самое распространенное заблуждение, и оно лежит в основе многих научных ошибок.
Проблема же в том, что хотя выбор в качестве границы статистической значимости числа 0,05 совершенно условен, ученые и – что еще важнее – редакции научных журналов принимают ее за точку отсечения. Если для ваших результатов p = 0,049, у вас есть шансы их опубликовать, а если p = 0,051, то такие шансы ничтожны. А ученым нужны публикации их исследований, чтобы получить грант, найти постоянную должность и вообще рассчитывать на карьерный рост. Поэтому они крайне заинтересованы в получении статистически значимых результатов.
Вернемся же к нашему эксперименту. Мы хотим показать, что эта книга помогает лучше разбираться в статистике и достойна попасть в список бестселлеров Sunday Times; и после этого, надеемся, будем получать приглашения на престижные коктейльные вечеринки. Но мы получаем лишь p = 0,08.
Наверное, просто не повезло, думаем мы. И повторяем эксперимент – достигаем 0,11. И еще, и еще, и еще раз, пока наконец не выходит 0,04. Потрясающе! Мы докладываем о результатах и дальше припеваючи живем на роялти с продажи книги. Только это почти наверняка ложноположительный результат. Если провести эксперимент 20 раз, вполне можно ожидать один случайный результат.
Есть и другие способы достичь желаемого. Мы можем по-разному тасовать данные. Например, не только считать баллы, но и измерять, насколько быстро люди проходят тест, или оценивать красоту почерка. Пусть читатели книги не получают более высокие баллы, но вдруг они быстрее справляются с тестом? Или у них улучшился почерк? А можно отбросить самые крайние результаты, назвав их выбросами. Если ввести достаточно параметров и по-разному сочетать их или внести в данные необходимые и кажущиеся разумными поправки, то по чистой случайности рано или поздно наверняка найдется что-то подходящее.
Теперь вернемся к мужчинам, пытающимся покорить женщин хорошим аппетитом. В конце 2016 года Вансинк, ведущий автор того исследования, опубликовал в своем блоге пост – «Аспирантка, которая никогда не говорила „нет“». Это положило конец его карьере.
Вансинк написал о новой турецкой аспирантке, пришедшей в его лабораторию. Он дал ей данные провалившегося эксперимента, который проводился без внешнего финансирования и имел нулевые результаты. (Это был месячный эксперимент, в ходе которого одним людям продавали входные билеты в итальянский ресторан со шведским столом по цене в два раза выше, чем другим.) Вансинк предложил ей проанализировать данные, потому что, по его мнению, из них можно было что-нибудь извлечь.
По его рекомендации аспирантка сделала это десятками различных способов и – вас это не должно удивить – нашла кучу корреляций. В нашем воображаемом эксперименте с чтением книги мы бы точно так же могли перебирать данные на разные лады, пока бы не обнаружили что-нибудь со значением p < 0,05. На основании полученного набора данных аспирантка с Вансинком опубликовали пять статей, включая ту самую. В ней утверждалось, что в присутствии женщин мужчины едят больше пиццы (p < 0,02) и салата (p < 0,04).
Пост в блоге насторожил ученых. Описанная в нем практика называется p-подгонкой (p-hacking) – это перетряхивание данных в поисках утверждений, позволяющих преодолеть барьер в p = 0,05 и опубликовать статью. Методологически подкованные исследователи стали пересматривать все старые статьи Вансинка, а научная журналистка из BuzzFeed News Стефани Ли получила от своего источника электронную переписку ученого с сотрудниками и опубликовала ее. Оказалось, что он рекомендовал аспирантке разбивать данные на «мужчин, женщин, обедающих, ужинающих, питающихся в одиночку, по двое, в группах более двух человек, заказывающих алкогольные или безалкогольные напитки, садящихся рядом со шведским столом или далеко от него и т. п.».
В старых публикациях Вансинка обнаружились и другие проблемы методологического характера, а его имейлы указывали на порочную статистическую практику. Например, он писал: «Мы должны получить из этого намного больше… Думаю, стоит перебрать данные в поисках значимых и увлекательных утверждений». Он хотел, чтобы их исследование «стало вирусным».
Этот случай по-настоящему драматичен. Но вообще p-подгонка – в менее драматичных формах – происходит постоянно. Обычно она вполне невинна. Ученым нужно добиться p < 0,05 для публикаций, поэтому они повторяют исследования или заново анализируют результаты старых. Возможно, вы слышали о «кризисе воспроизводимости»: многие важные открытия в психологии и иных науках оказались неверными, когда другие ученые попытались повторить эксперименты первооткрывателей. Он произошел именно потому, что ученые не осознавали этой проблемы: они пересортировывали свои данные и повторяли эксперименты до тех пор, пока не получали статистически значимые результаты, не понимая, что таким образом работа становится бессмысленной. Мы еще вернемся к этому вопросу в главе 15, «В погоне за новизной».
Для того чтобы вскрыть ситуацию с Вансинком, потребовались месяцы кропотливой работы добросовестных статистически подкованных исследователей и опытного научного журналиста. По большей части научные журналисты пишут новости на базе пресс-релизов. Они вряд ли могут выявить p-подгонку, даже имея на руках наборы данных, которых у них обычно нет. А исследования, созданные в результате p-подгонки, имеют незаслуженное преимущество: их легче сделать сенсационными, ведь для них необязательна правдивость. Поэтому именно они так часто появляются в СМИ.
Читателям непросто выявить такие публикации. Но важно понимать, что статистически значимые утверждения не обязаны быть ни реально значимыми, ни верными.
Глава 6
Размер эффекта
Насколько опасно проводить время перед экраном? В последние годы мы слышали самые разные страшилки, вот наиболее яркие: «айфоны разрушили поколение» и «для девочек социальные сети намного опаснее героина» (сейчас это утверждение из статьи изъято). Подобные исследования трудны и противоречивы: сложно получить хорошие данные и устранить ложные корреляции. Впрочем, по-настоящему серьезные работы дают намного меньше поводов для беспокойства.
Особенно много внимания привлекает вопрос о связи гаджетов и сна. В 2014 году, например, вышла статья под кричащим (возможно, даже орущим) заголовком: «Чтение с экрана перед сном может убить вас». Статья опиралась на публикацию из Proceedings of the National Academy of Sciences.
Рассуждение было простым: недостаток сна вреден для здоровья, исследование показало, что чтение с экрана сокращает время сна; следовательно, чтение с экрана может оказаться смертельным.
Начнем с начала. Исследование действительно показало, что продолжительность чтения с экрана сказывается на продолжительности сна. Участникам предлагалось один вечер читать электронную книгу, а следующий – бумажную. (Расписание составлялось случайным образом: часть испытуемых начинали с бумажной книги, часть – с электронной; вдруг это тоже влияет на результаты.)
Был получен статистически значимый результат (p < 0,01), который, как объяснялось в главе 5, означает: если бы никакой связи не существовало, то при стократном повторении эксперимента такое резкое различие встретилось бы менее одного раза. Только это было очень небольшое исследование (всего 12 участников), а, как мы узнали в главе 3, небольшие выборки могут приводить к странным открытиям. Правда, при основательном подходе они могут быть полезными и прокладывать направления будущих исследований.
При этом, как отмечалось в главе 5, статистически значимый не равно значимый. Такой результат с большой вероятностью верен, только и всего. Следует учитывать размер эффекта. «Размер эффекта» – в отличие от «статистической значимости» – значит именно то, что написано: это просто размер эффекта. Удобно.
Поскольку речь снова зашла о книгах, вернемся к нашему воображаемому эксперименту из главы 5, в котором мы изучали наших читателей. В этот раз мы поступим немного иначе. Мы сравним 500 читателей «Цифры врут» и 500 читателей чего-нибудь менее ценного: «Мидлмарча» или, к примеру, полного собрания сочинений Шекспира. И вместо того чтобы выяснять, как чтение влияет на знание статистики, посмотрим, в какой из групп люди засыпают быстрее.[13]13
Роман английской писательницы Джордж Элиот (настоящее имя Мэри Энн Эванс), вышел в 1872 году. – Прим. пер.
[Закрыть]
Представим, что результаты ясно показывают: все 500 читателей этой книги ложатся позже. Это, бесспорно, статистически значимый результат. Независимо от величины различия шансы, что такой результат получился случайно, ничтожны. Намного меньше единицы, поделенной на число атомов во вселенной. При условии, что исследование проводилось правильно, эффект несомненно реален.
Теперь представим, что нас интересует размер эффекта. Оказывается, что все 500 читателей этой книги засыпают ровно на одну минуту позже, чем читатели другой.
Это реальный эффект. Он статистически значим. Но он никак не сказывается на вашей жизни. Если вы хотите знать, как улучшить свой сон, эта информация не принесет вам ровным счетом никакой пользы.
Бывает, что статистическая значимость представляет серьезный интерес для ученых: обнаружив какую-то корреляцию, они могут ее исследовать и узнать что-то о стоящем за ней механизме. Например, если чтение с экрана действительно влияет – пусть и незначительно – на сон, это дает какую-то информацию о работе суточных ритмов и о том, можно ли с помощью синего света переустановить наши внутренние часы. Что, в свою очередь, может привести к дальнейшим интересным открытиям. А иногда важны даже маленькие эффекты: если команда велосипедистов ухитрится сделать колесо более круглым, что сэкономит по 0,001 секунды на каждом километре, то этого может оказаться достаточным, чтобы получить не серебро, а золото, особенно если врач прописывает спортсменам верные дозы лекарств от астмы.[14]14
Синий свет – высокоэнергетический видимый свет (HEV), исходящий от Солнца, светодиодных светильников и экранов гаджетов. Влияет на цикл сна и бодрствования. – Прим. ред.
[Закрыть]
Зато как читателя – человека, стремящегося разобраться в мире и научиться справляться со всеми рисками и трудностями, – вас не очень волнует, есть ли между двумя вещами статистически значимая связь: ее наличие или отсутствие представляет для вас не более чем интеллектуальный интерес. Например, вы предпочитаете читать в постели перед сном электронную книгу вместо бумажной, чтобы не зажигать свет и не мешать спать партнеру. Вам нет дела, есть ли связь, но важно, насколько она велика.
Насколько велик эффект чтения с экрана перед сном? Совсем невелик. Участников эксперимента просили читать книги – электронные или бумажные – по четыре часа (четыре часа!). Никто не предупреждал, что «чтение с экрана перед сном может оказаться смертельным», и в те вечера, когда испытуемые пользовались электронными книгами, они засыпали в среднем на десять минут позже. Возможно, ежедневная потеря десяти минут сна и имеет значение, но кто же перед сном так много читает?
Интересно, что позже более масштабное исследование молодежи пришло к тем же выводам: корреляция между чтением с гаджетов и сном есть, но небольшая. Лишний час экранного времени приводил к потере от трех до восьми минут сна. Возможно тут скрывается серьезный разброс – на большинство детей и подростков такое чтение никак не влияет, зато на некоторых влияет очень сильно. И все-таки нет ощущения, что отказ от гаджетов в вечернее время сильно скажется на продолжительности сна у британцев.
Было бы замечательно, если бы СМИ обсуждали не только статистическую значимость, но и размер эффекта. Стоит, не вдаваясь в технические детали, просто сказать, что «четыре часа чтения с экрана приводят к потере примерно десяти минут сна», и люди смогут сами распорядиться этой информацией и решат, критична ли такая потеря. А читателям стоило бы не просто искать зависимости (вызывает ли поедание бекона рак?), но и оценивать их масштаб (если я буду 20 лет ежедневно есть бекон, насколько повысится вероятность того, что я заболею раком?). Если в статье об этом не упоминается, скорее всего, эффект ничтожен и история не такая интересная, как кажется на первый взгляд.
Глава 7
Искажающие факторы
В последние несколько лет не утихают споры о вейпинге. Большинство некоммерческих организаций по борьбе с табакокурением и онкологическими заболеваниями считают, что вейп помогает бросить сигареты, но некоторые люди уверены, что он вреден или приучает к курению. В 2019 году даже сообщалось: дети, которые курят электронные сигареты, с большей вероятностью начнут употреблять марихуану.
Это утверждение опиралось на статью из журнала JAMA Pediatrics, в которой рассматривалась 21 публикация и подводились их итоги. Такие публикации, где объединяются результаты других исследований, называются метаанализами. В этом метаанализе делался вывод, что вейпящие подростки 12–17 лет, в отличие от других сверстников, с большей – примерно в три раза – вероятностью начнут курить марихуану.
Мы только что обсуждали размеры эффекта – здесь он кажется реально большим. В следующей главе мы поговорим о том, как трудно выявлять причинно-следственную связь, но в данном примере точно есть повод для беспокойства.
Однако когда видишь сильную корреляцию между двумя явлениями, в данном случае вейпингом и употреблением марихуаны, стоит задуматься: нет ли еще чего-то третьего, коррелирующего с обоими? Это что-то называется искажающим фактором.
Вот пример, чтобы было понятнее. В мире наблюдается корреляция между долей смертей, связанных с ожирением, и объемом углекислого газа, ежегодно выделяемым в атмосферу.
Следует ли из этого, что углекислый газ делает людей толстыми? Вряд ли. Скорее дело в том, что мир богатеет, а становясь богаче, люди тратят больше денег и на высококалорийную пищу, и на товары и услуги, связанные с выделением углекислого газа, например автомобили и электричество. это учесть, станет понятным: никакой связи между выделением углекислого газа и ожирением, скорее всего, нет. Однако важную роль играет третья переменная – ВВП.
Другой классический пример – мороженое и утопленники. В те дни, когда растет продажа мороженого, тонет больше людей, хотя очевидно, что отдыхающие идут ко дну не из-за него. Просто мороженое приятно съесть в жаркий день, вот и продажи растут, и плавать тоже хорошо в жару, а плавание, к сожалению, иногда заканчивается утоплением. Стоит учесть влияние температуры – как говорят статистики, проконтролировать этот фактор, – и связь пропадет. То есть вы не увидите зависимости, если посмотрите на продажу мороженого и число смертей на воде только в холодные или жаркие дни.
Это важно, когда обсуждаешь размер эффекта. Иной раз кажется, что одна переменная сильно зависит от другой, как, например, курение марихуаны от вейпинга. Но подчас трудно определить, реальна ли эта связь или видимая зависимость объясняется влиянием какой-то третьей величины – искажающего фактора.
В исследованиях вейпинга, включенных в метаанализ, учитывались потенциально искажающие факторы: возраст, пол, раса, образование родителей, табакокурение, употребление наркотиков. В разных исследованиях рассматривались разные факторы. В некоторых статьях говорилось о более сильной связи. Например, в одной, где делались поправки на пол, расу и школьные отметки, была обнаружена очень сильная корреляция: вейперы почти в десять раз чаще курили травку.
Но есть еще один потенциальный искажающий фактор, не учитывающийся в большинстве исследований. Подростки по природе своей чаще тянутся к опасностям и острым ощущениям, чем мы, взрослые. Те из нас, кто был когда-либо подростком, наверняка помнят, как совершали явно нелепые поступки, которые нам в наши зрелые годы просто не приходят в голову. И курение травки, и вейпинг относятся к категории «рискованного поведения».
И, конечно, не все подростки одинаковы. Некоторые больше стремятся к риску. Вейпер вероятнее всего также курит табак, употребляет алкоголь и принимает наркотики. Вряд ли это кого-то удивит.
Интересно отметить, что в двух из рассмотренных исследований уделялось внимание чему-то подобному: в них делались поправки на тягу как личностную характеристику – «стремление к возбуждающим и новым поступкам» – и тягу к экзотике. Те, кто при опросе получают высокий балл по шкале «стремление к экзотике», чаще тянутся к экстремальным видам спорта и быстрой езде, не отказывают себе в алкоголе и наркотиках. (Нет ничего удивительного, что это достигает пика в период от подросткового возраста до начала третьего десятка и сильнее выражено у мужчин, чем у женщин.)
Результаты этих двух исследований отличаются от других. В одном из них вероятность того, что вейпер начнет курить травку, оказывается всего в 1,9 раз выше, что намного ниже результатов большинства остальных работ, а во втором корреляция вообще не обнаружена (даже отмечается легкий спад). Вероятно, то, что в них принималась во внимание тяга к экзотике, частично объясняет более низкие показатели.
Контроль потенциальных искажающих факторов позволяет точнее определить «подлинный» размер эффекта. Однако иногда трудно понять, учитывали ли вы все необходимое, контролировали ли вы то, чего контролировать не следовало, не пропустили ли что-то важное и не возникла ли у вас ошибка коллайдера, о которой мы поговорим в главе 21. Все это очень запутанно и сложно.
При этом мы вовсе не хотим сказать, что вейпинг никак не влияет на употребление марихуаны. Для такой связи есть несколько правдоподобных объяснений: например, авторы полагают, что под влиянием никотина развивающийся мозг еще больше тянется к экзотике. Может, это и верно, хотя такой эффект кажется неправдоподобно большим, тем более что мы от рождения по-разному относимся к новым ощущениям.
Однако помните общее правило: если в новостях пишут, что X связано с Y, не стоит думать, что из этого непременно следует, что X влечет Y или наоборот. Возможно, есть еще скрытое Z, которое вызывает и X, и Y.
Вам нет необходимости читать эту врезку, но, если вы хотите узнать, как работает статистическая регрессия, не пропускайте ее.
Вы могли уже слышать термин «статистическая регрессия». Звучит наукообразно, но обозначает простую вещь.
Предположим, мы хотим узнать, зависит ли рост людей от их веса. Возьмем большую случайную выборку населения, измерим рост и вес этих людей и разместим на графике: один человек – одна точка, откладывая по оси X рост, а по Y – вес. Таким образом, точки, представляющие более высоких людей, окажутся правее, а более толстых – выше. Очень низкие и худые – слева внизу, а высокие и тучные – справа вверху.
Посмотрим на график, чтобы понять, есть ли тут какая-то явная зависимость. Мы видим, что график ползет вверх – если кто-то выше, он, скорее всего, и толще. Это называется позитивной связью (или позитивной корреляцией) – попросту говоря, когда увеличивается одно, другое тоже тяготеет к росту. А если одно растет, а другое уменьшается, то их связь называется негативной. Если точки разбросаны повсюду без ярко выраженной зависимости, мы считаем, что связи нет.
Теперь предположим, что мы хотим провести через точки линию, чтобы показать эту связь. Как это сделать? Можно рисовать на глаз, и даже вполне успешно, но есть более математически точный способ – метод наименьших квадратов.
Предположим, мы нарисовали на графике прямую. Часть точек окажется прямо на ней, но большая часть будет выше или ниже. Расстояние каждой точки до прямой по вертикали – это «ошибка», или «остаток». Возьмем значение каждого остатка и возведем в квадрат (то есть умножим само на себя, что решит проблему отрицательных чисел: число, умноженное само на себя, всегда дает положительный результат), а потом все их сложим. Это число называется остаточной суммой квадратов.
Линия с наименьшей остаточной суммой квадратов называется линией лучшей подгонки. Для приведенного выше графика она будет выглядеть так:
Эта линия позволяет делать прогнозы, и они тем точнее, чем меньше остатки (меньше сумма их квадратов). Если мы измеряем рост и вес любого нового человека, мы ожидаем, что соответствующая точка окажется вблизи этой линии. Зная чей-то рост, мы можем предсказать его вес. Например, судя по графику, 182-сантиметровый человек вероятнее будет весить 76 кг. (Можно действовать и наоборот: зная вес, можно угадать и рост. Но тогда линию надо проводить немного иначе, измеряя ошибки по горизонтали; не стоит сейчас в это углубляться.)
Стоит отметить, что по одному росту трудно точно предсказать вес. Уточнить его помогут дополнительные параметры: много ли вы занимаетесь спортом, много ли пьете, много ли пирогов съедаете в неделю. Учтя все эти переменные, вы получите более ясную картину влияния роста на вес. Это будет контролирование других переменных, о котором мы говорили в этой главе. Если не учитывать искажающие факторы, то можно переоценить или недооценить корреляцию или найти ее там, где ее на самом деле нет.
Внимание! Это не конец книги.
Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?