Электронная библиотека » Дэвид Шпигельхалтер » » онлайн чтение - страница 4


  • Текст добавлен: 15 декабря 2020, 11:20


Автор книги: Дэвид Шпигельхалтер


Жанр: Базы данных, Компьютеры


Возрастные ограничения: +16

сообщить о неприемлемом содержимом

Текущая страница: 4 (всего у книги 19 страниц) [доступный отрывок для чтения: 6 страниц]

Шрифт:
- 100% +

Сложная инфографика регулярно появляется в СМИ, однако на рис. 2.10 представлен довольно простой пример, который говорит о социальных тенденциях, объединяя ответы на три вопроса из Национального исследования сексуальных отношений и образа жизни (Natsal-3) 2010 года: в каком возрасте мужчины и женщины впервые занялись сексом, когда они начали вместе жить и завели первого ребенка[64]64
  http://www.natsal.ac.uk/media/2102/natsal-infographic.pdf.


[Закрыть]
. Медианный возраст для каждого их этих трех событий нанесен на график в зависимости от года рождения женщин, и три точки соединены жирной вертикальной линией. Устойчивое удлинение этой линии для диапазона между 1930 и 1970 годами демонстрирует увеличение периода, когда необходима эффективная контрацепция.


Рис. 2.10

Инфографика на основании данных Национального исследования сексуальных отношений и образа жизни (Natsal-3); выводы представлены как визуально, так и словесно


Еще более продвинутой является динамическая графика, где движение используется для выявления закономерностей изменений с течением времени. Специалистом по такой методике был Ханс Рослинг, чьи выступления на конференция TED[65]65
  TED (Technology, Entertainment, Design) – американская организация, миссия которой – проведение ежегодных конференций под лозунгом «Идеи, достойные распространения». Прим. пер.


[Закрыть]
и видеоролики установили новый стандарт для выступлений с применением статистики, например демонстрация взаимосвязи между изменениями благосостояния и здоровья с помощью перемещения пузырьков, отражающих прогресс в каждой стране с 1800 года до наших дней. Рослинг использовал графику, чтобы исправить ошибочное представление о различии между развитыми и слаборазвитыми странами: динамические графики показывали, что со временем почти все страны стабильно двигались по одному и тому же пути в сторону улучшения благосостояния и процветания[66]66
  H. Rosling, Unveiling the Beauty of Statistics for a Fact-Based World View, доступно на www.gapminder.org.


[Закрыть]
,[67]67
  К сожалению, книга по статистике с иллюстрациями в оттенках серого не подходит для иллюстрации его работы, поэтому я могу только порекомендовать заглянуть на сайт gapminder.org. Однажды Рослинг спорил на телевидении с датским журналистом, который бездумно повторил какое-то утверждение о мире, которое Ханс пытался опровергнуть всю жизнь. Рослинг просто сказал: «Эти факты не подлежат обсуждению. Я прав, а вы нет». Для статистики это необычно прямое заявление.


[Закрыть]
.


В этой главе продемонстрирован весь диапазон представления информации – от простых описаний и изображения необработанных данных до сложных примеров изложения с применением статистики. Современные вычисления делают визуализацию данных проще и гибче. А поскольку характеристики выборки могут как скрывать, так и подчеркивать существенные особенности, важно наглядное графическое представление. Тем не менее выделение сводных характеристик выборки – только первый этап в процессе изучения данных. Чтобы продвинуться дальше по этому пути, нужно обратиться к фундаментальной идее того, чего мы намерены достичь в первую очередь.

Выводы

• При анализе эмпирических распределений данных (в частности, определения среднего и разброса) применяются различные числовые характеристики.

• Часто встречаются асимметричные распределения, а некоторые показатели крайне чувствительны к выбросам.

• Сводные характеристики выборки всегда скрывают какие-то детали, поэтому нужно проявлять осторожность, чтобы не потерять важную информацию.

• Наглядно эмпирические данные можно представить в виде точечной диаграммы, диаграммы типа «ящик с усами» или гистограмм.

• Для лучшего выявления закономерностей используйте преобразования. Для обнаружения закономерностей, выбросов, сходств и кластеров используйте глаза.

• Рассматривайте пары чисел как точки на плоскости, а динамические (изменяющиеся во времени) величины – как линии на графике.

• При исследовании данных основная цель – поиск факторов, объясняющих изменчивость.

• Графика может быть интерактивной и анимированной.

• Инфографика выделяет интересные особенности и помогает читателям погружаться в повествование, но она должна использоваться с осознанием ее цели и воздействия на аудиторию.

Глава 3. Почему мы смотрим на данные? Совокупности и измерение

Сколько сексуальных партнеров у британцев на самом деле?

В предыдущей главе мы рассмотрели несколько примечательных результатов недавнего британского исследования, в рамках которого люди сообщали о количестве своих сексуальных партнеров за всю жизнь. Графические методы анализа этих ответов выявили определенные особенности, включая очень длинный хвост, склонность указывать круглые числа (например, 10 и 20) и тот факт, что мужчины называют большее число партнеров, чем женщины. Но исследователей, потративших миллионы фунтов на сбор таких данных, на самом деле интересовали не ответы конкретных респондентов (в конце концов, всем им гарантировалась полная анонимность), а общие закономерности сексуального поведения британцев, которые они на основе этих ответов хотели обнаружить.

На самом деле переход от реальных ответов, собранных в исследовании, к выводам обо всей Великобритании нельзя считать тривиальным. Было бы неправильно просто заявить, что ответы респондентов точно отражают ситуацию в стране. Опросы в СМИ о сексе, где добровольцы заполняют анкеты на сайтах, сообщая о том, чем они занимаются за закрытыми дверями, грешат этим постоянно.

Процесс перехода от сырых данных к утверждениям о поведении жителей всей страны можно разбить на несколько этапов.


1. Записанные первичные данные о числе сексуальных партнеров, которое указали участники исследования, говорят нам кое-что об…

2. Истинном количестве партнеров у людей в нашей выборке, что расскажет нам кое-что о…

3. Количестве партнеров у людей в исследуемой совокупности – тех, кто мог бы потенциально стать участником исследования. Это говорит нам кое-что о…

4. Числе сексуальных партнеров у всех британцев, которые и являются нашей целевой совокупностью.


Где самые слабые места в этой цепочке рассуждений? Переход от первоначальных данных (этап 1) к правде о нашей выборке (этап 2) означает наличие определенных предположений о том, насколько точно респонденты указали количество своих партнеров и насколько обоснованы причины для сомнений в их ответах. Мы уже наблюдали явную склонность мужчин преувеличивать, а женщин – преуменьшать количество своих связей, возможно, из-за того, что женщины не включают в них те, о которых предпочли бы забыть, из-за различных склонностей к округлению вверх или вниз, плохой памяти или просто вследствие «искажений из-за социальной приемлемости»[68]68
  Некоторые доказательства такого искажения были получены в рандомизированном эксперименте с участием студентов в США, где женщины, подсоединенные к детектору лжи, как правило, признавали большее количество партнеров, в отличие от женщин, которым гарантировалась анонимность. В то же время у мужчин такого эффекта не наблюдалось. Участникам не сообщали, что детектор лжи ненастоящий.


[Закрыть]
.

Переход от нашей выборки (этап 2) ко всей исследуемой совокупности, пожалуй, самый сложный шаг. Прежде всего мы должны быть уверены, что участники исследования представляют собой случайную выборку из тех, кто подходит для целей такого хорошо организованного исследования, как Natsal. Но мы также должны предположить, что люди, согласившиеся участвовать, составляют репрезентативную выборку, а это непросто. Доля отвечавших респондентов составила 66 %, что на удивление хорошо, учитывая характер вопросов. Однако существуют определенные доказательства того, что процент участия тех, кто менее сексуально активен, несколько ниже, что, впрочем, в какой-то степени уравновешивается сложностью опроса членов общества с нетрадиционной сексуальной ориентацией.

Наконец, переход от исследуемой (этап 3) к целевой (этап 4) выборке упрощается, когда мы можем предположить, что потенциальные участники надлежащим образом представляют взрослое население. В случае Natsal это обеспечивается путем тщательного отбора на основании случайной выборки домохозяйств, хотя и означает, что люди из таких мест, как тюрьмы или женские монастыри, не учтены.

К тому времени, когда мы проработаем все, что может пойти не так, этого, вероятно, окажется достаточно, чтобы кто угодно скептически относился к любым общим утверждениям о сексуальном поведении страны на основании ответов респондентов. Однако весь смысл статистики – сгладить процесс на всех этапах и в конце с должным смирением сказать, что мы можем (а что не можем) узнать из этих данных.

Выводы из данных – процесс «индуктивного умозаключения»

В предыдущих главах предполагалось, что у вас есть какая-то проблема, вы получаете какие-то данные, смотрите на них и находите их сводные характеристики. Иногда ответ уже заключен в подсчете, измерении или описании. Например, если мы хотим знать, сколько людей в прошлом году обращалось в службу экстренной медицинской помощи, то данные дадут нам ответ.

Однако часто вопрос выходит за рамки обычного описания данных: мы стремимся узнать нечто большее, чем просто набор имеющихся у нас наблюдений, например, хотим делать прогнозы (что будет происходить с показателями в следующем году?) или сообщить о причинах (почему цифры растут?)

Прежде чем приступить к обобщению на основе данных, чтобы узнать что-то о мире за пределами непосредственных наблюдений, нужно задать себе вопрос: «Узнать о чем?». А это требует обращения к сложной идее индуктивного умозаключения.

Многие люди имеют некоторое смутное представление о дедукции благодаря Шерлоку Холмсу, использовавшему ее при поиске преступников[69]69
  Артур Конан Дойль ошибался: методы Холмса не имели ничего общего с дедукцией. Его рассуждения – абдукция. Дедукция – это переход от общих посылок к частным следствиям. Классический пример: 1) все люди смертны; 2) Сократ – человек; 3) следовательно, Сократ смертен. Дедукция гарантирует истинность заключения, если истинными были исходные посылки. При абдукции у нас есть заключение, а мы восстанавливаем какую-нибудь посылку. Например, если к нам летит футбольный мяч, мы делаем абдуктивное заключение, что по мячу кто-нибудь ударил. Или пусть у нас есть первая посылка «Все люди смертны» и заключение «Сократ смертен». Тогда мы предполагаем, что вторая посылка – «Сократ – человек». Абдукция вовсе не гарантирует истинности нашего заключения (например, мячом могли выстрелить из специальной пушки, да и если на первой странице детектива какого-то человека застали над трупом с пистолетом, то, скорее всего, окажется, что он как раз и не убийца). Однако абдуктивные рассуждения дают определенный ориентир, позволяя выдвигать разумные гипотезы. Выдающийся логик Чарльз Пирс полагал, что дедукция, индукция и абдукция – три основных вида элементарных рассуждений. Прим. пер.


[Закрыть]
. В реальной жизни дедукция – это процесс применения правил логики для перехода от общего к частному. Если согласно законодательству в стране установлено правостороннее движение, то мы можем прийти к дедуктивному заключению, что в любой ситуации лучше ехать по правой стороне. Индукция работает наоборот: на основании частных случаев предпринимаются попытки сделать общие заключения. Например, мы не знаем, принято ли в каком-то сообществе целовать подруг в щеку, и пробуем это выяснить, наблюдая, целуют ли женщины друг друга один, два, три раза или не целуют вовсе. Принципиальное отличие индукции от дедукции состоит в том, что дедукция дает истинные заключения, а индукция – в общем случае нет[70]70
  Индукция может быть полной и неполной. Полная индукция гарантирует истинность заключения, неполная – нет. Вот пример полной индукции. Предположим, в классе 30 человек, и все сдавали экзамен. Если у вас есть 30 посылок вида «Александр сдал экзамен», «Мария сдала экзамен» и аналогичные утверждения для всех остальных учеников, то вы можете сделать вывод: «Весь класс сдал экзамен», и это будет истинным заключением. Однако в большинстве случаев индукция является неполной – вам известно, что какой-то признак есть только у части элементов множества, и вы делаете вывод, что он имеется у всех его элементов. В этом случае истинность заключения не гарантируется. Например, если у вас есть информация только о 25 школьниках, сдавших экзамен, то вы можете предположить, что его сдали все 30 учеников, но это заключение уже носит вероятностный характер. Прим. пер.


[Закрыть]
.

На рис. 3.1 индуктивное умозаключение представлено в виде диаграммы, показывающей шаги, связанные с переходом от данных к конечной цели нашего исследования. Как мы увидели, данные, собранные в ходе опроса, рассказывают нам о поведении людей в выборке; эту информацию мы используем для изучения поведения людей, которые могли бы стать участниками опроса, а уже из этого делаем некоторые предварительные выводы о сексуальном поведении в масштабе страны.


Рис. 3.1

Процесс индуктивного умозаключения: каждую стрелку можно истолковать как «говорит нам кое-что о…»[71]71
  Такая структура из четырех этапов украдена у Уэйна Олдфорда.


[Закрыть]


Конечно, было бы идеально, если бы мы могли сразу перейти от просмотра первоначальных данных к общим утверждениям о целевой совокупности. В стандартных курсах статистики предполагается, что наблюдения извлекаются совершенно случайно и непосредственно из интересующей нас совокупности.

Однако в реальной жизни так бывает редко, поэтому нам приходится рассматривать всю процедуру перехода от первичных данных к конечной цели. При этом, как мы увидели на примере с исследованием Natsal, проблемы могут возникать на каждом этапе.


Переход от данных (этап 1) к выборке (этап 2) – это проблемы измерения. Является ли то, что мы фиксируем в своих данных, точным отражением того, что нас интересует? Мы хотим, чтобы наши данные были:


• надежными – в том смысле, что у них низкая изменчивость от случая к случаю и их можно считать воспроизводимыми и точными;

• достоверными – в том смысле, что вы измеряете именно то, что хотите, без какой-либо систематической ошибки.


Например, адекватность в опросе о сексе основывается на том, что люди на один и тот же вопрос каждый раз, когда их об этом спрашивают, отвечают практически одинаково, причем вне зависимости от интервьюера, настроения респондента или его памяти. Это в какой-то степени можно проверять, задавая в начале и в конце специальные вопросы. Качество исследования также требует, чтобы участники описывали свою сексуальную активность честно, а не систематически преувеличивая или преуменьшая свой опыт. Это довольно строгие требования.

Исследование станет недостоверным, если сами вопросы демонстрируют предвзятость в пользу конкретного ответа. Например, в 2017 году авиакомпания Ryanair объявила, что 92 % ее пассажиров довольны предоставляемым сервисом во время перелетов. Но, как оказалось на самом деле, опрос об уровне удовлетворенности предусматривал только ответы отлично, очень хорошо, хорошо, удовлетворительно и окей[72]72
  После того как кто-то из Королевского статистического общества раскритиковал такие методы опроса, представитель руководства Ryanair Майкл О’Лири заявил: «95 % клиентов Ryanair никогда не слышали о Королевском статистическом обществе, 97 % не волнует, что там говорят, и 100 % сказали, что это звучит так, будто его участникам нужно забронировать недорогой отпуск с Ryanair». В другом современном исследовании Ryanair была признана худшей из двадцати европейских авиакомпаний (но у этого опроса свои проблемы с надежностью, поскольку он проводился как раз в то время, когда Ryanair отменила большое количество рейсов).


[Закрыть]
.

Мы уже видели, как форма подачи чисел (в положительном или отрицательном ключе) влияет на восприятие; точно так же формулировка вопроса может влиять на ответ. Например, в ходе опроса, проведенного в Великобритании в 2015 году, людей спрашивали, поддерживают ли они предоставление 16– и 17-летним подросткам права голосовать на референдуме о выходе из Евросоюза. Оказалось, что 52 % выступают за и 41 % – против. Таким образом, большинство людей поддержали это предложение, поскольку оно сформулировано с позиции признания и расширения прав молодежи.

Но когда тем же респондентам задали вопрос (логически идентичный предыдущему), поддерживают ли они уменьшение возрастного ценза для голосования на референдуме с 18 до 16 лет, доля сторонников этой идеи снизилась до 37 %, а против высказались 56 %. Таким образом, когда то же самое предложение было сформулировано в терминах более рискованной либерализации, большинство оказалось против. Мнение изменилось из-за простой переформулировки вопроса[73]73
  Ipsos MORI, What the UK Thinks (2015), https://whatukthinks.org/eu/poll/ipsos-mori-141215.


[Закрыть]
.

На ответы также может влиять то, что спрашивалось ранее, – механизм, известный в психологии как прайминг (или фиксирование установки, или эффект предшествования). Согласно официальным исследованиям благосостояния, 10 % молодых британцев считают себя одинокими, при этом в ходе онлайн-опроса службы «Би-би-си» этот ответ выбрало гораздо больше участников – 42 %. Возможно, такое повышение показателя обусловлено двумя факторами: 1) самооценкой при добровольном «исследовании» и 2) тем, что вопросу об одиночестве предшествовал длинный ряд вопросов о том, испытывал ли респондент в целом недостаток дружеского общения, чувство брошенности, отстраненности и так далее. Возможно, все эти вопросы и побудили его дать положительный ответ на ключевой вопрос об одиночестве[74]74
  Сообщено в More or Less, 5 October 2018; https://www.bbc.co.uk/programmes/p06n2lmp. Классическая демонстрация этого эффекта представлена в британском комедийном сериале «Да, господин министр», когда высокопоставленный чиновник сэр Хамфри Эпплби показывает, как подходящие наводящие вопросы могут привести к любому желаемому ответу. Этот пример сейчас используется в учебных методах. https://researchmethodsdataanalysis.blogspot.com/2014/01/leading-questions-yes-prime-minister.html.


[Закрыть]
.


Переход от выборки (этап 2) к исследуемой совокупности (этап 3) зависит от фундаментального качества исследования, называемого внутренней валидностью: отражает ли наблюдаемая выборка то свойство группы, которое мы изучаем? Именно здесь мы приходим к ключевому способу для избежания искажений – случайной выборке. Даже дети понимают, что значит выбирать что-нибудь случайным образом – с закрытыми глазами сунуть руку в мешок с конфетами и посмотреть, какого цвета будет фантик у той, которую ты вытащил, или извлечь наугад номер из шапки, чтобы определить, кому достанется (или не достанется) приз или угощение. Этот метод тысячелетиями использовался для обеспечения справедливости – определения вознаграждения[75]75
  Иисус же говорил: Отче, прости им, ибо не знают, что делают. И делили одежды Его, бросая жребий (Лк 23:34).


[Закрыть]
, проведения лотерей, назначения присяжных заседателей и прочего – и именовался жеребьевкой[76]76
  Не следует путать с гаданием [в оригинале используются сходные английские слова sortition и sortilege. Прим. пер.], представляющим собой форму предсказания, в которой очевидно случайные явления используются для определения божественной воли или будущего, что также известно как клеромантия. Примеры существуют во многих культурах, включая гадание с помощью чайных листьев, куриных внутренностей, библейское бросание жребия для определения воли Божьей или гадание по «Книге перемен» («И-Цзин»).


[Закрыть]
. Применялся он и в более серьезных случаях – при выборе, кому идти на войну или кого съесть в спасательной шлюпке, затерявшейся в море.

Джордж Гэллап, фактически разработавший в 1930-е годы научные методы исследования общественного мнения, предложил изящную аналогию для понимания ценности случайной выборки, сказав, что, если вы сварили большую кастрюлю супа, вам не нужно съедать его весь, чтобы узнать, достаточно ли в нем приправы. Хватит и одной ложки, но при условии, что вы хорошо все перемешали. Буквальное доказательство это утверждение получило в 1969 году во время лотереи, определявшей порядок призыва на войну во Вьетнаме. Сначала в рамках лотереи создавался упорядоченный список дней рождения, а затем те, чья дата рождения оказывалась в верхних строках списка, отправлялись во Вьетнам, и так далее. В попытке сделать эту процедуру справедливой было подготовлено 366 капсул с уникальной датой рождения в каждой. Предполагалось, что капсулы будут извлекаться из ящика наугад. Однако складывали их в коробку в соответствии с месяцем рождения и не удосужились должным образом перемешать. Это не привело бы к проблемам, если бы люди, доставая капсулы, запускали руку поглубже в коробку, но, как показывает видеозапись, они, как правило, брали капсулы сверху[77]77
  Видеозапись лотереи для вьетнамской войны ищите по адресу: https://www.youtube.com/watch?v=-p5X1FjyD_g; см. также http://www.historynet.com/whats-your-number.htm.


[Закрыть]
. В результате меньше всего повезло тем, кто родился в конце года: из 31 дня декабря были выбраны 26, в то время как из января – только 14 дней.

Идея надлежащего «перемешивания» имеет решающее значение: если вы хотите перейти от выборки ко всей генеральной совокупности, вы должны убедиться, что выборка репрезентативна. Наличие большого массива данных вовсе не гарантирует хорошую выборку и даже может вселить ложную уверенность. Например, на всеобщих выборах в Великобритании в 2015 году компании, проводящие опросы, с треском провалились, хотя их выборки включали тысячи потенциальных избирателей. Последующее расследование обвинило нерепрезентативную выборку, особенно для телефонных опросов, так как в большинстве случаев звонили только на стационарные номера и фактически на эти звонки ответили менее 10 % абонентов. Вряд ли такую выборку можно считать репрезентативной.

Переход от исследуемой (этап 3) к целевой (этап 4) совокупности. Наконец, даже при превосходных измерениях и хорошей случайной выборке результаты по-прежнему могут не отражать того, что мы хотим исследовать, если нам не удалось опросить людей, в которых мы особенно заинтересованы. Мы хотим, чтобы наше исследование имело внешнюю валидность[78]78
  Это как раз и означает возможность распространения результатов конкретного исследования на более широкий класс объектов или ситуаций. В реальности обобщать полученный результат на любые популяции, любые условия и любое время вряд ли реально, поэтому говорят только о некоторой степени соблюдения внешней валидности. Прим. пер.


[Закрыть]
.

Крайнее проявление – это ситуация, в которой целевая совокупность состоит из людей, тогда как изучать мы можем только животных, например при анализе воздействия какого-то химического вещества на мышей. Не столь кардинальная разница будет в случае, если клинические испытания нового препарата проводились исключительно на взрослых мужчинах, а затем он использовался для женщин и детей. Мы хотели бы знать влияние на всех людей, но одним статистическим анализом тут не обойтись – мы неизбежно должны делать предположения и проявлять осторожность.


Когда есть все данные

Хотя вышеописанные исследования хорошо иллюстрируют идею извлечения информации из данных, фактически большая часть используемых сегодня данных не основывается на случайной или вообще на какой-либо выборке. Регулярно собираемые данные, скажем об онлайн-покупках или социальных взаимодействиях, а также об администрировании образовательных или правоохранительных систем, можно переориентировать, чтобы лучше понять происходящее в мире. В таких ситуациях у нас есть полные данные. С точки зрения индуктивного процесса, показанного на рис. 3.1, между этапами 2 и 3 нет разрыва – выборка и исследуемая совокупность, по сути, совпадают. Это избавляет от беспокойства по поводу малого размера выборки, однако многие другие проблемы все же могут оставаться.

Рассмотрим вопрос об уровне преступности в Великобритании и его важный политический аспект: растет он или снижается. Существуют два ключевых источника данных: один – на основе опросов, второй – официальный. Первый, «Исследование преступности в Англии и Уэльсе» – классический пример опроса, в рамках которого примерно 38 тысяч человек ежегодно рассказывают о своем опыте соприкосновения с криминалом. Как и в случае исследования Natsal о сексе, здесь могут возникать проблемы при переходе между этапами. Во-первых, приходится использовать самоотчеты (этап 1) для оценивания реального опыта людей (этап 2), поскольку они могут скрывать правду, например, о том, что сами замешаны в незаконных делах, связанных с наркотиками. Во-вторых, мы вынуждены предположить, что выборка репрезентативна для соответствующей совокупности, и учесть ее ограниченный размер (переход от этапа 2 к этапу 3). В-третьих, нам нужно признать, что план исследования не охватывает какой-то части общей целевой совокупности, скажем подростков младше 16 лет или людей в местах совместного проживания (переход от этапа 3 к этапу 4). Тем не менее «Исследование преступности в Англии и Уэльсе» с определенными оговорками считается официально признанной национальной статистикой и применяться для отслеживания долгосрочных тенденций[79]79
  Подробную информацию об «Опросе о преступности в Англии и Уэльсе» и полицейской статистике преступлений можно получить в Национальной статистической службе Великобритании: https://www.ons.gov.uk/peoplepopulationandcommunity/crimeandjustice.


[Закрыть]
.

Второй источник данных – сообщения о преступлениях, зарегистрированных полицией. Это делается для официальных целей и не является выборкой: поскольку можно учесть каждое преступление, зарегистрированное в стране, «исследуемая совокупность» совпадает с выборкой. Конечно, мы по-прежнему должны предполагать, что записанные данные действительно отображают то, что случилось с жертвами преступлений (переход от этапа 1 к этапу 2), но главная проблема возникает при утверждении, что данные об исследуемой совокупности (люди, которые сообщают о преступлениях) представляют целевую совокупность по всем преступлениям, совершенным в Англии и Уэльсе. К сожалению, полицейская статистика систематически упускает случаи, которые полиция не зарегистрировала как преступления или о которых жертвы предпочли умолчать, такие как незаконное употребление наркотиков или отказ людей сообщать о краже или вандализме, когда из-за этого падают цены на недвижимость в месте их проживания. Вот яркий пример: когда в ноябре 2014 года полицейские методы регистрации подверглись суровой критике, число зафиксированных преступлений на сексуальной почве возросло с 64 тысяч в 2014 году до 121 тысячи в 2017-м, то есть почти удвоилось за три года.

Неудивительно, что эти два разных источника данных могут приводить к различным выводам о наблюдаемых тенденциях. Например, согласно «Исследованию преступности», между 2016 и 2017 годами уровень преступности снизился на 9 %, в то время как полиция зарегистрировала на 13 % больше правонарушений. Чему тут верить? Статистики больше доверяют опросу, а сомнения в достоверности предоставляемых полицией данных привели к тому, что в 2014 году они перестали использоваться в качестве национальной статистики.

Располагая полными данными, нетрудно получить статистику, описывающую то, что было измерено. Но если мы хотим применять их для более масштабных заключений о происходящем вокруг, качество данных приобретает первостепенное значение. И мы должны быть внимательны к систематическим ошибкам любого рода, которые могут поставить под угрозу надежность этих заключений.

Целые сайты посвящены перечислению возможных ошибок в статистике – от ошибки распределения (ошибка при распределении пациентов по группам) до ошибки добровольного участия (люди, добровольно участвующие в исследованиях, систематически отличаются от людей в генеральной совокупности). Хотя причины возникновения многих из них очевидны, в главе 12 мы узнаем и о более завуалированных причинах появления плохих статистических данных. Но сначала мы должны рассмотреть способы описания нашей конечной цели – целевой совокупности.


Колоколообразная кривая

Подруга в США родила доношенного ребенка весом 2910 граммов. Ей сказали, что это ниже среднего, и она обеспокоена. Действительно ли этот вес недостаточен?

Мы уже обсуждали понятие распределения данных (эмпирическое или выборочное распределение) – закономерность, которой подчинены данные в выборке. Теперь нам нужно рассмотреть концепцию распределения генеральной совокупности, то есть модель во всей интересующей нас группе.

Вернемся к нашей роженице. Будем думать о ее ребенке как о своего рода выборке из одного человека, взятой из генеральной совокупности всех детей, недавно родившихся в США у неиспаноязычных белых женщин (указание расы важно, поскольку вес новорожденных сообщается для различных рас). Распределение генеральной совокупности определяется по весу при рождении для всех таких младенцев; эти данные можно получить из Национальной системы статистического учета естественного движения населения США, в которой зарегистрировано свыше миллиона доношенных детей, родившихся в США в 2013 году у белых неиспаноязычных женщин. Хотя это не все множество рождений, тем не менее выборка настолько велика, что ее можно рассматривать как генеральную совокупность[80]80
  Информация о весе новорожденных в США: http://www.cdc.gov/nchs/data/nvsr/nvsr64/nvsr64_01.pdf.


[Закрыть]
. Новорожденные распределяются по группам в соответствии с их весом при рождении (с шагом 500 граммов); эти данные представлены на рис. 3.2(a).


Рис. 3.2

(a) Распределение веса при рождении для 1 096 277 детей, родившихся в США у белых неиспаноязычных женщин в 2013 году на 39–40 неделе беременности, а также кривая нормального распределения с теми же значениями среднего и среднеквадратичного отклонения (СКО), что и регистрируемый вес детей в этой генеральной совокупности. Ребенок весом 2910 граммов отображен пунктирной линией. (b) Значения среднего ±1, 2, 3 СКО для нормального распределения. (c) Процентили для нормального распределения. (d) Доля новорожденных с низкой массой тела (темно-серая область) и с массой менее 2910 г (серая область)


Вес ребенка вашей подруги (2910 граммов) указан в виде пунктирной линии, положение которой относительно всего распределения можно использовать для оценки того, насколько он «необычен». Важна форма этого распределения. Такие измерения, как вес, доход, рост и другие аналогичные величины, можно, по крайней мере теоретически, производить с любой желаемой точностью. Поэтому для них можно использовать непрерывные распределения, отображаемые не ступенчатыми, а плавными линиями[81]81
  Математик сказал бы, что эта кривая отображает плотность распределения. Прим. пер.


[Закрыть]
. Классический пример – колоколообразная кривая, или нормальное (гауссовское) распределение, которое впервые было подробно исследовано Карлом Фридрихом Гауссом в 1809 году в контексте анализа ошибок измерений в астрономии и геодезии[82]82
  Выводы Гаусса не основывались на эмпирических наблюдениях; это была теоретическая форма ошибки измерений, которая оправдывала бы его статистические методы.


[Закрыть]
.

Как показывает теория, нормальное распределение случайной величины можно встретить в ситуациях, обусловленных влиянием на нее большого количества мелких факторов, – например, когда на какую-нибудь физическую характеристику нашего тела влияет большое количество генов. Массу тела при рождении (для одной этнической группы и сходного срока беременности) вполне можно считать такой характеристикой, и на рис. 3.2(a) представлена теоретическая кривая нормального распределения с теми же значениями среднего и среднеквадратичного отклонения, что и вся совокупность зарегистрированного веса у детей. Гладкая теоретическая кривая и гистограмма, отображающая реальные данные, удовлетворительно близки[83]83
  Если бы мы записывали массу тела не с шагом в 500 граммов, а более точно, например с шагом в 100 граммов, то гистограмма была бы еще ближе к теоретической плотности распределения. Прим. пер.


[Закрыть]
. Аналогично и другие характеристики человека, такие как рост или когнитивные навыки, также имеют распределение, близкое к нормальному. Однако существуют и величины, распределение которых далеко от гауссовского и часто имеет длинный правый хвост. Классический пример – доход.

Нормальное распределение случайной величины характеризуется двумя параметрами – своим средним (или математическим ожиданием) и стандартным отклонением (которое является мерой разброса или отклонения от среднего); кривая на рис. 3.2(a) имеет среднее на уровне 3480 граммов и стандартное отклонение 462 грамма. Мы видим, что величины, используемые в главе 2 для характеризации выборки, можно также применять для описания всей генеральной совокупности. Разница лишь в том, что термины среднее и стандартное отклонение в контексте выборки называются статистиками, а в контексте генеральной совокупности в целом – параметрами. Это впечатляющая возможность – описать больше миллиона измерений (то есть больше миллиона рождений) только этими двумя величинами.

Огромное преимущество использования нормального распределения – в его изученности и возможности взять все его важные характеристики из таблиц или программ. На рис. 3.2(b) показано положение среднего и 1, 2 и 3 среднеквадратичных отклонения в обе стороны от него. Из математических свойств нормального распределения мы знаем, что примерно 95 % всей генеральной совокупности содержится в промежутке [среднее ±2 СКО], а примерно 99,8 % всей генеральной совокупности – в промежутке [среднее ±3 СКО]. Ребенок вашей подруги находится приблизительно на 1,2 СКО ниже среднего – параметр, известный как Z-оценка (или просто число, показывающее, на сколько СКО данное значение отличается от среднего).

Среднее и стандартное отклонение могут также использоваться в качестве кратких описаний (большинства) других распределений, однако полезными могут быть и другие характеристики. На рис. 3.2(c) показаны выбранные процентили для нормальной кривой: например, 50-й процентиль – это медиана, которая делит генеральную совокупность пополам. Можно сказать, что медианное значение – это вес «среднего» ребенка. В случае симметричных распределений (каким и есть нормальное) медиана совпадает со средним значением. 25-й процентиль (3167 граммов) – это вес, меньше которого имеют 25 % родившихся детей. 25-й и 75-й процентиль (3791 граммов) называются квартилями, а расстояние между ними (в нашем случае 624 грамма), или интерквартильный размах – мерой разброса для распределения. И снова те же характеристики, которые в главе 2 мы относили к выборке, здесь применяются ко всей совокупности в целом.

Ребенок вашей подруги находится в 11-м процентиле, а значит, 11 % всех доношенных детей у белых неиспаноговорящих женщин будут весить меньше. На рис. 3.2(d) эта 11-процентная область выделена серым цветом. Процентили веса ребенка важны на практике, поскольку изменения массы его тела будут отслеживаться по отношению к росту, ожидаемому у малышей в 11-м процентиле[84]84
  Для такого отслеживания будут использоваться более сложные распределения, чем нормальное.


[Закрыть]
, и низкое значение процентиля может стать причиной для беспокойства.

По медицинским, а не статистическим причинам дети с весом ниже 2500 граммов считаются «имеющими низкую массу тела при рождении», а с весом меньше 1500 граммов – «очень низкую массу тела при рождении». Рис. 3.2(d) показывает, что, согласно ожиданиям, 1,7 % младенцев в этой генеральной совокупности будут иметь низкую массу тела при рождении. Фактическое число таких детей составило 14 170 (1,3 %) – хорошее соотношение с прогнозом, который дает нормальная кривая. Следует отметить, что в этой группе (доношенные дети у белых неиспаноязычных женщин) уровень детей с низкой массой тела очень небольшой, в то время как общий уровень в 2013 году по всей стране составил 8 %, а у черных женщин – 13 %; как видите, разница между расами существенна.

Возможно, самый важный урок, извлеченный из этого примера, состоит в том, что темно-серая закрашенная область на рис. 3.2(d) выполняет две функции:


1. Отображает долю детей с низкой массой тела при рождении в генеральной совокупности.

2. Демонстрирует вероятность того, что вес случайно выбранного ребенка, родившегося в 2013 году, будет меньше 2500 граммов.


Таким образом, генеральную совокупность можно рассматривать не только как группу реальных людей, но и как представление вероятностного распределения для случайных наблюдений. Эта двойная интерпретация будет иметь фундаментальное значение, когда мы перейдем к более формальным статистическим заключениям.

Конечно, в этом случае мы знаем форму и параметры генеральной совокупности, поэтому можем что-то сказать и о долях, и о вероятностях различных событий, которые могут наступать при случайных наблюдениях. Но суть этой главы в том, что мы, как правило, не знаем параметры генеральной совокупности, а потому хотим с помощью индукции переходить от данных выборки ко всей совокупности. Мы видели, что стандартные измерения выборочного среднего, медианы, моды и так далее, которые мы создали для выборки, распространяются на всю генеральную совокупность. Но разница в том, что мы не знаем, что это такое. Именно с этой проблемой мы и столкнемся в следующей главе.


Страницы книги >> Предыдущая | 1 2 3 4 5 6 | Следующая
  • 2.5 Оценок: 6

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации