Электронная библиотека » Дэвид Хэнд » » онлайн чтение - страница 5


  • Текст добавлен: 24 июня 2021, 11:00


Автор книги: Дэвид Хэнд


Жанр: Экономика, Бизнес-Книги


Возрастные ограничения: +12

сообщить о неприемлемом содержимом

Текущая страница: 5 (всего у книги 23 страниц) [доступный отрывок для чтения: 6 страниц]

Шрифт:
- 100% +
Экспериментальные данные

Итак, мы рассмотрели два способа сбора данных, описанных в начале этой главы: сбор данных обо всех интересующих нас объектах и выборочный сбор данных. Мы также узнали, какие типы темных данных могут возникать в каждом из этих случаев.

Теперь перейдем к третьему способу сбора данных – экспериментальному, когда условия, методы лечения или иные воздействия на объекты и людей изменяются тщательно контролируемым образом.

Предположим, мы хотим узнать, какой из двух видов лечения является более эффективным: А или Б. Казалось бы, проще всего последовательно провести лечение обоими методами и посмотреть, какой из них работает лучше. Например, исследуя эффективность лекарств для облегчения симптомов сенной лихорадки, мы могли бы первый год лечить пациента по методу А, а второй – по методу Б (полагаясь на то, что количество пыльцы в оба года будет одинаковым). Но в большинстве случаев невозможно применить к одному пациенту оба вида лечения. Например, в исследовании эффективности методов, увеличивающих продолжительность жизни, мы вряд ли сможем попробовать больше одного метода – эксперимент в данном случае заканчивается со смертью пациента.

Единственная альтернатива этому – лечение одного пациента по методу А, а другого по методу Б. Проблема, однако, в том, что не все пациенты одинаково реагируют на одно и то же лечение: то, что лечение помогло одному пациенту, не означает, что оно поможет и всем остальным. Более того, даже отдельно взятый пациент может по-разному реагировать на одно и то же лечение в разные периоды времени.

Далее мы переключаем внимание с отдельных пациентов на средние ответы в группах пациентов, получающих каждое лечение: насколько хорошо в среднем они реагируют на лечение в группе А, по сравнению с группой Б? При этом необходимо обеспечить такое распределение пациентов по группам, чтобы никакие другие факторы, кроме самого лечения, не могли объяснить различия результатов. Например, не стоит испытывать один метод лечения исключительно на мужчинах, а другой – на женщинах, поскольку в этом случае мы не будем знать, лечение или пол объясняют наблюдаемые различия. Точно так же не стоит проводить одно лечение на пациентах с более запущенной болезнью, а другое – на пациентах с менее запущенной.

Что нам действительно нужно, так это сбалансировать распределение, например, одной половине мужчин назначить лечение А, а другой – лечение Б и то же самое сделать для женщин. Затем попытаться так же распределить по группам более больных пациентов и менее больных. Эта задача решаема, если мы хотим контролировать лишь небольшое количество факторов, например пол, возраст и тяжесть заболевания. Но как только их число возрастает, мы обнаруживаем, что решения нет: просто не существует тяжелобольного курящего 25-летнего мужчины с высоким кровяным давлением, индексом массы тела, равным 26, и хронической астмой, эквивалентного тяжелобольной 25-летней женщине с точно такими же данными. Хуже того, несомненно, будут появляться все новые и новые факторы, о которых мы даже и не думали.

Чтобы преодолеть эту проблему, людей случайным образом распределяют по двум группам – отсюда и название: рандомизированные контролируемые исследования (РКИ). Таким образом можно свести вероятность дисбаланса, которого мы хотим избежать, до минимального уровня. Помните теоретическое обоснование для случайной выборки, которое мы рассматривали, когда изучали опросы? Точно такой же принцип действует и здесь, разница лишь в том, что теперь мы назначаем пациентам лечение, а не выбираем людей для опроса.

В наиболее простом варианте такого исследования сравнивают две группы людей. Иногда его еще называют A/Б-исследованием или исследованием типа «победитель/претендент», в котором новый метод лечения (претендент) сравнивается со стандартным методом (победитель). Такая структура широко используется, например, в медицине, веб-экспериментах и на производстве. Преимуществом подобных исследований является возможность сравнить результат с тем, что произошло бы при других условиях. Это позволяет избежать контрфактуальных темных данных.

Контролировать темные данные таким способом люди научились уже довольно давно. В качестве примера авторитетного РКИ прошлого века можно привести исследование лечения туберкулеза стрептомицином, проводившееся в 1948 г. Вот что сказал о нем британский историк здравоохранения сэр Иэн Чалмерс: «Подробный и исключительно четкий отчет о рандомизированном исследовании применения стрептомицина при лечении туберкулеза легких, проведенном Британским медицинским научным советом в 1948 г., по праву считается вехой в истории клинических испытаний»[29]29
  I. Chalmers, E. Dukan, S. Podolsky, and G. D. Smith, “The advent of fair treatment allocation schedules in clinical trials during the 19th and early 20th centuries,” Journal of the Royal Society of Medicine 105 (2012): 221-7.


[Закрыть]
.

Однако, как это часто бывает, идеи этого метода или по крайней мере его корни, прослеживаются и дальше вглубь времен. Наиболее раннее описание рандомизации распределения групп мы находим у фламандского врача Жана-Батиста Ван Гельмонта, который в 1648 г. предложил для оценки эффективности кровопусканий и больших доз слабительного следующее: «Давайте наберем по больницам… 200 или 500 несчастных с лихорадкой и воспалением плевры. Давайте поделим их пополам и бросим жребий, чтобы одна их половина выпала на мою долю, а другая на вашу. Я вылечу своих без кровопусканий и опорожняя в разумных пределах; а вы делайте как сами знаете… Посмотрим, сколько будет похорон у каждого»[30]30
  J. B. Van Helmont, Ortus Medicinae, The Dawn of Medicine (Amsterdam: Apud Ludovicum Elzevirium, 1648), http://www.jameslindlibrary.org/van-helmont-jb-1648/, accessed 15 June 2018.


[Закрыть]
. В те времена в английском для обозначения жребия использовалось слово «lot», и это его значение сохранилось до наших дней в слове «лотерея».

Пока все выглядит неплохо. В отличие от двух других методов сбора данных, где просто собирают данные, ни во что не вмешиваясь (данные наблюдений), этот новый подход предполагает управление тем, кто какое лечение будет проходить. И все было бы замечательно, если бы пациенты придерживались протоколов лечения, принимая лекарства строго по графику вплоть до самого конца исследования. Но, к сожалению, темные данные часто встречаются и в такого рода исследованиях, проникая в них в форме выбывших.

Выбывшие – это те, кто выбыл из исследования по тем или иным причинам. К ним относятся смерть пациента, негативные побочные эффекты лечения, переезд, исчезновение мотивации на фоне отсутствия улучшений и пр. Проблема здесь кроется в том, что измерения проводятся в течение какого-то времени или по истечении определенных периодов и существует риск того, что темные данные по-разному скажутся на разных группах испытуемых. Эти данные классифицируются как DD-тип 7: данные, меняющиеся со временем, и DD-тип 1: данные, о которых мы знаем, что они отсутствуют.

Например, в исследовании, в котором реальное лечение сравнивается с плацебо (как бы лечением), побочные эффекты более вероятны при реальном лечении, поскольку плацебо по определению не имеет активного терапевтического компонента. Это может означать, что выбывшие будут чаще появляться в группе лечения. И что еще хуже, после выбывания людей, которые не ощущают пользы от лечения или даже замечают ухудшения, в исследовании наметится перекос в сторону тех, кто эту пользу ощущает. Если мы каким-либо образом не помешаем выбыванию, то можем получить весьма искаженное представление об эффективности лечения. Это еще один пример ошибки выжившего – те, кто «выживают» или продолжают лечение до конца исследования, не являются репрезентативной выборкой для всей группы.

Все усугубляется необходимостью этичного поведения при клинических испытаниях (на благо пациентов!). Пункт 9 Нюрнбергского кодекса, принятого после Второй мировой войны, требует, чтобы участники клинических исследований имели возможность в любой момент выйти из них: вы не можете заставить людей остаться.



Реальные исследования часто бывают куда сложнее, чем наш пример с двумя группами. Они могут проходить на базе нескольких клиник, включать в себя более двух групп и при этом сравнивать несколько видов лечения. На рис. 4 приведены данные клинического испытания будесонида на пациентах с астмой[31]31
  W. W. Busse, P. Chervinsky, J. Condemi, W. R. Lumry, T. L. Petty, S. Rennard, and R. G. Townley, “Budesonide delivered by Turbuhaler is effective in a dose-dependent fashion when used in the treatment of adult patients with chronic asthma,” Journal of Allergy and Clinical Immunology 101 (1998): 457-63; J. R. Carpenter and M. Kenward, “Missing data in randomised controlled trials: A practical guide,” November 21, 2007, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.468.9391&rep=rep1&type=pdf, accessed 7 May 2018.


[Закрыть]
. В этом исследовании участвовали пять групп пациентов, одна из которых получала плацебо (нулевая доза), а другие по 200, 400, 800 или 1600 мкг будесонида соответственно. Измерения функций легких проводились в самом начале, а затем через 2, 4, 8 и 12 недель после начала исследования. Кривые на графике показывают количество пациентов, остававшихся в исследовании на момент очередного измерения. Тенденция выбывания участников прослеживается четко, а ее уровень впечатляет – лишь 75 % пациентов, начавших исследование, дошли до конца. Еще более тревожным является то, что показатели выбывания различаются для разных групп. В частности, выбыло только 10 из 98 человек, получавших самую высокую дозу препарата, тогда как среди принимавших плацебо выбыло 58 человек, что составляет почти две трети этой группы. На основании этого, конечно, можно предположить, что препарат эффективен, но мы видим, что со временем в исследовании остаются только те, кто ощущает пользу лечения, поэтому это только предположение. Безусловно, отсутствующие данные усложняют анализ и интерпретацию происходящего, что может привести к ошибкам, если выводы будут основаны исключительно на имеющихся данных.

Я проиллюстрировал рандомизированные исследования на примерах из сферы медицины, но они также широко используются и в других областях, в том числе в социальной и государственной политике, образовании и в сфере профилактики преступности. Проведение рандомизированных исследований в социальной и государственной политике тоже имеет свою историю, хотя и не столь давнюю, как в медицине. Например, в 1968–1982 гг. исследователи в Соединенных Штатах использовали такие методы, чтобы выяснить, как скажется на отношении к работе тот факт, что людям будет гарантирован некий минимальный доход, равный прожиточному минимуму. (Оказалось, что этот доход сокращает время, в течение которого люди работают, но очень незначительно[32]32
  P. K. Robins, “A comparison of the labor supply findings from the four negative income tax experiments,” Journal of Human Resources 20 (1985): 567-82.


[Закрыть]
.)

Интересным примером рандомизированного исследования в сфере образования была оценка влияния телевизионного шоу «Улица Сезам» на словарный запас и когнитивные навыки детей. Это исследование выявило проблему, присущую социологическим рандомизированным исследованиям: если не брать в расчет прямой запрет некоторым детям смотреть шоу, то невозможно гарантировать, что они его не посмотрят. Исследователи наконец-то обошли эту проблему, найдя города, где шоу было доступно только по кабелю, и предоставив кабельное телевидение случайно выбранной группе домохозяйств. В результате было установлено, что просмотр «Улицы Сезам» расширяет словарный запас детской аудитории. Эндрю Лэй описывает это и многие другие рандомизированные исследования для двух групп в своей превосходной книге «Рандомисты: Как радикальные исследователи меняют наш мир» (Randomistas: How radical researchers are changing our world)[33]33
  A. Leigh, Randomistas: How Radical Researchers Are Changing Our World (New Haven, CT: Yale University Press, 2018).


[Закрыть]
. В ней он также рассказывает, как организовал рандомизированное исследование, чтобы найти наиболее удачное название для книги. До того, как книга была опубликована, 12 вариантов названия представили группе из 4000 человек, причем каждый из ее представителей видел лишь одно случайно выбранное название. Их отклик измерялся как доля перешедших по ссылке на сайт издателя для получения дополнительной информации.

Что касается преступности, хорошо известно, что общественное восприятие рисков совершения преступлений часто бывает гипертрофированным: из-за незнания ситуация может казаться хуже, чем на самом деле (еще один аспект темных данных). Национальное агентство по совершенствованию работы полиции в Великобритании провело исследование реакции общественности на открытие информации о правонарушениях и охране правопорядка: усилит ли это страх в обществе или, напротив, будет воспринято позитивно[34]34
  P. Quinton, “The impact of information about crime and policing on public perceptions,” National Policing Improvement Agency, January 2011, http://whatworks.college.police.uk/Research/Documents/Full_Report_-_Crime_and_Policing_Information.pdf, accessed 17 June 2018.


[Закрыть]
. Четыре группы участников исследования были ознакомлены с разной информацией о преступлениях и охране правопорядка, которая отличалась насыщенностью темными данными. Одна группа получила карты, показывающие уровень преступности в районах проживания ее участников, другая – информацию о полицейских участках в районах проживания, третья группа – и то и другое, а четвертая не получила вообще никакой информации. Эта последняя группа была полностью погружена в область темных данных. Выводы, опубликованные в отчете, оказались весьма позитивными: «Исследование смогло опровергнуть миф о том, что информирование общественности увеличивает страх перед преступностью. Фактически было установлено, что информация улучшает восприятие людьми своего окружения и местной полиции».

Конечно, результаты не всегда бывают столь позитивными. Среди прочего рандомизированные исследования играют очень важную роль в развенчании популярных мифов или «самоочевидных» истин, которые на деле являются заблуждениями. И порой требуется значительное мужество, чтобы провести такое рандомизированное исследование наперекор распространенному убеждению в истинности чего бы то ни было.

Например, хотя тюремное заключение в краткосрочной перспективе и снижает уровень преступности, это происходит не потому, что злоумышленники перевоспитываются, а потому, что они на какое-то время исчезают с улиц. Кроме того, тюремное заключение не способствует интеграции в общество и поиску регулярной работы после освобождения, поэтому короткие сроки могут не только быть бесполезными, но и увеличивать преступность в долгосрочной перспективе. Чтобы выработать эффективную стратегию по данному вопросу, необходим надлежащий эксперимент. Однако надо понимать, что он отягощен существенной проблемой: немногие судьи – и, возможно, еще меньшая часть общества – смогут принять тот факт, что приговоры должны выноситься случайным образом. Тем не менее эксперименты с рандомным смягчением приговора преступникам уже проводились[35]35
  J. E. Berecochea and D. R. Jaman, (1983) Time Served in Prison and Parole Outcome: An Experimental Study: Report Number 2, Research Division, California Department of Corrections.


[Закрыть]
.

Даже когда результаты исследования не являются положительными, тщательное изучение вопроса само по себе может выявить нечто большее, чем было заметно на первый взгляд. Эндрю Лэй описывает четыре рандомизированных исследования, посвященных изучению того, улучшает ли результаты экзаменов бесплатная раздача учебников в школе. Ни одно из четырех исследований не показало, что такой подход повышает результаты, но в каждом из четырех случаев причины были разными. В одном из них учебники были отправлены на склад вместо раздачи; в другом – родители просто сократили общие расходы на образование на стоимость предоставленных учебников; в третьем случае не были мотивированы учителя, а в четвертом – учебники просто не могли помочь большинству учащихся, поскольку те еще не умели читать. Если бы эти объяснения не были найдены и продолжали оставаться темными данными, то выводы могли бы ввести в заблуждение.

Рандомизированные исследования являются прекрасным инструментом познания, но они не всегда уместны. Например, вряд ли кто стал бы проводить такое сравнительное исследование, чтобы понять, насколько эффективнее иметь парашют, прыгая с самолета, чем не иметь его[36]36
  G.C.S. Smith and J. Pell, “Parachute use to prevent death and major trauma related to gravitational challenge: Systematic review of randomised controlled trials,” British Medical Journal 327 (2003): 1459-61.


[Закрыть]
. Кроме того, существуют нюансы. Рассмотрим исследование, направленное на изучение возможных способов снижения безработицы. Вмешательство может увеличить шансы конкретного человека найти работу, но если это означает, что он просто займет место другого человека, который, не будь вмешательства, получил бы эту работу, то никакого снижения безработицы не произойдет. Аналогичным образом вмешательство, которое заменяет нескольких штатных сотрудников бо́льшим числом работников с неполным рабочим днем, может считаться успешным методом борьбы с безработицей, а может, и нет – в зависимости от того, как вы определяете безработицу.

Еще больше сложностей связано с так называемым эффектом Хоторна. Это склонность людей вести себя по-разному, если они знают, что за ними наблюдают, и если они этого не знают. Похоже, что идеальные исследования, проводимые в обществе, должны быть тайными, но это, очевидным образом, порождает этическую проблему информированного согласия. Первый пункт Нюрнбергского кодекса клинических исследований гласит: «Добровольное согласие испытуемого абсолютно необходимо».

Общим термином направления статистики, которая занимается оптимальным распределением испытуемых в процессе лечения, чтобы наилучшим образом проанализировать эффективность этого лечения, является экспериментальный дизайн. Рандомизированное исследование с двумя группами – самый простой из возможных и широко используемых дизайнов изучения эффективности лечения, политики или иных видов вмешательства. Прямым обобщением стратегии с двумя группами являются исследования с несколькими группами, как это было показано выше, каждая из которых получает отличное от других групп лечение, а также к более сложным, тщательно сбалансированным дизайнам, в которых учитываются многочисленные факторы, способные повлиять на результаты. В главе 8 вы найдете описание такого эксперимента по литью пластмассовых деталей для автомобилей. Сложные дизайны порой носят экзотические названия, такие как «дробный факториал» или «греко-латинский квадрат».

Принципы экспериментального дизайна были разработаны ведущим британским статистиком сэром Рональдом Фишером, который ставил сельскохозяйственные эксперименты на Ротамстедской опытной станции в Хартфордшире, старейшем сельскохозяйственном исследовательском институте в мире. В 1935 г. он опубликовал свой основополагающий труд «Дизайн экспериментов» (The Design of Experiments), в котором описал методы определения «экспериментальных единиц» на примере различных видов удобрений, типов почвы, ирригационных систем, температуры и т. д., а также лучшие способы изучения их комбинаций в процессе эксперимента. На сегодняшний день экспериментальный дизайн является передовой математической дисциплиной. Он включает в себя такие стратегии, как адаптивное распределение, когда на выбор воздействия влияют результаты, полученные в ходе самого эксперимента. По мере проведения исследования начинают накапливаться результаты, и мы видим, что они указывают на эффективность какого-то одного воздействия. Это приводит к вопросу о том, следует ли нам назначить большему количеству пациентов (если речь идет о клинических испытаниях) это лечение на том основании, что в настоящий момент оно представляется наилучшим, или, наоборот, распределить пациентов по другим методам лечения, чтобы быть более уверенными в своих выводах.

Интернет существенно упростил проведение социальных рандомизированных исследований определенных видов, поскольку мы можем легко организовать случайное распределение среди получателей разной информации и пользователей разных версий сайта – вспомните эксперимент Эндрю Лэя, который искал лучшее название для своей книги. Для интернет-компаний это обычная повседневная работа: выполняя тысячи экспериментов автоматически каждый день, они определяют наиболее успешную стратегию. Но использование темных данных таким образом может вызвать и обратную реакцию. Такой подход означает, что клиентов держат в неведении, и, если они узнают о нем, им это может не понравиться. Например, если к ценам на товары или услуги применяется рандомизация, то их изменение будет выглядеть странным и может вызывать тревогу и возмущение. В октябре 2000 г. The Washington Post сообщила о реакции клиентов, узнавших, что Amazon исследовала их чувствительность к ценам путем случайного манипулирования этими ценами[37]37
  The Washington Post, “Test of ‘dynamic pricing’ angers Amazon customers,” October 7, 2000, http://www.citi.columbia.edu/B8210/read10/Amazon%20Dynamic%20Pricing%20Angers%20Customers.pdf, accessed 19 June 2018.


[Закрыть]
. Оценка действий компании сводилась к следующему: «Я всегда считал, что клиентов сначала привлекают, а затем стараются удержать их. А это определенно не способствует лояльности клиентов». И что еще хуже: «Я никогда ничего не куплю больше у этих парней!»

Рандомное изменение цен для выяснения того, сколько клиент готов заплатить, – не самый сомнительный веб-эксперимент в смысле нарушения этики. В 2014 г. Facebook сильно пострадала от реакции пользователей на проведенный компанией эксперимент, целью которого было установить, как «эмоциональное состояние влияет на поведение людей при размещении постов»[38]38
  BBC, “Facebook admits failings over emotion manipulation study,” BBC News, 3 October 2014, https://www.bbc.co.uk/news/technology-29475019, accessed 19 June 2018.


[Закрыть]
. В ходе исследования соцсеть манипулировала информацией, размещенной на домашних страницах почти 700 000 пользователей, уменьшая и увеличивая объем позитивного или негативного контента, чтобы выяснить, может ли это заставить людей испытывать позитивные или негативные эмоции. Когда исследование стало достоянием общественности, его охарактеризовали как скандальное, пугающее, возмутительное, неэтичное, а возможно, даже и незаконное. Очевидно, что оно как минимум противоречило статье 1 Нюрнбергского кодекса, согласно которой испытуемые должны дать согласие на участие в эксперименте.


Страницы книги >> Предыдущая | 1 2 3 4 5 6 | Следующая
  • 2.7 Оценок: 6

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации