Текст книги "Думай «почему?». Причина и следствие как ключ к мышлению"
Автор книги: Джудиа Перл
Жанр: Зарубежная образовательная литература, Наука и Образование
Возрастные ограничения: +12
сообщить о неприемлемом содержимом
Текущая страница: 8 (всего у книги 30 страниц) [доступный отрывок для чтения: 10 страниц]
Глава 3. От доказательств к причинам. Преподобный Байес знакомится с мистером Холмсом
Пойдут ли двое вместе, не сговорившись между собою? Ревет ли лев в лесу, когда нет перед ним добычи?
Книга пророка Амоса. 3:3
«Элементарно, Ватсон!» – так говорил Шерлок Холмс (по крайней мере, в кино), прежде чем изумить верного помощника характерным и подчеркнуто неэлементарным дедуктивным рассуждением. Но на деле Холмс занимался не просто дедукцией, которая ведет от гипотезы к заключению. Он прекрасно владел искусством индукции, которая работает в противоположном направлении – от улики к гипотезе.
Еще одна известная цитата описывает его образ действий: «Если исключить невозможное, то, что останется, и будет правдой, сколь бы невероятным оно ни казалось». Получив несколько гипотез методом индукции, Холмс затем отметал одну за другой, чтобы с помощью дедукции (исключения) найти верную. Хотя индукция и дедукция идут рука об руку, первая гораздо загадочнее. Этот факт и позволяет детективам вроде Шерлока Холмса оставаться в деле.
Однако в последние годы эксперты по искусственному интеллекту добились большого прогресса в автоматизации процесса умозаключений, ведущего от улик к гипотезам и подобным же образом – от следствий к причинам. Мне повезло участвовать в этом процессе на самых ранних стадиях: я разработал один из его базовых инструментов под названием «байесовские сети». Эта глава объясняет, что они собой представляют, рассматривает способы их применения сегодня и обсуждает окольные пути, по которым они привели меня к исследованию причинно-следственных связей.
Bonaparte – компьютер-детектив
17 июля 2014 года рейс MH17 авиакомпании «Малайзия эйрлайнс» вылетел из амстердамского аэропорта Схипхол в Куала-Лумпур. Увы, самолет не добрался до пункта назначения. Через три часа, когда самолет пролетал над Восточной Украиной, его сбили ракетой «земля – воздух» российского производства. Все 298 человек на борту, 283 пассажира и 15 членов экипажа, погибли в авиакатастрофе.
23 июля, когда в Нидерланды были доставлены первые погибшие, объявили днем государственного траура. Но для криминалистов из Нидерландского института судебной экспертизы в Гааге 23 июля стало точкой отсчета. В их задачи входило как можно скорее идентифицировать останки и доставить их близким для похорон. Время поджимало, потому что каждый день неизвестности приносил обездоленным семьям новую боль.
Криминалисты столкнулись со множеством препятствий. Тела были сильно обожжены, и многие хранились в формальдегиде, который разрушает ДНК. Кроме того, поскольку Восточная Украина оставалась территорией военных действий, место авиакатастрофы было доступно не всегда. Останки находили в течение десяти месяцев. К тому же криминалисты не располагали информацией о ДНК жертв по той простой причине, что погибшие не были преступниками. Поэтому приходилось полагаться на частичные совпадения с ДНК родственников.
К счастью, у голландских специалистов был мощный инструмент – новейшая программа под названием Bonaparte, предназначенная для идентификации жертв катастроф. Эта программа, которую разработали в середине 2000-х ученые из Университета Неймегена имени святого Радбода Утрехтского, использует байесовские сети, чтобы скомбинировать информацию о ДНК, взятую у нескольких членов семьи.
Отчасти благодаря скорости и точности Bonaparte голландские криминалисты смогли опознать останки 294 из 298 жертв к декабрю 2014 года. К 2016 году только две жертвы катастрофы (оба граждане Нидерландов) оставались пропавшими без вести.
Байесовские сети, инструмент для машинного рассуждения, лежащий в основе программы Bonaparte, влияет на нашу жизнь разными способами, о которых большинство людей не имеет представления. Они используются в программах распознавания речи, фильтрах для спама, прогнозах погоды, при оценке потенциальных нефтяных скважин и одобрении медицинских приборов в Управлении по санитарному надзору за пищевыми продуктами и медикаментами. Если вы играете в видеоигры на приставке XboX компании «Майкрософт», значит, байесовские сети оценивают ваш уровень. Если у вас есть мобильный телефон, то алгоритмы, которые используются, чтобы выбрать ваш исходящий вызов из тысяч других, кодируются с помощью алгоритма распространения доверия, разработанного для байесовских сетей. Винт Серф, главный пророк Интернета из еще одной небезызвестной компании – Google, – говорит об этом так: «Мы потребляем байесовские методы в огромных объемах».
В этой главе я расскажу историю байесовских сетей с их появления в XVIII веке до развития в 1980-х годах, а еще приведу больше примеров того, как они используются сегодня. Они связаны с диаграммами причинности очень простым способом: такая диаграмма – это байесовская сеть, в которой каждая стрелка обозначает прямое причинно-следственное отношение или, по крайней мере, его возможность в направлении этой стрелки. Не все байесовские сети имеют причинно-следственную природу – во многих случаях это не имеет значения. Однако, если вы когда-нибудь захотите задать вопрос второго или третьего уровня на Лестнице Причинности, вам необходимо будет нарисовать диаграмму, обратив самое пристальное внимание на причинно-следственные связи.
Преподобный Байес и проблема обратной вероятности
Томас Байес, в честь которого я назвал сети в 1985 году, даже и не мечтал, что формула, которую он вывел в 1750-х годах, однажды будет использоваться, чтобы идентифицировать жертв катастрофы. Его волновала исключительно вероятность двух событий, одно из которых (гипотеза) происходит после второго (подтвержденного факта). Тем не менее причинность весьма его волновала. Более того, стремление установить причинно-следственные связи было движущей силой для его анализа «обратной вероятности».
Преподобный Томас Байес, пресвитерианский священник, живший с 1702 по 1761 годы, очевидно, был сильно увлечен математикой. Отколовшись от англиканской церкви, он не мог учиться в Оксфорде или Кембридже и вместо этого получил образование в Эдинбургском университете, где, вероятно, немало занимался любимой наукой. После того как Байес вернулся в Англию, он продолжал баловаться математикой и организовывать математические обсуждения.
В статье, опубликованной после его смерти, Байес разобрал задачу, которая была для него идеальной: столкнул математику и теологию. Это произошло в следующих обстоятельствах: в 1748 году шотландский философ Дэвид Юм написал эссе под названием «О чудесах», в котором утверждал, что личное свидетельство никогда не может служить подтверждением для чуда. Чудом, которое Юм имел в виду, было, конечно, воскресение Христа, хотя он был достаточно умен, чтобы этого не сказать (20 годами ранее теолог Томас Вулстон был обвинен в богохульстве и сел в тюрьму за такие утверждения). Главная мысль Юма состояла в том, что наблюдения, которые по природе своей могут быть ошибочными, не способны опровергнуть положение, основанное на законах природы, например: «Мертвые люди остаются мертвыми».
В глазах Байеса это утверждение приводило к естественном вопросу, прямо в духе Холмса: сколько доказательств необходимо, чтобы убедить нас в том, что события, которые мы считаем невероятными, все же произошли? Если исключить невозможное, то, что останется, и будет правдой, сколько бы невероятным это ни казалось. Когда гипотеза переходит границу между невозможным и невероятным или даже между вероятностью и подлинной уверенностью? Хотя этот вопрос был выражен на языке вероятности, за ним стояли намеренно богословские выкладки. Ричард Прайс, коллега-священник, который нашел эссе в вещах Байеса после его смерти и отправил его в печать с хвалебным вступлением, написанным самолично, выразил эту мысль предельно ясно: «Цель, которую я имею в виду, состоит в том, чтобы показать, по какой причине мы верим, что в порядке вещей существуют неизменные законы, в соответствии с которыми все происходит, и что, таким образом, мироустройство должно быть результатом мудрости и мощи разумной причины, а значит, подтвердить аргумент, основанный на конечных причинах, в пользу существования Всевышнего. Будет легко увидеть, что обратную проблему, решенную в этом эссе, легче применить для этой цели; она показывает нам ясно и точно, каковы основания полагать, что в любом случае каждого конкретного порядка и повторяемости событий этот порядок или повторяемость объясняются стабильной причиной и законами природы, а не случайностями, не подчиненными порядку».
Сам Байес не касался ничего этого в своем тексте; Прайс подчеркнул эти теологические выводы – возможно, чтобы эффект от работы друга был более масштабным. Но оказалось, что Байес не нуждался в помощи. О его работе помнят и ее обсуждают 250 лет спустя, и не из-за теологического значения, а потому, что она показывает: вероятность причины реально вывести из следствия. Если мы знаем причину, легко оценить вероятность следствия – прямую вероятность. Пойти в другом направлении – эту задачу во времена Байеса называли обратной вероятностью – сложнее. Байес не объяснил, почему она сложнее, – он счел это самоочевидным, доказал возможность ее решить и показал нам, как это сделать.
Чтобы оценить суть этой проблемы, давайте рассмотрим пример, который он сам предложил в работе 1763 года, напечатанной посмертно. Представим, что мы делаем удар кием по бильярдному мячу на столе и стараемся, чтобы он отскочил много раз – так, чтобы у нас не было представления о том, где он окажется. Какова вероятность того, что он остановится через X футов от левого края стола? Если мы знаем длину стола и если он абсолютно гладкий и плоский, это очень легкий вопрос (рис. 13а). Так, на 12-футовом столе для снукера вероятность того, что мяч остановится в футе от края, составит. На восьмифутовом бильярдном столе вероятность будет.
Рис. 13. Пример Томаса Байеса с бильярдным столом: а – в первом варианте, с вопросом о прямой вероятности, мы знаем длину стола и хотим вычислить вероятность того, что шар остановится в x футах от края; б – во втором варианте, с вопросом об обратной вероятности, мы наблюдаем, что шар остановился в x футах от конца и хотим оценить вероятность того, что длина стола составляет L (источник: рисунок Маян Харел)
Интуитивное понимание физики говорит нам, что в общем, если длина стола составляет L футов, вероятность того, что шар остановится в X футах от края составляет x/L. Чем больше длина стола L, тем ниже вероятность, потому что за право зваться конечным положением шара соревнуются больше позиций. Сдругой стороны, чем больше x, тем выше вероятность, поскольку она включает большее число конечных позиций.
Теперь рассмотрим проблему обратной вероятности. Мы наблюдаем конечное положение шара, в котором x = 1 фут от края, но не знаем длины (рис 13б). Преподобный Байес спросил: какова вероятность того, что длина была, скажем, 100 футов? Здравый смысл подсказывает, что длина, вероятнее, составила 50 футов, а не 100, ведь чем длиннее стол, тем труднее объяснить, почему шар оказался так близко к краю. Но насколько это вероятнее? «Интуиция» или «здравый смысл» не дает нам четких указаний.
Почему прямую вероятность (x при известном L) настолько легче оценить в уме, чем вероятность L при известном x? В этом примере асимметрия объясняется тем фактом, что L выступает в роли причины, а x – следствия. Если мы наблюдаем причину, скажем Бобби бросает мяч в окно, большинство может предсказать эффект (мяч, вероятно, разобьет окно). Человеческое познание работает в этом направлении. Но при известном следствии (окно разбито) нам требуется гораздо больше информации, чтобы вывести причину (кто из мальчиков бросил мяч, разбивший окно, или было ли окно вообще разбито мячом). Чтобы учесть все возможные причины, необходим ум Шерлока Холмса. Байес решил удалить эту когнитивную асимметрию и объяснить, как даже обычные люди могут оценить обратную вероятность.
Чтобы посмотреть, как работает метод Байеса, давайте начнем с простого примера о посетителях чайной, о которых у нас есть данные: мы знаем об их предпочтениях. Данные, как нам известно из главы 1, совершенно не в курсе, что существует асимметрия причины и следствия, а значит, с их помощью мы можем найти способ, как разрешить загадку обратной вероятности.
Предположим, что две трети покупателей приходят заказать чай и что половина пьющих чай также заказывают пирожные. Какова будет доля клиентов, которые закажут и чай, и пирожные? В этом вопросе нет подводных камней, и я надеюсь, что ответ почти очевиден.
Поскольку половина двух третей – одна третья, выходит, что одна третья клиентов заказывает чай и пирожные. Чтобы проиллюстрировать это числами, предположим, что мы занесли в таблицу заказы следующих 12 посетителей, которые войдут в дверь.
Как показывает табл. 1, (1, 5, 6, 7, 8, 9, 10, 12) заказали чай и половина из них заказала пирожные (1, 5, 8, 12). Таким образом, доля клиентов, которые заказали и чай, и пирожные действительно равна ½ ∙ =, ровно как мы и предсказывали до того, как увидели конкретные данные.
Таблица 1. Вымышленные данные для примера с чаем и пирожными
Отправная точка для байесовского правила – заметить, что данные можно было проанализировать в обратном порядке, т. е. мы могли бы заметить, что клиентов (1, 2, 5, 8, 12) заказали пирожные, а из них (1, 5, 8, 12) заказали чай. Таким образом, доля клиентов, которые заказали и чай, и пирожные, будет вычисляться так: ∙ =. Конечно, не случайно у нас получился один и тот же результат; мы просто вычислили одно и то же разными способами. Порядок, в котором клиенты объявляют свои заказы, не играет никакой роли.
Чтобы сделать из этого общее правило, пусть P (T) обозначает вероятность того, что посетитель закажет чай, а P (S) – вероятность того, что он закажет пирожные (помните, что вертикальная линия обозначает «при том что»). Подобным образом, P (T | S) обозначает вероятность заказа посетителем чая при том, что мы уже знаем о заказе им пирожных.
Сначала мы вычисляем следующее:
P (S and T) = P (S | T) P (T).
Второй расчет выглядит так:
P (S and T) = P (T | S) P (S).
Как говорил Евклид 2 300 лет назад, две величины, каждая из которых равна третьей, также равны между собой. Это означает, что справедливо и следующее:
P (S | T) P (T) = P (T | S) P (S)
Это безобидное с виду уравнение стало известно как «правило Байеса». Если посмотреть на него внимательнее, то обнаружится, что оно предлагает общее решение для проблемы обратной вероятности. Оно говорит: если мы знаем вероятность S при T, P (S | T), то мы сможем вычислить вероятность T при S, P (T | S) – конечно, при условии, что P (T) и P (S) нам известны. Это, пожалуй, самая важная функция правила Байеса в статистике: мы можем напрямую оценить условную вероятность в одном направлении, где наше суждение надежнее, и применить математику, чтобы получить условную вероятность в другом направлении, для которого наше суждение довольно туманно. Уравнение тоже играет эту роль в байесовских сетях; мы сообщаем компьютеру прямые вероятности, а компьютер выдает обратные вероятности, когда это необходимо.
Чтобы увидеть, как правило Байеса действует в примере с чайной, предположим, что вы не потрудились вычислить P (T | S) и оставили таблицу с данными дома. Однако вы почему-то помните, что половина из заказавших чай также заказала пирожные. Тут ваш босс задает неожиданный вопрос: «Какая доля заказавших пирожные также заказала и чай?» Нет повода для паники – вы можете вычислить это на основании иных вероятностей. Правило Байеса говорит, что P (T | S) () = (½) (), поэтому ваш ответ – P (T | S) =, потому что – единственное значение для P (T | S), которое сделает уравнение верным.
Также мы можем посмотреть на правило Байеса как на способ по-новому оценить нашу веру в определенную гипотезу. Это чрезвычайно важно понимать, потому что человеческие представления о событиях в будущем во многом опираются на частоту похожих событий в прошлом. Например, когда клиентка заходит в кафе, мы, ориентируясь на поведение похожих клиенток в прошлом, думаем, что, вероятно, она закажет чай. Но, если она сначала попросит пирожное, наша уверенность даже возрастет. Более того, возможно, мы предложим: «И чаю к пирожным?» Правило Байеса просто позволяет нам подкрепить эти рассуждения цифрами. Из табл. 1 видно, что предыдущая вероятность заказа чая (когда клиентка только вошла и еще ничего не заказала) равна. Но если клиентка заказывает пирожные, у нас появляется дополнительная информация о ней, которой не было раньше. В этом случае вероятность заказа чая (когда уже заказаны пирожные) выглядит так: P (T | S) =.
С математической точки зрения в этом и состоит правило Байеса. Оно кажется почти банальным. Здесь нет ничего, кроме понятия условной вероятности и небольшой дозы древнегреческой логики. Вы можете задать оправданный вопрос: как такая небольшая «фишка» сделала Байеса известным и почему люди спорили о ней 250 лет. В конце концов, математические факты должны разрешать противоречия, а не создавать их.
Здесь я должен признаться, что в примере с чайной, выводя правило Байеса из полученных данных, я опустил два весьма существенных возражения – одно философское и одно практическое. Философское возражение происходит из интерпретации вероятностей как степени веры, которую мы подспудно использовали в случае с чайной. Кто вообще сказал, что убеждения действуют или должны действовать как пропорциональные отношения данных?
Загвоздка в этом философском споре состоит в том, можно ли полноценно перевести выражение «при том, что я знаю» на язык вероятностей. Даже если мы согласимся, что безусловные вероятности вроде P (S), P (T) и P (S and T) отражают мою степень убежденности в этих предложениях, кто может сказать, что если оценить степень моей веры в T, она будет равна отношению P (S and T) /P (T), как утверждает правило Байеса? Будет ли «при том, что известно T» одним и тем же во всех случаях, где встретилось T? Язык вероятностей, выраженный в таких символах как P (S), создавался, чтобы выразить понятие частоты в азартных играх. Но выражение «при том, что известно» – эпистемологическое и должно управляться логикой знания, а не логикой частоты и пропорций.
С философской точки зрения достижение Томаса Байеса состоит в том, что он предложил формальное определение условной вероятности как P (S | T) = P (S and T) /P (T). По общему признанию, его эссе имеет довольно размытые формулировки; у него нет термина для условной вероятности, и вместо него он использует громоздкий оборот «вероятность второго [события] в условиях предположения, что первое произойдет». Только в 1880-х годах было признано, что отношение «при условии, что» заслуживает собственный символ, и только в 1931 году Харолд Джефрис (более известный как геофизик, чем как теоретик вероятности) ввел стандартную сегодня вертикальную черту в P (S | T).
Как мы видели, правило Байеса с формальной точки зрения – элементарное следствие его определения условной вероятности. Но с эпистемологической точки зрения оно далеко не элементарно. Более того, оно действует как нормативное правило для регуляции убеждений в ответ на доказательства. Другими словами, байесовское правило стоит рассматривать не только как удобное определение для нового понятия условной вероятности, но как попытка на практике достоверно представить английское выражение «при условии, что я знаю». Помимо прочего, оно означает, что вера в S, которую приобретает человек, открыв T, всегда не менее сильна, чем вера, которую человек питает по отношению к S и T до того, как откроет T. Более того, оно подразумевает, что чем удивительнее факт T, т. е. чем меньше P (T), тем сильнее должна быть вера в его причину S. Не случайно Байес и его друг Прайс, будучи епископальными священниками, видели в этом удачную отповедь Юму. Если T – чудо («Христос воскрес из мертвых»), а S – тесно связанная с ним гипотеза («Христос – сын Бога»), наша степень веры в S радикально повышается, когда мы точно знаем, что T – правда. Чем чудеснее чудо, тем больше доверия заслуживает гипотеза, которая обосновывает его возникновение. Это объясняет, почему авторы Нового Завета были так сильно впечатлены свидетельствами очевидцев.
А теперь я хотел бы обсудить практическое возражение правилу Байеса, которое, возможно, становится важнее, когда мы выходим из рамок теологии и переходим на территорию науки. Если попытаться применить это правило к головоломке с бильярдным шаром, чтобы найти P (L | x), то понадобится величина физики бильярдных шаров, недоступная нам: нам нужна априорная вероятность длины L, которую так же сложно определить, как и желаемую P (L | x). Более того, эта вероятность будет значительно отличаться в зависимости от индивидуального опыта каждого со столами разной длины. Человек, который никогда в жизни не видел стола для снукера, будет сильно сомневаться в том, что L может оказаться больше 10 футов. Однако человек, который видел только столы для снукера и не видел классического бильярдного стола, счел бы L меньше 10 футов крайне маловероятной. Эту переменчивость, также известную как субъективность, иногда считают недостатком причинного вывода по Байесу. Между тем есть мнение, что она дает мощное преимущество, поскольку позволяет выразить личный опыт математически и объединить его с данными – последовательно и прозрачно. Правило Байеса направляет наши рассуждения в тех случаях, когда подводит обычная интуиция или вмешиваются эмоции. Мы продемонстрируем это преимущество на примере знакомой всем нам ситуации.
Предположим, вы прошли медицинское обследование, чтобы узнать, есть ли у вас заболевание, и результат оказался положительным. Насколько вероятно, что вы действительно больны? Ради конкретности предположим, что речь идет о раке груди, а метод обследования – маммография. Здесь прямая вероятность – это вероятность положительного результата в случае, если вы действительно больны: P (обследование | болезнь). Врач назвал бы это «чувствительностью» обследования, подразумевая его способность правильно выявлять болезнь. Как правило, это одинаковая величина для всех пациентов, потому что она зависит только от технических возможностей прибора, выявляющего связанные с заболеванием отклонения. Обратная вероятность, скорее всего, окажется для вас более важной: какова вероятность, что вы больны, если результат оказался положительным? Это P (болезнь | обследование), и здесь информация идет не в причинном направлении, а от результата обследования к вероятности болезни. Вероятность не одинакова для всех типов пациентов; безусловно, положительный результат будет более тревожным для пациентки с семейным анамнезом болезни, чем для пациентки без такого анамнеза.
Обратите внимание, что мы начали говорить о причинных и непричинных направлениях. Мы не сделали этого в примере с чайной, потому что там было не важно, что делали в первую очередь – заказывали чай или просили пирожные. Было важно одно: какую условную вероятность можно оценить. Но причинно-следственный контекст проясняет, почему мы чувствуем себя менее уверенно, оценивая обратную вероятность, а в эссе Байеса прямо говорится, что его интересовала именно эта задача.
Предположим, 40-летней женщине сделали маммографию, чтобы проверить, нет ли у нее рака груди, и результаты оказались положительными. Гипотеза D (от англ. disease – «болезнь») состоит в том, что у нее рак. Доказательство, T (от англ. test – «анализ, обследование») представляет собой результат маммографии. Насколько стоит верить этой гипотезе? Следует ли делать операцию?
Мы можем ответить на эти вопросы, переписав правило Байеса следующим образом:
Обновленная вероятность D = P (D | T) = Отношение правдоподобия × Априорная вероятность D (1),
где новый термин «отношение правдоподобия» определяется как P (T | D) /P (T). Он измеряет, насколько вероятнее положительный результат обследования у людей с этим заболеванием, чем у населения в целом. Таким образом, уравнение (1) говорит, что новые данные T увеличивают вероятность D на фиксированную пропорцию независимо от того, какой была априорная вероятность.
Приведем пример, чтобы увидеть, как работает эта важная концепция. У обычной 40-летней женщины вероятность заболеть раком груди в следующем году – приблизительно 1:700, поэтому мы будем использовать ее в качестве априорной вероятности.
Чтобы вычислить отношение правдоподобия, нам нужно знать P (T | D) и P (T). В медицинском контексте P (T | D) – это чувствительность маммограммы, т. е. вероятность положительного результата, если у пациентки рак. По данным Консорциума по надзору за раком груди (Breast Cancer SUrveillance ConsortiUm; BCSC), чувствительность маммограммы для 40-летних женщин составляет 73 %.
Со знаменателем P (T) дело обстоит немного сложнее. Положительный результат T может быть получен как от пациенток, у которых есть эта болезнь, так и от пациенток, у которых ее нет. Таким образом, P (T) должно быть средневзвешенным значением P (T | D) (вероятность положительного результата у тех, кто болеет) и P (T | ~D) (вероятность положительного результата у тех, кто этим не болеет). Второй называют уровнем ложноположительных результатов. Согласно BCSC, уровень ложноположительных результатов для 40-летних женщин составляет около 12 %.
Почему средневзвешенная? Потому что здоровых женщин (~D) намного больше, чем женщин, больных раком (D). Фактически только 1 из 700 женщин страдает этим недугом, а остальные 699 – нет, поэтому вероятность положительного результата теста для случайно выбранной женщины должна гораздо сильнее зависеть от 699 женщин, у которых нет рака, чем от одной женщины, у которой он есть.
Получить средневзвешенное значение можно с помощью следующих вычислений: P (T) = 1/700 ∙ 73 % + 699/700 ∙ 12 % a 12,1 %. Коэффициенты обусловлены тем, что только у 1 из 700 женщин вероятность положительного результата составляет 73 %, а у остальных 699–12 %. Как и следовало ожидать, P (T) оказался очень близок к уровню ложноположительных результатов.
Теперь, когда мы знаем P (T), наконец-то можно вычислить обновленную вероятность – шанс женщины заболеть раком груди после того, как результат окажется положительным. Отношение правдоподобия составляет 73 % / 12,1 % ≈ 6. Как я уже говорил, это фактор, на который мы увеличиваем ее априорную вероятность, чтобы вычислить обновленную вероятность рака. Поскольку ее априорная вероятность была равна 1 из 700, ее обновленная вероятность составляет 6 ∙ 1/700 a 1/116. Другими словами, у нее все еще есть вероятность заболеть раком и она составляет менее 1 %.
Вывод поразительный. Я думаю, большинство 40-летних женщин с положительным результатом маммографии были бы изумлены, узнав, что шанс заболеть раком груди у них составляет менее 1 %. Рис. 14 поможет понять причины: крошечное число истинно положительных результатов (т. е. женщин с раком груди) несоизмеримо с огромным числом ложноположительных результатов. Наше удивление по поводу этого явления объясняется общей когнитивной путаницей между прямой вероятностью, которая хорошо изучена и тщательно задокументирована, и обратной вероятностью, необходимой для принятия личного решения.
Конфликт между нашим восприятием и реальностью частично объясняет протесты, возникшие, когда рабочая группа по профилактике болезней (Preventive Services Task Force) в США в 2009 году рекомендовала 40-летним женщинам не проходить ежегодную маммографию. Рабочая группа понимала то, чего не осознавали многие женщины: положительный результат обследования в этом возрасте с большей вероятностью будет ложной тревогой и многие женщины в таких случаях испугаются зря (и получат ненужное лечение).
Рис. 14. В этом примере, основанном на количестве ложноположительных и ложноотрицательных результатов, предоставленных Консорциумом по надзору за раком молочной железы, только 3 из 363 40-летних женщин с положительным результатом обследования на рак груди действительно оказались больны (пропорции не совсем соответствуют тексту из-за округления) (источник: инфографика Маян Харел)
Но все было бы иначе, если бы у нашей пациентки был ген, который подвергал бы ее высокому риску рака груди, скажем с одним шансом из 20 в течение следующего года. Тогда положительный результат повысил бы вероятность почти до одного из трех. Для женщины в этой ситуации шансы, что обследование даст жизненно важную информацию, намного выше. Вот почему рабочая группа рекомендует женщинам из группы высокого риска делать маммограммы ежегодно.
Этот пример показывает, что P (болезнь | обследование) неодинаков для всех; вероятность зависит от контекста. Если вы знаете, что изначально подвержены высокому риску заболевания, правило Байеса позволяет вам учесть эту информацию. Или, если вы знаете, что риска нет, обследование просто не нужно. Напротив, P (обследование | болезнь) не зависит от того, находитесь вы в группе риска или нет. Вероятность устойчива к таким вариациям, что до некоторой степени объясняет, почему врачи систематизируют и передают свои знания с помощью прямых вероятностей. Вариации – это свойства самой болезни, ее стадии развития или чувствительности детекторов; следовательно, они остаются относительно инвариантными к причинам заболевания (эпидемия, диета, гигиена, социально-экономический статус, семейный анамнез). Обратная вероятность P (болезнь | обследование) чувствительна к этим условиям.
Читатель, интересующийся историей, наверняка задастся вопросом, как Байес справился с субъективностью P (L), где L – длина бильярдного стола. Ответ состоит из двух частей. Во-первых, Байеса интересовала не длина стола как таковая, а связанные с ней последствия (т. е. вероятность, что следующий шар окажется в каком-то определенном месте на столе). Во-вторых, Байес предположил, что L определяется механически, когда бильярдный шар отправляют с большего расстояния, скажем, L*. Таким образом, он наделил P (L) объективностью и преобразовал задачу так, что априорные вероятности можно оценить на основе данных, как мы видим в образцах с чайной и маммограммой.
Во многих отношениях правило Байеса – квинтэссенция научного метода. Описание последнего в учебнике выглядит примерно так: 1) сформулируйте гипотезу; 2) выведите проверяемое следствие гипотезы; 3) проведите эксперимент и соберите доказательства и 4) пересмотрите веру в гипотезу. Обычно учебники разбирают простые тесты типа «да или нет» и полученные результаты; доказательства либо подтверждают, либо опровергают гипотезу. Но жизнь и наука не бывают такими простыми! Все полученные данные отличаются некоторой неопределенностью. И правило Байеса показывает нам, как выполнить шаг 4 в реальном мире.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?