Электронная библиотека » Джудиа Перл » » онлайн чтение - страница 9


  • Текст добавлен: 1 марта 2024, 06:13


Автор книги: Джудиа Перл


Жанр: Зарубежная образовательная литература, Наука и Образование


Возрастные ограничения: +12

сообщить о неприемлемом содержимом

Текущая страница: 9 (всего у книги 30 страниц) [доступный отрывок для чтения: 9 страниц]

Шрифт:
- 100% +
От байесовского правила к байесовским сетям

В начале 1980-х проектирование искусственного интеллекта зашло в тупик. С тех пор как Алан Тьюринг впервые изложил задачу в статье 1950 года «Вычислительные машины и интеллект», ведущим подходом в этой области были так называемые системы на основе правил или экспертные системы, которые организуют человеческое знание как набор конкретных и общих фактов и используют правила логического вывода, чтобы связать их. Например: Сократ – человек (конкретный факт). Все люди смертны (общий факт). Из этой базы знаний мы (или разумная машина) можем вывести тот факт, что Сократ смертен, используя универсальное правило логического вывода: если все A являются B и x является A, то x является B.

Теоретически это был годный подход, но жесткие правила вряд ли могут отразить знания из реальной жизни. На деле мы все время сталкиваемся с исключениями из правил и неопределенностями в данных, даже когда этого не осознаем. К 1980 году стало ясно, что экспертным системам трудно делать правильные выводы из неопределенных знаний. Компьютер не мог воспроизвести процесс, с помощью которого человек-специалист приходит к логическому выводу, потому что сами специалисты не могли выразить свой мыслительный процесс на языке, доступном системе.

Таким образом, конец 1970-х был временем брожения умов: сообщество исследователей ИИ пыталось найти способ справиться с неопределенностью. В идеях недостатка не было. Лотфи Заде из Калифорнийского университета в Беркли предложил «нечеткую логику», в которой утверждения, не являясь ни истинными, ни ложными, принимают ряд возможных значений истинности. Гленн Шейфер из Канзасского университета предложил «функции убеждений», которые приписывают каждому факту две вероятности: одна указывает, насколько вероятно, что он «возможен», другая – насколько вероятно, что он «доказуем». Эдвард Фейгенбаум и его коллеги из Стэнфордского университета попробовали работать с «факторами достоверности», добавив числовые меры неопределенности в детерминистские правила логического вывода.

К сожалению, несмотря на всю изобретательность, эти подходы имели общий недостаток: они моделировали эксперта, а не мир и поэтому нередко давали непредвиденные результаты. Например, они не могли работать одновременно в диагностическом и прогностическом режимах, что является бесспорным преимуществом правила Байеса. При подходе, основанном на факторе определенности, правило «Если огонь, то дым (с определенностью c1)» не может согласованно сочетаться с утверждением «Если дым, то огонь (с определенностью c2)», не вызывая бесконтрольного роста уверенности.

В то время также рассматривался подход, основанный на вероятностях, однако он сразу приобрел дурную славу из-за огромных потребностей в памяти для хранения и очень долгого времени обработки. Я вышел на арену довольно поздно, в 1982 году, с очевидным, но радикальным предложением: вместо того чтобы заново изобретать теорию неопределенности с нуля, оставим вероятность в качестве защитницы здравого смысла и просто исправим ее недостатки в вычислительном плане. А именно, вместо того чтобы представлять вероятность в огромных таблицах, как это делали раньше, выразим ее в виде сети слабо связанных переменных. Если мы разрешим каждой переменной взаимодействовать только с несколькими соседними, это позволит преодолеть вычислительные препятствия, которые помешали другим исследователям вероятностей.

Эта идея пришла ко мне не во сне; она почерпнута из статьи Дэвида Румельхарта, когнитивиста из Калифорнийского университета в Сан-Диего и пионера в проектировании нейросетей. Его статья о детском чтении, опубликованная в 1976 году, показала, что это сложный процесс, в ходе которого нейроны на многих разных уровнях действуют одновременно (рис. 15). Одни нейроны распознают отдельные особенности – круги или линии. Над ними другой слой нейронов объединяет эти формы и строит предположения о том, что за буква получается из них.

На рис. 15 показано, как нейросеть борется с большой долей неопределенности применительно ко второму слову. На уровне букв это может быть FHP, но на уровне слов такое сочетание не имеет особого смысла. Здесь предположительны FAR, CAR или FAT. Нейроны переводят информацию на синтаксический уровень, который определяет, что после слова THE ожидается существительное. Наконец, эта информация полностью передается на семантический уровень, где учитывается, что в предыдущем предложении упоминался VolksWagen, а значит, искомым сочетанием будет THE CAR (ЭТА МАШИНА), относящееся к тому самому Volkswagen. Важнее всего здесь, что нейроны передают информацию туда и обратно, сверху вниз, снизу вверх и из стороны в сторону. Это система со многими параллельными процессами, которая сильно отличается от нашего представления о мозге как о монолитной системе с централизованным управлением.

Читая статью Румельхарта, я убеждался в том, что любой искусственный интеллект должен будет моделировать себя на основе наших знаний о нейронной обработке информации у человека и что машинное мышление в условиях неопределенности должно использовать похожую архитектуру передачи сообщений. Но что же это за сообщения? На понимание этого у меня ушел не один месяц. И наконец я осознал, что эти сообщения были условными вероятностями в одном направлении и отношениями правдоподобия в другом.


Рис. 15. Набросок Дэвида Румельхарта показывает, как сеть передачи сообщений учится читать сочетание THE CAR (источник: любезно предоставлено Центром исследований мозга и познания Калифорнийского университета в Сан-Диего)


Точнее, я предполагал, что сеть будет иерархической – со стрелками, ведущими от верхних нейронов к нижним или от «родительских узлов» к «дочерним узлам». Каждый узел будет отправлять всем соседям (как выше, так и ниже в иерархии) сообщение о своей текущей степени уверенности в переменной, которую отслеживает (например, «Я на две трети уверен, что эта буква – R»). Получатель будет обрабатывать сообщение двумя разными способами, в зависимости от его направления. Если сообщение идет от «родителя» к «ребенку», то «ребенок» обновит степень уверенности, используя условные вероятности, подобные тем, которые мы видели в образце с чайной. Если сообщение передается от «ребенка» к «родителю», то родитель обновит свою степень уверенности, умножив их на отношение правдоподобия, как в случае с маммограммой.

Повторное применение этих двух правил к каждому узлу в сети называется распространением степени уверенности. В ретроспективе видно, что в этих правилах нет ничего произвольного или выдуманного; они находятся в строгом соответствии с правилом Байеса. Настоящий вызов состоял в том, чтобы гарантировать удобное равновесие в конце – независимо от того, в каком порядке отправляются эти сообщения; более того, окончательное равновесие должно представлять «правильное» отражение веры в переменные. Под «правильным» я имею в виду такой же результат, как если бы мы проводили вычисления с помощью методов из учебника, а не путем передачи сообщений.

Это задача заняла меня и моих студентов, а также моих коллег на несколько лет. Но к концу 1980-х годов мы преуспели до такой степени, что байесовские сети стали практической схемой машинного обучения. За следующие 10 лет сфера их применения, например, для фильтрации спама и распознавания голоса, постоянно расширялась. Однако к тому времени я уже пытался подняться по Лестнице Причинности, передав вероятностную сторону байесовских сетей в другие надежные руки.

Байесовские сети: что причины говорят о данных

Хотя Байес этого не знал, его правило обратной вероятности представляет собой простейшую байесовскую сеть. Мы уже видели ее в нескольких обличиях: чай → пирожные, болезнь → анализ и, в более общем контексте, гипотеза → подтверждения. В отличие от диаграмм причинности, с которыми мы будем иметь дело в течение всей книги, байесовские сети не подразумевают, что стрелки обозначают причинно-следственные связи. Стрелка просто значит, что нам известна «прямая» вероятность: P (пирожные | чай) or P (тест| болезнь). Правило Байеса показывает нам, как развернуть процедуру обратно, в частности, путем умножения априорной вероятности на отношение правдоподобия.

Формально распространение уверенности осуществляется абсолютно одинаково, и неважно, обозначают ли стрелки причинно-следственные связи. Тем не менее у вас может появиться интуитивное ощущение, что во втором случае мы сделали нечто более осмысленное. Это потому, что наши мозги оснащены специальным аппаратом для понимания причинно-следственных связей (например, между раком и маммографией). Для чистых ассоциаций (скажем, между чаем и пирожными) это не работает.

Следующий этап после сети из двух узлов с одной связью – конечно же, сеть из трех узлов с двумя связями, которую я буду называть связкой. Это строительные блоки во всех байесовских (и причинно-следственных) сетях. Существуют три основных типа связок, с помощью которых мы можем описать любое использование стрелок в сети.

1. A → B → C. Эта связка – самый простой образец цепочки или медиации. В науке В часто считают механизмом или посредником, который передает действие А на С. Знакомый пример – огоньдымтревога. Хотя мы называем это «пожарной сигнализацией», на самом деле она реагирует на дым. Огонь как таковой не запускает сигнализацию, поэтому стрелки между огнем и тревогой нет. Также огонь не запускает сигнализацию ни через какую другую переменную вроде температуры. Сигнализация реагирует только на молекулы дыма в воздухе. Если отменить это звено в цепочке, скажем отсосав все молекулы дыма с помощью вытяжки, то тревоги не будет.

Это наблюдение приводит к важному концептуальному выводу о цепочках: посредник B «отсеивает» информацию об A, не давая ей доступа к C, и наоборот (впервые на это указал Ханс Рейхенбах, немецко-американский философ науки). Так, если мы уже знаем о присутствии или отсутствии дыма, информация об огне не может дать нам оснований, чтобы в большей или меньшей степени верить сигнализации. Эта стабильность веры – понятие первого уровня; следовательно, можно ожидать, что мы будем наблюдать его и в данных, если они доступны. Предположим, у нас есть база данных обо всех случаях возгорания, дыма или срабатывания сигнализации. Если бы мы смотрели только на те строки, где дым = 1, то ожидали бы, что тревога = 1 всякий раз, независимо от того, огонь = 0 или огонь = 1. Этот эффект отсеивания действует, если следствие не является детерминированным. Представьте себе неисправную систему сигнализации, которая не срабатывает правильно в 5 % случаев. Если посмотреть только на строки, где дым = 1, окажется: вероятность, что тревога = 1, одинакова (95 %), и неважно, огонь = 0 или огонь = 1.

Просмотр только тех строк в таблице, где дым = 1, называется ограничением по переменной. Подобным образом мы говорим, что огонь и тревога ограниченно независимы, учитывая значение дыма. Это важно знать, если вы программируете машину, чтобы обновить ее убеждения; ограниченная независимость дает машине право сосредоточиться на значимой информации и игнорировать всю остальную. Всем нам необходимо такое право для повседневной мыслительной деятельности, иначе мы будем постоянно гоняться за ложными сигналами. Но как же решить, какую информацию игнорировать, если каждый новый ее фрагмент меняет границу между значимым и неважным? К людям это понимание приходит естественным путем. Даже трехлетние малыши понимают эффект отсеивания, хотя у них нет для него названия. Их инстинкт, вероятно, основан на некой репрезентации в уме, возможно напоминающей причинную диаграмму. Но у машин нет такого инстинкта, и это одно из обстоятельств, по которым мы снабжаем их причинными диаграммами.


2. A ← B → C. Этот тип связки называется «вилка», и В часто считают общей причиной или общим осложнителем для А и С. Осложняющая переменная обеспечивает статистическую корреляцию между А и С, хотя между ними нет прямой причинной связи. Вот хороший пример (от Дэвида Фридмана): размер обувивозраст ребенканавыки чтения. Дети, у которых больше размер обуви, обычно лучше читают. Но это не причинно-следственные отношения. Если дать ребенку обувь большего размера, он не станет от этого лучше читать! Напротив, обе переменных объясняются третьей – возрастом ребенка. У более старших детей обувь большего размера, и одновременно они более продвинутые читатели.

Мы можем избавиться от этой ложной корреляции, как называли ее Карл Пирсон и Джордж Удни Юл, ограничив нашу выборку возрастом ребенка. Так, если взять только семилетних детей, мы не будем ожидать какой-либо зависимости между размером обуви и умением читать. Как и в случае с цепочкой, А и С условно независимы, если дано В.

Прежде чем перейти к третьей связке, необходимо кое-что прояснить. Условная независимость, которую я только что упомянул, проявляется всякий раз, когда мы смотрим на эти связки в изоляции. Если их окружают дополнительные причинные связи, последние необходимо принять во внимание. Чудо байесовских сетей состоит в том факте, что три вида связок, которые мы описываем в изоляции, достаточны, чтобы увидеть любую независимость, подразумеваемую байесовской сетью, какой бы сложной она ни была.


3. A → B ← C. Это самая интересная связка под названием «коллайдер». Феликс Элверт и Крис Уиншип проиллюстрировали ее, используя три характеристики голливудских актеров: талантизвестностькрасота. Здесь мы утверждаем, что и талант, и красота способствуют успеху актера, но красота и талант совершенно не связаны друг с другом у людей в целом.

Сейчас мы увидим, что принцип коллайдера работает совершенно противоположно цепочке или вилке, если мы ограничим значение переменной в середине. Если А и С независимы с самого начала, ограничение по В сделает их зависимыми. Например, если мы посмотрим только на известных актеров и актрис (другими словами, мы наблюдаем переменную известность =1), то мы увидим негативную корреляцию между талантом и красотой: обнаружив, что актер или актриса не обладает красотой, мы укрепляемся в убеждении, что он или она отличается талантом.

Эту негативную корреляцию порой называют ошибкой коллайдера или эффектом достаточного объяснения. Для простоты представим, что для статуса звезды не нужны ни талант, ни красота – достаточно чего-то одного. Тогда, если актер А особенно хорош, это «достаточно объясняет» его успех и ему не нужно быть красивее среднего человека. В свою очередь, если актер В особенно плох, то единственный способ объяснить его успех – привлекательная внешность, т. е. с учетом результата известность = 1 талант и красота связаны обратно, даже если они не связаны между собой у людей в целом. Но и в более реалистичной ситуации, где успех – сложная функция, зависящая от красоты и таланта, эффект достаточного объяснения все же присутствует. Однако этот образец несколько апокрифичен, потому что красоту и талант трудно измерить объективно; тем не менее ошибка коллайдера вполне реальна и в этой книге мы увидим множество тому примеров.

Эти три связки – цепи, вилки и коллайдеры – подобны замочным скважинам в двери, разделяющей первый и второй уровни Лестницы Причинности. Заглянув в них, мы можем увидеть секреты причинного процесса, который породил наблюдаемые нами данные. Каждая символизирует определенный принцип причинно-следственной связи и оставляет след в виде зависимости и независимости данных друг от друга при определенных условиях. В публичных лекциях я часто называю их дарами богов, поскольку они позволяют тестировать причинно-следственную модель, открывать новые модели, оценивать эффекты интервенции и многое другое. Тем не менее, взятые в отдельности, они позволяют лишь мельком взглянуть на ситуацию. Нам нужен ключ, который полностью откроет дверь и позволит выйти на второй уровень. Этот ключ, о котором мы узнаем из главы 7, включает все три связки и называется d-разделением. Его концепция позволяет нам увидеть, какого рода зависимости можно ожидать в данных при разных шаблонах и путях в модели причинно-следственных связей. Такая фундаментальная связь между причинами и вероятностями составляет основной вклад байесовских сетей в науку о причинном выводе.

Где мой чемодан? От Ахена до Занзибара

Пока я сделал акцент только на одном аспекте байесовских сетей, а именно на диаграмме и стрелках, которые в идеале ведут от причины к следствию. В самом деле, эта диаграмма – двигатель байесовской сети. Но для любого двигателя требуется топливо. В данном случае это таблица условных вероятностей.

По-другому это можно выразить так: диаграмма описывает отношение вероятностей в качественном виде, но если нужны количественные ответы, то необходимы и количественные вводные. В байесовской сети нужно определить условную вероятность каждого узла с учетом его «родителей» (вспомним, что «родительские узлы» ведут к «дочерним»). Это прямые вероятности, P (подтверждение | гипотеза).

В случае когда А – корневой узел и на него не указывают стрелки, надо просто определить априорную вероятность для каждого состояния А. В нашей второй сети болезнь (D) → обследование (T) D – корневой узел. Таким образом, мы определили априорную вероятность того, что пациентка больна (1/700 в нашем примере), и того, что она не больна (699/700 в нашем примере).

Описывая A как корневой узел, мы на самом деле не подразумеваем, что у A нет предшествующих причин. Вряд ли какая-то переменная имеет право на такой статус. На самом деле мы имеем в виду, что любые предыдущие причины A могут быть адекватно обобщены в априорной вероятности P (A) того, что A верно. Так, в случае с болезнью и обследованием семейный анамнез может быть причиной заболевания. Но до тех пор, пока мы уверены, что семейный анамнез не повлияет на переменную обследование (как только мы узнаем статус болезни), нет необходимости представлять ее как узел на графике. Однако, если существует причина заболевания, которая также напрямую влияет на обследование, то эта причина должна быть явно представлена на диаграмме.

В случае если у A есть родитель, она должна «послушать» его, прежде чем определиться с собственным состоянием. В примере с маммографией родителем обследования (T) была болезнь (D). Мы можем показать этот процесс «слушания» в таблице 2 × 2 (табл. 2). Скажем, если T «слышит», что D = 0, то в 88 % случаев T будет равно 0 (T=0), в 12 % – 1 (T = 1). Обратите внимание на то, что во второй части таблицы содержится та же информация, которую предоставил Консорциум по надзору за раком груди: доля ложноположительных результатов (правый верхний угол) – 12 %, а чувствительность – 73 %. Значения в двух оставшихся клетках дополняют сумму до 100 %.


Таблица 2. Простая таблица условной вероятности


По мере того как мы переходим к более сложным сетям, таблица условной вероятности тоже становится сложнее. Скажем, если у нас есть узел с двумя родителями, в таблице условной вероятности необходимо учитывать четыре возможных состояния обоих родителей. Давайте разберем конкретный пример, который предложили Стефан Конради и Лайонел Джофф из BayesiaLab, Inc. Это сценарий, знакомый всем путешественникам. Мы назовем его «Где мой чемодан?».

Предположим, вы только что приземлились в Занзибаре, сделав очень быструю пересадку в Ахене, и ждете, пока ваш чемодан появится на багажной карусели. Другие пассажиры уже получают багаж, но вы все ждете… ждете… и ждете… Каковы шансы на то, что ваш чемодан действительно сделал пересадку в Ахене на рейс до Занзибара? Ответ зависит, конечно, от того, сколько вы уже ждете. Если сумки только появились на ленте, возможно, стоит потерпеть и подождать еще. Но если прошло много времени, перспективы ухудшаются. Мы выразим повод для переживаний количественно, сделав диаграмму причинности (рис. 16).


Рис. 16. Диаграмма причинности для примера с чемоданом в аэропорту


Эта диаграмма иллюстрирует интуитивную идею о том, что у появления чемодана на ленте багажной карусели есть две причины. Для начала он должен находиться в самолете – в противном случае он точно не появится на ленте. Во-вторых, присутствие чемодана на ленте становится менее вероятным с течением времени, если он вообще был на борту…

Чтобы превратить диаграмму причинности в байесовскую сеть, надо определиться с таблицами условной вероятности. Скажем, все чемоданы в аэропорту Занзибара разгружаются в течение 10 минут. (В Занзибаре все очень эффективны!) Предположим также, что вероятность успешной пересадки вашего чемодана P (чемодан в самолете = верно) равна 50 %. (Прошу прощения, если это заденет кого-то из сотрудников ахенского аэропорта. Я всего лишь использую пример Конради и Джоффа. Сам я предположил бы более высокую вероятность – 95 %).

Настоящая рабочая лошадка этой байесовской сети – таблица условной вероятности для чемодана на ленте багажной карусели (табл. 3).

Хотя это довольно большая таблица, понять ее должно быть легко. Первые 11 строк говорят о том, что если чемодан не попал в самолет (чемодан в самолете = неверно), то, сколько бы ни прошло времени, он не окажется на ленте багажной карусели (лента = неверно), т. е. P (лента = неверно | чемодан в самолете = неверно) равна 100 %. Это объясняет 100 в первых 11 строках.

Другие 11 рядов говорят, что чемоданы выгружаются с самолета с устойчивой скоростью. Если ваш чемодан правда в самолете, есть 10 %-ная вероятность, что его выгрузят в первую минуту, 10 %-ная вероятность для второй минуты и т. д. Так, через 5 минут вероятность, что его выгрузили, будет равна 50 %, поэтому мы видим 50 P (лента = верно | чемодан в самолете = верно, время = 5). Через 10 минут все чемоданы выгружены, так что P (лента = верно | чемодан в самолете = верно, время = 10) равна 100 %. Таким образом, в последней клетке таблицы 100.

Самое интересное, что можно сделать с этой байесовской сетью, как и с большинством байесовских сетей, – решить проблему обратной вероятности. Если прошло x минут и я до сих пор не получил чемодан, какова вероятность того, что он на самолете? Правило Байеса автоматизирует это вычисление и показывает интересный момент. Через минуту эта вероятность еще равно 47 % (вспомним, что нашим изначальным предположением была вероятность 50 %). Через 5 минут вероятность снижается до 33 %. Через 10 минут, конечно же, она падает до нуля. Рис. 17 показывает, как вероятность распределяется во времени, и это можно назвать «кривой расставания с надеждой». Мне интересно, что это правда кривая: думаю, большинство людей ожидают увидеть здесь прямую линию. Вообще, отсюда следует довольно оптимистичный вывод: не отчаивайтесь слишком рано! Кривая показывает, что, когда проходит половина отведенного времени, стоит расстаться всего лишь с третью надежды.


Таблица 3. Более сложная таблица условной вероятности



Рис. 17. Вероятность увидеть свой чемодан на ленте сначала снижается медленно, а потом быстрее (источник: график Маян Харел, информация Стефана Конради и Лайонела Джоффа)


Мы не только получили практический совет, но и поняли, что не стоит делать такие вещи в уме. Даже в крошечной сети с тремя узлами оказалось 2 ∙ 11 = 22 родительских состояния, каждое из которых влияло на состояние потомка. Конечно, для компьютера эти вычисления элементарны, но… до определенного момента. Если делать их в организованной форме, сам объем вычислений может оказаться слишком большой нагрузкой даже для самого быстрого суперкомпьютера. Если у узла десять родителей, у каждого из которого два состояния, в таблице условной вероятности будет больше тысячи рядов. А если у каждого из 10 родителей 10 состояний, то в таблице будет 10 миллиардов рядов! По этой причине необходимо отсеять связи в сети, чтобы остались только самые важные и чтобы сеть была разреженной. Одним из технических достижений в развитии байесовских сетей стало выявление способов, которые позволяют использовать эту разреженность для сокращения времени вычислений.

Внимание! Это не конец книги.

Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!

Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8 9
  • 0 Оценок: 0

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации