Текст книги "Искусственный интеллект: перезагрузка. Как создать машинный разум, которому действительно можно доверять"
Автор книги: Гэри Маркус
Жанр: Прочая образовательная литература, Наука и Образование
сообщить о неприемлемом содержимом
Текущая страница: 7 (всего у книги 20 страниц) [доступный отрывок для чтения: 7 страниц]
Возвращаясь к обсуждению вопроса о синтетическом восприятии, повторим, что совершенная система машинного чтения должна была бы скомпилировать свой ответ, прочитав Google News и обновив свой внутренний список членов Верховного суда согласно последним изменениям. В качестве компромиссной идеи можно было бы научить ее консультироваться с «Википедией» (которую регулярно обновляют люди) и выбрать действующих судей из статьи с соответствующим содержанием. Однако Google Search, похоже, ничего этого не умеет. По сути, мы опять имеем дело просто с выдачей по запросу самых частых статистических закономерностей (действительно, в поисковых запросах судьи Алито и Скалия встречаются особенно часто), а не с подлинным чтением и пониманием прочитанного.
В качестве другого примера рассмотрим еще один наш запрос: «Когда был построен первый мост?»[40]40
Вопрос, заданный авторами книги в ходе экспериментов, проведенных в августе 2018 года. Фрагмент, найденный Google, был исходно опубликован в Ryan 2001–2009.
[Закрыть] Поисковая система Google показала в верхней (самой релевантной) части ответов следующее:
В настоящее время широко используются железные и стальные мосты, которые проложены через большинство крупных мировых рек. На снимке показан первый в мире железный мост. Он был построен в Телфорде в 1779 году Абрахамом Дарби III и стал первым крупным сооружением в истории, построенным из железа.
В этом тексте слова «первый» и «мост» соответствуют нашему запросу, однако первый из когда-либо построенных мостов вовсе не был железным, а словосочетание «первый железный мост» не идентично по смыслу словосочетанию «первый мост» – образно говоря, Google куда-то подевал тысячи лет человеческой истории[41]41
Мост Аркадико в Греции, построенный около 1300 года до нашей эры, все еще полностью цел. Но это уже весьма сложный по конструкции каменный арочный мост. Нет сомнений, что более примитивные и менее долговечные мосты люди строили еще за столетия или тысячелетия до этого.
[Закрыть]. Приходится признать, что спустя более десяти лет после того, как был запущен поисковик Google, случаи, когда эта система читает вопрос и дает на него прямой ответ, все еще остаются в ничтожном меньшинстве. Когда вы получаете вместо ответов ссылки, это, как правило, означает, что Google Search полагается лишь на такие вещи, как ключевые слова и подсчет ссылок, а не на подлинное понимание вопросов и контента.
Прогрессивные компании, такие как Google и Amazon, конечно, постоянно совершенствуют свои продукты. Совершенно несложно написать вручную отдельную программу для правильного составления актуального списка членов Верховного суда, поэтому небольшие и постепенные улучшения будут продолжаться. Однако и на горизонте нет общего решения всех тех проблем, которые мы здесь поднимаем.
Несколько лет назад мы заметили на Facebook хитроумный пост, ставший мемом. Это была фотография Барака Обамы с надписью: «В прошлом году вы сказали нам, что вам 50 лет, а теперь вы говорите, что вам 51 год. Как это понимать, Барак Обама?» Если вы человек, вы легко поймете юмор этого поста. Как нетрудно догадаться, два разных утверждения, произнесенные в разное время, могут оказаться чистой правдой. Но если вы машина, выполняющая лишь чуть большее, чем просто поиск по ключевым словам, вы неизбежно запутаетесь.
А как насчет речевых «виртуальных помощников», таких как Siri, Cortana, Google Assistant и Alexa? С одной стороны, они часто действуют, а не просто предоставляют вам списки ссылок, – и это хорошо. В отличие от Google Search, они с самого начала разрабатывались таким образом, чтобы интерпретировать пользовательские запросы не как наборы случайных ключевых слов, а как реальные вопросы. Но и через несколько лет после введения эти системы работают во многом на авось, оставаясь эффективными в одних областях и очень слабыми – в других. Например, все они довольно хорошо разбираются в вопросах, касающихся конкретных фактов, типа «Кто выиграл [бейсбольную] Мировую серию в 1957 году?»; у каждого из помощников есть куча сильных ноу-хау. Так, Google Assistant хорошо умеет давать уместные ответы и покупать билеты в кино, Siri тоже умеет давать адекватные ответы и бронировать товары в интернет-магазинах. Их сестра Alexa сносно разбирается в математике, неплохо умеет рассказывать заранее записанные анекдоты и (что неудивительно) хорошо заказывает покупки на Amazon.
Но за пределами конкретных хорошо проработанных областей не столь очевидно, чего ожидать от этих систем. Не так давно писательница Мона Бушнелл попыталась спросить у всех четырех названных выше программ, как добраться до ближайшего аэропорта. Помощник Google дал ей в ответ список турагентов; Siri – наводку на базу гидропланов; Cortana – список сайтов по продаже авиабилетов (Expedia и др.). В недавнем эксперименте, проведенном одним из нас[42]42
Эксперимент проведен в мае 2018 года.
[Закрыть], Alexa набрала 100 % по таким вопросам, как «Дональд Трамп – человек?», «Является ли Audi транспортным средством?» и «Является ли Edsel транспортным средством?» Однако на других вопросах она полностью провалилась, например на таких: «Может ли Audi ездить на газе?», «Может ли Audi доехать из Нью-Йорка в Калифорнию?» и «Является ли акула транспортным средством?»
Вот еще один пример. Недавно Гэри разместил в твиттере скриншот с телефона, владелец которого пытался выяснить у Siri, где находится «ближайший ресторан быстрого питания, который не является "Макдональдсом"». Система с готовностью выдала список из трех близлежащих ресторанов, все они относились к фастфуду, но все три принадлежали к сети «Макдональдс». Телефонный помощник, так сказать, вообще не признает слово «нет» (рис. 4.2).
Рис. 4.2. Недоразумение с запросом к Siri: «Найди мне ближайшие рестораны быстрого питания, которые бы не были „Макдональдсом“»
Рис. 4.3. Недоразумение с вопросом к WolframAlpha: «Как далеко находится граница Мексики от Сан-Диего?»
Система WolframAlpha, широко разрекламированная еще в 2009 году в качестве «первого в мире механизма компьютеризированного знания»[43]43
Пресс-центр WolframAlpha 2009. Домашняя страница WolframAlpha: https://www.wolframalpha.com.
[Закрыть], на поверку ничуть не лучше. Хотя Alpha действительно располагает огромными базами данных всех видов научной, технологической, математической, учетной и социологической информации, встроенными прямо в систему, а также набором методов, позволяющих использовать эту информацию для ответов на вопросы, ее способность использовать всю эту информацию пока остается очень фрагментарной.
Сильная сторона WolframAlpha – в ее умении отвечать на математические запросы типа «Каков вес кубического фунта золота?», «Как далеко находится Билокси, штат Миссисипи, от Калькутты?» или, скажем, «Каков объем икосаэдра с длиной ребра 2,3 м?» Ответы помощника здесь абсолютно точны: «547 кг», «8781 миля» и «26,5 м3» соответственно.
Но границ понимания пользовательских запросов, присущих Alpha, достичь совсем нетрудно[44]44
Эксперименты с WolframAlpha, проведенные авторами в мае 2018 года.
[Закрыть]. Если вы спросите: «Как далеко находится граница Мексики от Сан-Диего?» – то получите в ответ «1144 мили», что совершенно неправильно (рис. 4.3). Дело в том, что на этот раз программа игнорирует слово «граница» и вместо этого показывает вам расстояние от Сан-Диего до географического центра Мексики. Если вы слегка перефразируете вопрос об объеме икосаэдра, заменив слова «с длиной ребра 2,3 м» словами «длина ребра которого 2,3 м», WolframAlpha уже не понимает, что вопрос касается объема, и все, что вы получаете на выходе, – это общая информация о том, что икосаэдры имеют 30 ребер, 20 вершин и 12 граней, без какого-либо упоминания объема. Если обратиться к недавнему примеру с газетной статьей, то да, Alpha может точно сказать вам, когда родилась Элла Фицджеральд и когда она умерла, но если вы спросите: «Была ли Элла Фицджеральд жива в 1960 году?» – система неверно истолковывает ваш вопрос как «Жива ли Элла Фицджеральд?» и отвечает «нет».
Мы уже слышим возражение читателей: подождите, а как же Watson IBM, который так хорошо отвечал на вопросы, играя в «Jeopardy!», что победил двух людей-чемпионов? Все это правда, но, к сожалению, из этого не следует, что интеллектуальный продукт IBM действительно умен. Дело в том, что для почти 95 % вопросов в «Jeopardy!» правильные ответы представляют собой названия тех или иных страниц «Википедии». Победа в таких викторинах зачастую целиком сводится к поиску нужной статьи в интернете. Однако от интеллектуального поиска информации до системы, которая может по-настоящему мыслить и рассуждать, еще очень и очень далеко. Обратите внимание, что до сих пор IBM даже не превратила Watson в надежного виртуального помощника. Когда мы недавно искали информацию о развитии системы на веб-странице IBM[45]45
Поиск проводился в мае 2018 года. Работа IBM Watson Assistant демонстрируется на следующей веб-странице: https://watson-assistant-demo.ng.bluemix.net/.
[Закрыть], то все, что мы смогли найти, – это давно устаревшая демонстрация Watson Assistant, которая была ориентирована исключительно на автомобильные симуляторы и ни в коем случае не могла сравниться с более универсальными предложениями от Apple, Google, Microsoft или Amazon.
Виртуальные помощники, подобные Siri и Alexa, безусловно, становятся все более полезными, но им предстоит еще долгий путь, чтобы стать чем-то большим, чем обычный портативный справочник. И, что очень важно, во всех них, так же как и в Google Search, мы до сих пор видим очень мало синтеза информации. Насколько мы можем судить, здесь все еще невозможен гибкий сбор информации из нескольких источников или хотя бы из одного, но по нескольким предложениям, как это умеют делать люди, читая повесть про Альманзо и газетную статью об Элле Фицджеральд. Правда, на сегодняшний момент ситуация такова, что ни одна современная система искусственного интеллекта не может повторить того, что вы, читатель, делали в обоих этих случаях, объединяя ряд предложений в единый нарратив и не только понимая все, что было сказано, но и вызывая из памяти то, что сказано не было. Если сегодня вы действительно все это умеете, то вы – человек, а не машина. Когда-нибудь, вероятно, мы сможем попросить Alexa сравнить президентский репортаж Wall Street Journal с аналогичным репортажем из The Washington Post или спросить, не пропустил ли ваш семейный врач что-либо в ваших текущих анализах, но сейчас это просто фантазия. Пока что вам лучше поговорить с Alexa о погоде.
С чем же мы в результате остались? Со «сборной солянкой» из виртуальных помощников, в чем-то полезных, но никогда не бывающих полностью надежными. Ни одна из этих систем не может делать то, что мы, люди, делаем всякий раз, когда открываем книгу. Через шесть десятилетий с начала истории искусственного интеллекта компьютеры все еще по большому счету неграмотны.
Глубокое обучение не решит эту проблему, равно как и тесно связанная с ним методика сквозного обучения, при которой искусственный интеллект обучается преобразовывать входные данные непосредственно в выходные, без каких-либо промежуточных подсистем. Например, традиционный алгоритм беспилотного вождения автомобиля разбивает элементы этого процесса на подсистемы, в частности – восприятие, прогнозирование и принятие решений (зачастую с использованием глубокого обучения в качестве одной из структур в некоторых подсистемах). Сквозное обучение в этой же задаче обойдется без подсистем и вместо этого создает систему вождения автомобиля, которая в качестве входных данных принимает изображения с камеры, а в качестве выходных данных возвращает настройки ускорения и поворотов руля – без каких-либо промежуточных подсистем для определения того, где находятся различные объекты и как они движутся, каких видов действия или бездействия можно ожидать от других водителей и т. д.
Когда этот подход действительно работает, он может оказаться очень эффективным, а главное – более простым для реализации, чем соответствующие структурированные алгоритмы. Системы сквозного обучения часто требуют от разработчиков очень небольших затрат времени и усилий по сравнению с многокомпонентными вариантами. Некоторые из них уже сейчас относятся к лучшим автопилотным программам из числа доступных. Как подчеркивалось в одной из статей о состоянии приложения Google Translate, опубликованной в New York Times Magazine, сквозные системы глубокого обучения значительно улучшили качество машинного перевода, заменив собой более ранние подходы. В настоящее время, если вы хотите создать программу для перевода, скажем, с французского языка на английский и наоборот, вы должны начать со сбора огромного массива идентичных документов, которые существуют одновременно во французской и в английской версиях, называемых «битекст» (bitext), например материалы канадского парламента, которые по закону должны публиковаться на обоих языках. Исходя из этих данных, Google Translate может автоматически узнавать соответствия между английскими словами и фразами и их французскими эквивалентами без каких-либо предварительных знаний о французском и английском языке или обучения специфике английской и французской грамматики. Даже скептики вроде нас сильно впечатлились такими возможностями.
Проблема, однако, в том, что этот подход все равно не универсален. Машинный перевод французского и английского языков оказался очень приспособленным для применения сквозного обучения, отчасти – из-за доступности большого количества сопряженных данных, а отчасти – из-за того, что между английскими и французскими словами существует более или менее четкое соответствие. В большинстве случаев правильное французское слово является одним из вариантов, которые вы найдете во французско-английском словаре, и большую часть времени соотношение между порядком слов в этих двух языках соответствует тем или иным стандартным паттернам. Тем не менее многие важнейшие аспекты понимания языка неподвластны сквозному глубокому обучению.
Ответы на вопросы гораздо более непредсказуемы в значительной мере потому, что слова в правильном ответе на вопрос не могут иметь очевидного отношения к словам в тексте. Между тем не существует, скажем, базы данных по вопросам и ответам такого размера, как парламентские документы, публикуемые сразу и на французском, и на английском. Даже если бы они были, совокупность вопросов и ответов настолько велика, что любая база данных была бы лишь крошечной выборкой из всех возможностей. Как мы выяснили ранее, это создает для систем глубокого обучения почти непреодолимые препятствия: чем дальше они вынуждены отклоняться от учебного набора данных, тем больше проблем у них возникает.
И, уж если быть откровенными до конца, даже в машинном переводе нейронные сети сквозного обучения все еще довольно ограничены по своим возможностям. Они часто (хоть и не всегда) хороши для понимания сути текста, но сопоставление слов, словосочетаний и предложений далеко не всегда корректно. Когда правильный перевод зависит от более глубокого понимания смысла фразы, системы тут же начинают сбоить. Если вы дадите Google Translate французское предложение[46]46
Эксперимент, проведенный авторами в августе 2018 года. Эрнест Дэвис поддерживает веб-сайт с небольшой коллекцией ошибок, допущенных ведущими программами машинного перевода при интерпретации предложений, которые являются максимально простыми с точки зрения лингвистики: см. https://cs.nyu.edu/faculty/davise/papers/GTFails.html.
[Закрыть] «Je mange un avocat pour le déjeuner», которое фактически означает «Я съедаю авокадо на обед», вы получите в ответ такой перевод: «Я ем адвокат на обед». Французское слово «avocat» означает и «авокадо», и «адвокат», а поскольку люди пишут о юристах гораздо чаще, чем об авокадо (особенно в материалах канадского парламента), Google Translate подставляет более частотное значение, теряя смысл предложения из-за особенностей статистики.
В своей превосходной статье в The Atlantic Дуглас Хофштадтер описал ограничения Google Translate такими словами:
Мы, люди, знаем все о парах, домах, собственности, гордости, соперничестве, ревности, неприкосновенности частной жизни и многих других нематериальных вещах, которые вместе складываются в причудливые картины жизни, подобные супружеской паре, имеющей полотенца с вышитыми на них метками «его» и «ее». Между тем Google Translate совсем не знаком с такими ситуациями. Повторяем. Google Translate не знаком с такими ситуациями. Точка. Он знаком исключительно со строками, состоящими из слов, состоящих из букв. Все дело лишь в сверхбыстрой обработке фрагментов текста, а не в мышлении, воображении, запоминании или понимании. Он даже не знает, что слова могут означать какие-то вещи.
Несмотря на весь достигнутый прогресс, большая часть письменных знаний в мире остается принципиально недоступной, даже если она оцифрована и выложена в сеть, – потому что она находится в форме, которую машины совсем не понимают. Электронные медицинские записи, например, до краев заполнены тем, что называется «неструктурированный текст», – это всевозможные заметки врачей, электронные письма, новостные статьи и документы, предназначенные для дальнейшей обработки, которые не вписываются в формат табличных данных. Настоящая система машинного считывания смогла бы действительно погрузиться в материал, изучая заметки врачей для получения важной информации, которая присутствует, скажем, в анализах крови и в справках для разрешения на работу. Однако проблема такого понимания текстов настолько далека от возможностей нынешнего искусственного интеллекта, что записи большинства медиков никогда не изучаются подробно. Инструменты искусственного интеллекта сейчас начинают применять для анализа рентгеновских снимков и МРТ; они могут сканировать изображения и отличать опухоли от здоровых тканей, но у нас пока нет способа автоматизировать другую, самую творческую часть работы настоящего рентгенолога, а именно – анализ изображений с учетом истории болезни пациентов.
Способность понимать неструктурированный текст пока является одним из самых узких мест в огромном диапазоне потенциальных коммерческих приложений искусственного интеллекта. Мы еще не можем автоматизировать процесс чтения юридических контрактов, научных статей или финансовых отчетов, потому что каждый из них состоит в значительной мере из такого текста, который ИИ вообще не может понять. Хотя современные инструменты автоматически извлекают некоторую базовую информацию даже из самых сложных текстов, большая часть их содержимого все равно остается лежать мертвым грузом. Все более изощренные алгоритмы сопоставления текста и подсчета ссылок оказывают в этом некоторую помощь, но они не дают нам реальной программы, которая действительно могла бы читать и понимать.
Ситуация с распознаванием устной речи (иногда это называют пониманием диалогов), само собой, находится в ничуть не лучшем положении. Еще бóльших проблем можно было бы ожидать у компьютеризированного помощника врача, который попытается перевести речь в медицинские заметки (чтобы врач мог уделять больше времени пациентам и меньше печатать на своем ноутбуке). Так, собственно, и есть. Посмотрите на простой диалог, присланный нам доктором Виком Мохариром:
ДОКТОР: Вы чувствуете боль в груди при каких-либо нагрузках?
ПАЦИЕНТ: Ну, на прошлой неделе я косил газон на участке и почувствовал, что на меня словно свалился слон [указывая на грудь].
Для человека очевидно, что ответ на вопрос врача – «да», поскольку стрижка газона относится к категории силовых нагрузок, и еще мы понимаем, что пациент испытывал боль, поскольку нам известно, что слоны тяжелые, и, если сверху наваливается что-то тяжелое, это, естественно, причиняет боль. Столь же автоматически мы способны сделать вывод о том, что слово «свалился» используется не в буквальном, а в переносном смысле, видя пациента и учитывая, что падение на человека настоящего слона не могло бы для него обойтись без травм. Для машины, если только у нее в таблице сопоставления нет переносного значения словосочетания «на меня будто свалился слон», фраза, произнесенная пациентом, окажется чем-то вроде бреда о больших млекопитающих, вмешивающихся в работу на придомовом участке. Откуда берется вся эта абракадабра?
Глубокое обучение очень эффективно при анализе и обобщении корреляций, например, между изображениями или звуками и сопровождающими их метками. Но эти нейронные сети сталкиваются с непреодолимыми трудностями, когда дело доходит до понимания того, как лингвистические объекты, подобные предложениям в естественной речи, связаны с образующими их частями (например, словами и словосочетаниями). Почему? Дело в том, что у современных интеллектуальных систем отсутствует та составляющая, которую лингвисты называют композиционностью: это способ выстраивать значения предложений или фраз из значений более мелких структурных единиц. Например, в предложении «Луна находится на расстоянии 240 000 миль от Земли» («The Moon is 240,000 miles from the Earth») слово «Луна» означает один конкретный астрономический объект, слово «Земля» означает еще один космический объект, слово «миля» означает единицу расстояния, а число 240 000 означает количество (миль). Затем, исходя из синтаксических правил, определяемых в английском языке порядком слов, можно скомпоновать предложение таким образом, что 240 000 миль примет значение расстояния, а само предложение «Луна в 240 000 миль от Земли» констатирует, что от Луны до Земли (то есть между двумя небесными телами) – именно такое расстояние.
Удивительно, но системы глубокого обучения сами по себе не обладают умением справиться с композиционностью (хотя бы на примере вышеприведенного предложения): они просто содержат миллионы и миллионы отдельных фрагментов информации без какой-либо структуры, связывающей их воедино. Эти программы могут знать, что у собак есть хвосты и лапы, но они не знают, как они соотносятся с их поведением и образом жизни. Нейронные сети не идентифицируют собаку как животное, состоящее из частей, подобных голове, хвосту и четырем лапам, они даже не знают, что такое животное, не говоря уже о том, что такое голова и как форма и размеры головы отличаются у живых существ от лягушек и собак до людей, почему головы такие разные в деталях, но всегда имеют отношение к телам животных. Наконец, глубокое обучение никак не помогает системе понять, что предложение типа «Луна находится на расстоянии 240 000 миль от Земли» содержит словосочетания, относящиеся к двум небесным телам и понятию длины.
Вот характерный пример этого. Мы предложили Google Translate перевести с английского языка на французский следующее предложение: «Электрик, которому мы звонили, чтобы починить телефон, работает по воскресеньям» («The electrician whom we called to fix the telephone works on Sundays»)[47]47
Эксперимент, проведенный авторами в августе 2018 года. Совершенно такие же ошибки Google Translate делает при переводе данного предложения на немецкий, испанский и итальянский языки.
[Закрыть]. Компьютерный переводчик выдал такой ответ: «L'électricien que nous avons appelé pour réparer le téléphone fonctionne le dimanche». (Буквальный перевод с французского языка на русский звучит так: «Электрик, которому мы звонили, чтобы починить телефон, исправен по воскресеньям».) Если вы знаете французский язык, то поймете, что это не совсем правильный перевод. В частности, английский глагол to work имеет два основных перевода на французский язык: «travaille», что означает «работать», и «fonctionne», что означает «функционировать должным образом» или «быть исправным». Переводчик Google использовал слово fonctionne, а не travaille, не понимая (в отличие от человека), что «работает по воскресеньям» относится в данном контексте к электрику (а не к телефону) и что, если вы говорите о работающем человеке, нужно использовать именно глагол «travaille». Легко заметить, что в грамматическом смысле субъектом главного предложения (то есть подлежащим при сказуемом «работает») здесь является электрик, а не телефон. Смысл предложения в целом зависит от того, как соотносятся друг с другом его части, а Google Translate этого не понимает совсем. Успехи, демонстрируемые в ряде случаев современными автоматизированными переводчиками, нередко заставляют нас думать, что система понимает намного больше, чем на самом деле, но правда заключается в том (и это еще раз демонстрирует иллюзорное восприятие прогресса людьми), что в таких переводах очень мало реальной глубины понимания языка[48]48
Мы впервые предъявили это предложение системе Google Translate в августе 2018 года, переводчик допустил именно ту ошибку, которую мы описали. К тому времени, когда мы отредактировали черновик нашей рукописи (это было в марте 2019 года), Google Translate сумел исправиться в отношении этого конкретного примера. Однако улучшение оказалось весьма неустойчивым: если, например, забыть поставить точку в конце того же самого предложения, или поместить его в круглые скобки, или изменить «электрика» на «инженера» («Инженер, которому мы позвонили, чтобы починить телефон, работает по воскресеньям»), то Google Translate возвращается к своей старой ошибке использования и выдает «fonctionne» вместо «travaille». Необходимо отметить, что поведение системы Google Translate в целом часто меняется, не исключено, что буквально ото дня ко дню, – скорее всего, это связано с постоянными изменениями в наборе обучающих данных. Из-за этого трудно гарантировать, что какое-то конкретное предложение будет переведено правильно или, наоборот, неправильно в различные дни. Пока базовая идеология алгоритма остается неизменной, общие проблемы, которые мы описываем, просто не могут исчезнуть.
[Закрыть].
Не менее важная проблема, связанная с предыдущей, заключается в том, что глубокое обучение не способно по своей природе подключать к переводу, распознаванию и другим функциям никакие базовые знания о мире, природе, людях и т. д. (мы уже обсуждали это выше в главе 3). Если вы обучаете систему связывать изображения с маркерами, то для нейронной сети не имеет значения, как именно это делается. Пока машина выдает правильные результаты, никто не станет заботиться о внутренних деталях работы алгоритма, потому что все, что имеет значение, – это получить правильную метку для того или иного изображения. Выполнение задачи системой, таким образом, изолировано от большей части реальных знаний.
Язык почти никогда не работает таким примитивным образом. Практически каждое предложение, с которым мы сталкиваемся в повседневной речи и чтении, требует, чтобы мы делали выводы, как то, что мы читаем или слышим, взаимосвязано с широким спектром базовых знаний. Глубокому обучению критически недостает умения усваивать такие знания, не говоря уже о том, чтобы делать из них выводы в контексте конкретных предложений.
И, наконец, системы глубокого обучения способны только на статистический перевод – по сути, это ничем не отличается от создания подписей к изображениям, просто вместо фотографий на входе будут предложения из разных языков. Однако чтение (как и восприятие речи на слух) – это динамический процесс. Когда вы используете статистические данные для перевода текста, который начинается с французского предложения «Je mange une pomme» (Я ем [одно, некое] яблоко), и система выдает вам перевод на английский (I eat an apple), это не значит, что она понимает смысл обоих предложений. Ей это, грубо говоря, и не нужно знать, если в обучающих двуязычных текстах у нее постоянно совпадали «I» и «je», «eat» и «mange», «an» и «une», «apple» и «pomme».
В большинстве случаев программы машинного перевода могут выдавать нечто более или менее осмысленное, просто обрабатывая одно слово (или предложение) за другим, но не понимая общего значения переводимого текста.
Когда же человек читает рассказ или эссе, он делает нечто совершенно иное. Цель работы нашего мозга состоит не в том, чтобы создать коллекцию статистически правдоподобных совпадений, – напротив, он стремится воссоздать мир, который придумал автор. Когда вы читаете отрывок из истории Альманзо, вы прежде всего делаете вывод, что в рассказе три главных героя (Альманзо, его отец и мистер Томпсон), затем вы начнете осознавать некоторые подробности об этих персонажах (Альманзо – мальчик, его отец – взрослый мужчина и т. д.) и реконструировать описанные события (Альманзо нашел кошелек, Альманзо спросил мистера Томпсона, принадлежит ли кошелек ему, и т. д.). Вы делаете все то же самое (и по большей части неосознанно) каждый раз не только тогда, когда читаете рассказы, но и когда осматриваетесь в новом помещении, наблюдаете за сюжетом фильма или слушаете новости. Вы сами догадываетесь, какие сущности присутствуют в том или ином контексте, каковы их отношения друг с другом и чего от них ожидать.
На языке когнитивной психологии то, что вы делаете, читая текст или слушая речь, – это создание когнитивной модели содержания текста (речи). Еще это можно назвать «формированием объектного файла» согласно терминологии Даниэля Канемана и покойной Энн Трисман, то есть записью о конкретном объекте и его свойствах, или комплексным пониманием сценария. Первое проще, второе – сложнее, однако оба этих действия привычны для любого человека.
Читая отрывок из книги «Сын фермера», вы постепенно формируете и обновляете (в вашем сознании) мысленное представление обо всех людях, объектах и событиях рассказа и об отношениях между ними. Здесь и Альманзо, и кошелек, и мистер Томпсон, и разговор Альманзо с мистером Томпсоном, и восклицание мистера Томпсона и его похлопывание себя по карману, и то, как мистер Томпсон вырывает кошелек у Альманзо, и т. д. Только после того, как вы прочитали весь отрывок и создали когнитивную модель, вы сможете сделать все, что обычно следует за чтением: ответить на вопросы, перевести текст, скажем, на русский язык, обобщить, спародировать, проиллюстрировать или просто запомнить эту историю.
Система Google Translate как есть – типичный продукт узкого искусственного интеллекта – обходит стороной весь процесс построения и использования когнитивной модели; ей никогда не требуется рассуждать или отслеживать хоть что-то из того, что она делает. То, чему ее научили и что она делает неплохо – в пределах своих возможностей, – охватывает только мизерную долю того, что люди пишут и читают на самом деле. Она никогда не создает когнитивную модель содержания текста – просто потому, что не может. Бесполезно ожидать от системы глубокого обучения ответов на вопросы типа «Что бы произошло, если бы мистер Томпсон ощупал свой карман и обнаружил выпуклость там, где он ожидал найти свой кошелек?», потому что подобная задача вообще не входит в концепцию современного использования нейронных сетей.
Статистика не может заменить реального понимания. Проблема не только в том, что здесь или там появляются случайные ошибки, но и в том, что существует фундаментальное несоответствие между статистическим анализом, которого зачастую хватает для перевода несложных фраз без углубления в их смысл, и конструированием когнитивных моделей, которое обязательно потребовалось бы, если бы системы действительно «захотели» понимать то, что понимаем мы с вами.
Как ни удивительно, для глубокого обучения (в отличие от классических подходов к искусственному интеллекту) чрезвычайно трудным оказывается понимание простого слова «нет». Помните, как в запросе «Найти ресторан быстрого питания, который не является „Макдональдсом“» виртуальный помощник Siri полностью проигнорировал «не является»? Человек, написавший этот запрос, очевидно, хотел получить ответ типа Burger King на Элм-стрит, 321, Wendy's на Мэйн-стрит, 57 и IHOP на Спринг-стрит, 523. Но, к сожалению, в английских названиях Wendy's, Burger King или IHOP нет ничего хотя бы отдаленно связанного со словом «not», а с другой стороны, едва ли кто-то называет любой из этих ресторанов дословно «Not McDonald's». В результате «холодная» статистика здесь не поможет, точно так же как она не смогла бы связать между собой слова «king» и «queen»[49]49
«Король» и «королева» (англ.); в русском языке эти слова, напротив, однокоренные. – Прим. пер.
[Закрыть] из-за их абсолютного внешнего различия. Можно придумать различные уловки для решения этой конкретной проблемы (определение ресторанов), не выходя за пределы чисто статистического анализа, однако поиск универсального решения для всех ситуаций, когда системы глубокого обучения не воспринимают слово «нет», выходит далеко за рамки современных подходов.
В чем действительно нуждается рассматриваемая область, так это в традиционном фундаменте вычислительных операций, на основе которых строятся базы данных и классические формы искусственного интеллекта. В данном случае речь идет о создании полного списка объектов (рестораны быстрого питания в определенном районе), а затем исключении из него элементов, принадлежащих другому списку (список ресторанов, работающих под вывеской «Макдональдс»).
Но глубокое обучение с самого начала строилось на том, чтобы избегать именно таких операций. Построение списков является базовым и абсолютно необходимым методом в создании большинства компьютерных программ и существует уже более пяти десятилетий (первый широко применявшийся язык программирования искусственного интеллекта, LISP, был в буквальном смысле построен на базе списков. Тем не менее данная операция полностью отсутствует в алгоритмах глубокого обучения. Неудивительно, что запросы, содержащие слово «не», современные нейронные сети воспринимают как попытку засунуть квадратные колышки в круглые отверстия.
Внимание! Это не конец книги.
Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?