Читать книгу "Эволюция разума, или Бесконечные возможности человеческого мозга, основанные на распознавании образов"

Текст добавлен: 19 июля 2018, 11:00

Автор книги: Рэй Курцвейл

Жанр: Прочая образовательная литература, Наука и Образование

Возрастные ограничения: 12+

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 4 (всего у книги 20 страниц) [доступный отрывок для чтения: 5 страниц]

Скачать книгу

Шрифт:

- 100% +

Что же делает распознающий модуль? Он вычисляет вероятность (основанную на предыдущем опыте) того, что тот образ, за распознавание которого он отвечает, действительно представлен активными входными сигналами. Каждый поступающий на модуль сигнал активен в том случае, если возбужден соответствующий распознающий модуль более низкого порядка (это означает, что произошло распознавание образа более низкого порядка). Каждый входной сигнал также кодирует наблюдаемую величину сигнала (в подходящем измерении – в единицах времени, каких-то физических величин или иных параметров), так что эти величины сравниваются модулем с соответствующими величинами предыдущих сигналов для расчета вероятности того, что это «правильный» образ.

Как мозг (и система искусственного интеллекта) рассчитывает общую вероятность присутствия образа (за распознавание которого отвечает соответствующий модуль) на основании: 1) входных сигналов (определенной величины), 2) предыдущих параметров величины (ожидаемая величина и ее вариабельность) каждого сигнала и 3) значимости каждого сигнала? Для определения этих параметров и их использования для изучения иерархии образов в 1980-х и 1990-х гг. я и некоторые другие ученые предложили математический метод, называемый методом скрытых моделей Маркова. Мы применили этот подход для распознавания и понимания человеческой речи. Я опишу его в седьмой главе.

В примере с распознаванием слов, идущем от образов низшего порядка к образам высшего порядка, мы видим, как строится иерархия информационного потока от отдельных элементов букв к целым буквам, а затем к словам. Далее процесс распознавания поднимается до уровня фраз и более сложных речевых конструкций. Если мы поднимемся выше еще на несколько десятков уровней, мы дойдем до таких концептуальных образов, как ирония или зависть. Хотя все распознающие модули функционируют одновременно, продвижение по этой иерархической лестнице должно занимать определенное время. Переход с одного уровня на другой занимает от сотых до десятых долей секунды. Эксперименты показывают, что узнавание такого образа средней сложности, каким является человеческое лицо, происходит за десятые доли секунды. Если образ сильно изменен, процесс распознавания может длиться целую секунду. Если бы мозг функционировал последовательно (как обычный компьютер) и распознавал все образы в иерархическом порядке, он должен был бы обрабатывать каждый образ низшего уровня и лишь затем переходить к образам следующих уровней. В таком случае он должен был бы совершать миллионы циклов распознавания при переходе от одного уровня к другому. Именно это происходит, когда мы моделируем данный процесс на компьютере. Не будем забывать, однако, что компьютеры функционируют в миллионы раз быстрее биологических систем.

Очень важно обратить внимание на то, что поток информации не только поднимается по иерархической лестнице, но и опускается по ней. Этот нисходящий поток информации чрезвычайно важен. Например, если мы читаем слева направо и уже увидели и узнали буквы A, P, P и L, модуль, ответственный за распознавание слова apple, предскажет, что, скорее всего, в следующей позиции окажется буква E. Он отправит сигнал вниз модулю, ответственному за распознавание буквы E, и сообщит: «будь внимателен, вероятно, очень скоро возникнет образ буквы E». Модуль, распознающий букву E, скорректирует пороговые параметры в соответствии с высокой вероятностью появления буквы E. И если на месте следующей буквы возникает образ, напоминающий E, но искаженный таким образом, что «в нормальных условиях» он не был бы воспринят как E, теперь распознающий модуль узнает в нем E, поскольку таковы были его ожидания.

Таким образом, новая кора предсказывает события. Необходимость предсказания будущего – одна из главных причин появления у нас новой коры. На высшем понятийном уровне мы постоянно осуществляем предсказания – кто сейчас войдет в дверь, что именно скажет этот человек в следующий момент, что мы увидим за углом, какими будут результаты наших действий и т. д. Эти предсказания непрерывно осуществляются в новой коре на всех уровнях иерархии. Мы часто путаем людей, предметы и слова из-за слишком низкого порогового значения для подтверждения ожидаемого образа.

Кроме положительных сигналов, существуют также отрицательные (ингибирующие) сигналы, указывающие на сниженную вероятность появления того или иного образа. Эти сигналы могут поступать с более низкого уровня иерархии (например, если я вижу у человека в очереди усы, понижается вероятность того, что это моя жена) или с более высокого уровня (например, я знаю, что моя жена отправилась в путешествие, поэтому человек в очереди – не она). Когда распознающий модуль получает ингибирующий сигнал, он повышает порог распознавания, но возбуждение все еще возможно (так что, если человек в очереди – действительно моя жена, я все-таки смогу ее узнать).

Природа данных, поступающих в распознающие модули новой коры

Давайте более подробно поговорим о том, как кодируются образы. Если образ – это лицо человека, данные о нем представляются как минимум в двух измерениях. Но мы не можем сказать, что первой подается информация, скажем, о глазах, потом о носе и т. д. То же самое относится и к восприятию звука. Музыкальная информация также имеет как минимум два измерения. Пьесу может исполнять не один, а несколько инструментов или голосов. Кроме того, одна нота, исполненная на сложном инструменте, таком как фортепьяно, содержит несколько частот. Голос человека одновременно раскладывается на множество составляющих с разной энергией и частотой. Так что звуковой образ в каждый конкретный момент времени может быть сложным, плюс растягиваться во времени. Тактильные сигналы тоже двумерные, поскольку кожа – двумерный чувствительный орган, и, опять-таки, возможно изменение этих сигналов в третьем, временно́м, измерении.

Таким образом, кажется очевидным, что образы передаются на распознающие модули новой коры в виде двумерных или трехмерных сигналов. Однако структура новой коры такова, что входные сигналы не могут иметь больше одного измерения. Наши исследования в области создания искусственных систем распознавания образов (речевых и зрительных) показывают, что мы можем представлять (и действительно представляем) двумерные и трехмерные явления в виде одномерных списков. О том, как это происходит, я расскажу в седьмой главе, а теперь мы просто должны принять, что входной сигнал на каждый распознающий модуль представляет собой одномерный список, даже если сам образ не является одномерным.

Здесь я должен обратить ваше внимание на тот факт, что образы, которые мы научились распознавать (например, образ конкретной собаки или «собаки» вообще, музыкальную ноту или музыкальную пьесу), организованы в соответствии с тем же самым механизмом, что и наши воспоминания. Наши воспоминания на самом деле представляют собой организованные в виде списков образы (и каждый пункт в каждом списке соответствует отдельному образу в иерархии новой коры), которые мы выучили и распознали под действием соответствующего стимула. Воспоминания хранятся в новой коре, чтобы быть узнанными.

Единственное исключение из этого правила относится к низшему понятийному уровню, на котором входные сигналы образа несут специфическую сенсорную информацию (например, изображение, поступающее от зрительного нерва). Однако даже этот образ низшего уровня в значительной мере трансформируется в более простые образы к моменту его поступления в кору головного мозга. Списки образов, составляющих воспоминание, организованы в хронологическом порядке, и мы можем «вспомнить наши воспоминания» только в этом порядке, вот почему нам бывает трудно обратить нашу память вспять.

Воспоминание возникает в ответ на какую-либо мысль или другое воспоминание (что одно и то же). Действие этого механизма запуска воспоминания можно пронаблюдать на примере восприятия образа. Если мы различили буквы A, P, P и L, образ слова APPLE предсказывает, что мы сейчас увидим букву E, и запускает образ E, который теперь является ожидаемым. Таким образом, наша новая кора «думает», что видит букву E, еще до того, как мы ее увидели на самом деле. Если такое конкретное взаимодействие в коре привлекло наше внимание, мы будем думать о букве E до того, как увидим ее, и даже если ее не увидим. Аналогичный механизм запускает воспоминания. Обычно существует целая цепочка подобных связей. Даже если нам кажется, что мы понимаем, какие воспоминания (то есть образы) вызвали в памяти старые воспоминания, следует понять, что воспоминания (образы) не имеют языковых или визуальных ярлыков. Вот почему иногда кажется, что старые воспоминания возникают внезапно. Возможно, они хранились, не активируясь, годами и были запущены по тому же механизму, как страничка в Интернете активируется по ссылке. И, подобно страничке в Интернете, которая может остаться «сиротой», если больше нет других страниц, дающих на нее ссылку, то же может происходить и с нашими воспоминаниями.

Наши мысли активируются направленным или ненаправленным образом в соответствии с описанными выше кортикальными связями. При ненаправленной активации эти связи действуют самостоятельно, то есть мы не пытаемся направить их в какую-то определенную сторону. Например, по такому принципу осуществляются некоторые виды медитации (в частности, практикуемая мной трансцендентальная медитация). Так же устроены сны.

При направленном способе мышления мы пытаемся пойти более упорядоченным путем, вызывая воспоминание (например, какую-то историю) или решая проблему. Однако и в одном, и в другом случае нам приходится пробираться сквозь списки образов, хранящихся в нашей новой коре. Таким образом, общий ход нашей мысли – весьма разупорядоченный процесс, ярко отраженный Джеймсом Джойсом в его манере «потока сознания».

Когда мы мыслим, используя наши воспоминания (истории или образы) – касаются ли они встреченной на прогулке молодой мамы с ребенком в коляске или первого знакомства с собственной женой, – эти воспоминания состоят из последовательностей образов. Поскольку образы не помечены словами, звуками или картинками, при попытке вспомнить какое-то событие нам приходится восстанавливать изображения в голове, поскольку никаких реальных изображений не существует.

Если бы мы захотели «прочесть» чьи-то мысли и точно описать, что же происходит в новой коре, было бы чрезвычайно сложно интерпретировать воспоминания этого человека – вне зависимости от того, были бы это хранящиеся в коре образы, ожидающие того момента, когда их вызовут в качестве воспоминаний, или те, которые в данный момент активно обрабатываются в виде текущих мыслей. Мы бы «увидели» одновременную активацию миллионов распознающих модулей. Через сотую долю секунды мы бы обнаружили, что активирован другой набор примерно такого же числа модулей. Каждый такой образ был бы списком других образов, а каждый из тех – списком третьих и так далее до самых примитивных образов на самом нижнем уровне. Было бы чрезвычайно сложно определить, что означают образы высоких порядков, если не скопировать всю информацию на каждом уровне новой коры. Таким образом, каждый образ в коре имеет какое-то значение исключительно в свете всей информации, находящейся ниже него на иерархической лестнице. Более того, другие образы того же уровня и более высоких уровней тоже важны для интерпретации конкретного образа, поскольку обеспечивают контекст для его интерпретации. Поэтому истинное чтение мыслей требовало бы не только поиска активированных аксонов в голове человека, но и анализа всей новой коры со всеми воспоминаниями, что помогло бы интерпретировать активацию аксонов.

Когда речь идет о нас самих, мы «знаем», что означают наши мысли или воспоминания, но они не существуют в виде легко объяснимых мыслей или наборов изображений. Если мы хотим поделиться ими с другими людьми, нам нужно облечь их в речевую форму. Эту задачу тоже выполняет новая кора с помощью распознающих модулей, натренированных на образах, которыми мы пользуемся для речевого общения. Язык сам по себе обладает строгой иерархией и эволюционировал таким образом, чтобы использовать иерархическую природу новой коры, которая, в свою очередь, отражает иерархическую природу реальности. Врожденная способность человека познавать иерархическую структуру языка, о которой писал Ноам Хомский[35]35
Ноам Хомский (Наум Чомски; род. в 1928) – американский лингвист, публицист, политолог и философ; автор классификации языков, называемой иерархией Хомского.

[Закрыть], отражает структуру новой коры. В статье 2002 г. Хомский называет рекурсию уникальной особенностью человеческой речи[36]36
Marc D. Hauser, Noam Chomsky and W. Tecumseh Fitch. The Faculty of Language: What Is It, Who Has It, and How Did It Evolve? Science. November, 2002, Volume 298, 1569–1579; www.wjh.harvard.edu/~mnkylab/publications/languagespeech/Hauser,Chomsky,Fitch.pdf.

[Закрыть]. Согласно Хомскому, рекурсия – это способность соединить мелкие элементы в более крупный элемент, а затем использовать этот более крупный элемент в качестве составной части еще одной структуры, и так до бесконечности. Действуя по такому принципу, мы можем выстраивать сложные структуры предложений, фраз и абзацев из ограниченного набора слов. Хотя Хомский в этой статье не говорил о структуре мозга, описанная им функция – именно то, что делает новая кора.

Низшие виды млекопитающих активно используют новую кору в своей каждодневной жизни. Люди приобрели дополнительные способности благодаря значительному увеличению размера коры в связи с формированием устного и письменного языка. Одни люди владеют этими способностями лучше, другие хуже. Если мы вынуждены пересказать какую-то историю много раз подряд, мы начнем заучивать фразы в виде набора отдельных предложений. Но даже в этом случае наши воспоминания являются не прямой последовательностью слов, а скорее языковыми структурами, которые мы должны переводить в специфические фразы при каждом пересказе. Вот почему всякий раз мы пересказываем историю чуточку иначе (если только не заучиваем точную последовательность слов как единый образ).

При описании специфических мыслительных процессов нельзя забывать об избыточности коры. Как я уже говорил, важные элементы нашей жизни, вне зависимости от того, относятся ли они к категории ощущений, речи или воспоминаний, записаны в нашей голове не по одному разу. Каждый важный образ на каждом уровне повторяется множество раз. В некоторых случаях это простые повторы, а иногда – те же образы, но в другом ракурсе. Именно поэтому мы можем узнать знакомое лицо в разной ориентации и при разной освещенности. Избыточность характерна для каждой ступени иерархической лестницы, что позволяет распознавать различные вариации образов и понятий.

Итак, если бы мы захотели изучить процессы в нашей новой коре, например, в тот момент, когда смотрим на любимого человека, мы бы обнаружили множество возбужденных аксонов распознающих модулей всех уровней – от модулей, распознающих самые простые чувственные образы, до многих других, распознающих изображение близкого человека. Мы бы также обнаружили возбуждение многих других клеток, реагирующих на различные аспекты ситуации: движения человека, его слова и т. д. Таким образом, картина гораздо шире, чем просто упорядоченное перемещение по иерархической лестнице.

Компьютерная симуляция одновременного возбуждения множества распознающих модулей новой коры.

Но общий механизм иерархического сопряжения распознающих модулей, при котором каждый более высокий концептуальный уровень отвечает за более абстрактное и интегрированное понятие, все же справедлив. Еще активнее осуществляется передача информации в обратном направлении, поскольку активированные распознающие модули каждого уровня посылают предсказательные сигналы нижестоящим модулям, сообщая о приближающемся событии. Кажущееся богатство человеческого опыта объясняется тем, что все сотни миллионов распознающих модулей нашей новой коры одновременно обрабатывают поступающие к ним сигналы.

В пятой главе мы поговорим о том, как тактильная, зрительная, звуковая и другая информация, полученная с помощью наших органов чувств, передается в новую кору. Эти исходные сигналы обрабатываются отделами коры, специально предназначенными для восприятия соответствующих импульсов (хотя функциональность различных областей мозга чрезвычайно пластична, что связано с универсальностью механизмов действия новой коры). Понятийная иерархия продолжается и за пределами наивысших понятий в каждой сенсорной зоне новой коры. В ассоциативных зонах коры происходит интеграция сигналов от различных чувствительных органов. Когда человек слышит что-то, напоминающее голос его жены, и видит что-то, что может говорить о ее присутствии, он не прибегает к сложным логическим умозаключениям, а на основании сочетания этих чувственных образов тотчас понимает, что жена где-то рядом. Он интегрирует все сенсорные и перцептивные доказательства – возможно, даже запах духов – в виде единого многоуровневого ощущения.

На уровне выше ассоциативных зон коры мы можем воспринимать, запоминать и осмысливать еще более сложные абстрактные понятия. На высшем понятийном уровне мы воспринимаем такие образы, как «это хорошо», «она привлекательна», «это забавно» и т. д. Наша память сохраняет эти абстрактные образы наравне с другими. Например, мы можем вспомнить, что говорили с какой-то женщиной, она сказала что-то забавное и мы смеялись, хотя не можем вспомнить, в чем именно заключалась шутка. Память сохранила наше ощущение смешного, но не содержание разговора.

В предыдущей главе я обратил внимание на то, что часто нам удается распознать образ, даже если мы не в состоянии его описать. Например, мне кажется, я смог бы выбрать из набора фотографий разных женщин фотографию той женщины с коляской, которую встретил на прогулке, хотя и не могу ее как следует себе представить или описать. В данном случае моя память о ней представляет собой список некоторых образов высокого уровня иерархии. Эти образы не имеют никаких речевых или зрительных пометок и не выражаются пикселами, поэтому я могу думать о ней, но не могу ее описать. Однако, если мне показать фотографии, мысленная обработка визуальной картинки приведет к узнаванию тех образов высокого уровня иерархии, которые были зарегистрированы при первой встрече. Так я смогу найти совпадение и выбрать ее фотографию среди других.

Даже если я встретил эту женщину на прогулке всего один раз, вполне возможно, что в моей новой коре сохранилось несколько копий ее образа. Однако, если я не думаю о ней какое-то время, соответствующие распознающие модули займутся обработкой других образов. Вот почему со временем воспоминания стираются: избыточность сокращается, и в какой-то момент некоторые воспоминания исчезают. Тот факт, что я написал об этой женщине в книге, скорее всего, позволит мне сохранить более устойчивое воспоминание о ней.

Самоассоциация и инвариантность

В первой главе я уже писал о том, что нам удается распознать образ, даже если он представлен не целиком или в искаженном виде. Первая способность, называемая самоассоциацией, заключается в умении ассоциировать образ и его часть. Структура каждого распознающего модуля позволяет реализовать эту функцию.

В процессе распознавания каждый сигнал поднимается от распознающего модуля более низкого уровня к модулю более высокого уровня, и эта связь имеет определенный «вес», указывающий на важность этого конкретного элемента в общем образе. Более важные элементы имеют больший вес при распознавании образа. Таким образом, бородка Линкольна, бачки Пресли и знаменитый высунутый язык Эйнштейна, по-видимому, имеют большой вес в тех образах, с которыми у нас ассоциируются эти знаменитости. Распознающие модули рассчитывают фактор вероятности, учитывающий параметр значимости элемента. Таким образом, общая вероятность распознавания снижается, если один или несколько элементов отсутствуют, но порог узнавания все же может быть преодолен. Как я уже говорил, расчет общей вероятности присутствия образа сложнее, чем расчет просто взвешенной суммы, в которой величина параметров тоже учитывается.

Если распознающий модуль получил сигнал от модуля более высокого уровня об «ожидании» образа, пороговое значение понижается (то есть его легче достичь). В альтернативном варианте такой сигнал может просто прибавляться к остальным входным сигналам, компенсируя недостающий элемент. Это происходит на всех уровнях, так что такой образ, как лицо, находящийся на несколько уровней выше базового, может быть распознан даже при отсутствии нескольких элементов.

Способность распознавать трансформированные образы называется инвариантностью и реализуется четырьмя способами. Во-первых, важные превращения образа происходят до того, как сигналы попадают в новую кору. О передаче сигнала от кожи, глаз и ушей мы поговорим в разделе «Сенсорное восприятие».

Второй способ основан на избыточности информации, хранящейся в новой коре. Особенно если речь идет о важных или распространенных вещах, мы многократно встречаемся с разными вариантами и ракурсами одного и того же образа. Поэтому в новой коре независимо хранится и обрабатывается множество вариантов таких образов.

Третий и самый мощный способ заключается в способности объединять два списка. В одном может содержаться набор трансформаций, которые способны происходить с определенной категорией образов. Новая кора применит этот список возможных трансформаций к другому образу. Именно так мы понимаем речевые приемы типа метафор и сравнений.

Например, мы постепенно узнаём, что некоторые фонемы в разговорной речи могут выпадать (например, «кода» вместо «когда»). Если затем мы слышим другое слово (например, «всегда»), то узнаём его, даже если в нем отсутствует одна из фонем («вседа»), поскольку уже знакомы с явлением выпадения некоторых фонем. Другой пример. Мы знаем, что какой-то актер любит подчеркивать (увеличивать) размеры части лица (например, носа). Это позволяет нам узнать знакомое лицо, с которым проделан такой же трюк, даже если раньше с этим лицом подобные модификации не производились. Некоторые варианты актерского грима подчеркивают те самые черты, которые распознаются распознающими модулями новой коры. На этом же строится прием карикатуры.

Четвертый метод основан на величине параметров и позволяет одному модулю кодировать множество примеров образа. Например, мы много раз слышали слово steep. Модуль, ответственный за распознавание этого слова в речи, может кодировать множество примеров его произношения с разной длительностью [E]. Если все модули, распознающие слова с [E], обладают этим общим свойством, такая вариабельность должна быть зарегистрирована в самом образе [E]. Однако разные слова с этим звуком (а также со многими другими фонемами) могут различаться по параметру ожидаемой вариабельности. Например, слово peak (читается «пик») не содержит фонемы [E], как в слове steep.

Страницы книги >> Предыдущая | 1 2 3 4 5 | Следующая

Скачать книгу "Эволюция разума, или Бесконечные возможности человеческого мозга, основанные на распознавании образов"