Автор книги: Кевин Лейланд
Жанр: Прочая образовательная литература, Наука и Образование
Возрастные ограничения: +12
сообщить о неприемлемом содержимом
Текущая страница: 6 (всего у книги 34 страниц) [доступный отрывок для чтения: 11 страниц]
Первым на парадоксальность вывода, что приспособленность у социальных учеников при таком равновесии будет не выше, чем у несоциальных, обратил внимание антрополог Алан Роджерс, как уже упоминалось в предыдущей главе; к этому заключению его привел математический анализ{265}265
Rogers 1988.
[Закрыть]. На определенном уровне его замечание абсолютно логично. Когда социальное научение редко, его выгода превышает выгоду от несоциального научения, поскольку в популяции распространена надежная информация, добываемая преобладающими в ней несоциальными учениками. Так как приспособленность у социальных учеников на этом этапе выше, поначалу их доля за счет естественного отбора увеличивается. Однако с увеличением количества социальных учеников уменьшается количество несоциальных, добывающих надежную информацию, и у первых возрастает вероятность получить ложные сведения – в этом случае выгода социального научения начинает сокращаться. Если довести ситуацию до крайности – несоциальных учеников не осталось совсем, все только подражают друг другу, но никто не взаимодействует прямо со средой, находя другим способом оптимальное решение той или иной проблемы, – то при изменении среды (например, при появлении незнакомого хищника) результат будет плачевным: некому будет научиться распознаванию новой опасности и тому, как избежать ее. При таких обстоятельствах приспособленность, обеспечиваемая несоциальным научением, будет выше, чем социальным, и количество несоциальных учеников начнет расти. Соответственно, в популяции должно предположительно установиться равновесие между социальным и несоциальным научением. Это состояние баланса определяют как смешанную эволюционно стабильную стратегию (ЭСС){266}266
Стратегия будет эволюционно стабильной, если она применяется всей популяцией и не вытесняется какой-либо другой стратегией, изначально редкой.
[Закрыть], при которой приспособленность особей в результате социального и несоциального научения становится равной{267}267
Giraldeau et al. 2002, Henrich and McElreath 2003.
[Закрыть].
Как мы уже знаем, данное явление назвали парадоксом Роджерса{268}268
Boyd and Richerson 1985.
[Закрыть] – ведь обнаруженная закономерность входит в очевидное противоречие с общепринятым утверждением, будто культура усиливает биологическую приспособленность. В конечном – эволюционном – счете приспособленность оценивается по количеству оставленного потомства. Признаки, определяющие высокую приспособленность, – те, которые помогают особи выжить и размножиться, то есть оставить многочисленное потомство. Человеческая культура вроде бы такую приспособленность повышает, поскольку распространение технологических новшеств раз за разом приводило к росту населения, означающему, что выжить и оставить потомство удается многим представителям популяции. Собственно, именно по этой причине – в связи с ростом населения – человеческой культуре и отводят принципиально важную роль в успехе нашего вида. Население планеты, еще 10 000 лет назад не превышавшее миллиона, теперь перевалило за 7 млрд{269}269
Tellier 2009.
[Закрыть]. После земледельческой и промышленной революций уровень рождаемости и продолжительность жизни резко выросли{270}270
Caselli et al. 2005.
[Закрыть]. Эти показатели говорят о том, что широкое распространение прогрессивных технологий может повысить среднестатистическое количество выживающего потомства. На этом фоне полученные Роджерсом данные выглядят парадоксально, поскольку ставят под вопрос представление, согласно которому в основе успеха нашего вида лежит социальное научение.
Ценность математических моделей заключается в том, что они позволяют ученым проиграть сценарий «А что если?». Мы не можем промотать человеческую эволюцию как киноленту, но можем построить математическую модель и посмотреть, как развивались бы наши предки, обладай они теми или иными качествами либо подвергайся тем или иным формам естественного отбора. Математическая модель дает ответы на эти вопросы. И если полученные результаты расходятся с теорией, это не значит, что моделирование не сработало, – напротив, они могут оказаться очень познавательными. Роджерс, выстраивая свою модель, исходил из того, что социальные ученики подражают слепо, без разбора. Его результаты недвусмысленно показывают, что неизбирательное копирование не повышает приспособленность особей сверх того, чего можно достичь за счет несоциального научения. Отсюда следует важный вывод: если историей своего успеха человек и вправду обязан социальному научению, то наше подражание не может быть неразборчивым{271}271
Этот вывод подтверждается теоретическими моделями, исследующими другие варианты стратегического подражания, – например, предполагающий использовать подражание только тогда, когда не срабатывает несоциальное научение, или подражать пропорционально отдаче, получаемой объектами копирования, – из чего следует, что подражание дает больше преимуществ для адаптивности, чем несоциальное научение (см.: Boyd and Richerson 1995, Laland 2004, and Enquist et al. 2007).
[Закрыть].
Иными словами, оправдывает себя лишь стратегическое подражание, а не бездумное. Как подсказывают и экспериментальные модели, и рассуждения на основе обычного здравого смысла, с которых начинается эта глава, социальное научение будет адаптивным лишь при условии, что особи сумеют проявить избирательность в том, когда именно полагаться на социальное научение и у кого именно учиться{272}272
Boyd and Richerson 1985, Rogers 1988, Feldman et al. 1996, Giraldeau et al. 2002.
[Закрыть]. За счет длительного естественного отбора у человека и у других животных должна была развиться склонность пользоваться особыми правилами принятия решений{273}273
Boyd and Richerson 1985, Henrich and McElreath 2003, Laland 2004.
[Закрыть] – и этими так называемыми стратегиями социального научения{274}274
Laland 2004.
[Закрыть] определяются обстоятельства, при которых отдельной особи следует воспользоваться информацией, полученной от других, и при которых не следует.
Одно из таких правил – подражать нужно, когда несоциальное научение будет затратным. Оно гласит, что если животные могут легко и без расходования ресурсов решить проблему самостоятельно путем проб и ошибок, то пусть именно так и поступают. Но если особь сталкивается с чрезвычайно трудной задачей, которая потребует больших усилий или сопряжена с серьезным риском, – такой как, например, сложная многоступенчатая добыча пищи, – следует посмотреть, что именно делают другие, и повторять за ними.
Еще одно стратегическое правило – подражай, когда не уверен. Если особи находятся на знакомой территории, понимают проблему и знают, как ее решить, им нужно полагаться на собственный опыт. Если же они оказываются в незнакомой ситуации – в новой среде, при столковении с неизвестным хищником и так далее – и не убеждены в оптимальности своих действий, лучше подражать другим.
Третье правило – подражай, когда не удовлетворен. То есть если текущее поведение приносит богатые дивиденды, его и придерживайтесь. Но если результат вас разочаровывает, лучше повторяйте за другими; возможно, тогда отдача от ваших действий повысится.
Все это примеры так называемых стратегий «когда», диктующих время и условия, при которых надлежит обращаться к социальной информации{275}275
Там же.
[Закрыть]. Помимо них есть еще стратегии «кто», указывающие, у кого имеет смысл перенимать знания{276}276
Там же.
[Закрыть]. В частности, можно подражать большинству, а можно тому, кто пользуется наибольшим престижем или демонстрирует самое успешное поведение. Все эти правила подвергались эмпирическому и теоретическому изучению, и все так или иначе подтверждаются{277}277
Henrich and McElreath 2003; Laland 2004; Kendal et al. 2005; Kendal et al. 2009; Rendell, Fogarty, Hoppitt, et al. 2011; Hoppitt and Laland 2013.
[Закрыть].
Загвоздка в том, что исследователи, конечно, с легкостью перечислят множество на первый взгляд вполне вероятных стратегий социального научения. Особи могут предпочитать подражание родственникам, знакомым или каким-то престижным фигурам; могут учиться в первую очередь у старших, более опытных или более успешных; могут наблюдать за тенденциями, отслеживать отдачу, получаемую другими, или пробовать быстро распространяемые варианты; могут копировать других в определенных состояниях – при беременности, болезни, в детстве. Кроме того, эти разные принципы копирования можно комбинировать, получая неожиданные условные стратегии типа «Подражай, когда сам не уверен, а все демонстраторы ведут себя последовательно» или «Подражай лидеру, когда не удовлетворен текущей отдачей от своих действий»{278}278
У нас есть косвенные свидетельства, согласующиеся со всеми этими (и не только этими) идеями, хотя такие данные (совокупность результатов наблюдений и экспериментов) обычно недостаточно подробны, чтобы подкрепить ими какую-либо отдельную стратегию. Чаще они согласуются с множеством альтернативных стратегий (Rendell, Fogarty, Hoppitt et al. 2011; and Hoppitt and Laland 2013).
[Закрыть].
Сразу возникает закономерный вопрос: какая стратегия социального научения будет лучшей или, чтобы не слишком отрываться от действительности, какая стратегия будет оптимальной в тех или иных обстоятельствах? Традиционный способ поисков ответа на такие вопросы – построить математическую модель с использованием, например, методов эволюционной теории игр или популяционной генетики, позволяющих вычислить стратегию, которая обеспечивает наивысшую либо, предположительно, эволюционно стабильную приспособленность. Логика здесь в том, что естественный отбор за многие тысячелетия своего действия должен был привести к формированию у животных таких когнитивных способностей, которые обеспечивают применение оптимальных правил в случае принятия решений. А значит, вычисление оптимальной стратегии методом математического моделирования позволит нам четко спрогнозировать, что искать в природе. Данный подход широко используется в таких дисциплинах, как эволюционная биология и поведенческая экология, и в целом очень эффективен. Однако при определении оптимальной стратегии социального научения он дает сбой{279}279
См., например: Kendal et al. 2009.
[Закрыть]. Дело в том, что такие методы позволяют одновременно анализировать лишь небольшое количество конкурирующих по своим достоинствам стратегий. Между тем вероятных наборов правил социального научения очень много, их гипотетическое пространство огромно. Кроме того, спектр анализируемых стратегий явно будет ограничен теми, которые предпочтет исследователь, учитывающий, в свою очередь, собственные возможности при обращении к математическим методам. В реальном же мире могут применяться гораздо более совершенные стратегии социального научения, о которых пока еще никто не думал.
Мне эта проблема долго не давала покоя. Эксперименты, проведенные сотрудниками нашей лаборатории, позволяли с полным основанием предположить, что подражание у животных носит стратегический характер. Результаты экспериментов указывали и на вероятные варианты стратегий, однако эти сведения редко можно было назвать исчерпывающими. Мы разрабатывали и математические модели для определения оптимальной стратегии, но не могли избавиться от сомнений – вдруг стратегия, сочтенная нами лучшей, в действительности уступает тем или иным вариантам, о которых мы даже не задумывались. Как, сосредоточившись на двух-трех находящихся на виду версиях, мы можем быть уверены, что нашли ту самую, оптимальную, если существует столько гипотетических альтернатив?
Беспокоила меня и другая проблема. Полученные данные, по идее, указывали на то, что стратегии социального научения, учитывающие определенные условия – например, состояние животного, отдачу для объекта подражания или количество особей, придерживающихся данного поведенческого варианта, – окупятся скорее, чем жесткие и неизменяемые стратегии копирования. Однако из этого следует, что «оптимальная» стратегия социального научения{280}280
Термин «оптимальная» заключен в кавычки, чтобы обозначить трудноуловимое различие между признаками, которые должны развиться при данных обстоятельствах, и оптимальными. В действительности большая часть теоретико-аналитических работ такого характера – например, основанных на эволюционной теории игр – направлена на поиск эволюционно-стабильных стратегий, которые вернее назвать «невытесняемыми», а не безоговорочно оптимальными (Maynard-Smith 1982).
[Закрыть], которую мы, возможно, все-таки отыщем, может требовать от особи довольно сложных расчетов при выборе, воспользоваться ли социальной информацией. Хватает ли животным сообразительности для таких расчетов? У шимпанзе или японских макак, наверное, хватило бы, в это я еще поверю, но, согласно результатам исследований, подражание практикуется и у дрозофил, и у сверчков. Возможно ли, чтобы даже беспозвоночные вычисляли отдачу, получаемую сородичами, и отслеживали частотную зависимость? Мы знали, что адаптивным социальное научение будет только при избирательном использовании, и у нас были все резоны полагать, что естественный отбор сумел отточить механизм принятия решений у животных и сделать его высокоэффективным. Но тогда подражатель должен быть умным, а между тем социальное научение отмечается у животных, не особо отличившихся в умственном отношении. Все это несколько озадачивало.
Чтобы не топтаться на месте и сделать полноценный шаг вперед, нам нужен был способ сравнить, причем одномоментно, относительные преимущества очень большого количества стратегий социального научения, включая те, о которых мы даже помыслить не могли. Я долго ломал голову, как изыскать такой способ, пока наконец не нашел решение. И, что интересно, все это время решение было у нас перед носом – его оставалось только скопировать.
Итак, в один прекрасный день меня осенило, что задача, стоящая перед исследователями социального научения, напоминает ту, с которой столкнулась в 1970-х гг. другая группа ученых – исследовавших эволюцию сотрудничества. Если мы хотели установить оптимальный набор правил подражания, то наши предшественники пытались доискаться до поведенческих стратегий, с наибольшей вероятностью ведущих к сотрудничеству. Экономист Роберт Аксельрод, профессор политологии и государственной политики из Мичиганского университета, значительно продвинулся в изучении проблемы сотрудничества, организовав турнир (фактически даже два турнира) на основе так называемой дилеммы заключенного. С помощью этой игры успешно моделируются многие ситуации из реальной жизни, предполагающие сотрудничество.
Условия игры следующие: двух преступников задержали по одному и тому же обвинению и рассадили по разным камерам. Но следствию не хватает улик, и вынести приговор можно, только если задержанные станут свидетельствовать друг против друга, изобличая сообщника. Преступники могут пойти на сотрудничество друг с другом и молчать – тогда оба получат по небольшому сроку. Могут предпочесть предательство сообщника и дать показания против него. Но если так поступят оба, то каждый из них получит большой срок. Если же предаст один, то его отпустят, а другой надолго угодит в тюрьму. По условиям игры предательство оказывается выгоднее сотрудничества. Это значит, что мыслящий строго рационально и думающий только о себе заключенный должен выдать сообщника, то есть оба преступника, рассуждая подобным образом, будут свидетельствовать друг против друга. Однако в названии игры не зря фигурирует слово «дилемма»: если заключенные решат заботиться об интересах друг друга, оба выгадают больше, чем при обоюдном предательстве; и при этом у каждого есть мотив сдать сообщника и свалить на него всю вину.
Игру, состоящую из череды раундов, в которых игроки помнят предшествующие решения противника и выстраивают, исходя из этого, собственную стратегию, назвали повторяющейся дилеммой заключенного. На турниры по решению этой воспроизводимой дилеммы, в которых предполагалось вырабатывать разнообразные стратегии сотрудничества, Аксельрод пригласил своих коллег со всего мира{281}281
Axelrod 1984.
[Закрыть]. Предложенные стратегии, которые сильно различались по степени сложности, наличию сотрудничества на первоначальном этапе, готовности простить прошлое предательство и так далее, разыгрывались в состязании, призванном определить эффективность разных типов поведения. Победила в итоге стратегия психолога из Университета Торонто Анатолия Рапопорта, обозначенная как «око за око»[7]7
Англ. Tit-For-Tat.
[Закрыть]. Использующие ее игроки сотрудничают в первом раунде, а в последующих повторяют выбор, сделанный соперником в предыдущем. В области изучения поведения в XX столетии исследование Аксельрода признается одним из самых прорывных – оно дало мощный толчок к изучению сотрудничества, выросшему в самостоятельное направление эволюционной биологии не в последнюю очередь благодаря вниманию, которое привлекли к теме упомянутые турниры.
Вдохновленный этим опытом, я задумался, не сможем ли мы использовать подобный импульс для привлечения интереса к нашей научной области, организовав турнир, призванный определить лучший способ научения. Ведь можно устроить состязание на основе игры, которую мы придумаем сами; наш турнир будет открытым и бесплатным, и всем будет предложено высказывать свои идеи, касающиеся оптимального подражания. А затем мы установим эффективность каждой из этих идей, столкнув их между собой в компьютерных симуляторах и сопоставив результаты. Если удастся найти много желающих поучаствовать в таком состязании, мы получим богатые россыпи новых идей, помогающих понять, кому и когда лучше подражать. Можно даже назначить премию, чтобы усилить интерес к турниру. Выйдет ли из этого что-нибудь полезное, предугадать было трудно. Конечно, мы надеялись, что состязание позволит найти наиболее универсальные ответы на вопросы, чем выгодно подражание и как лучше всего его применять; но успех никто не гарантировал. Учитывая, какого труда требовало от нас намеченное состязание, мы могли сильно прогадать. К счастью, турнир прошел на ура и не только помог разрешить давнюю загадку и выяснить, почему подражание так распространено в природе, но и позволил получить ключевые представления о механизмах, посредством которых культурные процессы направляли эволюцию человеческой когнитивной деятельности.
Мне удалось получить финансовую поддержку нашего проекта в виде гранта от Евросоюза для себя и моих коллег из Швеции и Италии. Проект стал одной из частей масштабной научно-исследовательской программы «Культаптация», посвященной культурной эволюции{282}282
Контракт Европейской комиссии FP6–2004-NESTPATH-043434.
[Закрыть]. В рамках программы рассматривались разнообразные эмпирические и теоретические подходы к исследованию социального научения и эволюции, а моя роль заключалась в курировании задуманного турнира. Грант позволил нам взять в штат молодого специалиста, недавно окончившего аспирантуру, и возложить на него основную долю работы по организации состязания и анализу предложенных идей. Я остановился на Люке Ренделле, удачно сочетавшем опыт исследования социального научения у китов и знания в области вычислительной биологии. Решение оказалось более чем верным – Люк превосходно справился с задачей.
На первом этапе сложнее всего было разработать игру для предстоящего турнира. Аксельроду в этом отношении оказалось проще, поскольку дилемма заключенного к тому времени уже зарекомендовала себя как инструмент исследования феномена сотрудничества – это была хорошо известная игра со знакомыми правилами. Для социального же научения никакого зарекомендовавшего себя аналога не существовало. Мы с Люком быстро осознали, что вся затея практически полностью зависит от того, сумеем ли мы правильно подобрать игру. Чем больше мы об этом раздумывали, тем очевиднее становилось, как велик шанс все провалить. То есть мы легко могли придумать игру скучную, в которой никто не захочет принимать участие, или бесполезную, совершенно оторванную от реальной жизни, или, самое досадное, банальную, которая вызовет лавину столь же банальных решений.
Опасаясь этого, мы решили созвать что-то вроде совета экспертов, в который пригласили специалистов по социальному научению, культурной эволюции и теории игр, чтобы они помогли нам организовать турнир наиболее разумно и продуктивно. В этот совет вошли Роберт Бойд из Калифорнийского университета в Лос-Анджелесе, Магнус Энквист и Киммо Эрикссон из Стокгольмского университета, а также Маркус Фельдман из Стэнфорда – все они крупные величины в области культурной эволюции и теории игр. Кроме того, нам очень пригодились помощь и рекомендации Роберта Аксельрода, Лорел Фогарти из Сент-Эндрюса и Стефано Гирланды из Болонского университета. Мы были в восторге от того, что удалось собрать такую авторитетную команду.
Полтора года мы интенсивно обсуждали порядок турнира, проигрывая разные сценарии на компьютерном симуляторе и соревнуясь между собой. Игра прошла три отдельные итерации – дважды нам пришлось, несмотря на все потраченные усилия, отказываться от разрабатываемого варианта как от нежизнеспособного. Когда такое случилось во второй раз – после того как Киммо с Магнусом обнаружили слабые места в структуре планируемого состязания, – мы с Люком были в отчаянии. Однако нет худа без добра: в результате мы спроектировали новую версию, отличающуюся гениальной простотой.
Модель, на которой мы в конце концов остановились, получила название «Многорукий бандит». Вам наверняка знаком «однорукий бандит» – игровой автомат, который запускается прикрепленным сбоку рычагом («рукой»). Игрок опускает монету в специальную прорезь, дергает рычаг и (с определенной долей вероятности, гарантирующей владельцу автомата устойчивую прибыль) срывает куш. А теперь представьте игровой автомат с сотней отдельных рычагов, дающих совершенно разную вероятность выигрыша. При достаточной практике увлеченный игрок может вычислить, какие рычаги приносят крупный выигрыш, а какие оставляют искателя удачи ни с чем. Аналогом такой вот непростой задачи по определению нужных рычагов и явилась наша игра.
Мы представили себе гипотетическую популяцию неких существ – назовем их агентами, – вынужденных выживать в незнакомом изменчивом мире, полном трудностей и препятствий. Агентов могло, например, выбросить на тропический остров, который приходится собственными силами осваивать и на котором надо самим добывать пропитание. Можно охотиться на зайцев, ловить рыбу в реке, выкапывать клубни, собирать фрукты, вырастить что-то самостоятельно и т. д. Мы составили сотню альтернативных поведенческих моделей, каждая из которых обладала свойственной только ей окупаемостью. У небольшого количества моделей в нашем вымышленном мире окупаемость оказывалась очень высокой, большинство же приносили весьма незначительный эффект{283}283
Окупаемость определялась на основе экспоненциального распределения.
[Закрыть]. Соответственно, чтобы преуспеть, агенту, как игроку перед «многоруким» автоматом, требовалось вычислить действительно выигрышные поведенческие модели и активно следовать именно им. Если использовать термины эволюционной биологии, можно сказать, что чем больше отдачи от своих действий агенту удастся добиться в течение жизни, тем выше будет его приспособленность.
В реальности окупаемость, например выращивания ячменя или охоты на бизонов, каждый раз оказывается разной и зависит от погоды, времени года, колебаний в численности объектов охоты и их доступности. Точно так же мы сделали и в нашей игре – имитируемая среда регулярно менялась, приводя к разнице в выигрышах, связанных с каждой из поведенческих моделей. Достоинство такой схемы, получившей название «неугомонный бандит», заключалось в том, что ее было крайне трудно, почти невозможно, оптимизировать аналитическим методом{284}284
«Многорукий бандит», у которого окупаемость меняется с течением времени, называется «неугомонным». Эти неугомонные «многорукие бандиты» признаны серьезной проблемой, удовлетворительного аналитического решения которой пока не найдено (Papadimitriou and Tsitsiklis 1999).
[Закрыть], а значит, мы могли быть уверены, что наш турнир заставит участников хорошенько поломать голову. Кроме того, мы имитировали эволюцию, отправляя в случайном порядке агентов на гибель и заменяя их потомками других агентов, которые приобрели повышенную адаптивность, придерживаясь поведенческих моделей с большой окупаемостью. Потомок агента наследовал стратегию социального научения от родителя – благодаря этому в ходе естественного отбора количество эффективных стратегий в популяции возрастало.
Турнир был разделен на раунды, в каждом из которых каждый агент должен был выбрать один из трех возможных ходов – НОВАТОРСТВОВАТЬ, НАБЛЮДАТЬ или ПРИМЕНЯТЬ. Понятие НОВАТОРСТВОВАТЬ предполагало несоциальное научение. Делая этот ход, агент усваивал новое поведение{285}285
Новое поведение выбиралось случайным образом.
[Закрыть] (вместе с его окупаемостью) точно и безошибочно. Усваивать новое поведение агентам приходилось потому, что рождались они без всякого поведенческого репертуара и должны были накопить некий арсенал действий, чтобы выявить среди них высокоокупаемые. Другой ход – НАБЛЮДАТЬ – подразумевал любые формы социального научения. Выбирая этот вариант, агент подражал поведению одного из агентов или нескольких агентов, выбранных случайным образом среди прибегавших к тому или иному поведению в предшествующем раунде, и также принимал связанную с данной поведенческой моделью окупаемость. Однако научение через наблюдение влекло за собой две вероятные ошибки: агент-наблюдатель мог неправильно понять демонстрируемое поведение (и в результате усвоить искаженную версию) или неправильно оценить его окупаемость. В отличие от НОВАТОРСТВОВАТЬ ход НАБЛЮДАТЬ не гарантировал включение новой поведенческой модели в репертуар агента. Если объект наблюдения совершал что-то уже известное наблюдателю, ничего нового не усваивалось и в этом раунде ход НАБЛЮДАТЬ оказывался для игрока непродуктивным. Вероятность ошибки при социальном научении, количество объектов наблюдения, которыми выступали другие агенты, степень изменчивости среды и ряд других факторов относились к параметрам, которые на протяжении турнира систематически варьировались организаторами. И, наконец, третий ход, ПРИМЕНЯТЬ, предполагал следование той или иной поведенческой модели из репертуара агента и был, по сути, эквивалентом нажатия на рычаг автомата и получения выигрыша. Разумеется, агенты могли ПРИМЕНЯТЬ только те поведенческие паттерны, которые они успели к этому времени усвоить. Считалось также, что участники игры помнят поведение, усвоенное в предшествующих раундах, и полученную в каждом случае отдачу.
Таким образом, в игре следовало добиться стойкого равновесия между исследованием и использованием{286}286
Так называемый компромисс исследования-использования, когда выбор делается между исследованием нового и использованием известного.
[Закрыть]. Агентам нужно было посредством новаторства и наблюдения обеспечить себе репертуар моделей высокоокупаемого поведения, но получить отдачу и тем самым обрести некоторую приспособленность можно было, лишь сделав ход ПРИМЕНЯТЬ. От участников нашего турнира требовалось составить набор правил, описывающих, как подконтрольные им агенты (реализующие разработанную стратегию) будут выбирать ходы из трех имеющихся в их распоряжении вариантов{287}287
Набор правил обозначался либо словесно, «псевдокодом», либо на языке программирования (Matlab).
[Закрыть]. В победителях окажется та стратегия, в которой удастся наиболее эффективно сочетать новаторство, наблюдение и применение. Систематически варьируя условия (например, заставляя окружающую среду меняться то резко и стремительно, то плавно и постепенно, либо манипулируя частотой появления ошибок, связанных с наблюдением), мы сможем выяснить, когда выгодно подражать другим, а когда рентабельнее учиться на собственном опыте.
Оценивать стратегии планировалось в два этапа. Первый, как и на турнирах Аксельрода, предполагал состязание по круговой системе, когда каждая стратегия по очереди мерилась эффективностью с другими стратегиями{288}288
Для этого мы организовали парные состязания, в которых поначалу все агенты популяции использовали одну стратегию, а затем появлялось небольшое число агентов, использующих альтернативную. После этого мы проверяли, может ли новая стратегия вытеснить исходную и закрепиться в популяции, победив в соперничестве с исходной. Стратегия, более эффективно обеспечивавшая высокоокупаемое поведение, в среднем воспроизводилась чаще альтернативной и начинала господствовать. Каждое парное состязание состояло из повторяющихся поединков на 10 000 раундов между двумя стратегиями, которые по очереди становились то исходными, то новоявленными. Мы учитывали среднюю встречаемость каждой стратегии в популяции в последних 2500 раундах каждого поединка и начисляли каждой стратегии баллы, представлявшие собой среднее значение этих показателей для количества поединков, в которых данные стратегии участвовали.
[Закрыть]. Десять самых успешно показавших себя по результатам всех поединков стратегий переходят на второй этап, который мы назвали меле[8]8
От фр. mêlée (смешивать) – схватка, драка. В ранних рыцарских турнирах – групповой бой, в отличие от появившихся позднее поединков двух воинов.
[Закрыть]. В этой схватке все десять стратегий сходятся «врукопашную», при расширенном по сравнению с первым этапом диапазоне имитированных обстоятельств. Победителем станет стратегия с лучшим, по результатам всех схваток, средним показателем используемости.
Определившись с правилами, мы принялись активно рекламировать турнир: оповещали о нем на афишах, рассказывали на конференциях, рассылали сообщения по электронной почте, размещали их на интернет-сайтах, а также обращались к потенциальным участникам в исследовательских группах. Чтобы подогреть интерес к предстоящему состязанию, назначили за стратегию-победительницу премию в 10 000 евро (примерно 13 650 долларов){289}289
Привожу соотношение на момент состязания.
[Закрыть]. Больше всего мы боялись, что у нас просто не наберется участников, – и я, и Люк провели не одну бессонную ночь, в тревоге, что вся наша работа будет проделана впустую. Но волновались мы напрасно – отклик оказался фантастическим.
Прежде всего, поступило множество заявок – 104 (намного больше, чем в обоих турнирах Аксельрода) от представителей 15 научных дисциплин (включая биологию, информатику, инженерное дело, математику, психологию и статистику){290}290
Полный список включает в себя антропологию, биологию, информатику, инженерное дело, экологию, этологию, междисциплинарные исследования, менеджмент, математику, философию, физику, приматологию, психологию, социологию и статистику.
[Закрыть] из разных стран (Бельгия, Великобритания, Дания, Испания, Канада, Нидерланды, Португалия, США, Финляндия, Франция, Чехия, Швеция, Швейцария и Япония). Турнир вышел по-настоящему междисциплинарным и международным.
Большинство заявок были поданы научными работниками – университетскими профессорами, молодыми исследователями и старшекурсниками. Поступили заявки и от неспециалистов, заинтересовавшихся турниром, и даже от школьников. Кстати, в число самых успешных стратегий вошла разработка Ральфа Бартона и Джошуа Бролина, учащихся одной из частных школ Великобритании – Винчестерского колледжа. Их девятое место на первом этапе – невероятное достижение! Мне несказанно грела душу мысль, что наше соревнование позволило этим талантливым ребятам своим умом и упорным трудом додуматься до стратегии, превзошедшей разработки профессоров статистики и профессиональных математиков. Признавая эту огромную заслугу, мы вручили Ральфу и Джошуа специальную премию в 1000 фунтов.
Судя по масштабу и сложности представленных разработок, наши участники отнеслись к состязанию более чем серьезно. Некоторые кандидаты объединялись в команду и подавали коллективную заявку. Некоторые писали собственные компьютерные программы для проверки своих идей и тестировали их на симуляторах, имитирующих нашего «многорукого бандита». Кто-то даже самостоятельно организовал тренировочный мини-турнир, выясняя, какие стратегии действуют лучше. Среди разработок попадались сложнейшие, использующие самые передовые технологии – от нейронных сетей до генетических алгоритмов. Мы с Люком глазам не верили, вникая в иные особо трудоемкие проекты. Кажется, наше состязание можно причислить к самым высокорентабельным из когда-либо применявшихся способов проведения исследований. За какие-то 10 000 евро мы сумели привлечь сотни умнейших и сверхизобретательных исследователей со всего мира, которые неделями, а то и месяцами корпели над волнующей нас загадкой оптимального пути научения.
Теперь нам предстояло изучить разработки конкурсантов и понять, какие стратегии преуспели и почему. На первом этапе турнира (круговое состязание) стратегия могла в принципе получить от 0 (если проигрывала в каждом поединке) до 1 балла (если выигрывала все). В итоге счет варьировал от 0,02 до 0,89, что говорило о широком диапазоне эффективности стратегий. Нас такой разброс в показателях очень обрадовал: он означал, что мы не подняли планку сложности настолько высоко, что с заданием не справился почти никто (так называемый эффект пола), но и не опустили ее настолько низко, что одинаково легко справились все (эффект потолка). Разброс в результатах сам по себе подтверждал, что структуру состязания мы наметили верно. И, что гораздо важнее, вариативность позволяла нам объективно оценить и сравнить разработки. Стратегии можно было классифицировать в соответствии с их свойствами: насколько они жестки или гибки, какой объем подражания подразумевают, отслеживают ли степень изменений окружающей среды и приспосабливают ли к ним поведение и т. д. После этого нам оставалось подвергнуть собранный материал статистическому анализу и выяснить, какие из этих свойств обеспечивают стратегии успех.
Первое неожиданное открытие, которое мы сделали, – оказывается, можно «заучиться». Как показал турнир, посвящать много времени научению совсем не эффективно. Более того, мы установили явную обратную зависимость между долей, приходящейся в стратегии на ходы НОВАТОРСТВОВАТЬ и НАБЛЮДАТЬ по сравнению с ходом ПРИМЕНЯТЬ, и успехами данной стратегии в состязании. В лидирующих по эффективности стратегиях научению уделялась лишь небольшая часть времени (5–10 %), а все остальное отводилось на то, чтобы «монетизировать» накопленный опыт, разыгрывая ПРИМЕНЯТЬ. Приобретать приспособленность напрямую стратегия может только разыгрывая ПРИМЕНЯТЬ. А значит, каждая попытка усвоить новое поведение – путем НОВАТОРСТВА или путем НАБЛЮДЕНИЯ – отнимает шанс на получение отдачи, который дало бы разыгрывание варианта ПРИМЕНЯТЬ. Таким образом, чтобы пробиться в жизни, нужно поскорее что-то усвоить, а затем усвоенное ПРИМЕНЯТЬ, ПРИМЕНЯТЬ и ПРИМЕНЯТЬ, вплоть до самой смерти. Отрезвляющий урок для таких людей, как я, у которых школа или университет – второй дом.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?