Текст книги "ИИ-2041. Десять образов нашего будущего"
Автор книги: Кай-фу Ли
Жанр: Управление и подбор персонала, Бизнес-Книги
Возрастные ограничения: +16
сообщить о неприемлемом содержимом
Текущая страница: 5 (всего у книги 33 страниц) [доступный отрывок для чтения: 11 страниц]
– Какой?
– Прежде чем начать танцевать, я всегда надевала Агбого Ммуо.
– Чево-о-о?! – глаза Амаки вылезли из орбит. Агбого Ммуо – священная маска северных игбо, олицетворение девичьих духов, а также матери всего живого.
– Вот-вот, у отца, когда он видел меня в маске, становилось точно такое же лицо. Ему оставалось только кланяться и выражать почтение маске и богине, которую она олицетворяет. Конечно, потом, когда танец заканчивался и я снимала маску, мне доставалось на орехи, – Озиома сияла от гордости: воспоминания на миг вернули ее в юность, когда она была такой смелой и находчивой.
От истории Озиомы в голове Амаки шевельнулась какая-то идея. Она заворочалась, словно огромная рыбина на глубине, потом начала переваливаться с боку на бок и бить хвостом. Амака задумчиво наморщил нос и даже пробормотал вслух:
– Маска…
– Да, дитя мое. Маска – вот что давало мне силу, – эхом откликнулась Озиома. Она, оказывается, все еще была здесь.
– А если снять маску? Содрать маску… – бормотал, вдруг оглохнув, Амака.
Он вдруг бросился к Озиоме, подхватил на руки и звонко чмокнул в нос, прокричал: «Спасибо, спасибо, моя королева танцев!» – и ломанулся в комнату, оставив за спиной суматоху маскарадного шествия и совершенно сбитую с толку женщину.
– Если вложить в уста АФАКа явное вранье, это не заставит последователей отвернуться, он же кумир, – объяснял Амака в тот же день в видеочате своему куратору Чи. Парень был чрезвычайно взволнован неожиданным открытием. – Но если снять с него маску и разоблачить скрытую сущность кукловода, это наверняка поможет.
– Но кукловода никто не знает, – засомневался Чи.
– Вот именно! – Амака просиял. – Не понимаете? Раз его никто не знает, значит, кукловодом может быть кто угодно!
– То есть ты предлагаешь…
– …сорвать с АФАКа маску и сделать его таким, каким вы захотите!
Чи довольно долго молчал, а потом наконец пробормотал: «Да ты просто гребаный гений».
– Ндево, – попрощался Амака на языке игбо, собираясь уже выйти из чата.
– Погоди, – окликнул его Чи, – но ведь тогда нужно создать лицо, которое существует в реальности.
– Да, именно так.
– И оно должно обмануть все антифейковые фильтры, – задумчиво добавил Чи. – Надо учесть искажение цвета, структуру помех, вариации степени компрессии, частоту моргания, биосигнал… Это вообще выполнимо?
– Мне нужно время, – кивнул Амака. – И неограниченные мощности облачного искусственного интеллекта.
– Свяжусь с тобой, – бросил Чи и отключился.
Экран погас, Амака не двинулся с места и разглядывал свое отражение. Адреналин, поначалу захлестнувший его, куда-то улетучился. Теперь на лице Амаки было не возбуждение, а усталость и тревога – он чувствовал себя так, будто только что предал духа-хранителя, наблюдающего за ним с небес.
Теоретически создать фейковый образ и вставить его в видео может кто угодно, да и обойти антифейковые фильтры – не особая проблема. Проблема в расходах – стоимость необходимых для этого вычислительных мощностей огромна.
Дипфейки и их детекторы пребывали в состоянии вечной борьбы, как Эрос и Танатос. Перед Амакой стояла невероятно сложная задача, но он был настроен достигнуть своей единственной цели: создать настоящее человеческое лицо.
Чи предложил новую схему: АФАКа следовало лишить цифровой маски Фелы Кути и показать всем известного Репо, политика йоруба, известного нескончаемыми нападками на другие этнические группы и главного врага движения «Единая Нигерия». Как только Чи и его команда покажут, что именно Репо дергает за ниточки, что это он стоит за харизматичной и вдохновляющей фигурой АФАКа, вера людей в аватара рассыплется в прах. Но первым делом сфабрикованное Амакой видео должно будет пройти проверку миллионами глаз – как людских, так и искусственного интеллекта, включая VIP-детектор.
Программу, прозванную VIP-детектором, разработали для защиты репутации общественных деятелей: политиков, госчиновников, знаменитостей, спортсменов, ученых. Эти выдающиеся личности оставляли слишком заметный цифровой след, и это делало их особо перспективными мишенями для дипфейков.
VIP-детектор должен защитить эти «суперточки» киберпространства от возможного мошенничества или других разрушительных для них действий – в противном случае социальному порядку может быть нанесен ущерб. Веб-сайты, публикующие изображения или видео известных людей, обязаны перед публикацией контента применять специальный алгоритм обнаружения дипфейков. В VIP-детекторе задействовано множество технологий, от распознавания лиц в сверхвысоком разрешении до датчиков распознавания жестов и геометрии ладони и пальцев, оценки речи и даже распознавания вен.
Эти данные вводились в систему глубокого обучения ИИ VIP-детектора. Если объект защиты был особо важен, VIP-детектор заносил в свою базу данных даже его историю болезни. Понятно, что Репо с его социальным статусом и неоднозначностью входил в эту категорию.
Но Амака был уверен, что и в VIP-детекторе есть изъяны. Сумей он раскодировать его принцип действия, он точно мог бы найти пробелы в пересекающихся цепочках входных данных и использовать их. И пусть эти лазейки совсем узкие – кто ищет, тот, как известно, всегда найдет. И протиснется бочком.
И вот Амака, взяв за основу реальное видео Репо, принялся, подобно какому-то создателю Франкенштейна XXI века, слой за слоем сшивать его лицо: губы, глаза, нос. Искусственный интеллект в помощь: каждое мельчайшее движение, мимолетный жест в фейковом видео исходил от самого Репо, и это сводило к минимуму вероятность того, что антифейковый детектор обнаружит подделку.
Амака начал с того, что с помощью технологии XR-зрения создал себе трехмерное рабочее пространство. Он махал руками, выбирал, перетаскивал объекты, увеличивал и уменьшал масштаб; иконки и фрагменты видеозаписи парили в воздухе и управлялись разными жестами. Амака предпочел бы видеть себя магом, творящим волшебство, но пока куда больше был похож на звезду кулинарного шоу за приготовлением блюда авторской кухни.
Для каждой части тела Репо Амака тщательно выбрал самую эффективную программу с открытым кодом – и это было похоже на то, как повар выбирает и откладывает в подходящую посуду сырые ингредиенты для будущего блюда. Затем, словно приправляя кушанье разными специями, он скорректировал параметры, модели и алгоритм обучения. И наконец, довел все это «до кипения» на облачной ИИ-платформе – на огне максимальной вычислительной мощности.
Каждый набор видеоресурсов, обработанных GAN, генерировал серию миниатюр, которые образовали в виртуальном рабочем пространстве бесконечную галерею – и это была длиннющая череда постеров с различными частями тела Репо.
А между тем за этой стеной из плакатов развернулась жесточайшая битва – в облаке, в полной тишине. Сражались позитивные и негативные полюса GAN: сеть-фальсификатор и сеть-расследователь. Первая стремилась переобучить и модернизировать себя для создания максимально реалистичных изображений, способных обмануть антифейковые детекторы. Эти изображения, базируясь на обратной связи от сети-расследователя и благодаря ей должны были минимизировать значение функции потерь сгенерированного образа.
Сеть-расследователь, напротив, стремилась увеличить значение функции потерь. Эта битва, ставки в которой повышаются с каждой миллисекундой, будет повторяться миллионы раз – пока стороны не достигнут определенного баланса.
Корректировка параметров, очередная итерация модели… С каждой последующей корректировкой Амака убеждался: видео становится все более реалистичным. Он уже почти ослеп от бесконечно мелькающих разноцветных пикселей, но продолжал всматриваться в кадры в поле XR-зрения, которые практически не отличались друг от друга. Пот струился по лицу парня, но ловким пальцам Амаки, порхавшим по клавиатуре, это не мешало.
Время от времени в ушах, отвлекая и раздражая, возникал противный шепот – словно голос злого духа огбанже, навечно застрявшего в подвешенном состоянии между жизнью и смертью. «Ты убиваешь бога собственными руками», – шептал этот голос.
«Он не мой бог. Он йоруба», – возражал Амака, заставляя себя не отвлекаться от дела.
Наконец фейковое видео блестяще обошло фильтр – сумело обмануть VIP-детектор. У Амаки хватило сил только шагнуть к кровати – он рухнул плашмя и тут же уснул.
Незнакомый голос звал Амаку по имени. В изножье кровати колыхалась темная тень. Амака в ужасе попытался нащупать выключатель – пальцы не слушались. Тень приближалась. И тут он разглядел лицо – это был АФАК.
– Чего тебе?! – Амака аж задохнулся.
– Не бойся, дитя мое. Я услышал твой зов и пришел посмотреть на тебя, – АФАК улыбался в темноте, причем, похоже, вполне искренне.
– Но я не… Я не хотел причинить тебе вред, – Амака шептал дрожащим голосом.
АФАК вдруг расхохотался – и это было похоже на рык африканского леопарда.
– Никто не способен причинить мне вред, дитя мое. Ни ты, ни они.
– Они?
– Люди, которые пытаются задушить будущее Нигерии и обманом заманить тебя в ночные джунгли.
– Мне очень жаль, АФАК, но у меня не было выбора.
– Нет, выбор есть, дитя мое. Отправляйся в Нолливуд[26]26
Так, по аналогии с американским Голливудом и индийским Болливудом, называют всю нигерийскую киноиндустрию. Прим. ред.
[Закрыть]. Не ищи простого решения – расскажи миру настоящую нигерийскую историю.
Амака не мог вымолвить ни слова, не получалось и отвести взгляд от пиксельной фигуры, стоящей у кровати. Я и вправду всегда хотел рассказать свою историю, думал он, историю игбо, который мечется между традиционной и изменяющейся реальностью.
– Мой дух-хранитель покинул меня, потому что я оставил свою землю и уехал на землю йоруба, – запинаясь, с трудом выговорил Амака.
– Чушь какая! – перебил АФАК. И Амака вдруг понял, что знает этот голос. – Помнишь, как ты был маленьким?
– Я был маленьким?
– Я показывал тебе разных птиц и говорил, как они называются; я показал, из какого древа получится самая хорошая рогатка; рассказал, как смастерить флейту из слоновой травы … Ты что, все забыл?
– Всему этому меня учил отец. – Амака изумленно замолк, глаза его расширились.
– Вот именно, дитя мое. Помнишь народную поговорку игбо? Когда человек говорит «да», его духу-хранителю ничего не остается, как тоже сказать «да». Это только люди покидают своего бога – бог их никогда не оставит.
– Но отец, я же не хочу тебя подвести, – Амака вспомнил об угрозе Чи опозорить всю его семью и почти шептал.
– Есть кое-что, о чем я никогда тебе не говорил.
– О чем ты?
– Мне все равно, что сказал при твоем рождении прорицатель. И мне неважно, чья душа живет в теле моего ребенка. Я хочу только, чтобы он был счастлив, чтобы он был добрым и чтил богов и духов.
– Отец… – Амака потянулся к силуэту АФАКа. Он хотел снять с него маску и увидеть родное обветренное лицо отца.
– Сходи в New Afrika Shrine[27]27
Развлекательный центр под открытым небом в Икедже, столице штата Лагос. Прим. пер.
[Закрыть]. Я уверен, ты сумеешь сделать правильный выбор. А потом возвращайся ко мне.
Амака уже почти дотянулся – кончики пальцев вот-вот должны были коснуться мерцающего пиксельного лица. Но АФАК вдруг исчез. Амака проснулся. Горел ночник. С темно-зеленого экрана монитора Illumiware Mark-V улыбалось знакомое лицо.
Расписанное граффити здание клуба New Afrika Shrine в Икедже можно запросто принять за полуразрушенный гараж. Впрочем, недостаток архитектуры с лихвой компенсирует энергетика места. В здании вместимостью две тысячи человек еженедельно проходят концерты, в нем работают всевозможные киоски с едой и напитками – и это весьма процветающий бизнес.
Фела Кути открыл ночной клуб Afrika Shrine в отеле Empire, но в 1977 году клуб сожгла полиция. Здесь была уже реинкарнация клуба – его в 2000 году открыл в память об отце Феми, сын Фелы.
Амака много раз бывал в Afrika Shrine. Как и любой молодой человек в Лагосе, любящий хорошо провести время, он видел в нем не только подходящее для вечеринки место с едой и выпивкой, но и храм, место паломничества – тут можно соприкоснуться с мятежным и свободным духом живших полвека назад таких же молодых. В этом особенном месте люди волшебным образом забывали обо всех этнических и классовых конфликтах и радовались жизни, пусть бы и под парами алкоголя.
Но сегодня Амака пришел со всем этим проститься.
В Afrika Shrine – и в старом, который он не застал, и в новом – свято хранили память и превозносили черных богов и богинь: Кваме Нкруму, Мартина Лютера Кинга – младшего, Малкольма Икса, Тома Санкару, Нельсона Манделу, Эстер Ибанга, Чинуа Ачебе, Воле Шойинка, Флоренс Озор… – великие души, посвятившие свою жизнь свободе, демократии и равенству[28]28
Все имена принадлежат темнокожим – деятелям искусства, культуры, религии, борцам за права чернокожих в разных (в основном африканских) странах. Прим. ред.
[Закрыть]. Артисты в этом клубе часто прерывают выступления, чтобы отдать дань уважения своим культурным предкам.
Амака смотрел во все глаза – он молчал и старался получше запомнить все лица. Он молился, чтобы эти боги и духи оберегали его и впредь.
Он уедет из Лагоса, вернется домой и все расскажет отцу. Амака еще не решил, что будет делать дальше. Возможно, его умение работать с GAN поможет ему найти хорошую работу, и ему больше не придется делать дипфейки, а он станет помогать людям. Или ему удастся устроиться в сфере здравоохранения, скажем, заниматься переносом лиц в медицинских датасетах для обучения ИИ?
А ведь он еще отлично умеет раскрашивать старые черно-белые фильмы и улучшать изображение! А вдруг он сможет еще сильнее расправить крылья и сделать то, о чем лишь изредка осмеливался мечтать: снять настоящий нолливудский фильм? У Амаки уже появилась отличная идея для сюжета.
В смартстриме зазвенели монеты – пришли деньги, обещанные Чи. Это означало, что его фейковое видео настолько реально, насколько это вообще возможно – оно разлетелось по интернету, и его влияние можно было сравнить по мощи с ядерным взрывом.
В последние годы видео, созданные с помощью ИИ, спровоцировали мятеж в Габоне и серьезные политические беспорядки в Малайзии. И Амаке была невыносима мысль, что его видео может сыграть такую же скверную роль в истории его родной Нигерии.
Но выбор уже был сделан.
Амака поднялся на сцену и встал в самом центре, прямо под висящим высоко над ней черно-белым портретом Фелы Кути, сначала воздел руки, а потом вытянул их вперед – как бы стараясь соединиться с силой богов и духов.
«Я стану хозяином своей судьбы и сам буду решать, когда смерть придет забрать меня», – серьезно прошептал парень, словно какое-то магическое заклинание. Это были слова самого Фелы Кути, объяснявшие его второе имя Аникулапо – на языке йоруба оно означает «тот, кто несет в суме смерть».
Амака ввел что-то в смартстрим и запустил его в ближайший мусорный бак. Вынул из кармана и надел свою верную грубую маску, напечатанную на 3D-принтере. Амака молился и мечтал убраться отсюда как можно дальше, прежде чем спохватится Чи. Он уедет из Лагоса, из огромного города, исписанного слоганами Eko o ni baje – «Лагос не испортит», и вернется домой, к запахам свежей земли.
Он уничтожит ложь, создав еще одну ложь.
Второе видео, снятое им с помощью софта DeepMask, он уже выложил в интернет – оно готово спровоцировать еще один взрыв. И в первом, и во втором ролике АФАК снимал цифровую маску, под которой оказывалось лицо Репо – идеальный дипфейк, легко преодолевший все антифейковые фильтры. Но второй ролик на этом не заканчивался – аватар продолжал снимать маски: за АФАКом следует маска Репо, затем – другая маска под этой маской, потом еще… Слой за слоем, до бесконечности.
Нигерийцы изумятся: за АФАКом – все боги и богини, почитаемые завсегдатаями клуба New Afrika Shrine.
Анализ. Компьютерное зрение, сверточные нейронные сети; дипфейки; генеративно-состязательные сети (GAN); биометрия; безопасность ИИ
«Боги под масками» – история о визуальном обмане, об обмане зрения. Научившись видеть, распознавать, понимать и синтезировать объекты, ИИ может также манипулировать ими, создавая изображения и видео, неотличимые от реальных. В рассказе описывается будущее, в котором люди больше не смогут полагаться на невооруженный глаз, если наверняка пожелают отличить подлинное видео от тонкого монтажа.
Сайтам и компьютерным приложениям придется (их обяжут законом) использовать антидипфейковый софт (как сегодня используются антивирусные программы), чтобы защитить пользователей от поддельных видео. В нашей истории перетягивание каната между создателями дипфейков и детекторов для их выявления уже переросло в гонку вооружений, и с переменным успехом побеждает тот, у кого больше вычислительных мощностей.
Действие рассказа происходит в 2041 году, но, вполне вероятно, подобная ситуация сложится и раньше – как только развитый мир сможет позволить себе огромные расходы на супердорогие компьютеры, программное обеспечение и ИИ-экспертов, необходимых для создания и обнаружения дипфейков и прочих манипуляций ИИ. И регулирующие эту сферу законы, скорее всего, будут приняты прежде всего в развитых странах. Наша история происходит в стране развивающейся – в ней негативные внешние эффекты дипфейков, по всей вероятности, проявятся несколько позже.
Итак, как же ИИ научается видеть – и через камеры, и через записанные видео? Как используются способности ИИ? Как работает создатель дипфейков, применяющий ИИ? Способны ли люди или ИИ обнаруживать дипфейки? Наполнят ли наши соцсети фейковые видео? Как остановить поток дипфейков? Какими еще дырами в безопасности может быть чреват ИИ? И есть ли что-нибудь полезное в технологии, позволяющей создавать дипфейки?
ЧТО ТАКОЕ КОМПЬЮТЕРНОЕ ЗРЕНИЕ?
В рассказе «Золотой слон» мы увидели потенциальные возможности глубокого обучения при работе с большими данными, в частности в интернете и финансах. Вряд ли вы удивляетесь тому, что ИИ опережает людей по эффективности обработки больших массивов данных. Но вот как насчет способностей, уникальных для человека или прочих живых существ, например восприятия?
Зрение – самый важный из органов чувств человека. Компьютерное (машинное) зрение – это отрасль ИИ, которая обучает компьютеры видеть. Это слово означает здесь не только оцифровку видео или изображения, но и осмысление того, что при этом «видит» компьютер. Алгоритмы компьютерного зрения позволяют реализовать следующие возможности (перечислены в порядке возрастания сложности):
• Получение изображений и их обработка – для реальных 3D-сцен в видео используются камеры и другие приборы-датчики. Каждое видео состоит из последовательности изображений, каждое изображение представляет собой двумерный массив чисел, представляющих конкретный цвет, где каждое число соответствует пикселю.
• Обнаружение объектов и сегментация изображения – изображение разбивается на области и определяется место расположения объектов.
• Распознавание объекта – распознается объект (например, собака) и, возможно, детальная информация (немецкая овчарка, темно-коричневый окрас, и так далее).
• Трекинг объекта – отслеживание движущихся объектов в последовательных изображениях или видео.
• Распознавание жестов и движений – движения идентифицируются, как, например, танцевальные па в игре для Xbox.
• Интерпретация сцены – обеспечивается понимание сцены в целом, включая неявные взаимоотношения и нюансы, например голодная собака, жадно глядящая на кость.
Инструменты для создания дипфейков, использованные Амакой в рассказе, содержат все эти компоненты. Чтобы отредактировать видео с АФАКом, Амаке сначала нужно было разбить его на фрагменты – 60 кадров в секунду, каждый из которых состоит из десятков миллионов пикселей. ИИ считывает эти пиксели и автоматически сегментирует тело АФАКа (или рисует вокруг него границу), которое далее сегментируется на лицо в маске, рот, руки и так далее. И так для каждого видеокадра.
Если видео длится 50 секунд, у нас будет три тысячи кадров (изображений). Кроме того, сопоставляется движение между кадрами, что позволяет выделить связи между объектами. Все это, заметьте, делается до того, как начнется редактирование видео.
Процесс представляется жутко трудоемким, но мы, люди, в своей жизни делаем это на раз-два. Нам достаточно лишь бросить взгляд, и все перечисленное уже проделано – тратится меньше секунды. Кроме того, люди обладают способностью к абстрактной и обобщающей интерпретации, причем даже если один и тот же объект выглядит по-разному под разными углами, при разном освещении, с разных расстояний или даже почти скрыт другими объектами.
Например, увидев человека, сидящего за столом в определенной позе, мы можем сделать вывод, что он держит ручку, нацелившись на лист бумаги, хотя на самом деле не видим ни того, ни другого.
Когда мы что-то «видим», мы, по сути, каждый раз задействуем все накопленные ранее знания о мире – все, что узнали за свою жизнь о перспективе, геометрии, здравом смысле и обо всем том, что видели до этого. У человека это происходит просто и естественно, но научить тому же самому компьютер крайне сложно.
Компьютерное зрение – область исследований, которая пытается преодолеть трудности и сделать так, чтобы компьютеры умели видеть и понимать то, что они видят.
СПОСОБЫ ПРИМЕНЕНИЯ КОМПЬЮТЕРНОГО ЗРЕНИЯ
Уже сегодня мы практически ежедневно соприкасаемся с технологиями компьютерного зрения.
Их можно использовать в режиме реального времени в разнообразных областях – от транспорта до сферы безопасности. Приведу примеры.
• В автомобилях устанавливаются системы помощи водителю «Антисон», не дающие уснуть за рулем.
• Магазины без касс и очередей – типа Amazon Go: установленные в них камеры сами распознают товар, который вы кладете в корзину или возвращаете на полку.
• Охрана аэропортов (подсчет количества людей, распознавание террористов).
• Распознавание жестов (баллы за движения в танцевальных играх для Xbox).
• Распознавание лиц (использование лица пользователя для разблокировки мобильного телефона).
• Смарт-камеры (портретный режим вашего iPhone распознает и выделяет людей на переднем плане, а затем красиво размывает фон для создания эффекта фото, сделанного зеркальным фотоаппаратом).
• Военное дело (определение, кто напротив – солдат противника или мирный житель).
• Автономные системы навигации дронов и автомобилей.
В самом начале рассказа «Боги под масками» мы видели, как системы распознавания лиц используются в реальном времени для автоматической оплаты проезда – путем идентификации пассажиров, проходящих через турникет вокзала. И узнаем, что пешеходы, используя жестикуляцию, могут взаимодействовать с мультяшными животными в уличной рекламе. А смартстрим Амаки использует компьютерное зрение для распознавания городских улиц и указания маршрута, помогает ему добраться до незнакомого пункта назначения.
Кроме того, компьютерное зрение можно применять к изображениям и видео – не такими прямолинейными способами, но не менее полезными и важными. Приведу примеры:
• Интеллектуальное редактирование фотографий и видео (такие инструменты, как Photoshop, широко используют компьютерное зрение для удаления эффекта красных глаз и улучшения качества селфи).
• Анализ медицинских снимков (для определения наличия злокачественной опухоли на КТ-снимке легких).
• Модерирование (цензурирование) контента (обнаружение порнографического и насильственного контента в социальных сетях).
• Подбор сопутствующей рекламы, основанный на содержании конкретного видео.
• Интеллектуальный поиск изображений (находит нужное по ключевым словам или другим изображениям).
• И, конечно же, создание дипфейков (подмена лиц в видео).
В «Богах под масками» рассказывается об инструменте для создания дипфейков, который, по сути, является ничем иным, как автоматическим инструментом для редактирования видео; он по частям подменяет одного человека другим, начиная с черт лица, пальцев, ладоней и голоса и заканчивая жестами, походкой и мимикой. Поговорим об этом подробнее.
СВЕРТОЧНЫЕ НЕЙРОННЫЕ СЕТИ (CNN) ДЛЯ КОМПЬЮТЕРНОГО ЗРЕНИЯ
Заставить компьютерное зрение работать на основе стандартной нейронной сети оказалось очень непростой задачей – ведь любое изображение состоит из десятков миллионов пикселей, и научить систему глубокого обучения находить тончайшие подсказки и признаки в огромном количестве изображений – это, согласитесь, даже звучит устрашающе. В поисках вдохновения в деле усовершенствования этой технологии исследователи обратились к человеческому мозгу.
Зрительная зона коры головного мозга задействует нейроны, соответствующие множеству ограниченных областей (известных как рецептивные поля, или поля восприятия), в рамках которых наши глаза фиксируют изображение в любой конкретный момент времени. Рецептивные поля идентифицируют основные признаки видимых объектов: формы, линии, цвета или углы. Эти детекторы соединены с неокортексом, верхним слоем коры головного мозга (новой корой).
Неокортекс хранит информацию иерархически и обрабатывает выходы полей восприятия, преобразуя их в более сложную интерпретацию сцены.
Наблюдения за тем, как «видят» люди, и вдохновили разработчиков на изобретение так называемых сверточных нейронных сетей (CNN – convolutional neural networks). Самый низкий слой CNN состоит из большого числа фильтров, которые многократно применяются к изображению. Каждый из этих фильтров, как и рецептивные поля, может видеть только небольшие смежные участки изображения.
Глубокое обучение за счет оптимизации параметров на множестве изображений решает, что «замечает» каждый фильтр. Каждый фильтр выдает на выходе уверенность, что видел конкретный признак, им представляемый (например, черную линию). Более высокие слои CNN организованы иерархически, как и неокортекс. Они принимают выход уверенности от более низких слоев и обнаруживают более сложные признаки.
Например, если в CNN загружается изображение зебры, фильтры нижнего слоя могут искать в каждой области изображения только черные и белые линии, а более высокие слои будут видеть полоски, уши и ноги в больших зонах. Следующие слои могут увидеть множество полос, два уха и четыре ноги. На самом высоком слое части CNN могут целенаправленно пытаться отличить зебру от лошади или тигра.
Обратите внимание: все эти примеры иллюстрируют, что CNN может делать, но в реальной работе сеть сама решает, какие признаки (полосы, уши или вообще нечто лежащее за рамками человеческого понимания) будут использованы для максимизации целевой функции.
CNN – это специфическая и улучшенная архитектура глубокого обучения, разработанная для компьютерного зрения, с различными вариантами для изображений и видео. Идея таких сетей возникла в 1980-х годах, у ученых тогда не было ни достаточного объема данных, ни вычислительных мощностей, чтобы продемонстрировать, на что эти сети способны.
Только в 2012 году стало ясно, что данная технология превосходит все предыдущие подходы к компьютерному зрению. По счастливому совпадению, примерно в это же время пользователи сняли на сильно подешевевшие и из-за этого массово распространившиеся смартфоны огромное количество фото и видео и выложили их в социальные сети. Примерно тогда же стали более доступными быстродействующие компьютеры и хранилища данных большого объема. Все эти факторы в совокупности способствовали рывку в развитии и распространении этой замечательной технологии.
ДИПФЕЙКИ
«Президент Трамп – полный и абсолютный ушлепок», – заявил однажды на камеру президент Обама… Ну или это был человек, который выглядел и говорил совсем как Барак Обама. В конце 2018 года видео стало вирусным, но это был дипфейк – поддельный ролик, смонтированный с помощью технологии глубокого обучения. Известны даже авторы – режиссер Джордан Пил и новостная интернет-медиакомпания BuzzFeed.
Пил записал фразу, ИИ преобразовал голос режиссера в голос Обамы. Затем ИИ взял реальное видео Обамы и отредактировал так, чтобы оно максимально соответствовало словам, включая артикуляцию, соответствующую мимику и выражение лица.
Джордан Пил сделал это с конкретной целью – так он хотел предупредить людей о скором наступлении дипфейков, что, собственно, и произошло. Уже в том же году в интернет оказались загружены несколько дипфейковых порнороликов со знаменитостями, это привело к скандалу и в конечном счете к новому закону, призванному решить эту проблему. Но появление дипфейков это уже не остановило.
В Китае в 2019 году было создано приложение, способное за считаные минуты превратить ваше селфи в главного героя какого-нибудь известного фильма. Оно сохраняет оригинальный саундтрек, что существенно снижает технологические требования к процессу.
Программа Avatarify возглавила в 2021 году рейтинг Apple App Store. Она «оживляет» любую фотографию, заставляя человека на ней петь или смеяться.
Короче говоря, дипфейки вдруг стали мейнстримом, и уже любой юзер без особого труда может сам изготовить фейковое видео (пусть и дилетантское, и видимое для детекторов, а зачастую и для человеческого глаза).
Сказанное означает, что в будущем возможна подделка любого цифрового материала, будь то онлайн-видео, заранее записанная речь, кадры с камеры видеонаблюдения или видео с уликами из зала суда. В нашей истории Амака использует инструменты, гораздо более продвинутые, чем имелись в распоряжении Пила, создает сложное, высококачественное видео, подделку, которую не распознает ни человеческий глаз, ни обычное программное обеспечение для обнаружения дипфейков.
Сначала он использует инструмент для преобразования любого текста в звукоряд, который станет неотличим от голоса Репо. Затем он синхронизирует эту речь с лицом Репо с соответствующей мимикой и эмоциями. Далее это лицо накладывается на изображение АФАКа из ранее снятого видео с соответствующими руками, шеей, ступнями и даже его уникальными паттернами пульса и дыхания. А продвинутый ИИ образца 2041 года обеспечивает совершенно бесшовное соединение всех частей тела в нужных местах.
Помимо этого подхода к созданию «фейковых людей», основанного на видео, существует еще 3D-подход, включающий в себя построение трехмерной модели человека исключительно с помощью вычислений. Именно так, например, снимаются полнометражные анимационные картины вроде «Истории игрушек»[29]29
Первый полнометражный фильм, смоделированный на компьютере полностью трехмерным; американский анимационный фильм. Совместное производство киностудии Pixar и компании Уолта Диснея (режиссер Дж. Лассетер, 1995). Прим. ред.
[Закрыть].
Данный подход базируется на другой области информатики – на компьютерной графике. В ней все моделируется математически, и для волос, ветра, света, теней и проч. нужно разрабатывать реалистичные математические модели. Этот трехмерный подход обеспечивает «продюсера» гораздо большей свободой действий, позволяя ему манипулировать каждым персонажем, как только заблагорассудится, однако и сложность, и требования к вычислительным мощностям тут намного выше.
Компьютеры в 2021 году еще не умеют снимать полнометражные фильмы с использованием 3D-видео, способного обмануть человеческий глаз (вот почему люди в анимационных фильмах выглядят не вполне реалистично), не говоря уже о программах-детекторах. Но к 2041 году наверняка появятся фотореалистичные 3D-модели, о которых мы подробнее поговорим в других главах этой книги – «Воробьи-близнецы» и «Мой призрачный кумир».
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?