Автор книги: Хелен Папагианнис
Жанр: Прочая образовательная литература, Наука и Образование
Возрастные ограничения: +12
сообщить о неприемлемом содержимом
Текущая страница: 3 (всего у книги 15 страниц) [доступный отрывок для чтения: 5 страниц]
Наблюдение за движением и прогнозирование действий
Kinect использует камеру для измерения глубины, что позволяет ей распознавать мир в трех измерениях. Это устройство работает, проецируя совокупность инфракрасных световых точек на всю комнату, а затем, измеряя, за какое время свет от каждой из этих точек возвращается обратно на сенсор камеры, определяет расстояние до каждой точки комнаты. Программное обеспечение считывает данные для идентификации любых выделяющихся частей человеческого тела, например головы или конечности. Kinect использует модель скелета человека, состоящую из многочисленных частей и соединений. Хранящее в своей памяти более 200 поз, программное обеспечение фиксирует движения человеческого тела и может спрогнозировать, какое движение ваше тело вероятнее всего совершит дальше.
Прогнозирование – важный аспект человеческого восприятия, который мы широко используем в повседневной деятельности, чтобы взаимодействовать с нашим окружением. Джефф Хокинс, основатель компании Palm, создавшей первый карманный компьютер, и автор книги «Об интеллекте» (опубликованной в 2004 году[14]14
Вышла в России в 2016 году. – Прим. ред.
[Закрыть]), описывает человеческий мозг как систему памяти, которая хранит и воспроизводит полученный опыт для того, чтобы спрогнозировать возможные сценарии развития.
Хокинс указывает, что человеческий мозг постоянно прогнозирует дальнейшие события. Мы познаем мир через последовательность шаблонов, которые храним, и воспроизводим, и, соотнося с увиденным, предполагаем, что будет дальше.
На базе технологии Kinect, исследователи из Лаборатории персональной робототехники Корнеллского Университета (США) запрограммировали робота, прогнозирующего действия человека[15]15
http://pr.cs.cornell.edu/anticipation/index.php – Прим. авт.
[Закрыть] и способного решать такие задачи, как разлив напитков или открытие двери холодильника. Робот фиксирует движения вашего тела, чтобы определить, какое действие вы производите в настоящий момент. Затем он обращается к базе видеоданных, в которой содержатся около 120 видов деятельности (от чистки зубов до приема пищи и разогревания еды в микроволновой печи), чтобы предсказать, какое движение вы сделаете дальше. Затем робот планирует своевременно помочь вам в решении той или иной задачи.
Создание трехмерной карты с технологией SLAM
Для того чтобы робот мог перемещаться в окружающей среде и выполнять действия, он должен иметь возможность создавать карту своего окружения и понимать свое местоположение внутри этой среды. Для решения такой задачи инженеры-робототехники разработали метод одновременной локализации и построения карты (сокр. англ. SLAM – от Simultaneous Localization and Mapping). До разработки SLAM датчики, необходимые для построения такой карты, как правило, были дорогими и громоздкими. Kinect предоставил недорогое и легкое решение. Видеоролики с Kinect-роботами появились на YouTube в течение нескольких недель после презентации Kinect. Среди роботов, работавших по этой технологии, были различные варианты: от квадрокоптера, летающего по комнате самостоятельно без управления человеком, до робота, способного перемещаться по завалам в поисках выживших после землетрясения[16]16
http://cnet.co/2hqYUzf – Прим. авт.
[Закрыть].
Беспилотный автомобиль[17]17
http://www.google.com/selfdrivingcar/how – Прим. авт.
[Закрыть] от Google также использует технологию SLAM с собственной камерой и датчиками. Автомобиль обрабатывает как данные карты, так и данные датчиков для определения своего местоположения и обнаружения объектов вокруг себя, учитывая их размер, форму, направление и скорость движения. Программное обеспечение прогнозирует, что объекты могут сделать дальше, и автомобиль выполняет соответствующие ответные действия, например уступает дорогу пешеходу, пересекающему улицу.
Применение SLAM не ограничивается автономными транспортными средствами, роботами или беспилотными летательными аппаратами; люди могут использовать этот метод для нанесения на карту своего окружения. В Массачусетском технологическом институте (США) был разработан один из первых примеров встроенного в одежду SLAM-устройства[18]18
http://bit.ly/2wb1Q6y – Прим. авт.
[Закрыть]. Первоначально система была разработана для сотрудников службы спасения, к примеру, спасателей, отправляющихся на неизвестную территорию. При использовании камеры Kinect, размещаемой в районе грудной клетки, цифровая трехмерная карта создается в режиме реального времени, и пользователь перемещается по окружающей его среде. Конкретные местоположения могут сопровождаться комментариями, включаемыми с помощью переносной кнопки. Картой можно поделиться и сразу же отправить ее по беспроводным каналам связи руководителю, находящемуся удаленно.
С помощью SLAM также стали возможны новые формы игр. Разработанная в 2011 году компанией 13th Lab (Стокгольм, Швеция) Ball Invasion[19]19
https://youtu.be/WHGtvdxTVZk – Прим. авт.
[Закрыть] является ранним примером интеграции SLAM в игры с применением AR. Держа iPad перед собой, вы видите, что ваше физическое окружение заполнено виртуальными объектами, которые нужно преследовать и расстреливать. Уникальность «Ball Invasion» заключается в том, что виртуальные элементы взаимодействуют с реальным миром: виртуальные пули отскакивают от стены перед вами, а виртуальные шары закатываются за вашу мебель. Когда вы играете в игру и перемещаете камеру iPad, вы создаете трехмерную карту окружающей среды в реальном времени, в которой становятся возможны такие взаимодействия. В 2012 году 13th Lab выпустила PointCloud[20]20
https://youtu.be/K5OKaK3Ay8U – Прим. авт.
[Закрыть] – набор средств разработки программного обеспечения (SDK, от англ. software development kit), позволяющий создавать приложения для iOS с применением технологии SLAM. 13th Lab была приобретена VR-компанией Oculus в 2014 году.
Сегодня SLAM является одной из основных технологий платформы Google Tango AR. В 2015 году программы на планшетах для разработки приложений на платформе Tango стали доступны сначала для профессиональных разработчиков, а затем уже появились и смартфоны с поддержкой Tango: в 2016 году – Lenovo Phab 2 Pro, в 2017 году – Asus ZenFone AR. С применением Tango становятся возможными: точная навигация без GPS, окна в виртуальные трехмерные миры, измерение пространств в реальном времени и игры, определяющие свое местоположение в комнате и предметы вокруг. Google описывает цель Tango как наделение «мобильных устройств человеческим пониманием пространства и движения».
Наши смартфоны уже являются нашим продолжением, и с такими технологиями, как Tango, они начинают видеть, изучать и понимать мир подобно тому, как это делаем мы. Благодаря этому будут возникать новые типы взаимодействия, в которых виртуальная среда легко сопоставляется с нашей физической реальностью и имеет контекстуальный смысл, создавая более глубокое чувство погружения. Границы между виртуальным и реальным будут размываться все больше и больше. Технология будет способна не только распознавать нашу среду, но, возможно, поможет нам переосмыслить нашу повседневную жизнь.
Возможность видеть для незрячих
Если мы можем создать технологию визуализации для компьютеров и планшетов, почему бы не использовать ее, чтобы помочь видеть людям? Раджив Монгия, директор RealSense Interaction Design Group компании Intel, вместе со своей командой разработал прототип портативного устройства, которое использует технологию трехмерной камеры RealSense, помогая людям с ослабленным зрением лучше ориентироваться в пространстве.
Комплект RealSense Spatial Awareness Wearable впервые был представлен в рамках Международной выставки бытовой электроники (CES) 2015 года в Лас-Вегасе. Он состоит из жилета, оснащенного компьютером, который подключается по беспроводной сети к восьми вибрирующим датчикам (размером с палец), которые расположены на груди, туловище и на лодыжках. Он работает по принципу анализа глубины окружающей среды. Обратная связь направляется пользователю с помощью тактильной технологии, использующей вибрационные двигатели и посылающей в качестве обратной связи вибрацию.
Вибрационные датчики можно сравнить с вибрационным режимом мобильного телефона, интенсивность вибраций которого возрастает или снижается в зависимости от того, как близко от вас находится тот или иной объект. Если объект очень близко, вибрация усиливается, а если он удаляется, вибрация ослабевает.
Дэррил Адамс, технический руководитель проектов в Intel, занимался тестированием данной системы. 30 лет назад Адамсу был поставлен диагноз пигментная дистрофия сетчатки, и, по его словам, данная технология позволила ему получить максимальный эффект, расширив периферическое зрение при помощи тактильных ощущений.
Для меня очень ценно, что с этой технологией я могу распознавать, когда рядом начинается какое-то движение. Если я почувствую вибрацию, я сразу же могу повернуться в соответствующем направлении, чтобы увидеть, что вызвало реакцию сенсоров. Это, как правило, означает, что кто-то приближается ко мне и я смогу поприветствовать этого человека или хотя бы буду знать, что рядом кто-то есть. Без использования этой технологии я обычно не замечал людей вокруг, и часто оказывался в неудобном положении.
Система была протестирована на трех пациентах, каждый из которых обладал своими уникальными потребностями и уровнем зрения, от низкого до его полного отсутствия. Монгия и его команда работают над тем, чтобы создать систему с изменяемыми модульными компонентами, обеспечивающими пользователям возможность выстраивать комбинацию датчиков и уровня тактильного эффекта, которые наилучшим образом соответствовали бы конкретной ситуации.
Адамс хотел бы, чтобы программное обеспечение стало контекстно-ориентированным и система могла бы реагировать на потребности пользователя в любой заданной ситуации. Он считает, что эта технология может развиваться и быть дополнена, например, такими функциями, как распознавание лиц или отслеживание движения глаз. Таким образом, пользователь может быть предупрежден, когда кто-то смотрит на него, а не просто когда некто есть поблизости.
Искусственный интеллект (от англ. Artificial Intelligence – AI) можно было бы в будущем использовать для обеспечения встроенных в одежду компьютеров максимально эффективным распознаванием происходящего вокруг пользователя контекста. Такие методы, как машинное обучение, могут наделить компьютеры некоторыми способностями человеческого мозга, позволяя программам научиться выполнять новые задачи на основе новой полученной информации, не будучи специально запрограммированными для таких задач.
Обучение компьютера способности видеть с помощью машинного обучения
OrCam[21]21
http://www.orcam.com – Прим. авт.
[Закрыть], устройство, предназначенное для слабовидящих, использует машинное обучение, чтобы помочь носителям интерпретировать и лучше взаимодействовать с их физическим окружением. Это устройство способно читать текст и распознавать такие вещи, как лица, продукты и бумажные деньги Устройство OrCam оснащено камерой, которая закрепляется на очках и непрерывно сканирует поле зрения пользователя. Эта камера подключена тонким кабелем к портативному компьютеру, помещаемому в кармане. Вместо датчиков вибрации (используемых, например, в RealSense Spatial Awareness Wearable) OrCam использует звуковые сигналы. Динамик, направляющий звуковые сигналы к внутреннему уху, информирует пользователя, произнося вслух названия объектов, слова или имена людей.
С помощью OrCam пользователь может направить устройство, указав на тот предмет, который ему интересен. «Наведите устройство на книгу, и оно прочитает ее», – говорит Йонатан Уэкслер[22]22
Helen Papagiannis, «Augmented Reality Applications: Helping the Blind to See», iQ (https://iq.intel.com/augmented-reality-applications-helping-the-blind-to-see). – Прим. авт.
[Закрыть], руководитель отдела исследований и разработок OrCam. «Проведите пальцем по счету за телефон, и устройство прочитает текст, давая понять, кто отправитель и какая там сумма». Чтобы научить систему читать, ей неоднократно показываются миллионы примеров для выработки соответствующих устойчивых моделей алгоритмов.
Уэкслер отмечает, что при идентификации людей и лиц нет необходимости указывать на них. «Устройство подскажет вам, когда ваш друг приближается. Требуется около десяти секунд, чтобы научить устройство распознавать человека», – говорит он. «Все, что требуется, – это чтобы этот человек смотрел на вас, а затем назвал свое имя». OrCam сделает снимок этого человека и сохранит его в своей системной памяти. В следующий раз, когда человек окажется в зоне видимости камеры, устройство распознает его и даже идентифицирует по имени.
OrCam использует машинное обучение для распознавания лиц. Команда исследователей и разработчиков создала для OrCam базу, включающую сотни тысяч изображений всех видов лиц, чтобы научить свое программное обеспечение распознавать каждого конкретного человека. Когда пользователь носит OrCam, программа сортирует все загруженные изображения, отклоняя те, которые не соответствуют лицу в зоне видения, пока не останется только одно соответствующее изображение. Чтобы распознать лицо, сфотографированное ранее с помощью OrCam, нужно всего несколько мгновений.
Обучение мозга видеть посредством звука
Это устройство обладает способностью сканировать окружающую среду и описывать посредством звука то, что находится вокруг. Другой подход применяется в таких визуальных технологиях как vOICe[23]23
https://www.seeingwithsound.com/about.htm – Прим. авт.
[Закрыть] и EyeMusic[24]24
http://apple.co/2u48Xwa – Прим. авт.
[Закрыть]. Вместо того, чтобы использовать машинное обучение и рассказывать пользователю, на что он смотрит, эти технологии анализируют возможности обучения человеческого мозга взаимодействию с миром при помощи других органов чувств – изучая, например, как можно видеть с помощью звука.
Нейробиолог Амир Амеди задается вопросом: «Что, если мы найдем способ, как можно передать визуальную информацию в мозг людей с ослабленным зрением, обойдя проблемы с глазами стороной?» Исследования построения мозгом визуальных образов, проведенные Амеди и его командой, показывают, что у слепых от рождения людей при использовании устройств на базе vOICe или EyeMusic активизируются те же области мозга, что и у зрячих. Однако сигнал поступает в мозг не через участок, отвечающий за зрительные образы, а через другой, соответствующий восприятию звуков, но в конечном счете сигналы все равно достигают цели в соответствующем отделе мозга.
Система vOICe (от англ. OIC = «Oh, I See», в пер. «О, я вижу») преобразует изображения, фиксируемые камерой, в звуковые сигналы, чтобы помочь слепым от рождения людям видеть. Система vOICe, разработанная Питером Мейджером, состоит из пары солнцезащитных очков с небольшой встроенной камерой, подключенной к компьютеру и двум наушникам. (Сист ему также можно использовать на смартфоне, загрузив специальное программное обеспечение и используя встроенную камеру.)
Программное обеспечение vOICe преобразует ваше окружение в «звуковой пейзаж». Камера непрерывно сканирует среду слева направо, преобразуя каждый пиксель в звуковой сигнал: частота представляет собой положение по вертикали, а громкость каждого звукового сигнала представляет собой яркость пикселя. Более яркие объекты производят более громкие звуки, а частота указывает на то, является ли объект высоким или низким.
Амеди совместно со своими коллегами обучили слепых от рождения людей способности «видеть», используя vOICe и EyeMusic, более современное приложение, разработанное Амеди, которое также способно различать цвета и передавать соответствующую информацию звуками. Для передачи цветов используются различные типы инструментов. Например, синему соответствует труба, красному – аккорды органа, желтому – скрипка. Белый озвучивается человеческими голосами, а черный – тишиной.
По словам Амеди, для того, чтобы научить свой мозг пользоваться такой технологией, требуется около 70 часов. Пользователям рассказывается, как идентифицировать большие категории объектов, включая лица, тела и пейзажи. Каждая из таких категорий обрабатывается в зрительной зоне коры головного мозга. «Все думают, что информация в мозге формируется под влиянием чувств, но наши исследования показывают, что это не так, – говорит Амеди[25]25
Roni Jacobson, «App Helps the Blind ‘See’ With Their Ears», National Geographic (http://bit.ly/2wa9Btg). – Прим. авт.
[Закрыть], – человеческий мозг более гибок, чем мы думали».
Исследования и изобретения, подобные тем, которые создали Амеди и Мейджер, показывают нам, что привычное определение зрения изменяется. И оно будет продолжать меняться, поскольку компьютеры и человеческий мозг учатся видеть по-новому.
Выберите свою собственную реальность
Возможность видеть и распознавать наше окружение с помощью компьютерного зрения также позволяет отфильтровывать нашу реальность и избирательно видеть (или не видеть) мир вокруг нас. Это включает и возможность удаления из нашей реальности объектов, которые мы не хотим видеть.
В эпизоде «Белое Рождество» (2014) популярного сериала «Черное зеркало», в сатирической манере обыгрывающего современные технологии, создатели показали, как выглядела бы наша жизнь, если бы людей можно было убирать из нее одним нажатием кнопки. На месте человека, которого вы «блокировали», образовывалось пустое место, издающее приглушенные звуки, а удаленный человек при этом продолжал видеть обычную картину. В 2010 г оду японский разработчик Такаюки Фукацу продемонстрировал технологию, практически не отличающуюся от той, что показали в «Черном зеркале». Используя Kinect и OpenFrameworks, Оптический Камуфляж[26]26
https://youtu.be/4qhXQ_1CQjg – Прим. авт.
[Закрыть] Фукацу демонстрирует, как человеческая фигура сливается с фоном, становясь невидимой.
Доктора Стива Манна, профессора электротехники и информатики в Университете Торонто (Канада), некоторые называют «отцом встроенных в одежду компьютеров». Манн дал определение термину «настраиваемая реальность» в 1990-х годах. Он говорит: «настраиваемая реальность отличается от виртуальной реальности (и дополненной реальности) тем, что она позволяет нам отфильтровывать то, что мы не хотим видеть». По мнению Манна, встроенные в одежду вычислительные устройства предоставляют пользователю «созданное по своему усмотрению личное пространство». Манн использовал настраиваемую реальность для добавления личных заметок и указаний вместо рекламы.
Современный медиа-художник Джулиан Оливер назвал работу Манна источником вдохновения для своего проекта Artvertiser, начатого в 2008 году совместно с Дэмианом Стюартом и Артуро Кастро. Artvertiser[27]27
http://theartvertiser.com – Прим. авт.
[Закрыть] – это программа, заменяющая рекламу на щитах произведениями искусства. Она работает по принципу распознавания компьютерами рекламных объявлений, которые затем преобразуются в виртуальный холст, на который художники могут проецировать изображения или видео. Работы можно увидеть, используя небольшое устройство, которое выглядит как бинокль.
Оливер считает, что Artvertiser не относится к AR, а является примером «улучшенной реальности».
Он описывает проект, как переход общественных пространств от платформ по принципу «только для чтения» к принципу «чтение—запись». Artvertiser является примером прорывного подхода, заключающегося в том, чтобы скорректировать пространства, в которых преобладает реклама.
Brand Killer[28]28
Досл. с англ. «Убийца брэндов». – Прим. пер.
[Закрыть] (2015) – это современный проект, основанный на работе Манна и Оливера. Brand Killer был создан группой студентов Университета Пенсильвании (США) – Томом Катулло, Алексом Критсом-Кристофом, Джонатаном Дубином и Ридом Розенблатом – с целью убрать рекламу в зоне видимости пользователя. Студенты задаются вопросом[29]29
http://bit.ly/2woxBIC – Прим. авт.
[Закрыть]: «Что, если бы мы жили в мире, где потребители не видели бы излишества корпоративного брэндинга?» Brand Killer – это размещаемый на голове дисплей, использующий обработку изображений OpenCV для распознавания и скрытия брэндов и логотипов, которые встречаются на пути пользователя. Это «AdBlock[30]30
Программное обеспечение для блокировки рекламы. – Прим. ред.
[Закрыть] для реальной жизни», заявляют создатели.
Уже сейчас, находясь в Интернете, у нас есть возможность блокировать рекламу и даже людей, с которыми нам бы не хотелось больше общаться. Помимо рекламы и других людей, что еще нам бы хотелось удалить или заблокировать в поле зрения с помощью настраиваемой реальности?
Поскольку мы говорим о будущем AR, нужно рассмотреть вопрос о том, позволит ли цифровая фильтрация, настраивание и замена контента обогатить нашу реальность или же, наоборот, отделит нас от реального мира и друг от друга. Я надеюсь, что эти новые технологии будут использоваться для поддержания человеческого взаимодействия, связи и общения и даже повышения уровня взаимопонимания.
Хотя нам часто свойственно изолировать себя от многих проявлений реальности, которые мы не хотим видеть, например, бездомные, нищета и болезни, есть вещи, которые мы, как общество, должны активно решать. Настраиваемая реальность несет в себе потенциал для укрепления привычки игнорировать и даже для роста невежества. Мы не должны закрывать глаза на жизненные реалии.
Положительная сторона настраиваемой реальности заключается в том, что ее можно использовать для обеспечения более высокого уровня концентрации. Эта технология имеет потенциал для создания будущего, в котором будет меньше отвлекающих факторов, что приведет к более частому общению людей друг с другом. Сегодня нас просто заваливают всевозможными уведомлениями и технологиями. Что если настраиваемая реальность поможет нам с легкостью отключать на время все отвлекающие факторы?
Еще один важный вопрос: кто будет создавать эту новую реальность? Будут ли это какие-то конкретные люди, корпорации или группы людей? В настроенной кем реальности мы будем существовать, и какие визуальные фильтры или инструменты будут в ней присутствовать? Используя терминологию Оливера, будем ли мы частью среды, доступной для «чтения и записи» или «только для чтения»?
По аналогии с тем, как Интернет доступен не только для чтения, но и для редактирования, я надеюсь, что AR и настраиваемую реальность также можно будет изменять. Тим Бернерс-Ли, считающийся одним из создателей Всемирной Паутины, дает ее определение как места для обмена информацией новыми эффективными способами. «Изначально я хотел создать такую среду, где мы все могли бы общаться, читать и писать», – говорит он[31]31
Andy Carvin, «Tim Berners-Lee: Weaving a Semantic Web» (http://bit. ly/2wp2kVT). – Прим. авт.
[Закрыть]. Интернет должен был стать новым инструментом для обмена и получения информации, и технология AR может быть использована так же.
Такие примеры, как: возможность дать незрячим людям подобие зрения, появление новых интерактивных направлений для творчества, создание роботов, помогающих нам в повседневной жизни, доказывают, что AR – технология, позволяющая взаимодействовать с этим миром по-новому. Дополненная реальность может повысить уровень нашей жизни и вдохновить на изменения, благодаря которым мы станем ближе к окружающему нас миру и друг к другу.
Если заменить слово «машина» на слово «человек» в цитате Дзиги Вертова в начале этой главы: «Я машина, показывающая вам мир таким, каким только я его смогу увидеть», – можно оценить то, насколько обогащает нашу жизнь Интернет, собирая по всему миру опыт, накопленный другими людьми. Чтобы оказать позитивное влияние на общество и внести свой вклад в развитие человечества, к AR нужно применять те же принципы, по которым изначально создавалась Всемирная Паутина – ее основным принципом является всепринимающий характер, без исключений.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?