Электронная библиотека » Евгений Черешнев » » онлайн чтение - страница 8


  • Текст добавлен: 17 ноября 2021, 13:42


Автор книги: Евгений Черешнев


Жанр: Прочая образовательная литература, Наука и Образование


Возрастные ограничения: +16

сообщить о неприемлемом содержимом

Текущая страница: 8 (всего у книги 26 страниц) [доступный отрывок для чтения: 9 страниц]

Шрифт:
- 100% +

Маркеры могут добавляться как вручную, так и автоматически – со временем машина сама будет находить закономерности и определять, для каких расчетов пульс нужен, а для каких бесполезен, – ИИ это делать умеет лучше человека.

В эту же самую секунду Джон наверняка имеет конкретную координату GPS в пространстве – исправно вносим сие значение в другую клеточку (GPS301220111 = – 51.5136, – 0.1365), а ИИ поясняем, что это «Нью-Йорк, перекресток, список ближайших станций метро, список ближайших банкоматов, парковка (да/нет), митингующие на улице (да/нет), уровень шума в децибелах, и т. д.». И так клетка за клеткой: состояние счета, уровень ферритина и D3 в крови, уровень стресса, парковочное место машины, транзакции по карте за эту минуту, написанное за эту минуту в соцсетях и т. д. – все, что относится к жизни Джона и ее контексту (окружающему пространству) с момента рождения и по сию минуту. Если мы заполним матрицу, то она будет выглядеть примерно так (опять же – машина все сведет к еще более простому формату нулей и единиц) (рис. 6).



Часть значений меняется каждую секунду (например, если вы идете пешком из дома к машине, меняются и координаты, и шагомер, и данные о сожженных калориях, и т. д.), часть носят кумулятивный характер (например, количество прожитых секунд или выпитых за жизнь чашек кофе); какие-то фрагменты данных достаточно определить один раз, и они меняться не будут (группа крови), а какие-то могут быть линейно ниспадающими – например, уровень изотопа углерода-14 в клетках во времени. Каждая запись имеет два обязательных маркера – время и место (time stamp, coordinate stamp), что позволяет, накладывая любые данные на карту, отчетливо видеть участки, в которых определенные события происходят чаще других; например, определенные светофоры будут опаснее других (количество аварий), булочные – иметь разную проходимость, йогурты – разную полезность… (Хотя мы говорим в основном про людей и ИИ, не стоит исключать пользы dDNA и для мира вещей – например, цифровая ДНК может быть и у кефира, и у стейка, и у икеевской свечки – просто в их случае dDNA будет содержать унифицированную информацию о составе, полезности/вредности с учетом контекста и другие параметры.) Кроме того, выяснится, что определенные действия человек чаще осуществляет в конкретном месте: например, шопинг в Amazon он часто совершает из дома (а еще точнее, сидя в туалете), а не из офиса.

Любые параметры, например координаты в пространстве (GPS или аналог), можно представить в виде матрицы переменных только этого типа. ИИ, таким образом, может работать только с координатами или только с биометрией человека и делать выводы по ним. Это тоже очень удобно и полезно.

Представлять в голове таблицы и матрицы непросто, особенно если вы гуманитарий. Не беда – давайте воспользуемся таким инструментом, как data visualization (визуализация данных), чтобы наглядно увидеть цифровую ДНК человека. Матрица значений, если ее представить в приятном и понятном человеку образе, будет выглядеть как масса цветных точек, где разные цвета и формы означают разные типы и значения данных, а соединяющие их линии – наличие и силу связей.

Например, если визуализировать состояние биохимии крови, наличие органических кислот и тяжелых металлов в организме человека, можно получить примерно вот такую картинку (рис. 7), где параметры «в норме», «завышены» и «занижены» имеют разный цвет (на данном рисунке – оттенки серого).



При этом можно сопоставить все эти данные с потребляемой пищей, физической активностью, уровнем стресса на работе (то есть данными из соседних ячеек) и понять, почему те или иные параметры (безусловно, не все) находятся в аномальной зоне.

Каждый день большинство из нас отправляется на работу одним и тем же маршрутом. На выходных отправляется в ресторан с друзьями, на рыбалку или смотреть картины импрессионистов – разными маршрутами. Все передвижения можно оцифровать и наложить на карту. Это позволяет наблюдателю получить информацию о том, где и когда вы можете быть с высокой степенью вероятности. Визуализированный массив данных ваших перемещений может выглядеть, например, так:



Если всех людей, с которыми вы вступаете в контакт: от личной переписки и живых встреч с близкими друзьями до комментариев к вашему посту в социальных сетях и прохожих, в определенный момент времени находившихся от вас на расстоянии вытянутой руки, перевести в цифровой вид, то получится очень насыщенная сеть, в которой будут явным образом выделяться группы (работа, дом, школа, вуз, случайные знакомые и т. д.).



А вот как будут выглядеть ваши интересы, основанные на анализе типовых поисковых запросов и совершаемых покупок в сети (рис. 10).



Сутки, проживаемые человеком, также можно систематизировать по видам активности и часам. Подъем, завтрак, залипание в социальных сетях, дорога на работу, шопинг, почта, совещания, семьядети, явные и тайные хобби – все это прекрасно структурируется в базу данных для обучения ИИ и визуализируется для нужд маркетинга.



Рассчитать и визуализировать можно что угодно. Например, базу данных, содержащую информацию о регулярности распития чая в течение 75 лет жизни человека, можно визуализировать так:



Среднестатистический мужчина произносит 7 000 слов в день. Женщина – 20 000. Записать типовую речь, структурировать ее и научиться предсказывать обороты конкретной личности – решаемая задача для экспертов по данным. Визуализация же может выглядеть вот так:



С точки зрения dDNA, данных и ИИ человеческий день 1 и человеческий день 2 – это просто две базы, в которых часть значений будет совпадать, а часть – нет. С этим можно работать инструментами математики и программирования ИИ. Вот как это может выглядеть:



Для сравнения: человеческая ДНК (биологическая) визуализируется похожим образом (рис. 12). Все наши тела – это просто набор данных, расшифрованных и упорядоченно занесенных в цифровую базу, и отличаемся мы друг от друга только некоторыми «цветными кубиками».



Из наборов параметров цифровой ДНК могут на лету и под конкретные задачи конструироваться новые матрицы: например, все параметры класса «здоровье» или «финансы» могут формировать отдельные массивы, собираемые из самых разных типов данных. Эти матрицы будут существовать параллельно с остальными и постоянно обновляться и пересчитываться каждую секунду, так как исходные ячейки будут меняться.

В настоящий момент матрицей 1000×1000 (1 млн значений) можно закрыть большинство основных параметров, описывающих состояние жизни конкретного человека в настоящий момент (и контекст вокруг него – страна, город, район, перекресток, дом, комната со всеми вытекающими особенностями, от температуры воздуха до состояния ВВП). Если быть точнее, мне пока удалось «расшифровать», то есть выявить, менее 10 000 значений (матрица 100×100). В теории матрица 10 000×10 000 (100 млн значений) может описать всю поведенческую модель человека, включая файл с расшифровкой биологической ДНК, вернее его уникальной части. (Вообще геном человека, состоящий из 2,9 млрд пар оснований ядерного ДНК и 16 500 пар оснований митохондриального ДНК, используя сжатие, можно сохранить в файле объемом примерно 750 мегабайт, но, если брать только кодирующие последовательности, файл расшифровки ДНК конкретного человека можно уложить в 8–10 мегабайт, закрывая большинство вопросов к тому, что в биологическом отношении представляет собой носитель этой ДНК.) После выхода этой книги я надеюсь привлечь к проекту больше ресурсов, существенно расширить перечень изученных маркеров и упорядочить их классификацию.

Получается, что набор всех матриц цифровой ДНК – это многомерная сущность, которая для каждого жителя нашей планеты обновляется каждую единицу времени, выбранную в качестве расчетной. И вопрос лишь в том, успели ли мы этот «слепок информации» записать, как и куда.

Как только наша dDNA становится достаточно детальной, нам начинают открываться довольно интересные возможности по расчету вероятности наступления тех или иных событий. Если собрать воедино все матрицы и подматрицы, описывающие состояние жизни конкретного человека в конкретный момент времени, получится примерно такая сеть сетей (рис. 13), похожая на скопление галактик.



Зачастую, когда говорят об ИИ и нейронных сетях, речь идет именно о линейной алгебре, теории матриц и других математических дисциплинах, методы которых применяются на определенной структуре размеченных данных. Вы можете оперировать с данными dDNA как с математическими множествами и графами. Совершенно спокойно применять преобразования Фурье, регрессионный анализ, цепи Маркова и прочие методы теории вероятности (которая очень неплохо изучена, и именно поэтому, например, казино всегда выигрывает – оно не играет с нами, оно знает точно, какой будет норма прибыли за время t), выборочно извлекать данные для моделирования поведения при помощи теории игр и комбинаторики. Факты в динамике – это сокровищница для желающего анализировать и искать выводы на доступных данных. Именно это может делать искусственный интеллект, если дать ему доступ к dDNA человека и человечества. Например, он сможет находить не видные обычному глазу связи между ячейками: узнать, как в жизни конкретного человека перемещения между странами и еда влияют на его гормональный фон; как первые 12 прочитанных книг предопределили выбор для чтения следующих 200, а те затем повлияли на выбор профессии; может ли этот человек покупать авиабилеты в отпуск, если у него повышенная температура и карантинный пост его не пропустит, и сможет ли Джон расплатиться с кредитом, если вероятность разрыва отношений с партнершей в ближайшие две недели составляет 98 %, а вероятность потери работы в ближайшие 60 дней – 99 %. Чем больше вопросов заносится в базу (а «возможные вопросы к цифровому ДНК» всего лишь еще один тип матрицы значений, как вы, наверное, уже догадались), тем детальнее цифровая ДНК и тем больше пользы из нее можно извлечь. Вопрос только, кто эту информацию извлекает – корпорация, что хочет манипулировать действиями человека, или сам Джон.

С научной точки зрения прародителем фактической части цифровой ДНК я мог бы назвать не только методы машинного обучения, но и клинические медицинские исследования – ведь они представляют собой не что иное, как попытку найти статистически значимые корреляции на качественно и однотипно размеченных базах данных, таких как исследовательская и контрольная группы. Обычно, например, исследователи берут несколько тысяч человек, чтобы понять, работает ли новая вакцина: первой половине вводят вакцину, а второй – физраствор. Цифровая ДНК – это очень хорошо размеченная динамическая база данных. Сравнивая эти dDNA для контрольных групп (например, цифровая ДНК «студента, обожающего читать» и выборка «самые успешные люди планеты, любящие читать» или «нобелевские лауреаты, любящие читать»), можно понимать и выявлять статистически значимые корреляции, зависимости и связи или их отсутствие (не быть студенту нобелевским лауреатом, ибо он вообще ничего не читает или предпочитает бульварное чтиво, что научным успехам не способствует).

Это все безумно интересно, так как очень точно описывает прошлое и настоящее (человек и его контекст сейчас). Но самое интересное начинается, когда мы начинаем смотреть на третью часть цифровой ДНК – F (future): векторы вероятностей, предиктивную аналитику и скоринг. Большинство действий человека зависит от контекста (например, склонность купить новую машину или не выйти утром на пробежку) – они крайне редко будут бинарными и точными, почти всегда – вероятностными (шанс наступления или ненаступления события в процентах). Но они точно будут совершены. Чтобы не совмещать вероятностные прогнозы с фактами и легендой к фактам (это тоже очень точная фактическая информация), мы выносим эти значения в отдельную матрицу dDNA – F (future). И именно эта таблица значений будет представлять самую большую ценность, ибо, по сути, она содержит выводы, сделанные на основе данных, – информацию, которую можно использовать с максимальной пользой. Если вы думаете, что предсказание будущего поведения человека – фантастика, напрасно, это не так: Uber открыто делится математическими принципами предсказания вашего поведения с коллегами по цеху. Процитирую слова представителя их компании на конференции «QCon.ai 2018»: «У вас есть последовательность данных и привязанные к ним метки времени; если вы можете декомпозировать эту цепочку, предсказывать становится очень просто – ибо любое изменение во времени можно представить в виде обычных периодических функций»[27]27
  https://www.youtube.com/watch?v=VYpAodcdFfA.


[Закрыть]
.



Итак, сопоставление PP (past & present) dDNA человека с массовыми и статистически значимыми корреляциями с другими выборками dDNA дают нам вероятностную часть F (future). С этой точки зрения векторы и умножение матриц цифровой ДНК на векторы конкретных условий в сочетании с теорией игр могут творить чудеса, ибо позволяют в прямом смысле предсказывать будущее. Будущее никогда не будет жестко детерминированным, но, работая с F-частью цифровой ДНК (через полные и избирательные операции с матрицами), мы можем получить вектор вероятного значения для каждой записи в 100 % матриц, после чего объединять конкретные наборы вероятностей в группы, постепенно сужая зону прогноза, – и, как следствие, просчитать поведение конкретного человека Джона в конкретной среде (район Сохо, Лондон, в такое-то время года, при определенных обстоятельствах) в каждый следующий момент времени.

Когда жизнь человека записана в цикле жестко связанных друг с другом матриц значений, она начинает быть вычислимой. Вы можете совершать разрешенные математикой операции над матрицами – складывать их, вычитать, выборочно перемножать участки и конкретные значения (в том числе на векторы), строить по значениям функции и, таким образом, извлекать полезную информацию. Ниже показано, как эти самые матрицы можно, например, перемножать.



Если упростить: мы берем одну табличку, в которой содержатся данные о поведении за момент времени, например, за час или за день, и производим операции с другими табличками, в которых значения посвящены тем же характеристикам и активностям, но содержат данные за другое время. Если правильно пользоваться математическими инструментами, можно легко «обставить» Вангу в умении предсказывать будущее.

Нельзя сказать, что это просто. Какие-то поступки можно легко предвидеть – например, покупку нового автомобиля или дома, типовые закупки продуктов и туалетной бумаги, поездки и их направления, походы в кино, семейные измены, риски заболеваний, невыплат и т. д. – конкретные события, у которых, как правило, есть четкие причинно-следственные связи, которые можно увидеть в динамике. Но в теории можно рассчитать и многое другое.

Знаменитый французский математик Пьер-Симон Лаплас когда-то утверждал: «Разум, которому в каждый определенный момент времени были бы известны все силы, приводящие природу в движение, и положение всех тел, из которых она состоит, будь он также достаточно обширен, чтобы подвергнуть эти данные анализу, смог бы объять единым законом движение величайших тел Вселенной и мельчайшего атома; для такого разума ничего не было бы неясного и будущее существовало бы в его глазах точно так же, как прошлое».

Впоследствии лапласовский детерминизм подвергся обоснованной критике. Принцип неопределенности Гейзенберга в квантовой механике накладывает фундаментальные ограничения на возможность точного измерения одновременно координат и скорости частиц, к тому же и вычислительных возможностей Вселенной не хватит для решения подобной задачи. В рамках классической механики теория хаоса демонстрирует, что в реальном мире даже незначительная погрешность измерения или округления при вычислениях приводит к катастрофическим расхождениям результатов расчетов. Да и математика не всесильна: многие задачи решаются сейчас достаточно грубо – либо перебором, либо с помощью эвристических методов. Однако не все так печально: статистическая механика, основанная на вероятностных представлениях, позволяет описывать поведение газов, притом что мы не отслеживаем движение каждой их частицы. Так же и с цифровой ДНК: если знать 100 % маркеров, из которых сконструировано состояние конкретного человека в моменте, и окружающий его контекст, можно на основании его прошлого поведения, больших выборок релевантных статистических данных о людях/объектах и контекстах и анализа типовых равновесных и иррациональных систем посчитать возможные шаги и решения. К слову, военные ведущих держав мира, используя похожие (но не эти) подходы, уже давно применяют суперкомпьютеры для моделирования боевых действий, предсказания ходов противника и вероятных исходов сражений. Просто человеческая жизнь – это несопоставимый с расчетом военных операций набор параметров и связей. Но даже работая с текущим объемом данных (существенно меньшим) и уровнем технологий, можно предсказывать очень многое.

Для получения вероятности наступления того или иного события не надо точно угадывать из списка всех возможных – контекст всегда делает все расчеты проще, так как есть возможность быстро убрать все, что точно не может наступить. Например, если вы вечером сидите в американском пабе, за барной стойкой, вероятность заказа теплого молока стремится к нулю. А вот то, что вы закажете конкретно, посчитать можно, ибо, если прибавить к расчетам такие параметры, как ваши типовые предпочтения, когда вы сидите за барной стойкой, состояние организма (учитывая наличие хронических заболеваний, то есть медицинские данные), время, компанию (один вы или нет), страну (в США вероятность заказать бурбон будет выше, чем в Ирландии), меню этого паба (что есть в наличии) и еще сотню параметров, мы получим почти гарантию того, что вы пьете именно Jack Daniel’s с одним кубиком льда и заплатите с кредитки, заканчивающейся на *1984, ровно $8 и ни центом больше ровно в 22:02 (ибо ваш маршрут к стойке тоже известен). Звезды так сошлись, а если вы думаете, что поведение человека непредсказуемо, вам стоит знать, что теория игр, за вклад в которую Джон Нэш получил Нобелевскую премию, например, детально описывает, почему Винни-Пух, который нес мед ослику Иа-Иа на день рождения, не мог его донести ни при каком раскладе и результат мог быть только тот, что и описан в книжке – Винни приходит с пустым горшком и дарит его, – этот кейс отлично расписан и просчитан с точки зрения теории игр и сегодня входит в учебник по этой дисциплине для студентов Финансового университета при Правительстве РФ. Просто в кейсе про виски задействовано существенно больше данных.

Что еще важно, при анализе dDNA в динамике всегда можно увидеть причины для наступления того или иного события; Jack Daniel’s – просто пример, на самом деле предвидеть можно совершенно разные решения, состояния успешности или, наоборот, неудачи в конкретном деле.

То есть интернет-данные – это не просто информация, это бесценное сокровище, ключик к каждому из нас. Я считаю и вижу, что именно за право владеть доступом к нашим цифровым ДНК, детальным записям наших жизней, этим строчкам dDNA-PP и прогнозам поведения (неважно, человека или целой компании), сделанного при помощи dDNA-F, и идет тихая война. Тихая – чтобы нас не будить.

И где же нам хранить огромные объемы информации?

Подобным вопросом озадачился в 1959 году великий физик, нобелевский лауреат, один из творцов атомной бомбы и пророк нанотехнологий Ричард Фейнман, задумавшись о том, сколько места теоретически может занимать хранилище всех книг мира, то есть всей созданной человечеством информации, если использовать для хранения атомарный уровень, схожий с тем, что используется биологической ДНК. Сначала он вычислил, что энциклопедию «Британника» (на тот момент она насчитывала 24 больших тома, в среднем по 1000 страниц каждый) можно записать на носитель, не превышающий по площади поверхность булавочной головки, – достаточно уменьшить текст в 25 000 раз, что на тот момент можно было реализовать с помощью пучка ионов или электронов. А дальше Фейнман рассуждал так: если библиотека Конгресса США (крупнейшая в мире библиотека, в которой можно найти любую из выпущенных книг, от первой печатной версии Библии до последних книг Пелевина) содержит примерно 9 млн томов, библиотека Британского музея – 5 млн и примерно столько же – Национальная библиотека Франции, мы можем оценить примерный объем человеческого знания как 24 млн уникальных томов (миллион энциклопедий «Британника»). Фейнман предложил записывать на атомарном уровне все эти тексты чем-то вроде азбуки Морзе, где каждая буква – это уникальное сочетание точек, выполненных атомами разных химических элементов, причем отвел на каждую букву 6–7 точек/тире. По его консервативным расчетам, на кодирование одного бита (самой минимальной единицы) информации потребуется «кубик», содержащий около 100 атомов – он взял с запасом, чтобы убедиться, что информация не будет потеряна из-за диффузии или какого-то другого физического процесса. В одном томе энциклопедии (а именно его Фейнман решил взять за «универсальную книгу») – 1015 бит информации. И у него получилось, что для того, чтобы записать все книжные знания, накопленные человечеством до конца XX века, достаточно «кубика» с ребром 0,127 см – это размер пылинки, которую человек даже не заметит. Кстати, биологическая ДНК с точки зрения кодирования информации более совершенна, чем технология, придуманная Фейнманом. Ричард прикинул, что для кодирования одного бита природа использует не более 50 атомов. То есть плотность и качество кодирования ДНК находятся на пределе возможностей законов физики. Прямо на грани. Забавно получится, если для хранения цифровой ДНК мы сможем использовать ДНК биологическую.

Хотя человек все же превзошел природу – правда, лишь на уровне красивого эксперимента. В 2016 году нидерландские физики из Делфтского технологического университета добились рекордно высокой плотности записи информации, использовав для кодирования одного бита всего лишь несколько атомов. Устройство емкостью 1 килобайт представляло собой пластинку из монокристалла меди, на которой размещали атомы хлора с помощью туннельного микроскопа. Информация могла сохраняться 40 часов при температуре –196 ℃ и в условиях высокого вакуума.


Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8 9 | Следующая
  • 0 Оценок: 0

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации