Текст книги "Ценность ваших решений: Как современные технологии и искусственный интеллект меняют наше будущее"

Автор книги: Антон Евгеньев
Жанр: Личностный рост, Книги по психологии
Возрастные ограничения: +18
сообщить о неприемлемом содержимом
Текущая страница: 4 (всего у книги 29 страниц) [доступный отрывок для чтения: 10 страниц]
Указанный рейтинг включает 1201 компанию-единорога с совокупной оценкой $3871 млрд на октябрь 2022 г. В таблице 7 мы приведем самые крупные из них.
Таблица 7. Рейтинг крупнейших компаний-единорогов в мире[98]98
https://www.cbinsights.com/research-unicorn-companies
[Закрыть]





Читатель скажет, что это нормальная практика для инвестирования стартапов, но хочется отметить, что в таких направлениях процент провала гораздо больше, поскольку многие инвестируют просто потому, что это модно. Так было во времена «пузыря» доткомов в начале XXI в. (COM-бума). При этом, учитывая наукоемкость и важность понимания технологий, применяемых в тех или иных инновационных решениях, на глубокое изучение которых инвесторы зачастую не обращают должного внимания, следуя веянием моды, мы можем выделить наиболее универсальные советы специалистов потенциальным инвесторам в эти направления, не считая обычных правил, принятых на финансовых рынках. Они помогут отличить «пустые модные стартапы» от действительно многообещающих и высокотехнологичных, базирующихся на наукоемких идеях.
Определить ноу-хау или же «добавленную стоимость» идеи на простом языке, понятном будущей аудитории, а не только узким специалистам.
Убедиться, что в команде есть специалисты, понимающие фундаментальные основы научного направления, и возможности найма таких специалистов в будущем.
Определить наличие порогов или же барьеров входа этой идеи/направления, возникающих в силу того, что из-за популярности области будет высокая конкуренция.
Проверить наличие патентов и зарегистрированных изобретений, так как именно они являются доказательствами ноу-хау и повышают инвестиционную привлекательность и конкурентоспособность решения в будущем.
Отдельно хотелось бы обратить внимание на градацию участия крупнейших глобальных венчурных компаний в одном из наиболее перспективных технологических направлений – решениях в области искусственного интеллекта, а вернее, одного из его разделов, с будущим развитием которого связывают тектонические изменения во многих сферах деятельности человека, – генеративного искусственного интеллекта (о котором мы более подробно поговорим в следующих главах). Ниже приведем далеко не полный список ведущих венчурных компаний мира с фокусом на сегменты этого довольно масштабного уже направления, а также их участие в стартапах, работающих в области технологий генеративного искусственного интеллекта[99]99
https://rpamaster.com/select-top-investors-in-generative-ai-march-2023/
[Закрыть], объем инвестиций в который вырос на 425 % с 2020 г., что ярко демонстрирует огромный интерес венчурного сообщества к технологиям генеративного искусственного интеллекта (рис. 9).

Рис. 9. Перечень наиболее значимых венчурных инвесторов в сегменте генеративного искусственного интеллекта (март 2023 г.)
Как отмечалось ранее, невероятные темпы развития науки и инноваций, позволяющие человечеству осуществлять сотни и тысячи различных прорывных технологических исследований и открытий, обусловлены во многом конвергенцией уже существующих решений, действием закона ускорения отдачи и беспрецедентной доступностью капитала, необходимого для инноваций. Можно заметить, что популярность этих технологий вызвана еще и так называемой уберизацией бизнеса[100]100
Уберизация – замена посредников (людей или организаций) цифровыми платформами. Термин произошел от названия компании Uber. Компания разработала мобильное приложение, позволяющее потребителям подавать запросы на поездки, которые затем переадресуются водителям компании, использующим свои личные автомобили. Термин «уберизация» относят к использованию компьютерных платформ, таких как мобильные приложения, для проведения пиринговых сделок между клиентами и поставщиками услуг, что часто позволяет отказаться от услуг традиционных корпораций. Модель отличается существенно меньшими эксплуатационными расходами по сравнению с привычными формами бизнеса.
[Закрыть], о которой до глобального проникновения интернета, смартфона и различных мобильных приложений мы и не думали. Сейчас это часть нашей повседневной жизни, которая неузнаваемо преобразила многие консервативные модели бизнеса, и своим появлением ей обязаны в том числе и технологии на основе генеративного искусственного интеллекта.
Наука и данные
В последние десятилетия человечество совершило несколько уникальных по своему масштабу технологических прорывов, которые произвели революцию во многих областях науки и индустриях производства товаров и услуг, что уже привело к кардинальным изменениям в мировой и национальных экономиках. «Точкой опоры»[101]101
«Дайте мне точку опоры, и я переверну Землю» – слова физика и математика Античности Архимеда Сиракузского (287–212 гг. до н. э.).
[Закрыть], перевернувшей представление человечества о возможностях научно-технического прогресса, стали достижения математики. Именно невероятные возможности математики в эффективном описании нашей Вселенной, от самых крупных ее законов, выражающих в одной формуле как неизмеримо огромные тела и явления, так и процессы, происходящие в микромире, до частных случаев, сделали реальными непостижимые ранее вещи. Более того, современная жизнь во многом обязана математике и ученым, которые ею занимались и занимаются.
Как отмечалось ранее, именно математическими достижениями в той или иной степени обусловлены практически все современные технологии. Приведем примеры некоторых технологических прорывов последних десятилетий, которыми мы обязаны математикам: создание компьютеров и алгоритмов, на основе которых функционирует программное обеспечение, проводные и беспроводные технологии передачи данных, интернет, многое-многое другое, использующее в своей основе различные алгоритмы, технологии накопления и работы с данными, а также их передачи и сбора на расстоянии, разнообразные цифровые устройства, сенсоры и датчики, устройства отображения информации… Продолжать можно до бесконечности. Все то, что мы буднично называем «наш современный цифровой мир», что великолепно описано в известном произведении Джорджа Оруэлла «1984», написанного в 1945 г.: «Нельзя игнорировать физические факты. В философии, в религии, в этике, в политике дважды два может равняться пяти, но если вы конструируете пушку или самолет, дважды два должно быть четыре»[102]102
Оруэлл Дж. 1984. Скотный двор. – М.: АСТ, 2020. – С. 185.
[Закрыть].
Хотя, если говорить, например, о философии, существует мнение, что она (философия) занимается вопросами, для которых еще не выработан научный метод изучения. Если следовать этому утверждению, по мере развития науки, достаточного для решения определенного круга вопросов, философия переключается на другие проблемы, пока наука не доберется до них. И здесь в дело вступает конвергенция человеческих способностей и впечатляющей вычислительной мощи компьютеров, и очень кстати, что математики не просто научились доверять компьютерам, но и сделали их своими самыми верными друзьями и помощниками, общаясь с ними на языке алгоритмов и обеспечивая им питание в виде огромных массивов данных.
Часто люди недооценивают мощь используемого математического аппарата. Подумайте, ведь поиск самой разной информации за считаные секунды с помощью традиционных поисковых программ основан на математическом подходе к работе с большими таблицами и матрицами. Так вот, когда в начале 1980-х гг. проводились многочисленные исследования, связанные с проблемой распознавания речи, оказалось, что для решения стоявших перед специалистами задач практически идеально подходит так называемый метод скрытых моделей Маркова (Нidden Markov Model) – статистическая модель с неизвестными параметрами, которые необходимо определить на основе наблюдаемых параметров. Возможными значениями этой переменной являются варианты состояния мира, а полученные параметры могут быть использованы в дальнейшем анализе. Русский математик Андрей Андреевич Марков (1856–1922) создал математическую теорию иерархических последовательностей состояний, и уже в 1970-е гг. такие модели впервые применили при распознавании речи. А с середины 1980-х скрытые марковские модели активно применяются в биоинформатике, в частности при анализе ДНК. Уже в XXI веке алгоритмы, использующие скрытые модели Маркова и их математические аналоги, составляют важнейшую часть систем распознавания речи и письма, машинного перевода, криптоанализа. Сейчас, с появлением технологий искусственного интеллекта, технологий поиска ответа на заданный вопрос (о различных версиях ChatGPT, архитектуре и математических моделях, лежащих в их основе, мы будем подробно рассказывать во второй части этой книги), мы говорим о том, что революционные открытия с еще бóльшим участием математического аппарата неизбежны.
Более того, если мы перейдем на следующую технологическую ступень, то обнаружим, что уже бóльшая часть современного технологического мира базируется на математике и заботливо предоставляет нам различные товары и услуги, использующие зачастую невидимое нами программное обеспечение, являющееся плодом человеческого таланта, смелости, фантазии, доброты, заботы, амбиций, сребролюбия и других добродетелей и пороков, замешанное на знаниях, а также умении работать с массивами информации. Как говорят в Кремниевой долине: «Программное обеспечение поглощает все». И это не так уж далеко от истины, ведь практически любые продукты и услуги современного мира можно описать в цифровом виде, то есть на основе данных написать алгоритм в зависимости от задачи. Например, «экономисты все чаще смотрят на экономику как на систему обработки данных… Специалисты же видят в экономике механизм сбора данных о потребностях и возможностях формирования из этих данных решений»[103]103
Харари Ю. Н. Ноmo Deus. Краткая история будущего. – М.: Синдбад, 2020. – С. 431.
[Закрыть].
Все чаще основное требование к новым технологическим решениям звучит как способность обеспечить сбор, агрегацию и обработку стремительно растущих объемов и наборов данных, используя для этого оптимальные алгоритмы. По мнению Юваля Харари, «ХХI век будет веком доминирования алгоритмов. Для нашего мира понятие "алгоритм", наверное, наиважнейшее…». По мнению автора, наравне с алгоритмом можно поставить и данные, их объем и качество! Харари провокационно объявляет о новой религии: «Самой интересной новой религией является датаизм. Он не чтит ни богов, ни людей. Он поклоняется данным». Он развивает свою мысль о роли данных и алгоритмов в нашей жизни: «Датаизм переворачивает традиционную парадигму обучения. До недавних пор на данные смотрели как на первое звено в длинной цепочке интеллектуальной деятельности. Человеку надо было превращать данные в информацию, информацию в знания, а знания в мудрость. Но датаисты считают, что люди больше не в состоянии справляться с огромными потоками данных, поэтому не могут превращать данные в информацию и уж тем более в знания или мудрость. Поэтому обработка данных должна быть доверена электронным алгоритмам, намного более мощным, чем человеческий мозг. На практике это означает, что датаисты скептически относятся к человеческим знаниям и мудрости и предпочитают полагаться на большие данные и компьютерные алгоритмы»[104]104
Харари Ю. Н. Ноmo Deus. Краткая история будущего. – М.: Синдбад, 2020. – С. 430.
[Закрыть].
Объясняется это тем, что биохимические и электронные алгоритмы подчинены одним и тем же математическим законам. Таким образом, датаизм разрушает барьер между животными и машинами и предрекает, что электронные алгоритмы в конце концов расшифруют биохимические алгоритмы. Конечно, научно-технический прогресс движется гораздо быстрее, чем нам кажется, но позволим себе не согласиться с подобным утверждением… С каждым новым эволюционным шагом технологии становятся все ближе и понятнее человеку, большинство из них уже не требует от человека каких-то специфических знаний и необходимости обучения, они входят в нашу жизнь очень незаметно и становятся со временем крайне необходимым атрибутом в домашних делах и на работе, средством общения или передвижения, но мы уже не представляем, как без него обходиться, и с нетерпением ожидаем новой версии, модели, обновления программного обеспечения. Во многом это еще происходит и потому, что экспоненциальный рост возможностей вычислительных и коммуникационных технологий способствует пониманию и воспроизведению методов функционирования головного мозга человека. То есть не только мы делаем научные открытия и изучаем возможности создания более мощных вычислительных машин, более оптимальных методов работы с гигантскими объемами данных, новейших подходов к алгоритмизации различных задач, но параллельно с этим изучают и нас – как мы думаем, чувствуем, мечтаем, радуемся и грустим, – и все это ложится в основу следующего поколения технологий, все больше их очеловечивая. Это отдельное направление, которое так же активно набирает обороты, как анализ эмоций и эмоциональный искусственный интеллект, и стоит на стыке науки об эмоциях и технологий глубокого обучения. При этом можно предположить, что наилучших результатов все-таки сможет добиться синергия биологических возможностей человека, заложенных природой, и вычислительных возможностей аппаратного и программного обеспечения, возможностей сбора и богатства инструментария работы с большими массивами данных, созданных человеком.
От формирования точной и полноценной классификации эмоциональных состояний напрямую зависит процесс аннотирования – сопоставления наблюдаемых выражений лица и других невербальных сигналов с определенными эмоциями и аффективными состояниями. В категоризации эмоциональных данных выделяют дискретные и многомерные модели, а также их гибриды. Большинство решений в области эмоциональных вычислений основаны на дискретных моделях и включают в себя только базовые эмоции, чаще всего в соответствии с теорией Экмана, то есть автоматические системы обучаются распознавать довольно ограниченное количество аффективных состояний, хотя в жизни мы постоянно переживаем большое количество эмоций, включая сложные смешанные эмоции, а в межличностном общении пользуемся многочисленными социальными сигналами (например, жестами).
Классификация эмоций широко используется не только для распознавания эмоций, но и для их синтеза. Например, в робототехнике эмоциональный спектр, доступный роботу, может быть интегрирован в многомерное пространство эмоций. Affect system – система эмоциональных состояний, между которыми он может переключаться, – вероятно, стала основой для создания самого милого робота в индустрии ИИ – Kismet разработки MIT – и базируется именно на многомерном подходе. Каждое измерение эмоционального пространства (активация, валентность и состояние, то есть готовность к общению) сопоставляется с набором лицевых экспрессий. Как только будет достигнута необходимая величина, робот будет переключаться на следующую эмоцию.

Рис. 10. Ameca – один из ярких представителей современного поколения эмоциональных роботов[105]105
https://www.engineeredarts.co.uk/robot/ameca/
[Закрыть]
Прежде всего позвольте пояснить, почему данные и технологии работы с ними автор, да и не только он, считает наиважнейшей сферой деятельности, которая и будет во многом определять направление и скорость всего научно-технического развития человечества. Позволю себе процитировать одного из авторитетнейших мировых экспертов в области искусственного интеллекта:
«Изобретение глубокого обучения означает, что мы движемся от эпохи экспертных знаний к эпохе данных. Чтобы успешно готовить алгоритмы глубокого обучения, нужны вычислительные мощности, талантливые специалисты и большие объемы данных. Но из этих трех элементов именно объем данных в будущем станет важнейшим, потому что после достижения какого-то предела роль личных способностей начинает уменьшаться. За этой чертой все решает наличие данных…»[106]106
Кай-Фу Л. Сверхдержавы искусственного интеллекта. Китай, Кремниевая долина и новый мировой порядок. – М.: Манн, Иванов и Фербер, 2019. – С. 65.
[Закрыть]
Можно также привести слова Эндрю Ына (Andrew NG):
«Я думаю, что создание искусственного интеллекта сродни строительству ракетного корабля. Вам нужен огромный двигатель и много топлива. Если у вас большой двигатель и небольшое количество топлива, вы не доберетесь до орбиты. Если у вас крошечный двигатель и тонна топлива, вы даже не можете подняться. Чтобы построить ракету, вам нужен огромный двигатель и много топлива. Аналогия с глубоким обучением заключается в том, что ракетный двигатель является моделями глубокого обучения, а топливо – это огромные объемы данных, которые мы можем подавать в эти алгоритмы»[107]107
https://www.wired.com/brandlab/2015/05/andrew-ng-deep-learning-mandate-humans-not-just-machines/
[Закрыть].
Более того, как это ни удивительно, но быстрее всего на Земле растет объем данных, производимых миллиардами различных устройств. Этот объем растет невероятными темпами. Вместе с тем чем больше данных мы собираем и обрабатываем, тем больше данных порождаем – да, здесь есть прямая аналогия с законом Мура. Речь идет о формировании новых метаданных, агрегированных данных, данных, которые мы храним после обработки, и многих других. Любая наша деятельность в современном мире оставляет цифровой след. Нас окружают многочисленные устройства, формирующие, передающие и обрабатывающие всевозможные данные. Теперь постараемся поподробнее понять, что же из себя представляют данные и сколько их.
Мы все слышали про «большие данные» (Big Data). Определений много, а формальных нет, так как термин «большие» изначально появился по отношению к размеру памяти традиционных серверов базы данных, но эти размеры постоянно увеличиваются. Поэтому будем говорить, что большие данные относятся к наборам данных, которые слишком велики или слишком сложны для традиционных алгоритмов обработки данных. С появлением все более мощных вычислительных систем и продвинутых алгоритмов, удается обрабатывать все больший объем данных, увеличивая при этом и саму скорость обработки. Поскольку объемы данных продолжают увеличиваться, компании вынуждены увеличивать свои вычислительные мощности и объемы хранилищ данных, ведь зачастую непонятно, какие данные могут быть востребованы в будущем и какие появятся технологии для работы с ними. Помимо технических средств для эффективности работы с большими массивами данных, требуется специализированное программное обеспечение, а также высококвалифицированные специалисты по работе с данными, а в зависимости от задачи, масштаба компании и объема данных команда по работе с данными может состоять из десятков человек и верхней границы ее численности не существует. Для примера давайте посмотрим на эволюцию ИТ-специальностей, работающих с данными. В конце 1990-х гг. было, по сути, лишь два вида деятельности – администрирование баз данных и анализ статистики. Спустя всего 20 лет количество специализаций выросло в разы: архитектор данных (Data Architect), специалист по моделированию данных (Data Modeler), администратор баз данных, инженер по качеству данных (Data Quality Engineer), Bi-инженер, инженер данных (Data Engineer), аналитик данных (Data Analyst), ученый по данным (Data Scientist), инженер машинного обучения (ML Engineer)[108]108
Кузнецов С., Константинов А., Скворцов Н. Ценность ваших данных. – М.: Альпина ПРО, 2022. – С. 430.
[Закрыть]. И это еще не все: с каждым годом появляются новые разделы и направления, такие как DataOps, инженеры машинного обучения разделились на программистов, которые разрабатывают новые алгоритмы, и инженеров, которые пользуются готовыми блоками, и т. д.
Следует учитывать, что так называемые большие данные имеют множество подходов к их классификации при инвентаризации информационных активов. Даглас Лейни выделяет пять основных групп в зависимости от источников поступления данных[109]109
Лейни Д. Инфономика: Информация как актив: монетизация, оценка, управление. – М.: Точка, 2020.
[Закрыть]:
Операционные данные – это данные о клиентах, поставщиках, партнерах и сотрудниках, доступные в процессе онлайн-обработки транзакций и (или) полученные из онлайн-базы данных аналитической обработки. Часто такие сведения успешно собираются с помощью датчиков в ходе мониторинга процессов предприятия, с кассовых аппаратов, подключенных к банковской системе, интеллектуальных счетчиков, голосовой связи, радиочастотной идентификации и т. д.
«Темные (dark) данные» – информация, которая не хранится или не собирается организациями специально, а формируется случайно в процессе ведения бизнеса или взаимодействия с сетевыми сервисами и остается в интернет-архивах. Такие данные являются общедоступными и частично структурированными для анализа, включают электронные письма, электронные договоры, документы, мультимедиа, системные журналы и т. д.
Публичные данные – информация, распространяемая государственными органами (заявления, пресс-релизы, прогноз погоды, сведения о планах муниципального развития, открытые публичные реестры, опубликованные нормативные акты, включая их проекты), одна из наиболее достоверных и чаще всего структурированная. Ценность таких данных раскрывается в совокупности с другими источниками сведений, поскольку позволяет определить направления развития бизнеса или целой индустрии в рамках отдельного города, страны или на международном уровне.
Коммерческие данные – уже давно в отраслях промышленности существуют агрегаторы коммерчески ценной информации. Указанные агрегаторы предоставляют полный доступ к собственным каталогам информации по подписке. Но с учетом перенаправления современных рыночных отношений в сторону открытия информации для потенциальных инвесторов и клиентов многие сведения, представляющие коммерческий интерес, открыто размещаются в цифровой среде. Распространенной стала практика размещения информации об активах на открытых площадках, в особенности если речь идет о принадлежащих компаниям объектах интеллектуальной собственности.
Данные официальных медиа – вовлеченность бизнеса и частных лиц в функционал крупных социальных сетей создала еще один источник данных о спросе, тенденциях в определенных сегментах рыночных отношений, новых и перспективных продуктах, услугах и компаниях. Сообщения, комментарии, репосты активно используют для выявления и прогнозирования целевых клиентов, коммерческих возможностей, конкурентных отношений, бизнес-рисков и потенциальных партнеров.
Открытые данные – эта категория данных тесно связана с категорией публичных данных. Термин «открытые данные» появился в 1995 г. в американском научном сообществе в виде призыва свободно обмениваться данными. Несмотря на общую открытость публичных и открытых данных, между ними существует принципиальная разница. Она заключается в том, что использование публичных данных определяется законом – доступ к ним можно получить, например, по специальному запросу. Суть открытых данных в обратном – данные должны быть опубликованы еще до того, как кому-то понадобятся.
Авторы книги «Ценность ваших данных» выделяют также классификацию по назначению и области применения данных[110]110
Кузнецов С., Константинов А., Скворцов Н. Ценность ваших данных. – М.: Альпина ПРО 2022. – С. 231–232.
[Закрыть]:
метаданные – данные, описывающие структуру и характеристики данных;
справочные данные – данные из справочников, международных, общероссийских и отраслевых классификаторов и т. п.;
основные данные – структурированные данные об объектах учета;
транзакционные данные[111]111
Транзакционные данные – это данные, описывающие событие (изменение в результате транзакции), в основном с использованием глаголов. Транзакционные данные всегда имеют временную размерность, числовое значение и относятся к одному или нескольким объектам (то есть к справочным данным).
[Закрыть] – сведения, отражающие результат изменения данных, относящихся к фиксированному моменту времени, не изменяющихся в будущем;
данные контроля и аудита – сведения, фиксируемые в различных журналах регистрации;
аналитические данные – эти данные фактически образуются из основных, справочных и транзакционных данных. Они используются в аналитической деятельности организации.
Также данные классифицируются по степени структурирования:
структурированные данные – данные, имеющие строго фиксированную структуру, определяемую формальной моделью данных (например, реляционной схемой);
полуструктурированные данные – данные, не имеющие строго определенной структуры, но предполагающие наличие установленных правил, позволяющих выделять семантические элементы при их интерпретации (прежде всего правил расстановки тегов и других маркеров, отмечающих и выделяющих элементы данных);
неструктурированные данные – данные, произвольные по форме, не имеющие строго определенной структуры и не организованные по определенным правилам.
Кроме того, эксперты отмечают, что данные можно разделить на уникальные, доля которых в общем глобальном объеме составляет около 10 %, и реплицированные (их около 90 %). Соотношение между объемами структурированной и неструктурированной / полуструктурированной информации составляет приблизительно 15 % на 85 % соответственно. Если говорить о важнейших для операционной деятельности большинства организаций категориях данных по назначению и области применения, то основные сведения составляют около 10 %, а транзакционные примерно 90 % от всего объема потребляемых операционной деятельностью. При этом соотношение может изменяться в зависимости от специфики деятельности организации. Хотелось бы обратить внимание читателя, что, упоминая в книге какие-то показатели и их абсолютное или относительное значение, мы понимаем, что вселенная больших данных находится в процессе постоянных изменений, измерить которые можно лишь приблизительно. Поэтому они не могут быть абсолютно точными, хотя, возможно, в будущем человечество сможет учитывать каждый бит производимой информации, материи, которую человечество производит с невероятной, все возрастающей скоростью.
Теперь позвольте привести несколько описательных характеристик масштабов этого океана данных, «омывающего» все, что нас окружает. В 2021 г. общий объем данных, имевшихся на Земле, составлял приблизительно 79 зеттабайт[112]112
1 байт = 8 битов; 1 килобайт (Кб) = 1024 байта; 1 мегабайт (Мб) = 1024 килобайта; 1 гигабайт (Гб) = 1024 мегабайта; 1 терабайт (Тб) = 1024 гигабайта; 1 петабайт (Пб) = 1024 терабайта; 1 экзабайт (Эб) = 1024 петабайта; 1 зеттабайт (Зб) = 1024 экзабайта; 1 йоттабайт (Йб) = 1024 зеттабайта.
[Закрыть], [113]113
https://www.statista.com/statistics/871513/worldwide-data-created/
[Закрыть] и, по прогнозам экспертов (самым консервативным), к 2025 г. вырастет более чем вдвое. Хотя есть предсказания и о десятикратном росте объема данных к 2025 г., и автору этот прогноз кажется гораздо более правдоподобным, если оглянуться назад. В качестве примера можно привести общий объем информации, который хранится в информационных центрах только Европейской организации по ядерным исследованиям[114]114
CERN (Conseil Européen Pour la Recherche Nucléaire) – Европейская организация по ядерным исследованиям, крупнейшая по размерам в мире лаборатория физики высоких энергий, основана в 1954 г.
[Закрыть], – свыше 300 петабайт, при этом ежегодно Большой адронный коллайдер[115]115
Большой адронный коллайдер (англ. Large Hardron Collider – LHC) – ускоритель заряженных частиц на встречных пучках, предназначенный для разгона протонов и тяжелых ионов (ионов свинца) и изучения продуктов их соударений. Большим назван из-за своих размеров: длина основного кольца ускорителя составляет 26 659 м; адронным – из-за того, что ускоряет адроны (протоны и тяжелые ядра атомов); коллайдером (collider – сталкиватель) – из-за того, что два пучка ускоренных частиц сталкиваются во встречных направлениях в специальных местах – внутри детекторов элементарных частиц.
[Закрыть] производит 90 петабайт данных.
Здесь также стоит отметить: расчеты показывают, что человечество сохраняет лишь небольшой процент этих вновь создаваемых данных, поскольку только 2 % данных, произведенных и использованных в 2020 г., были сохранены до 2021 г. При этом в 2020 г. было установлено оборудование с совокупной емкостью хранения 6,7 зеттабайта. Прогнозируется, что глобальный рынок больших данных в 2022 г. продемонстрирует рост до $274,3 млрд, из них приблизительно 24 % будет приходиться на программное обеспечение, 16 % – на оборудование и еще 24 % – на услуги[116]116
https://www.statista.com/statistics/871513/worldwide-data-created/
[Закрыть].
Аналитики утверждают, что совокупный среднегодовой темп роста (CAGR) рынка больших данных будет на уровне 20 % до 2025 г., а автору представляется, что далее рост может еще ускориться за счет ЗУО. Подобные прогнозы основаны на ожиданиях резкого увеличения информации. Будут расширяться возможности вовлечения все большего объема данных за счет расширения использования облачных вычислений и облачного хранения, в том числе в рамках все более распространенных стратегий цифровой трансформации. Также ожидается, что мы станем свидетелями снижения стоимости технологий и разработки платформенного программного обеспечения для работы с большими данными за счет использования программного обеспечения с открытым исходным кодом, возможности работы через гибридные и мультиоблачные среды. Существенный рост объемов информации обусловлен массовым распространением все более производительных, функциональных, при этом более дешевых смартфонов, увеличивающимся количеством мобильных приложений для них, ускоряющимся процессом цифровой трансформации государственных организаций и корпоративного сектора как на глобальном, так и на национальных уровнях, включая все большее распространение интернета вещей (IoT – Internet of Things), который стирает границу между физическим миром людей и цифровым миром технологий.
Интернет вещей является одним из серьезнейших катализаторов роста данных на всех уровнях – от всевозможных сенсоров до бытовых приборов. Сейчас мы видим два огромных направления – индустриальный интернет вещей, который приводит к созданию цифровых двойников[117]117
Цифровой двойник (англ. Digital Twin) – цифровая копия физического объекта или процесса, создаваемая и используемая для повышения эффективности деятельности или воздействия.
[Закрыть], что становится нормой в различных производственных отраслях, и интернет вещей бытовой электроники, ведь уже никого нельзя удивить умными холодильниками и пылесосами. Однако это лишь начало цифровизации вещей, которая происходит в нашем мире, и для автора этой книги тому есть два совсем разных подтверждения. Цифровые двойники меняют экономику, общепринятую годами (а иногда веками). Хорошим примером служит компания GE Aviation, которая смогла переключиться на сервисную модель экономики поставки авиационных двигателей, в которой она продает часы налета этих двигателей вместо традиционных продаж самих «железяк» и последующего сервисного обслуживания, которые зарекомендовали себя десятилетиями. И эта модель стала возможна исключительно благодаря созданию цифровых двойников авиационных двигателей и удаленному доступу к ним, с помощью чего можно заранее диагностировать любые отклонения, поломки, а значит, своевременно проводить обслуживание и доставку запасных частей с последующими ремонтными работами. Этот же подход зарекомендовал себя и в части проактивной безопасности. А другим подтверждением глобальной цифровизации стало то, что все чаще от детей еще дошкольного возраста на вопрос о подарке на день рождения мы слышим пожелания подарка из мира цифровых гаджетов… И это пример мышления подрастающего поколения, которое не только не видит зачастую разницы между предметами физического мира и их цифровыми аналогами (двойниками), но и предпочитает последние.
Приведем еще несколько фактов из мира интернета вещей. Так, объем данных, созданный IoT-соединениями в мире в 2019 г., составил 13,6 зеттабайта и продолжает расти с каждым годом, поскольку количество различных датчиков вокруг нас увеличивается, и они становятся все умнее, а значит, формируют, передают и обрабатывают еще больший объем информации. Организации, работающие с огромным количеством данных, в поисках новых эффективных решений стали чаще использовать технологии облачных вычислений, которые могут получать, хранить и обрабатывать гигантские массивы данных, используя мощные вычислительные способности оборудования, установленного в центрах обработки данных, и предоставлять клиентам всевозможные облачные решения. Расходы компаний на облачные вычисления и построение центров обработки данных в последние годы быстро росли. В 2020 г. $129,5 млрд корпоративных расходов пришлось только на услуги облачной инфраструктуры, а $89 млрд было потрачено на оборудование и программное обеспечение центров обработки данных, в которых «размещаются облака»[118]118
https://www.statista.com/topics/1464/big-data/#topicHeaders__Wrapper
[Закрыть]. С учетом экспоненциального роста объемов данных, генерируемых гигантским количеством смартфонов, компьютеров, устройств интернета вещей, всевозможных наборов данных, собираемых для аналитических платформ, позволяющих проводить исключительные по своей сложности и точности исследования, можно предположить, что синергия различных технологий – таких как передача данных; все возрастающие вычислительные мощности современных компьютерных систем, включая облачные технологии; решения по сбору, хранению и обработке больших данных; всепроникающие решения интернета вещей; искусственный интеллект, на который человечество полагается все больше, – принесет в самое ближайшее время невероятные научные открытия и неузнаваемо изменит жизнь общества, предложит совершенно революционные экономические модели.
В своем отчете «Топ-6 приложений для науки о данных» Американский совет по науке о данных (DASCA – Data Science Council of America)[119]119
https://www.dasca.org
[Закрыть] приходит к выводу, что в некоторых отраслях экономики технологии искусственного интеллекта и управления данными позволят достичь наиболее значимых результатов, а также станут ключевыми факторами дальнейшего развития. Авторы отчета выделяют шесть наиболее перспективных направлений в этой области, а также описывают основные ниши применения решений в области искусственного интеллекта и управления данными:
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?