Электронная библиотека » Томас Фридман » » онлайн чтение - страница 5


  • Текст добавлен: 27 декабря 2020, 14:34


Автор книги: Томас Фридман


Жанр: Самосовершенствование, Дом и Семья


Возрастные ограничения: +12

сообщить о неприемлемом содержимом

Текущая страница: 5 (всего у книги 41 страниц) [доступный отрывок для чтения: 13 страниц]

Шрифт:
- 100% +
Хранение и память

Как мы уже увидели, датчики обладают большой властью. Однако датчики, собирающие информацию, были бы бесполезны без параллельных прорывов в системах хранения данных. Эти прорывы дали нам чипы, способные хранить больше данных и программного обеспечения. Они могут виртуально соединять миллионы компьютеров и заставляют их хранить и обрабатывать данные, как если бы они были одним рабочим столом.

Насколько большим должно быть хранилище и сколь сложное программное обеспечение потребуется?

…11 мая 2014 года бывший президент по инжинирингу UPS Рэнди Сташик выступил на конференции Общества управления производством и эксплуатацией с докладом о важности больших данных. И начал с показа номера длиной в 199 цифр.

– Есть идеи, что это за число? – спросил он аудиторию – Тогда позвольте мне рассказать вам о паре вещей, к которым оно не относится.

Это не число хот-догов, которые знаменитый ресторан Varsity продал с тех пор, как был открыт в 1928 году. И не количество автомобилей в пять часов вечера в пятницу на автострадах Атланты. Фактически число размером в 199 цифр – сумма отдельных маршрутов, которые мог бы предположительно совершить водитель UPS, делая в среднем сто двадцать ежедневных остановок. А теперь, если вы действительно хотите взорвать себе мозг, возьмите это число и умножьте его на пятьдесят пять тысяч. Таково количество маршрутов в США, которые наши водители покрывают каждый рабочий день. Чтобы отобразить его, нам, вероятно, понадобится экран высокой чёткости на стадионе в Далласе, где играют Cowboys. Но каким-то образом водители UPS каждый день находят путь к более чем 9 000 000 клиентов, чтобы доставить им почти 17 000 000 посылок, в которых может быть всё, что угодно: от нового iPad для выпускника средней школы в Де-Мойне, или инсулина для диабетика в Денвере, или двух гигантских панд, переезжающих из Пекина в зоопарк Атланты. Как же они это делают?

Приведу ответ Рэнди Сташика: благодаря исследованиям операционной деятельности. И вот о чём идёт речь.

Более двухсот датчиков в транспортном средстве сообщают о том, пристёгнут ли водитель ремнём безопасности, как быстро автомобиль едет, когда были задействованы тормоза, открыта ли дверь в салоне, движется машина вперёд или назад, название улицы, по которой она едет, даже какой срок она провела на холостом ходу по сравнению со временем в движении. К сожалению, пока мы не в силах узнать, намерена ли укусить вас собака, невинно сидящая у входной двери…

Для работы со множеством вариантов маршрутизации длиной в 199 цифр, а также с учётом данных, поступающих от двухсот датчиков из каждого грузовика UPS, требуется невероятно большой объём памяти, плюс серьёзные вычислительные и программные возможности – значительнее, чем что-либо доступное, даже мыслимое для средней компании ещё пятнадцать лет назад. Теперь эти технологии доступны любому предприятию.

Важный нюанс в том, что комбинация микросхем памяти, попавших на вторую половину шахматной доски, и программный прорыв, названный в честь игрушечного слона[13]13
  Имеется в виду Hadoop.


[Закрыть]
, превратили просто «большую» аналитику в аналитику «больших данных». Микрочипы, как мы уже отмечали, представляют собой всего лишь наборы всё большего количества транзисторов. Вы можете запрограммировать их для вычислений, или для передачи данных, или для хранения информации. Микросхемы памяти бывают двух основных форм. DRAM, или динамическая память с произвольным доступом, выполняет временное перемещение битов данных во время их обработки. Флэш-память сохраняет данные постоянно, после того как вы даёте команду «сохранить».

Закон Мура распространяется также на микросхемы памяти – мы постоянно устанавливаем всё больше транзисторов, сохраняя больше битов памяти на каждом чипе за меньшие деньги и используя меньше энергии. Сегодняшний средний смартфон может иметь шестнадцать гигабайт памяти, то есть хранит шестнадцать миллиардов байтов информации (байт – восемь битов) на чипе флэш-памяти. А ведь ещё десять лет назад плотности флэш-памяти не хватало даже для того, чтобы сохранить на телефоне одну фотографию. Вот как ускорился прогресс в этой технологии, тем самым сделав быстрее множество других вещей.

– Большие данные не достигли бы таких высот без закона Мура, – уверен старший сотрудник Intel Марк Бор. – Это дало нам больший объём памяти, более интенсивные вычисления, мощность, эффективность и надёжность, которые требуются крупным серверным фермам для обработки всей этой вычислительной мощности. Если бы серверы были сделаны из вакуумных трубок, потребовалась бы целая плотина Гувера, чтобы управлять только одной серверной фермой.

Но это не просто оборудование, вмещающее «большие числа» больших данных, а программная инновация – пожалуй, самая важная из появившихся за последнее десятилетие, о которой, впрочем, вы вряд ли слышали. Новое программное обеспечение позволило миллионам компьютеров, соединённых вместе, действовать как один компьютер и сделало все данные доступными для поиска – вплоть до уровня обнаружения иголки в стоге сена. И сделали это в компании, основатель которой назвал её Hadoop – в честь любимого игрушечного слоника его двухлетнего сына, чтобы название было легко запомнить. Hadoop изменил мир, правда, с огромной помощью от Google.

Отец маленького мальчика и основатель Hadoop – Даг Каттинг называет себя «катализатором» инноваций в области программного обеспечения. Каттинг вырос в сельском округе Напа в Калифорнии и не видел компьютера, пока не поступил в 1981 году в Стэнфорд, для оплаты учебы в котором ему пришлось занимать деньги. Там он изучал лингвистику, а вдобавок посещал курсы по информатике, учился программировать «и считал это прикольным». Он вскоре обнаружил, что программирование может стать лучшим способом погасить его студенческие ссуды. Поэтому вместо того чтобы поступать в аспирантуру, получил работу в легендарном исследовательском центре Xerox PARC, где его включили в группу специалистов по искусственному интеллекту и довольно новой для того времени области, называемой «поиск».

– Люди забывают, что «поиск» как область исследования появился до Google. Xerox упустил рынок персональных компьютеров, хотя у него было много отличных технических идей, – вспоминал Каттинг, – поэтому компания пыталась выяснить, как перейти от копировальной бумаги и тонера к цифровому миру. Им пришла в голову мысль, что копиры заменят шкафы для хранения документов. Вы просто отсканируете всё, а затем выполните поиск. Xerox всегда обладал «бумажным» взглядом на мир. Классический пример компании, которая не могла отойти от своей дойной коровы (бумага была её жизненной силой), и в Xerox пытались выяснить, как перенести бумагу в цифровой мир. Это и стало обоснованием для «поиска». Задолго до того, как возникла глобальная сеть.

С появлением Интернета компании, во главе с Yahoo, пытались организовать его для потребителей. Yahoo начиналась как каталог каталогов. Каждый раз, когда кто-то открывал новый сайт, Yahoo добавляла его в свой каталог, а затем начала разбивать сайты на группы: бизнес, финансы, новости, развлечения, спорт и так далее.

– А потом пришло время поиска, – рассказывал Каттинг, – и стали появляться веб-поисковые системы, такие как AltaVista. Одна AltaVista каталогизировала двадцать миллионов веб-страниц – внушительный показатель. Какое-то время его даже никто не мог переплюнуть. Дело было с 1995-го по 1996 год. Google появился вскоре после этого, в 1997-м, как небольшая поисковая система, но претендовал на гораздо более совершенные методы поиска. И постепенно их технологии себя зарекомендовали.

Когда Google начал свой триумфальный взлёт, Каттинг в свободное время писал программу поиска с открытым исходным кодом, чтобы конкурировать с проприетарной[14]14
  Проприетарное программное обеспечение – являющееся частной собственностью авторов или правообладателей.


[Закрыть]
системой Google. Программа называлась Lucene. Несколько лет спустя они с коллегами основали Nutch, ставший первым крупным конкурентом Google по поисковым системам с открытым исходным кодом.

Открытый исходный код – модель для разработки программного обеспечения, такая, когда любой член сообщества может внести свой вклад в его постоянное совершенствование и имеет право свободно использовать коллективный продукт (обычно по лицензии) – при условии, что поделится своими улучшениями с более широким сообществом. Преимущество в том, что можно использовать общий труд и общие результаты, по сути непрерывно создавая продукт более умный и совершенный, чем тот, который можно создать в одиночку. Кроме того, открытый исходный код также ускоряет разработку и совершенствование технологий благодаря возможности привлечения к работе неограниченного количества людей.

Желание Каттинга создать программу поиска с открытым исходным кодом должно было решить очень простую проблему.

– Когда у вас есть один компьютер – вы можете хранить на нём столько данных, сколько может вместить его жёсткий диск, – поясняет Каттинг, – и обрабатывать данные настолько быстро, насколько способен его процессор. Это, разумеется, ограничивает объём и скорость вычислений, которые вы можете выполнять.

Однако с появлением Yahoo и AOL в Интернете накапливались миллиарды и миллиарды битов и байтов данных, что требовало всё новых объёмов хранения данных и вычислительных мощностей для их навигации. Так что люди только начинали комбинировать компьютеры. Объединив два компьютера, вы смогли бы хранить вдвое больше информации и обрабатывать её в два раза быстрее. Когда в соответствии с законом Мура процессоры и накопители компьютерной памяти стали дешевле, компании начали понимать, что вынуждены будут строить здания размером с футбольное поле, от пола до потолка оснащённые процессорами и приводами, – серверные фермы.

Но, по словам Каттинга, им не хватало возможности соединить диски и процессоры, чтобы все они могли работать согласованно – как для хранения большого количества данных, так и для выполнения вычислений по всему объёму этих данных. Требовалось, чтобы при этом все процессоры работали вместе, параллельно. Но тогда под вопрос попадала надёжность. Если у вас один компьютер, он может выходить из строя, предположим, раз в неделю, а когда их тысяча – риск отказа становится в тысячу раз выше. Значит, для того чтобы всё это работало, нужна одна программа, способная беспрепятственно запускать компьютеры для совместной работы, и другая – благодаря которой гигантский океан создаваемых данных стал бы приспособлен для поиска. Инженеры в Кремниевой долине любят называть такие проблемы SMOP[15]15
  Small matter of programming – небольшой вопрос программирования.


[Закрыть]
, например: «У нас было все необходимое оборудование – оставался небольшой вопрос программирования (SMOP), который пришлось преодолеть».

Мы все можем поблагодарить Google за то, что они разработали обе программы для расширения своего поискового бизнеса. По словам Каттинга, настоящий гений Google заключался в том, чтобы «описать систему хранения, благодаря которой тысяча дисков выглядела как один диск, так что, если какой-то из них выходил из строя, вы этого не замечали», а также создать программный пакет для обработки данных и их хранения, чтобы сделать поиск полезным. Google пришлось разработать эти программы самому, потому что в то время не было коммерческих технологий, способных удовлетворить их амбиции – хранить, обрабатывать и искать всю на свете информацию. Другими словами, Google пришлось вводить новшества, чтобы создать поисковую систему, которую, по их ощущениям, ждал весь мир. Тем не менее использовали они эти программы исключительно для ведения собственного бизнеса, не лицензируя их для чего бы то ни было ещё.

Однако, согласно давней традиции инженеров-программистов, Google, гордясь тем, что создано, опубликовал пару статей, в общих чертах описывающих две ключевые программы, которые позволили им накапливать и искать столько данных одновременно. Одна из них, опубликованная в октябре 2003 года, посвящена GFS, или Google File System. Это система для управления и доступа к огромным объёмам данных, хранящихся в кластерах дешёвых компьютерных жёстких дисков. В силу стремления Google упорядочить всю информацию в мире для хранения и доступа к ней требовались петабайты и в конечном итоге эксабайты (каждый из которых составляет приблизительно один квинтиллион, то есть единицу с 18 нулями, байтов) памяти.

Поэтому понадобилось второе нововведение – Google MapReduce, созданное к декабрю 2004 года. В Google назвали его «моделью программирования и связанной с ним реализации для обработки и генерации больших наборов данных. Программы, написанные в этом функциональном стиле, автоматически распараллеливаются и выполняются на большом кластере обычных компьютеров. Система заботится о деталях разделения входных данных, о планировании выполнения программы на нескольких машинах, обработке сбоев машин и управлении необходимой межмашинной связью. Это позволяет программистам, не имеющим опыта работы с параллельными системами, легко использовать ресурсы большой распределённой системы».

Говоря простым языком, две новации Google в программном дизайне означают, что мы можем теперь хранить больше данных, чем когда-либо представляли, и использовать программные приложения для исследования массива данных с лёгкостью, которую не могли себе вообразить.

В мире вычислений и поиска намерения Google – поделиться двумя основными решениями (но не проприетарным кодом своих решений GFS и Map-Reduce) с более широким компьютерным сообществом – стало невероятно важным событием. Google, в сущности, пригласил сообщество с открытым исходным кодом базироваться на своих идеях. Вместе эти два решения сформировали убойную комбинацию, которая позволила большим данным изменить почти каждую отрасль нашей жизни.

– Google описал способ, как легко использовать множество доступных компьютеров, – оценил событие Каттинг. – Пусть они не дали работающего исходного кода, зато предоставили достаточно информации для того, чтобы квалифицированный специалист мог её переопределить и, возможно, улучшить.

Именно это и сделал Hadoop. Его алгоритмы заставили сотни тысяч компьютеров действовать как один гигантский суперкомпьютер. Таким образом, любой желающий мог просто пойти и купить оптом обычное аппаратное оборудование и хранилище данных, запустить их на Hadoop и выполнять массовые вычисления, которые позволяли действительно глубоко анализировать информацию.

Достаточно скоро Facebook, Twitter и LinkedIn начали строить свои системы на Hadoop. И именно поэтому все они разом появились всё в том же 2007 году. В этом был свой глубокий смысл. Имея большое количество передаваемых и обрабатываемых данных, они понимали, что используют их не лучшим образом, поскольку не справляются с объёмом информации технически. По словам Каттинга, были деньги на покупку жёстких дисков для хранения, но не на инструменты, позволяющие извлечь из дисков максимальную пользу. Yahoo и Google хотели захватывать веб-страницы и анализировать их, с тем чтобы люди могли их разыскивать – цель, конечно, важная. Но по-настоящему эффективным поиск стал, когда такие компании, как Yahoo, LinkedIn или Facebook, смогли увидеть каждый клик, сделанный на веб-странице, дабы понять, что именно делали пользователи. Клики уже можно было фиксировать, но до появления Hadoop никто, кроме Google, не мог ничего сделать с этими данными.

– С помощью Hadoop они смогли хранить все данные в одном месте и не только сортировать их по пользователям и по времени, но и узнать, что каждый пользователь делает в каждый период времени, – отметил Каттинг. – Они могли узнать, какая часть сайта приводит людей к другой его части. Yahoo начали регистрировать как ваш переход на страницу, так и все ваши клики на этой странице. Затем научились видеть, на что вы нажимали и что пропускали – в зависимости от того, о чём там говорилось, и от расположения на странице. Так стала доступной аналитика больших данных. Когда вы можете видеть больше, то и понять можете больше, и поэтому принимать оптимальные решения, а не надеяться на слепую интуицию. Так что данные, связанные с аналитикой, позволяют лучше владеть ситуацией. Hadoop позволил людям за пределами Google осознать и испытать этот опыт, что вдохновило их на написание многих программ для Hadoop, положив начало виртуальному расширению возможностей.

Итак, теперь у нас есть Google – запатентованная система с закрытым исходным кодом, работающая исключительно в центрах обработки данных Google. Люди используют её для всего: от базового поиска до идентификации лиц, исправления орфографии, перевода и распознавания изображений. Помимо того, Hadoop с открытым исходным кодом, управляющая остальными системами и использующая миллионы дешёвых серверов для анализа больших данных. Сегодня такие технологические гиганты, как, например, IBM и Oracle, стандартизировали Hadoop и внесли свой вклад в его сообщество открытого кода. А поскольку на платформе с открытым исходным кодом гораздо меньше сложностей и над ней работает больше умов по сравнению с проприетарной системой, она молниеносно разрослась.

Hadoop масштабировал большие данные благодаря ещё одной важной разработке: преобразованию неструктурированных данных. До появления Hadoop большинство крупных компаний уделяли им мало внимания. Вместо этого использовали Oracle SQL – компьютерный язык, который появился в IBM в семидесятые годы, – для хранения, управления и запроса огромных объёмов структурированных данных и электронных таблиц. SQL означает «язык структурированных запросов». В структурированной базе данных программа сообщает, что представляет собой каждый фрагмент данных. В банковской системе, к примеру, он говорит вам: «это чек», «это баланс» или «это транзакция». Все они структурированы, поэтому программе легко в мгновение ока найти ваш последний чековый депозит.

Но неструктурированные данные – то, чего вы не могли запросить с помощью SQL. Такая информация была хаосом, куда, по сути, скидывали всё, что могли оцифровать и хранить без какой-либо конкретной структуры. Hadoop позволил аналитикам искать все эти неструктурированные данные и находить в них закономерности. Способность просеивать горы неструктурированных данных, даже если вы не знаете, что ищете, возможность запрашивать данные, получать ответы и определять структуры – всё это было глубоким прорывом.

Как вспоминал Каттинг, Hadoop сказал пользователям: «Дайте мне ваши цифровые данные, как структурированные, так и нет, и мы их разберём». Например, Visa – крупнейшая компания кредитных карт – постоянно искала мошенников и располагала программами, способными запрашивать данные о пользовании кредитной картой за последние тридцать или шестьдесят дней. Но позволить себе пойти дальше она не могла. Hadoop принёс инструмент, какого раньше не было. После того как Visa установила Hadoop, стало возможным запрашивать данные за период в четыре или пять лет – и вдруг обнаружился самый масштабный вид мошенничества, который когда-либо был ими выявлен. Подобное стало возможным благодаря как раз анализу огромного объёма данных. Hadoop позволил применять инструменты, которыми люди уже умели пользоваться, но в масштабах и доступности, каких раньше не было.

Неудивительно поэтому, что Hadoop сейчас является основной операционной системой для анализа данных, поддерживающей как структурированные, так и неструктурированные данные. Мы привыкли выбрасывать «лишние» сведения, так как хранить их было слишком дорого, особенно в неструктурированном виде. С возможностью хранения огромного объёма данных и поиска в нём закономерностей появляется смысл собирать и хранить любую информацию.

– Если посмотреть на объём данных, который создают люди и к которому они подключаются, на новые программные инструменты для их анализа – все они растут, по крайней мере, в геометрической прогрессии, – заключил Каттинг.

Раньше работа с небольшими объёмами данных была недолгой, но не всегда выдавала точный результат, зато операции с большими объёмами давали результат точнее, однако были менее быстрыми и гибкими, объяснял Джон Донован из AT&T.

– А что если мы сможем взять масштаб и гибко его использовать? В прошлом в больших масштабах вы упускали гибкость, персонализацию и настройку, но большие данные теперь позволяют получить и первое, и второе, и третье. Иными словами, мы можем перейти от миллиона безличных, массовых и недейственных взаимодействий к миллиону индивидуальных решений.

Взять кучу данных, использовать их, комбинировать и определять с помощью программного обеспечения – немалое дело. Об этом говорил, в частности, Себастьян Трун, основатель Udacity и один из пионеров массовых открытых онлайн-курсов, бывший профессором в Стэнфорде, в интервью в выпуске Foreign Affairs за ноябрь – декабрь 2013 года.

С появлением цифровой информации запись, хранение и распространение данных стали практически бесплатными. Последний раз столь заметные изменения в структуре затрат на распространение информации произошли, когда приобрели популярность книги. Печать изобретена в XV веке, но стала распространённой лишь несколько веков спустя. Она оказала гигантское влияние на возможность переноса культурных ценностей из человеческого мозга в печатную форму. Сейчас происходят изменения такого же масштаба, а то и большего, и затрагивают все аспекты человеческой жизни.

А ведь мы ещё только начали. Hadoop появился из-за того, что закон Мура позволил удешевить аппаратные чипы для хранения данных. И потому что в Google были достаточно уверены в себе, чтобы поделиться некоторыми из своих основных идей и позволить сообществу открытого исходного кода проверить, смогут ли они догнать и перепрыгнуть Google. И оттого, что вызов приняло такое сообщество с исходным кодом, как Hadoop. Стек[16]16
  Стек – здесь: набор технологий или инструментов.


[Закрыть]
с открытым исходным кодом Hadoop никогда не был чистым клоном Google и сегодня во многом отличается от исходника.

– Идеи важны, – заметил Каттинг, – но реализация, которая доводит их до общественности, обладает ещё большим значением. Центр Xerox PARC в значительной степени стоял у истоков изобретения пользовательского графического интерфейса с окнами и мышью, сетевой рабочей станцией, лазерной печатью и так далее. Но потребовалась гораздо более востребованная и интенсивная реализация Apple и Microsoft, чтобы эти идеи поистине изменили мир.

Такова история того, как Hadoop обеспечил нам революцию в области больших данных – с помощью Google, который, по иронии судьбы, строит бизнес, предлагая инструменты для работы с большими данными широкой публике, в то время как Hadoop использовал их для создания совершенно новой отрасли.

– Google живет на несколько лет в будущем, – резюмировал Каттинг, – и они шлют нам письма из будущего в своих статьях и решениях, а мы следуем за ними. Но и они сейчас точно так же следуют за нами. Процесс двусторонний.


Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8 9 10 11 12 13 | Следующая
  • 0 Оценок: 0

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации