Текст книги "Baidu. Как китайский поисковик с помощью искусственного интеллекта обыграл Google"

Текст добавлен: 8 мая 2021, 11:48

Автор книги: Робин Ли

Жанр: Зарубежная образовательная литература, Наука и Образование

Возрастные ограничения: +12

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 7 (всего у книги 24 страниц) [доступный отрывок для чтения: 6 страниц]

Скачать книгу

Шрифт:

- 100% +

Данные истории жизни

Данные прочно обосновались в нашей жизни. Компьютеры, смартфоны, все виды умных предметов домашнего обихода собирают данные о нас через вычислительное моделирование и все больше начинают понимать наши потребности. Это превращает самые обыденные события, такие как просмотр новостей, занятия спортом, употребление еды, прослушивание песен и увлечение путешествиями, в неисчерпаемый источник данных.

Смартфон в течение дня накапливает до 1Gb данных о своем владельце.

Это составляет примерно 13 комплектов «Истории 24 эпох»[9]9
Династийная история, составленная при цинском императоре Цянь Луне. – Прим. переводчика.

[Закрыть]. Каждый день, используя данные, мы пишем свою «историю жизни».

В отличие от данных в традиционном смысле, такие данные – это «жизнь». Современные данные не являются объективными и абсолютными математическими измерениями или историческими записями. Это больше походит на естественное расширение возможностей нашего тела: голоса, зрения, памяти и даже нашего «я», что теперь существует в виде данных. Если смартфон стал новым органом человека, то данные, полученные этим новым органом, являются «шестым чувством». И новый мозг, который имеет дело с этим «шестым чувством», – это развивающийся искусственный интеллект.

Массивы данных – все сущее на Земле

Люди используют данные в течение длительного периода времени. А с момента промышленной революции в образе существования данных произошли внушительные изменения. Так почему концепция «массивов данных» появилась только в последние годы? Просто потому, что теперь мы можем записывать и вычислять их гораздо больше? Естественные числа могут длиться бесконечно: 1, 2, 3, 4… Значит, они бесконечны. Но с массивами данных все не так очевидно. Необходимо выделить основные их характеристики.

Во-первых, массивы данных «большие». Никаких сомнений, что они «большие» по сравнению с тем, как люди хранили данные раньше. Это не оценочное суждение, а геометрический разрыв. Подумайте о 720 миллионах запросов о местоположении на карте Baidu, а затем подумайте о том, сколько кликов в интернете делают каждый день, сколько текста и изображений в социальных сетях отправляются каждый день… Количество данных, собранных в течение дня на различных платформах больших данных, может превзойти количество слов и изображений, собранных людьми в течение тысяч лет.

Во-вторых, массивы данных многомерны. Многомерность означает, что массивы данных дают многогранное описание вещи и, следовательно, более точное.

В фильме «Ультиматум Борна» была компания массивов данных, которая на основе интернет-данных, данных о трафике, исторических сведений помогала Центральному разведывательному агентству США (ЦРУ) быстро отслеживать и находить подозреваемых. Прототип компании существует в реальной жизни. Данные компании Plantir помогали правительству США отслеживать перемещения Бен Ладена. Тем самым они помогают бороться с терроризмом и предотвращать социальные кризисы. Более распространенным делом компании является выявление финансовых мошенников.

В качестве примера рассмотрим заявку на кредит. В кредитной отчетности традиционные финансовые учреждения обычно собирают данные приблизительно по 20 показателям: возраст, доход, образование, профессия, недвижимость, наличие автомобиля, а также наличие кредитов или займов. Затем они оценивают полученную информацию, изучают кредитную историю и определяют способность клиента к гашению кредита или займа.

Интернет-компании применяют метод массива данных. Результаты их исследований поражают традиционные финансовые организации. У «BAT» существуют свои финансовые услуги. Имея доступ к исчерпывающей базе данных о пользователе, организация может запросить всевозможные онлайн-записи о клиенте, например было ли замечено за ним аномальное поведение. Кроме того, она может сравнить имеющуюся в базе данных банков информацию о клиенте с информацией в сети интернет. Сопоставление моделей поведения мошенников и поведения клиента, анализ привычек клиента, способностей к гашению и наличия постоянного дохода минимизируют риски организации при оказании финансовых услуг. Разумеется, все сведения о пользователе конфиденциальны и не разглашаются. Для пользователя такая система тоже дает свои плюсы. Время ожидания кредита сокращается в разы, поскольку массивы данных проверяют до 10 000 заявителей за несколько секунд. Исходная информация извлекается и просматривается, а десятки тысяч показателей анализируются.

Кредитование незнакомца – это «слепота». Традиционный метод оценки платежеспособности клиента напоминает «изучение слона двадцатью слепцами». Ему суждено быть ошибочным. Многомерность больших данных подобна десяткам тысяч людей, которые одновременно изучают изображение, а после дают обратную связь. Чем больше показателей, тем точнее вывод.

В-третьих, массивы данных дают возможность обработки неструктурированных данных. В обработке структурированных данных нет сложностей. Вы можете использовать фиксированные поля, длины и логические структуры, хранящиеся в базе данных, а также использовать форму таблицы, чтобы наглядно отобразить результат (подумайте об общей таблице Excel). Но эра интернета создает большое количество неструктурированных данных. Для изображений, видео, аудио и другого контента нет четкой структуры. Например, данные изображения мы можем понимать только как бесчисленные пиксели на двумерной матрице. Неструктурированные данные быстро растут. По прогнозам, в течение следующих 10 лет они составят 90 % от общего объема. Технология массивов данных с помощью распознавания изображения, голоса, анализа естественного языка и других методов анализирует большое количество неструктурированных данных, значительно увеличивая общий размер имеющихся сведений.

Число неструктурированных данных находится безгранично далеко от суперструктурированных данных. Оно содержит огромную энергию и широкие перспективы применения. Например, в аэропортах и других общественных местах при проверке личности в основном используются данные, которые предоставят сами пассажиры. Современные технологии дают возможность увеличить точность и эффективность проверки благодаря технологии распознавания лиц, речи и проч.

В-четвертых, большие данные – это бесконечный «поток», характеризующийся непостоянством. Он не возвращается. Так же, как и человек не может дважды войти в одну и ту же реку. Потому что, с одной стороны, объем данных слишком велик, чтобы их можно было хранить. С другой, большие данные и действия человека постоянно меняются. Таким образом, Baidu Big Data Laboratories предлагает концепцию под названием «пространственно-временные массивы данных».

Карта – мать пространственно-временных массивов данных. Карта Baidu имеет функцию предупреждения о перегруженности дорог. Если участок свободен, он отображается зеленым цветом; если он перегружен – красным. Он подает сигнал пользователю, что лучше выбрать другой маршрут. Приведем краткий пример нашего взаимодействия с данными. У нас есть два маршрута A и B, и мы можем выбрать любой из них. Сейчас маршрут A перегружен, а маршрут B свободен. Мы, конечно, выберем маршрут B. Но и другие пользователи остановят свой выбор на маршруте В. В таком случае он станет перегружен, а маршрут А освободится. Они взаимозависимы. И влияют на тысячи людей. Полагаясь на функции позиционирования смартфона, Baidu Map может изменить текущие результаты мониторинга трафика в режиме реального времени. И точно определить для каждого местоположения условия дорожного движения. С помощью методов визуализации данных и различных методов оценки можно изобразить повседневный ритм города. Например, перемещение людей на работу, как если бы город двигался свободно. В отличие от традиционных записей, массивы данных действительны только в данный момент времени. Хранить их невозможно. Представляете, какой для этого потребуется жесткий диск? Приложение используется для мгновенного результата, который вынужден исчезнуть.

Игра с данными о времени – сложная задача. В ноябре 2016 года Baidu официально получил доступ к информации о пропавших без вести детях, опубликованной Министерством общественной безопасности. Теперь всякий раз, когда происходит исчезновение детей, карта Baidu и мобильный телефон Baidu показывают имя пропавшего ребенка, характеристики лица, время исчезновения и другую важную информацию. Таким образом в процесс поиска могут быть вовлечены пользователи устройств. После того, как пропавшие дети найдены, карта Baidu и мобильный телефон Baidu также обновят страницу, чтобы люди были в курсе событий. Сокращение времени, которое потребуется информации, чтобы попасть к пользователю, пусть даже на одну секунду, может дать семье надежду.

И последнее, но не менее важное: «большая» производительность массивов данных достигается за счет повторения. Распознавание речи стало возможным потому, что люди несколько раз повторяют одно и то же утверждение. Машина неоднократно анализирует все нюансы и может полностью понять смысл высказывания. Также благодаря повторяющимся движениям людей система может анализировать условия городского движения. Математическим значением «повторения» является «насыщение». Раньше люди не могли понять закон вещи посредством исчерпывающих методов. Они могли только использовать «выборку» для оценки или метод наблюдения. Но массивы данных изменили «глупый метод» исчерпывающего закона. Это возможно.

Размер и скорость обработки данных могут непосредственно определять уровень интеллекта. История о том, как Google повышает качество перевода за счет объема данных, уже давно не секрет.

В 2005 году Национальный институт стандартов и технологий США в очередной раз провел оценку программного обеспечения машинного перевода. Многие университеты и крупные компании подали заявки от правительства США на финансирование научных исследований в области машинного перевода. Поэтому эти организации должны были пройти проверку. Google – это команда или компания, которая не имеет государственного финансирования и может присоединиться к оценке добровольно. Среди участников были IBM, Aachen, Германия и другие ветераны машинного перевода. Все были сильны в своей сфере в течение многих лет. И только компания Google была новичком.

Тем не менее результаты были ошеломляющими: Google занял первое место и набрал гораздо больше очков, чем все остальные. Производительность Google достигла 51,37 % баллов BLEU, а компании, занявшие 2-е место и 3-е место, достигли только 34,03 % и 22,57 % соответственно. Впоследствии Google опубликовал свои советы: Используйте больше данных! Не в два раза больше, чем у других, но в десятки тысяч раз больше! Google собирает огромные объемы двуязычных данных, которые люди оставляют в поисковых системах в интернете. Кроме того, многие люди делают переводы на китайском языке, с помощью которых компьютер также выявляет эффективные методы перевода. Только основываясь на увеличении объема данных, можно обучить и изменить продукт. Как следствие, он выйдет на лидирующие позиции даже без модернизации прочих механизмов. Google выиграл потому, что его способность «насыщения» превосходила другие.

Преимущества интернет-компаний, использующих массивы данных, таких как Google и Baidu, являются всеобъемлющими. Преимущества, продемонстрированные на примере перевода, можно легко перенести на другие области, таки, как распознавание речи или образов. Даже такая игрушка, как приложение Baidu «Генератор стихотворений», объединяет массивы данных и искусственный интеллект. Хо Джунцзюн, главный архитектор Baidu и руководитель технологии машинного перевода, представил, что традиционное программное обеспечение для написания стихов сможет использовать статистические модели для генерации первого стиха в соответствии с заданным ключевым словом, а затем сгенерирует второе предложение, повторяя процесс до тех пор, пока стихотворение не будет завершено. Процесс написания стихов Baidu работает следующим образом: пользователь вводит любое слово или предложение, а система объединяет массивы данных в поисковой системе Baidu, чтобы проанализировать ввод пользователя.

Анализ и ассоциация получаются из ключевых слов с более высокой релевантностью. Пользователь вводит слово или предложение наугад, например «западное озеро». Baidu анализирует большое количество данных поэзии и прозы, чтобы выяснить, какие ключевые слова следует включить в стихотворение на заданную тему. К «западному озеру» ключевыми словами могут быть «сломанный мост», «выпавший снег», «дымный дождь», «сорняк ивы» и т. д. Затем, используя технологию глубоких нейронных сетей, стихотворение создается с использованием всех ключевых слов, которые эквивалентны очертаниям, часто используемым в описании человека. Опираясь на заданный шаблон, система гарантирует, что стихотворение будет логично и выдержано в определенном художественном стиле. Раньше результаты «творчества» Baidu были хорошими, но им недоставало настроения. Теперь мы можем это компенсировать за счет использования метода машинного перевода на каждом этапе. Первое предложение стихотворения «переводится» для того, чтобы возникло второе. Второе «переводится» для третьего и т. д. «Западное озеро» – входные данные, которые Baidu превращает в красивое и логичное стихотворение из 7 строк.

Отражение человека в данных

В процессе развития технологических продуктов люди становятся все более разборчивы. Массивы данных затмевают скучные продукты прошлого. Раньше телевизоры не реагировали на наши эмоции. Теперь видеосайты терпеливо и аккуратно собирают отзывы о загрузке, поиске, перемотке вперед и назад. Они все фиксируют, а потом используют полученную информацию для анализа различных показателей, таких как предпочтения пользователей или расходование средств.

Американская драма «Карточный домик» – телесериал, в котором политики борются за власть, принадлежащий компании Netflix. Компания была хорошо осведомлена о преимуществах анализа массивов данных. Помимо поведения пользователя, которое было упомянуто выше, Netflix собирала информацию о времени, оборудовании, которое используется для просмотра, количестве просмотров, реакции зрителей на главных героев и сцены и т. д. Благодаря полномасштабному анализу был сделан вывод о том, что «Карточный домик» должен набрать высокий рейтинг. Поэтому у BBC (British Broadcasting Corporation) были приобретены дорогостоящие авторские права, а Кевин Спейси утвержден на главную роль как самый подходящий кандидат. Как мы можем наблюдать, ставка Netflix на «Карточный домик» оказалась безошибочной. Пока мы вздыхаем перед экранами о том, что президент в телесериале контролирует все, на самом деле он не осознает силу данных.

Трамп, бывший президент США, использует данные на полную мощность. По словам Bloomberg и других средств массовой информации, его техническая команда через Facebook, Twitter и другие платформы создает точные портреты избирателей, собирает сведения о их поведении, реакции на новости и события, подталкивает их к взаимодействию с избирательной кампанией. Каждый пост Трампа в Facebook или Twitter различается типом контента. Они направлены на разные целевые аудитории и демонстрируются разным пользователям в сети.

Портрет пользователя, созданный с помощью массивов данных, также является областью, в которой успешно работает Baidu Brain. В 2016 году вышел в прокат популярный фильм «Warcraft» при сотрудничестве легендарной киностудии и Baidu. Благодаря массовому анализу пользователей Baidu рекламные ролики демонстрировались только потенциальной аудитории. Хотя у фильма наблюдались плохие кассовые сборы на североамериканском рынке, в Китае сумма выручки от проката составила 221 миллион долларов. Поклонники «Warcraft» кричали «За Орду!» в кинотеатрах, возможно, потому, что силу им дали массивы данных.

Китайцы говорят, что «человек употребляет пищу, данную небом». В отличие от выбора фильма, тема выбора продуктов питания будет актуальной всегда и для всех. В 2013 году Baidu опубликовала «ТОП-10 лучших в Китае продуктов питания» на провинциальном и муниципальном уровне. Этот список был сформирован на основе 77 миллионов запросов в поисковой системе Baidu о «еде». Он выявляет различные привычки и предпочтения в культуре питания пользователей.

В массивах данных было обнаружено много интересных явлений. Около 300 000 человек задавались вопросом о том, какой самый быстрый способ похудеть. Многие пользователи уделяют внимание тому, что они едят. С вопросом «Можно ли употреблять краба, который был жив вчера?» к поисковику обратились 60 000 человек. Можно отметить, что в Китае трепетно относятся к крабам, употребляемым в пищу. Но есть и обычные повседневные вопросы: «можно ли это есть», «как это есть». К примеру, вопрос «можно ли есть тофу со шпинатом?» породил жаркие дискуссии в сети.

Все эти проблемы кажутся запутанными и сложными. Но вся прелесть массивов данных заключается в повторении. Большие данные могут дать более значимый ответ. Например, пользователи сети в провинциях Фуцзянь и Гуандун часто задают вопросы о том, можно ли есть некоторых насекомых, а пользователи сети на северо-западе не знают, как есть морепродукты. Вопросы и проблемы разных пользователей разные. Baidu Big Data является источником информации о «еде» для каждой провинции и города. Кроме этого, массивы данных учитывают географическое положение пользователей, время вопроса и ответа, информацию о еде или сути вопроса и даже бренды мобильных устройств, используемых для поиска.

Помимо поэтапного сбора информации о человеческих интересах, большие данные создают наши тела. Сегодня многие люди знакомы с фитнес-браслетами. Они анализируют наше состояние здоровья и дают рекомендации, основываясь на ежедневных данных нашей физической активности, такой как ходьба, потребление калорий, продолжительность сна и т. д. В будущем мы сможем с помощью массивов данных предотвращать болезни или выявлять потенциальные угрозы нашему здоровью.

В жизни существует множество примеров массивов данных. Большинство современных интернет-продуктов, будь то компьютеры или смартфоны, имеют в своей основе более или менее большие данные. В тот момент, когда мы начинаем относиться к использованию этих устройств, как к должному, мы впускаем массивы данных в нашу жизнь. Они молча наблюдают за нами, анализируют каждую деталь нашей жизни, тонко намекая и советуя сделать выбор в пользу того, что соответствует нашим интересам.

Прорыв: машинное обучение и искусственный интеллект

В 1950 году Алан Тьюринг создал тестовый метод для машин, позднее получивший известность под названием «тест Тьюринга». Легендарный ученый полагал, что если машина может разговаривать с людьми (посредством оборудования) и при этом не рассматривается как машина, то ее можно считать умной. Это упрощение сделало доводы Тьюринга о возможности существования мыслящих машин убедительными. Тестовые испытания используются для оценки уровня искусственного интеллекта до сих пор.

Это положение намекает нам на новый возможный путь развития. Нам не нужно беспокоиться о том, по каким правилам функционирует машина, пока она ведет себя как человек. Поэтому появились предложения позволить машинам изучать правила самостоятельно, чтобы людям больше не нужно было принимать участие в их рабочем процессе.

В 1949 году Дональд Херб сделал первый шаг в направлении автоматического обучения, заложив в основу принципы нейропсихологии. Он создал метод, который позже получил название «правила обучения Herb». Ученый полагал, что процесс обучения нейронных сетей происходит на синаптических сайтах между нейронами. Интенсивность синаптических связей изменяется в зависимости от активности нейронов до и после синапса. А корректная обратная связь укрепляет связь между двумя нейронами. Этот механизм напоминает эксперимент Павлова: если каждый раз перед кормлением собаки давать звонок, то нервная система животного в дальнейшем будет связывать звонок с едой. Херб использовал набор весовых формул для имитации нейронной сети человека, чтобы обозначить силу связей между нейронами. Он также создал набор методов, с помощью которых машины различают предметы. Каждая поступающая информация проходит оценку через метод «дерева решений», и решение принимается на основе полученных данных. Кроме того, этот метод лег в основу классификатора информации. Машина сортирует входящую информацию, извлекает ее статистические свойства и распределяет на несколько классов в соответствии с родством или сходством. Почти так же, как люди распределяют информацию о предметах и явлениях, опираясь на наблюдения. Но процесс «наблюдения» у машины, достигнутый посредством глубокого обучения, напоминает условный рефлекс. Она не мыслит и не выявляет причинно-следственных связей. Она всего лишь делает выводы из исходных данных и их релевантности.

Последующее десятилетие тема искусственного интеллекта вдохновляла на исследования все больше людей. Началось интенсивное развитие отрасли, а открытия шли одно за другим. В 1952 году ученый IBM Артур Сэмюэль успешно изобрел программу проверки, которая способна улучшить результаты работы машины. Кроме того, он разработал концепцию «глубокого обучения» и определил ее как «область исследований, которая обеспечивает компьютерную мощь без явного программирования».

В 1957 году Розенблатт предложил концепцию персептрона, которая стала основой для развития нейронных сетей и поддержки векторных машин (SVM). Перцептрон – это своего рода «классификатор», построенный по алгоритму линейной классификационной модели. Его принцип состоит в том, чтобы разделить данные путем проб и ошибок и найти подходящую гиперплоскость (гиперплоскость может быть определена следующим образом: в трехмерном пространстве координат двумерная форма называется плоскостью и может разделить трехмерное пространство. Если данные многомерны, то в N-мерном пространстве координат размерность N-1 является гиперплоскостью, которую можно разделить на N-мерные пространства). Когда вы вводите два вида областей, одна из которых дает ответ «верно», а другая – «неверно», персептрон находит разделительную границу между двумя разными областями.

Персептрон подобен однослойной нейронной сети со входом и выходом. Он хорошо справляется с простыми ситуациями, но абсолютно не годен для сложных. Например, если области с ответами «верно» и «неверно» смешаются друг с другом или появится третья область, персептрон не сможет найти границу для классификации. Это лишает персептрон возможности решать, казалось бы, простые задачи.

В настоящее время возможности программирования позволяют не вводить данные вручную. Так как машина обладает собственным интеллектом, она делает это самостоятельно. Современный искусственный интеллект разрабатывается на основе машинного обучения. Но скорость его развития ограничена возможностями аппаратных средств и методов.

Если несколько компьютеров, микросхем подключены к сети машинного обучения и имеют несколько сетевых уровней, то они войдут в так называемую категорию «глубокого обучения». В конце 1970-х годов профессор Джеффри Хинтон и его коллеги обнаружили, что если создать многослойную нейронную сеть, то можно позволить компьютеру находить шаблоны решения проблем и задач самостоятельно. Они разработали алгоритм создания нейронной сети. Но сложность многослойных нейронных сетей привела к усложнению процесса машинного обучения. В условиях нехватки массивов данных и при недостаточных возможностях аппаратного обеспечения это сделало развитие нового направления невозможным в тот период времени.

С середины 1960-х до конца 1970-х годов темпы машинного обучения практически остановились в развитии. И ситуация не улучшалась до 1980-х годов. Развитие компьютерной производительности и появление интернета позволили исследованиям искусственного интеллекта наконец продвинуться вперед. Современное машинное обучение начало формироваться в 1990-х годах.

Коммерческое использование и повсеместное распространение интернета началось в 1990-х годах, что и привело к разработке методов распределенных вычислений. Суперкомпьютеры стоят дорого. А распределительная вычислительная технология позволяет нескольким обычным компьютерам работать вместе. Каждый из них решает определенную часть задачи, после чего полученные результаты суммируются. Таким образом, их возможности могут даже превзойти возможности суперкомпьютера. Метод распределительных вычислений адаптируется к увеличению объема данных.

Страницы книги >> Предыдущая | 1 2 3 4 5 6

Скачать книгу "Baidu. Как китайский поисковик с помощью искусственного интеллекта обыграл Google"