Автор книги: Ян Лекун
Жанр: Техническая литература, Наука и Образование
Возрастные ограничения: +12
сообщить о неприемлемом содержимом
Текущая страница: 4 (всего у книги 25 страниц) [доступный отрывок для чтения: 8 страниц]
Святая святых
Конференция в Лез-Уш оказалась полезной для меня и по другим причинам. В 1986 г., во время Летней школы по машинному обучению[29]29
«The Machine Learning Summer School»; в настоящее время она ежегодно проводится на базе института Макса Планка, Тюбинген, Германия. – Прим. ред.
[Закрыть]. Ларри Джекел и сотрудники отдела исследований адаптивных систем Bell Labs узнали, что я был в Питтсбурге. Они попросили меня заехать в Bell Labs в Нью-Джерси на обратном пути, чтобы выступить с докладом. Я помню свое первое появление в этом знаменитом «храме технологий» – по крайней мере, таким он был в 1980-х гг. – где родились многие изобретения современного мира. Там собрались все светила физики, химии, математики, информатики и электротехники. Лаборатория Ларри Джекеля примыкала к лаборатории Артура Ашкина, будущего лауреата Нобелевской премии по физике в 2018 г. за работу над «лазерным пинцетом». Рядом с ним был Стивен Чу, который в 1997 г. получит Нобелевскую премию по физике за открытия по охлаждению и захвату атомов при помощи лазера. Отдел исследований компании Bell Labs, насчитывавший 1200 человек, расположенных в нескольких зданиях, возглавлял Арно Пензиас, получивший Нобелевскую премию за открытие космического излучения, доказывающего теорию Большого Взрыва. Голова шла кругом.
Само здание, расположенное в Холмделе, в 60 км к югу от Нью-Йорка, одним своим видом захватывало дух. Его спроектировал знаменитый финский архитектор Ээро Сааринен. Представьте себе восьмиэтажный стеклянный параллелепипед, 300 м в длину и 100 м в ширину, в котором трудилось более 6000 инженеров. В исследовательской части работало около 300 человек.
Весной 1987 г. Ларри снова пригласил меня в Bell Labs, на этот раз для собеседования. Я сказал ему: «Пригласите мою жену. Ее нужно убедить!» Пока я общался с членами лаборатории, Ларри катался на машине с Изабель и Кевином, нашим 18-месячным ребенком. Он расхваливал штат Нью-Джерси: зеленые насаждения, большие дома в американском стиле и океанское побережье. Нью-Джерси дали прозвище «Штат садов», и это было вполне заслужено. Вечером в итальянском ресторане Кевин от усталости начал плакать. Джон Денкер, мужчина с бакенбардами, взял Кевина на руки и начал ходить с ним по ресторану. Кевин мгновенно успокоился. Позже я узнал, что Джон был старшим из четырех детей в своей семье и прекрасно умел обращался с маленькими детьми. Помимо того, что он был выдающимся физиком и инженером, он читал на французском и цитировал Вольтера и Золя. Неплохо для аризонского ковбоя! На следующий день Ларри и двое его коллег отвезли нас на Манхэттен. Мы хотели подняться на самый верх Всемирного торгового центра, но погода была ужасная, и охрана нас отговорила. Но мы все-таки решили подняться на вершину башен-близнецов. И когда мы сделали это, наградой нам стало вкуснейшее гороховое пюре, от которого мы не могли оторваться! Радушный прием, который мы получили, убедил нас. Мы с Изабель согласились остаться в Нью-Джерси на год или два.
Итак, в октябре 1988 г. я был принят на работу в Bell Labs. Отдел Ларри был частью отдела Боба Лаки, блестящего инженера и изобретателя алгоритма адаптивной фильтрации. Он руководил отделом «BL113», который собрал 300 исследователей из Холмдела и Кроуфорд-Хилла, города, находящегося рядом с Холмделом. Именно он утвердил создание исследовательской группы нейронных сетей. Я встречался с ним несколько раз: колоритная личность, высокий, худой, который интересовался всем, и, конечно, телекоммуникационными технологиями. Я также виделся с Джоном Хопфилдом, еще одним человеком из Bell Labs, который установил связь между спиновыми стеклами и нейронными сетями. Я познакомился с ним в Лез-Уше четырьмя годами ранее…
Что касается условий работы, то они были просто космическими по сравнению с теми, что я столкнулся во Франции. У нас были невероятные ресурсы, полная свобода в исследованиях, а мои коллеги были настоящими светилами в своей области. Когда я там работал, в моем распоряжении был компьютер Sun-4. В Торонто мы работали на компьютере того же типа. «В Bell Labs нельзя прославиться, сэкономив деньги», – говорили они мне. Эта фраза заставляет задуматься о многом…
Годы в Bell Labs
В Торонто мне уже удалось протестировать свои первые сверточные сети на очень небольшом наборе рукописных чисел, который я создал сам, нарисовав их с помощью компьютерной мыши. Но Bell Labs получила набор из 9298 изображений «настоящих» рукописных чисел, собранный Почтой США (United States Postal Service, USPS), из почтовых индексов на конвертах. Сверточный сетевой модуль в моем программном обеспечении SN уже был готов к использованию. Я решил построить «большую» сверточную сеть с входом 16 × 6 пикселей и четырьмя слоями. Всего в сети было 1256 нейронов, 64 660 соединений и 9760 настраиваемых параметров (в сверточной сети несколько соединений имеют один и тот же параметр). Что это был за монстр! У меня уходило целых три дня, чтобы обучить мой Sun-4 на 7291 обучающих примерах. Но зато потом он делал лишь 5 % ошибок на 2007 тестовых примерах, побив все предыдущие рекорды. Эти результаты были получены менее чем через два месяца после моего приезда. Ларри был очень доволен и назвал мою сеть «LeNet» (как «ЛеКун»). Вскоре нам удалось запустить ее на небольшой «ускорительной карте», которая могла распознавать 30 символов в секунду. Был заметен прогресс, и мы разработали новую сверточную сетевую архитектуру LeNet1 с более чем 4600 единицами и почти 100 000 соединениями. Количество ошибок еще уменьшилось.
Рис. 2.2. Первая сверточная сеть для распознавания рукописных символов
Эту первую сверточную сеть я создал, когда начал работать в Bell Labs в конце 1988 г. Перед вами нейронная сеть, архитектура которой, вдохновленная зрительной корой головного мозга, состоит из четырех слоев. Нейроны первых двух слоев связаны с небольшими участками предыдущего слоя, которые называются рецептивными полями (см. главу 6 о сверточных сетях). Последовательные слои извлекают из изображения все более абстрактные и обобщенные свойства.
Вскоре Ларри стал искать партнеров из инженерной части Bell Labs для разработки технологии и получения на ее основе коммерческого продукта. Проект заинтересовал группу инженеров. Мы работали вместе и очень быстро разработали систему для считывания сумм на банковских чеках.
В системе использовалась «большая» сверточная сеть LeNet5 с 340 000 подключениями и «сетчаткой» размером 20 × 20 пикселей. Я разработал ее с помощью моих коллег и друзей Леона Ботту, Йошуа Бенжио и Патрика Хаффнера в сотрудничестве с другими инженерами. Наша система считывала сумму около половины предоставляемых ей чеков, делая при этом менее 1 % ошибок. Другая половина чеков отклонялась машиной – их необходимо было обрабатывать вручную. Именно тогда наша система впервые достигла уровня точности, действительно пригодного для использования.
Оказалось, что дочерняя компания AT&T, компания NCR (National Cash Register), продавала сканеры чеков и банкоматы для банков. Мы оборудовали их нашей системой автоматического считывания. В 1994 г. появились первые банкоматы NCR французского Банка взаимного кредитования Бретании, с нашей системой, которая автоматически считывала сумму чека, внесенного в банкомат.
Первое внедрение системы скорочтения произошло в 1995 г. Мы отмечали свой успех в итальянском ресторане в очаровательном городке Ред-Бэнк, родном городе джазмена графа Бэйси и режиссера Кевина Смита, неподалеку от нашей лаборатории.
Но, вернувшись домой, мы узнали, что руководство AT&T только что решило разделить компанию на несколько независимых. Через несколько месяцев NCR перешла на другую сторону, забрав с собой группу, которая разрабатывала и продавала продукцию. Новая компания Lucent Technologies, в свою очередь, разделилась, забрав с собой бренд Bell Labs, а также большую часть лабораторий, включая группу инженеров, с которыми мы работали. Тем временем наша исследовательская группа осталась в AT&T и теперь зависела от новой организации AT&T Labs Research. К моему огорчению, проект пришлось приостановить.
Рис. 2.3. LeNet5. Коммерчески развернутая сверточная сеть для распознавания рукописных символов
Архитектура сети второго поколения состоит из семи слоев. Она намного больше предыдущей и использует отдельные слои для свертки и подключения (см. главу 6). Она может распознавать в том числе числа, написанные от руки без соблюдения почтовых правил.
NCR и Lucent продолжали продавать новую продукцию. В конце 1990-х наша система считывала 10–20 % всех чеков, выпущенных в США. Это был один из самых впечатляющих успехов в области нейронных сетей того десятилетия.
Тем не менее, новая телекоммуникационная компания AT&T не была особенно заинтересована в технологиях такого рода. На дворе был 1996 г. – самый разгар Интернет-бума. Меня повысили до начальника отдела, и мне нужно было найти новый проект для моей группы. Мы решили приступить к сжатию изображений, чтобы сканировать бумажные документы с высоким разрешением и распространять их через Интернет. Я надеялся, что библиотеки по всему миру отсканируют свои коллекции книг, чтобы они стали доступными в Интернете. Но для этого была нужна подходящая техника. Она будет представлена в 1998 г. под названием DjVu (произносится «дежавю» по-французски). Алгоритм DjVu может сжимать страницу, отсканированную с высоким разрешением, примерно до 50 килобайт, что в десять раз меньше, чем в формате JPEG или PDF.
К сожалению, AT&T не смогла вывести DjVu на рынок. То, что крупные компании плохо продавали инновации, выпущенные их лабораториями, было, увы, в порядке вещей. Вспомним печально известный провал компании Xerox, чья калифорнийская лаборатория PARC изобрела всю современную автоматизацию офиса – персональные рабочие станции, компьютерные сети, системы многоярусного графического отображения, компьютерную мышь и лазерный принтер. Однако маркетологи компании не смогли продать ничего из этого, в результате чего Стив Джобс и Apple смогли скопировать эту концепцию с помощью своих систем Lisa и Macintosh.
Наши работодатели, AT&T, потерпели ту же неудачу. Изобретения Bell Labs, ее отдела исследований и разработок, безусловно, оказали определенное влияние на материнскую организацию. Однако деньги на продаже транзисторов и солнечных элементов, камер CCD и операционной системе Unix, а также языках программирования C и C++ заработали совсем другие компании. К сожалению, AT&T не позаботилась о и таких технологиях как DjVu и решила продать лицензию на нее за десяток миллионов долларов одной компании в Сиэтле, уже работающей с рынком изображений – LizardTech, которая также упустила благоприятные маркетинговые возможности. Мы посоветовали LizardTech распространить базовый код как открытый исходный код. Мы знали, что единственный способ добиться признания нового формата – сделать его доступным для всех. Увы! Забота о «контроле» и прибыли заставила их хранить код в секрете. Позже они передумали, но было уже слишком поздно. Впрочем, это уже другая история…
Почти табу
С 1995 г. снова начались темные времена. Даже наши идеи сверточных сетей не были приняты, не говоря уже об их практическом применении в других областях. С Йошуа Бенжио, который вернулся в Монреаль, но остался сотрудником моей лаборатории на неполный рабочий день, Джеффри Хинтоном, уехавшим из Торонто, чтобы основать лабораторию теоретической нейробиологии в Лондоне, и некоторыми другими, мы снова остались одни в борьбе за нейронные сети. Почему пропал интерес к нейронным сетям в сообществе машинного обучения? Это загадка, которую еще предстоит разгадать историкам и социологам. Тема нейронных сетей оказалась чуть ли не под запретом. О них тогда говорили примерно так: «Сверточные сети? Чушь собачья! Говорят, что они настолько сложны, что только Ян ЛеКун способен заставить их работать».
Технические недоработки, несомненно, препятствовали распространению сверточных сетей: они требовали больших вычислительных ресурсов, а компьютеры в то время были медленными и дорогими, да и наборы данных оказывались слишком малы – ведь это был период времени до Интернет-бума. Поэтому их нужно было собирать самостоятельно, а это имело свою цену в деньгах и ограничивало количество приложений. Наконец, программное обеспечение для нейронных сетей, такое как SN, должно было быть написано от руки от А до Я самими исследователями: огромная трата времени. Кроме того, AT&T не позволила нам распространить наш симулятор нейронной сети SN с открытым исходным кодом, который, возможно, позволил бы ускорить внедрение сверточных сетей. В то время компании придерживались принципа «каждый сам за себя».
В 1991 г. Леон Ботту, только получивший докторскую степень, присоединился к нам в Bell Labs. Но тогда ему не понравились Соединенные Штаты, и через год он вернулся во Францию, чтобы возглавить стартап Neuristique, который он ранее основал с некоторыми своими друзьями. Эта фирма продавала одну из версий SN и предложила услуги компаниям, желающим внедрить нейронные сети. Их системы работали настолько хорошо, что сотрудники фирмы часто сталкивались с недоверием своих потенциальных клиентов. Эксперты, консультирующие этих клиентов, утверждали, что все, что делает Neuristique, «невозможно», несмотря на бесспорные результаты! Поэтому после нескольких лет застоя Леон решил вернуться к исследованиям. Он снова присоединился к нам в Bell Labs и принял решение остаться в США.
По всем этим причинам исследователи машинного обучения отказались от нейронных сетей. Они предпочли им SVM (англ. Support Vector Machine, метод опорных векторов) и «ядерные методы». По иронии судьбы эти методы тоже были изобретены коллегами и друзьями из нашей лаборатории: Изабелем Гайон, Владимиром Вапником и Бернхардом Бозером в период с 1992 по 1995 г. С 1995 по 2010 г. ядерные методы стали «флагманом» машинного обучения. Сообщество проявило интерес и к другому набору методов – «усилению», разработанному Робом Шапиро и Йоавом Фройндом, коллегами из другого отдела Bell Labs. Мы все были хорошими друзьями. Та ситуация дала нам представление об интеллектуальных разногласиях в стенах нашей компании. Таким образом, в области нейронных сетей снова настал кризис, который продлился почти 15 лет.
В 1995 г. Ларри Джекель все еще верил в будущее сверточных сетей и был разочарован тем, что им предпочли SVM. Владимир Вапник – математик. Ему нравились методы, работу которых можно было гарантировать с помощью математических теорем. Нейронные сети ему не нравились, потому что они были слишком сложными, чтобы их можно было объяснить хорошей теорией. Поэтому Ларри решил заключить с математиком пари.
Во-первых, Ларри поставил на то, что до 14 марта 2000 г. появится математическая теория, объясняющая, почему нейронные сети могут хорошо работать. Вапник сделал ставку на обратное… согласившись на одно условие: если человеком, разработавшим теорию, окажется сам Вапник, то он выигрывает пари. Лучшего способа заставить Владимира заняться этой теорией Ларри не смог бы и придумать!
Во-вторых, Вапник поставил на то, что после 14 марта 2000 г. никто уже не будет использовать нейронные сети. Ларри ставил на противоположное. Они подписали свои прогнозы, и я тоже подписал их, так как выступал свидетелем. Ставкой обоих пари был ужин в ресторане.
Было два ужина. Ларри проиграл первое пари, но второе проиграл Владимир. Что касается меня, то я дважды насладился бесплатным ужином!
В 2001 г. Леон Ботту и я завершили проект DjVu. Более пяти лет мы почти не работали над машинным обучением, но мы писали длинные статьи, в которых подробно рассказывали о нашей работе в первой половине года десятилетия. Для меня те статьи представляли собой своего рода бесконечную «лебединую песнь»: сообщество больше не интересовалось нейронными сетями, но мы рассказывали им, как заставить эти сети работать. Мы провели новое тестирование, которое должно было стать познавательным и исчерпывающим. В 1998 г. мы опубликовали статью ЛеКуна, Ботто, Бенгио и Хаффнера[30]30
Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner, «Gradientbased learning applied to document recognition», Proceedings of the IEEE, 1998, 86 (11), p. 2278–2324.
[Закрыть] в престижном журнале Proceedings of the IEEE под названием «Градиентное обучение для распознавания документов», ставшую впоследствии знаменитой.
В той статье было подробное объяснение того, как заставить работать сверточные сети. Мы развили идею построения обучающей системы путем сборки дифференцируемых параметризованных модулей. Также мы описали новый метод – «преобразование графов сетей», позволяющий обучать системы, модули которых управляют графами, в то время как классические нейронные сети управляют только массивами чисел. Мы также продемонстрировали, как можно построить и обучить систему распознавать символы. В период с 1998 по 2008 г. статья имела переменный успех, набирая лишь несколько десятков цитирований в год. Но с 2013 г. ситуация резко изменилась. В 2018 г. статья собрала 5400 ссылок. Многие видят в ней сейчас основополагающую статью по теории сверточных сетей, хотя первые статьи были опубликованы десятью годами ранее. В 2019 г. моя статья собрала 20000 цитирований.
Рис. 2.4. Пари 1995 г. между Ларри Джекелем и Владимиром Вапником
1. Джекель делает ставку (ставка – хороший обед), что не позднее 14 марта 2000 г. исследователи поймут, почему большая сеть нейронов, обученных на большой базе данных, работает хорошо (под «пониманием», мы подразумеваем то, что будут четкие условия и ограничения). Но, если решение найдет Вапник, он все равно выиграет. Вапник ставит на то, что Джекель ошибается.
2. Вапник делает ставку (хороший обед в ресторане), что не позднее 14 марта 2005 г. ни один здравомыслящий человек не будет использовать нейронные сети, которые, по сути, останутся такими же, как в 1995 г. Джекель делает ставку, что Вапник не прав. Вапник выиграл первое пари, а Джекель выиграл второе.
В конце 2001 г. Интернет-пузырь попросту лопнул. План AT&T по обеспечению Интернета и телевидения во всех домах через оптоволокно и коаксиальные кабели не убедил Уолл-стрит. Акции падали. Это нас не устраивало, ведь акции, которые мы получили после продажи DjVu, теперь ничего не стоили! Вице-президент AT&T Labs Research Ларри Рабинер, новатор в области распознавания речи, объявил, что выходит на пенсию через три месяца. Зная его преданность исследованиям и лаборатории, в которой он провел всю свою жизнь, я расценил эту новость как предзнаменование конца света и начал осторожно искать исследовательскую должность в другой компании.
Рис. 2.5. Фотография любезно предоставлена отделом исследований обработки изображений AT&T Labs Research
Я руководил этой лабораторией с 1996 по начало 2002 г. Слева направо стоят: Владимир Вапник, Леон Ботту, Ян Лекун, Йорн Остерманн, Ханс-Петер Граф. Впереди сидят: Эрик Косатто, Патриция Грин, Фу-Цзе Хуанг и Патрик Хаффнер. Вапник, Ботто, Граф, Косатто и Хуанг присоединятся ко мне в NEC в начале 2002 г.
В декабре наступил тот самый конец света. Компания объявила, что снова разделится на несколько частей и увольняет половину научных сотрудников. У меня в кармане уже лежало предложение от японской компании NEC, так что я решил тоже примкнуть к толпе уволенных и сказал своему директору: «Меня не волнует, чем интересуется компания. Я буду заниматься зрением, робототехникой и нейробиологией». Это было правдой, но больше всего я хотел, чтобы меня уволили! Директор так и поступил, и я ему за это благодарен. Леон, Владимир Вапник и я покинули AT&T в начале 2002 г., чтобы попасть в Исследовательский институт NEC в Принстоне, престижную лабораторию японской Nippon Electric Company. Там мы возобновили наши исследования в области нейронных сетей.
Перед тем, как покинуть AT&T, я сделал несколько фотографий сотрудников моей лаборатории.
На момент, когда было сделано это фото, Владимир Вапник находился на пике своей популярности, так что мне хотелось сделать запоминающуюся фотографию с юмором. Я написал на доске формулу теории обучения, которая носит его имя и благодаря которой он прославился. Я попросил его встать рядом с доской. Он был очень рад, что я фотографирую его на фоне его шедевра. Но под формулой я написал фразу – «Все ваши байесы принадлежат нам». Это был очень своеобразный каламбур, который я должен объяснить. В то время в Интернете стал популярным мем[31]31
Мем – это идея, которая воспроизводится, потому что ее распространяют люди. Выражение, придуманное биологом-эволюционистом Ричардом Докинсом, основано на слове «ген» по аналогии с его способом передачи от человека к человеку.
[Закрыть], в котором высмеивалась японская видеоигра Zero Wing. Перевод игровых диалогов с японского на английский был весьма несовершенным. Один из персонажей, этакий галактический император-завоеватель, там говорит на плохом английском языке: «Как дела, господа! Все ваши база принадлежащие нам. Вы на пути к уничтожению» (англ. «How are you gentlemen!! All your base are belong to us. You are on the way to destruction», что является очевидной синтаксической ошибкой, ведь на самом деле он должен был сказать – «все ваши базы принадлежат нам». Эта фраза рассмешила многих и стала достаточно известной. Еще следует заметить, что подход к теории обучения, соперничавший с подходом Вапника, был основан на теореме Байеса, формуле, связывающей вероятности совместных и условных событий, которая названа по имени ее изобретателя, британского математика и пастора XVIII века Томаса Байеса. Вапник не любил байесовские теории. Он называл их «вронгами» («vrong», искаженное английское слово wrong – неверный, ложный, где w не произносится), со своим неподражаемым русским акцентом. В итоге я изменил знаменитый мем, заменив слова BASE на BAYES, сделав Вапника императором-завоевателем галактики машинного обучения! Я разместил эту фотографию на своем сайте в 2002 г. Вскоре она стала «официальной» фотографией Вапника, на которую ссылается его страница в Википедии. Это забавно, поскольку я не уверен, что Владимир осознал всю тонкость шутки и ее синтаксическую неточность в этом отношении[32]32
На доске написано «All your bayes are belong to us». В игре фраза звучит как «All your base are belong to us», в ней сразу две ошибки: должно было быть «All your bases belong to us». В каламбуре Лекуна обе ошибки тщательно сохранены: хотя «bayes» выглядит как множественное число, такого слова в английском нет, а фамилия «Bayes», естественно, воспринимается как единственное число. – Прим. ред.
[Закрыть].
Рис. 2.6. Владимир Вапник в 2002 г.
Владимира сфотографировали рядом с формулой теории обучения, которая сделала его знаменитым. Эта фраза – каламбур, основанный на распространенном в то время Интернет-меме.
Через две недели после начала работы в NEC мне позвонил Ларри Пейдж, генеральный директор Google, стартапа с 600 сотрудниками, который уже был на слуху, так что многие пользовались его услугами. Он хотел нанять директора по исследованиям. Ларри знал меня, потому что был поклонником DjVu. Я пошел на собеседование. Компания Google предложила мне работу, но в конечном итоге я от нее отказался. Во-первых, моя семья не захотела переезжать в Калифорнию, во-вторых, даже если предложение и было привлекательным, после шести лет управления отделом и проектом прикладных исследований (DjVu) я все же хотел вернуться к фундаментальным исследованиям и работе над обучением, нейронными сетями, нейробиологией и робототехникой. Я знал, что не смогу достичь этой цели в стартапе из 600 человек, у которого еще нет нужного дохода, особенно если я буду занимать руководящую должность.
Увы! Уже менее чем через год NEC столкнулась с финансовыми трудностями и стала давить на Принстонскую лабораторию, чтобы та занялась созданием приложений, полезных для бизнеса. Руководство NEC сообщило нам, что им неинтересно машинное обучение, и лучшие умы стали увольняться один за другим: физики, биологи, исследователи зрения. Затем уволили директора лаборатории и на его место поставили того, кто не имел ни малейшего исследовательского опыта. Лучший способ убить нас!
Я проработал в NEC в течение 18 месяцев, прежде чем в 2003 г. перешел в Нью-Йоркский университет (NYU) в качестве профессора. Перед этим я подал заявки в несколько мест и получил предложения от Университета Иллинойса в Урбана-Шампейн и Института Тойоты Чикагского университета. Но я не получил никакого ответа из Нью-Йорка и начал сильно беспокоиться.
Я связался с тем, кто предложил мне подать заявку. Он удивился: «Ты подавал заявку? Мы ничего не получили!» На самом деле на компьютере администратора, занимающегося заявками, случился сбой, и половина заявок просто-напросто потерялась. Нью-Йоркский университет назначил для меня собеседование буквально в последнюю минуту. Я начал с презентации моих работ. Заведующая отделом информатики, конечно же, тоже находилась в аудитории. Ее звали Маргарет Райт, и она была специалистом по исследованиям операций. Я знал ее, потому что она также работала в Bell Labs, и познакомился с ней во время семинара в Калифорнийском университете в Беркли несколькими годами ранее. Она считала, что некоторые хорошо известные результаты исследования операций применимы к машинному обучению, но я не мог с ней согласиться. Я надеялся, что она забыла об этом эпизоде, но нет! В конце моей лекции она задала вопрос, конкретно относящийся к той нашей дискуссии. В тот момент я подумал, что мои шансы получить работу здесь упали до нуля, однако я и тут ошибся: она вспомнила, что узнала кое-что новое в тот день! Я был нанят профессором Нью-Йоркского университета в сентябре 2003 г. с твердым намерением возобновить исследовательскую программу по нейронным сетям и продемонстрировать, на что они способны.
С конца 1990-х я был уверен, что следующий успех сверточных сетей произойдет в области распознавания объектов на изображениях. Поэтому в 1997 г. я опубликовал статью в CVPR (IEEE Computer Vision and Pattern Recognition, научно-технический журнал). Заинтересовала она лишь немногих, но некоторые громкие имена в этой области, такие как Дэвид Форсайт из Университета Иллинойса, знали, что машинное обучение действительно может сыграть важную роль в распознании. Он пригласил меня на мастер-класс на Сицилию в компании мировых лидеров в этой области. Я встретился с Джином Понсе, работавшим тогда в Университете Иллинойса (и одновременно преподававшим в Высшей школе, где я учился) Марсиялем Эбертом из Карнеги-Меллона, Джитендрой Маликом из Калифорнийского университета в Беркли, Эндрю Зиссерманом из Оксфорда, Пьетро Пероном из Калифорнийского технологического института и многими другими. К моему удивлению, все они оказались в восторге от возможностей сверточных сетей. В 2000 г. меня пригласили провести пленарную конференцию в CVPR. Я получил свое место в сообществе и налаживал связи, которые принесли плоды в будущем. В течение следующего десятилетия машинное обучение приобретало все большее значение в решении задач распознания. Но только в 2014 г. сверточные сети стали здесь доминирующим методом. Но если лидеры в этой области были открыты для новых идей, то их младшие коллеги, оценивающие наши статьи, были гораздо менее снисходительными.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?