Автор книги: Кейт Кроуфорд
Жанр: Публицистика: прочее, Публицистика
Возрастные ограничения: +16
сообщить о неприемлемом содержимом
Текущая страница: 6 (всего у книги 19 страниц) [доступный отрывок для чтения: 6 страниц]
Межотраслевая солидарность в организации труда не является чем-то новым. Многие движения, например, движения, возглавляемые традиционными профсоюзами, объединяли работников разных сфер деятельности, чтобы добиться победы в борьбе за оплачиваемые сверхурочные, безопасность на рабочем месте, отпуск по уходу за ребенком и выходные дни. Но поскольку за последние несколько десятилетий мощные бизнес-лобби и неолиберальные правительства урезали трудовые права и защиту, и ограничили возможности для организации работников и коммуникации, межсекторная поддержка стала более сложной[188]188
Estreicher and Owens, «Labor Board Wrongly Rejects Employee Access to Company Email.»
[Закрыть]. Теперь системы добычи и наблюдения, управляемые искусственным интеллектом, стали общим локусом для организаторов труда, чтобы бороться единым фронтом[189]189
This observation comes from conversations with various labor organizers, tech workers, and researchers, including Astra Taylor, Dan Greene, Bo Daley, and Meredith Whittaker.
[Закрыть].
Фраза «Мы все – ИТ-работники» стала обычным лозунгом на протестах, связанных с технологиями. Его несут и программисты, и уборщики, и работники столовой, и инженеры[190]190
Kerr, «Tech Workers Protest in SF.»
[Закрыть]. Его можно читать по-разному: он требует, чтобы технологический сектор признал рабочую силу, которую привлекает для обеспечения функционирования своих продуктов, инфраструктуры и рабочих мест; также он напоминает, что очень многие люди используют ноутбуки и мобильные устройства, общаются на таких платформах, как Facebook или Slack, и подвергаются на рабочих местах воздействию систем искусственного интеллекта для стандартизации, отслеживания и оценки. Все это создало основу для солидарности, построенной вокруг работы в сфере технологий. Работники любой сферы подвергаются воздействию добывающих технических инфраструктур, которые стремятся контролировать и анализировать время до мельчайших деталей. Многие из них вообще не идентифицируют себя с технологическим сектором или технологической работой. История труда и автоматизации напоминает нам, что на кону стоит создание более справедливых условий для каждого человека, и эта цель не должна зависеть от расширения определения технологического труда. Все мы коллективно заинтересованы в том, как будет выглядеть наше будущее.
Глава 3
Данные
Молодая женщина смотрит вверх, глаза сфокусированы на чем-то за пределами кадра, как будто она отказывается признать камеру. На следующей фотографии ее взгляд устремлен вдаль. На другой фотографии она изображена с растрепанными волосами и угрюмым выражением лица. На протяжении всей последовательности снимков мы видим, как она со временем стареет, морщины вокруг рта опускаются и углубляются. На последнем кадре она выглядит обиженной и удрученной. Это фотографии женщины, арестованной на протяжении многих лет жизни. Ее изображения хранятся в коллекции, известной как NIST Special Database 32 – Multiple Encounter Dataset, размещенной в Интернете для исследователей, желающих протестировать программы распознавания лиц[191]191
National Institute of Standards and Technology (NIST), «Special Database 32-Multiple Encounter Dataset (MEDS).»
[Закрыть].
Эта база данных, поддерживаемая Национальным институтом стандартов и технологий (NIST), – одна из старейших и наиболее уважаемых лабораторий физических наук в США, которая в настоящее время входит в состав Министерства торговли. NIST был создан в 1901 году с целью укрепления измерительной инфраструктуры страны и создания стандартов, которые могли бы конкурировать с экономическими соперниками в промышленно развитом мире, такими как Германия и Великобритания. Все – от электронных медицинских карт до сейсмостойких небоскребов и атомных часов – находится в ведении NIST. Он стал агентством измерения: времени, протоколов связи, неорганических кристаллических структур, нанотехнологий[192]192
Russell, Open Standards and the Digital Age.
[Закрыть]. Цель NIST состоит в том, чтобы сделать системы совместимыми посредством определения и поддержки стандартов, и теперь это включает разработку стандартов для искусственного интеллекта. Одна из инфраструктур тестирования, которую он поддерживает, предназначена для биометрических данных.
Впервые я обнаружила базы данных снимков в 2017 году, изучая архивы NIST. Их биометрические коллекции довольно обширны. Более пятидесяти лет NIST сотрудничает с Федеральным бюро расследований в области автоматического распознавания отпечатков пальцев и разрабатывает методы оценки качества сканеров отпечатков и систем визуализации[193]193
Researchers at NIST (then the National Bureau of Standards, NBS) began working on the first version of the FBI’s Automated Fingerprint Identification System in the late 1960s. See Garris and Wilson, «NIST Biometrics Evaluations and Developments,» 1.
[Закрыть]. После террористических атак 11 сентября 2001 года NIST стал частью национальных мер по созданию биометрических стандартов для проверки и отслеживания людей, въезжающих в США[194]194
Garris and Wilson, 1.
[Закрыть]. Это стало поворотным моментом для исследований в области распознавания лиц; они расширились с фокуса на правоохранительные органы до контроля людей, пересекающих государственные границы[195]195
Garris and Wilson, 12.
[Закрыть].
Изображения, взятые из специальной базы данных NIST 32-Multiple Encounter Dataset (MEDS). Национальный институт стандартов и технологий, Министерство торговли США
Сами по себе снимки выглядят ужасно. У некоторых людей видны раны, синяки и подбитые глаза; другие расстроены и плачут. Кто-то безучастно смотрит в камеру. База содержит тысячи фотографий умерших людей с многочисленными арестами, поскольку они неоднократно сталкивались с системой уголовного правосудия. Люди представлены как точки данных; здесь нет ни историй, ни контекста, ни имен. Поскольку снимки сделаны в момент ареста, нам неясно, виновны они, оправданы или заключены в тюрьму. Все они представлены одинаково.
Включение этих снимков в базу данных NIST изменило их значение с использования для идентификации лиц в системах правоохранительных органов до превращения в техническую основу для тестирования коммерческих и академических систем искусственного интеллекта. В своем исследовании Аллан Секула утверждает, что фотографии являются частью традиции технического реализма, цель которого – «предоставить стандартный физиогномический портрет преступника»[196]196
Sekula, «Body and the Archive,» 7.
[Закрыть] В истории полицейской фотографии, отмечает Секула, существует два различных подхода. Такие криминологи, как Альфонс Бертильон, который изобрел фоторобот, рассматривали его как своего рода биографическую машину идентификации, необходимую для выявления рецидивистов. С другой стороны, Фрэнсис Гальтон, статистик и основоположник евгеники, использовал составные портреты заключенных как способ выявления биологически обусловленного «преступного типа»[197]197
Sekula, 18–19.
[Закрыть]. Гальтон работал в рамках физиогномистской парадигмы, целью которой являлся поиск обобщенной внешности и выявление черт характера по внешним признакам. Когда фотороботы используются в качестве обучающих данных, они больше не являются инструментом идентификации, а скорее служат для тонкой настройки автоматизированной формы видения. Они используются для выявления основных математических компонентов лиц, чтобы «свести природу к геометрической сущности»[198]198
Sekula, 17.
[Закрыть].
Снимки являются частью архива, используемого для тестирования алгоритмов распознавания лиц. Лица в базе данных Multiple Encounter Dataset стали стандартизированными изображениями, технической основой для сравнения точности алгоритмов. NIST в сотрудничестве с исследовательским агентством Intelligence Advanced Research Projects Activity (IARPA) проводит соревнования с фотографиями, в ходе которых исследователи конкурируют за самый быстрый и точный алгоритм. Команды стремятся победить друг друга в таких задачах, как установка идентичности или извлечение лица из кадра видеозаписи с камер наблюдения[199]199
See, e. g., Grother et al., «2017 IARPA Face Recognition Prize Challenge (FRPC).»
[Закрыть]. Победители гордятся победами, поскольку они способны принести славу, предложения о работе и признание в отрасли[200]200
See, e. g., Ever AI, «Ever AI Leads All US Companies.»
[Закрыть].
Ни люди, изображенные на фотографиях, ни их семьи не имеют права голоса в отношении применения снимков и, скорее всего, даже не подозревают, что стали частью испытательного полигона ИИ. О людях, изображенных на фотографиях, редко задумываются, и лишь немногие инженеры когда-либо пристально их рассматривают. Как говорится в документе NIST, они существуют исключительно для «совершенствования инструментов, методов и процедур распознавания лиц в рамках поддержки идентификации следующего поколения (NGI), судебно-медицинского сравнения, обучения, анализа, соответствия изображений лиц и стандартов межведомственного обмена»[201]201
Founds et al., «NIST Special Database 32.»
[Закрыть]. В описании базы отмечается, что на многих людях заметны следы насилия, такие как шрамы, синяки и повязки. Но в документе делается вывод, что эти признаки «трудно интерпретировать из-за отсутствия базовой истины для сравнения с „чистым“ образцом»[202]202
Curry et al., «NIST Special Database 32 Multiple Encounter Dataset I (MEDS-I),» 8.
[Закрыть]. Эти люди рассматриваются не как личности, а как часть общего технического ресурса – всего лишь один компонент данных программы проверки распознавания лиц, золотого стандарта в этой области.
Я просмотрела сотни данных за годы исследований, выясняя, как создаются системы искусственного интеллекта, но базы данных NIST особенно тревожны, потому что они представляют собой модель того, что должно было произойти. Дело не только в непреодолимом пафосе самих изображений. Дело не только во вторжении в частную жизнь (подозреваемые и заключенные не имеют права отказаться от фотографирования). Дело в том, что базы данных NIST предвещают появление логики, которая сегодня прочно проникла в технологический сектор: непоколебимая вера в то, что все кругом – это данные, и их всегда можно взять. Неважно, где сделана фотография, отражает ли она момент уязвимости или боли или представляет собой форму пристыжения объекта. В индустрии стало настолько нормальным брать и использовать все, что доступно, что мало кто задумывается о лежащей в основе политике.
Снимки с места преступления являются уртекстом современного подхода к созданию ИИ. Контекст, который представляют изображения, считается неважным, потому что фотографии больше не существуют как отдельные элементы. Считается, что они не несут ни смысловую, ни этическую нагрузку. Личные, социальные и политические смыслы представляются нейтрализованными. Я считаю, что этот переход от изображения к инфраструктуре – где значение или забота, которые можно было бы придать изображению отдельного человека или контексту, – стирается в тот момент, когда снимок становится частью совокупной массы в обширной системе. Все это рассматривается как данные, которые нужно прогнать через функции ради улучшения технических характеристик. Это основная предпосылка идеологии извлечения данных.
Системы машинного обучения ежедневно тренируются на подобных изображениях – изображениях, взятых из Интернета или государственных учреждений без контекста и без согласия. Они не являются нейтральными. Они отражают личные истории, структурное неравенство и всю несправедливость, которая сопровождает наследие полицейской и тюремной систем в Соединенных Штатах. Но предположение, что эти изображения каким-то образом могут служить аполитичным, инертным материалом, влияет на то, как и что «видит» инструмент машинного обучения. Система компьютерного зрения способна определить лицо или здание, но не то, почему человек находится в полицейском участке, или какой-либо социальный и исторический контекст, окружающий этот момент. В конечном счете, конкретные случаи данных – например, фотография лица – не имеют значения для обучения модели ИИ. Все, что имеет значение, – это достаточно разнообразная совокупность. Любое отдельное изображение может быть легко заменено другим, и система будет работать так же. Согласно этому мировоззрению, из постоянно растущей и глобально распределенной сокровищницы интернета и платформ социальных сетей всегда можно собрать больше данных.
Человек, стоящий перед камерой в оранжевом комбинезоне, дегуманизируется как «данные». История этих изображений, то, как они получены, их институциональный, личный и политический контекст даже не рассматриваются. Коллекции снимков используются как любой другой практический ресурс свободных, хорошо освещенных изображений, как эталон для работы таких инструментов, как распознавание лиц. И, подобно затягивающемуся храповику, лица умерших, подозреваемых и заключенных собираются для улучшения систем полиции и пограничного контроля, которые затем используются для наблюдения и задержания большего количества людей.
Последнее десятилетие ознаменовалось резким увеличением объема цифрового материала для производства ИИ. Эти данные являются основой для осмысления, но не как классические представления мира с индивидуальным значением, а как массовый сбор данных для машинных абстракций и операций. Этот процесс стал настолько фундаментальным для сферы ИИ, что не вызывает сомнений. Как же мы к этому пришли? Какие способы восприятия способствовали лишению данных контекста, смысла и специфики? Как учебные данные приобретаются, понимаются и используются в машинном обучении? Каким образом обучающая информация ограничивает ИИ?
В этой главе я показываю, каким образом данные стали движущей силой успеха ИИ и его мифологии, и как они приобретаются. Стоит отметить, что более глубокие последствия этого стандартного подхода редко рассматриваются, хотя он способствует дальнейшей асимметрии власти. Индустрия ИИ поощряет своего рода безжалостный прагматизм, с минимальным контекстом, осторожностью или согласием на использование данных, в то время как продвигается идея, что массовый сбор необходим и оправдан для создания систем прибыльного вычислительного «интеллекта». Все это привело к тому, что любые формы изображения, текста, звука и видео являются просто необработанными данными для систем искусственного интеллекта, и считается, что цель оправдывает средства. Но мы должны задаться вопросом: кто выиграл от этой трансформации, и почему доминирующие нарративы о данных сохранились? Как мы видели в предыдущих главах, логика добычи, определившая отношение к земле и человеческому труду, также является определяющей чертой того, как данные используются и понимаются в ИИ. Внимательно рассмотрев обучающие данные как центральный пример в ансамбле машинного обучения, мы можем начать понимать, что стоит на кону в этой трансформации.
Обучение машин видеть
Будет полезно рассмотреть, почему системы машинного обучения требуют огромных объемов данных. Одним из примеров является компьютерное зрение – область искусственного интеллекта, занимающаяся обучением машин распознаванию и интерпретации изображений. По причинам, которые редко признаются в области компьютерных наук, проект интерпретации картинок является очень сложным и реляционным. Изображения – удивительно трудные элементы, отягощенные множеством потенциальных значений, неразрешимых вопросов и противоречий. Тем не менее, в настоящее время на первых этапах создания системы компьютерного зрения принято брать тысячи или даже миллионы изображений из интернета, создавать и упорядочивать их в ряд классификаций, и использовать это в качестве основы для того, как система будет воспринимать наблюдаемую реальность. Эти обширные коллекции называются обучающими наборами данных, и они представляют собой то, что разработчики ИИ часто называют «базовой истиной»[203]203
See, e. g., Jaton, «We Get the Algorithms of Our Ground Truths.»
[Закрыть]. Истина, таким образом, – это не столько фактическое представление или согласованная реальность, сколько нагромождение изображений, взятых из различных доступных онлайн-источников.
При контролируемом машинном обучении инженеры предоставляют компьютеру маркированные обучающие данные. Затем в игру вступают два различных типа алгоритмов: обучающие и классифицирующие. Обучающий алгоритм – это алгоритм, который учится на помеченных данных; он сообщает классификатору, как лучше проанализировать связь между новыми входными данными и желаемым конечным результатом (или предсказанием). Например, он может определить: содержится ли на изображении лицо, является ли электронное письмо спамом. Чем больше маркированных примеров, тем точнее будет алгоритм. Существует множество видов моделей машинного обучения, включая нейронные сети, логистическую регрессию и деревья решений. Инженеры выбирают модель в зависимости от того, что они создают – будь то система распознавания лиц или средство определения настроений в социальных сетях, – а затем подбирают ее под свои вычислительные ресурсы.
Рассмотрим задачу создания системы машинного обучения, способной определять разницу между изображениями яблок и апельсинов. Сначала разработчику необходимо собрать, пометить и обучить нейронную сеть на тысячах помеченных изображений яблок и апельсинов. С программной стороны алгоритмы проводят статистический анализ и разрабатывают модель для распознавания разницы между двумя классами. Если все идет по плану, обученная модель сможет различать изображения яблок и апельсинов, с которыми она никогда раньше не сталкивалась.
Если все учебные изображения яблок красные и ни одного зеленого, то система машинного обучения может сделать вывод, что «все яблоки красные». Это так называемый индуктивный вывод – открытая гипотеза, основанная на имеющихся данных, а не дедуктивный вывод, который логически следует из предпосылки[204]204
Nilsson, Quest for Artificial Intelligence, 398.
[Закрыть]. Учитывая то, как обучалась система, зеленое яблоко вообще не будет распознано как яблоко. Таким образом, обучающие наборы данных лежат в основе того, как большинство систем машинного обучения делают выводы. Они служат первичным исходным материалом, который системы ИИ используют для формирования основы своих прогнозов.
Обучающие данные определяют не только характеристики алгоритмов машинного обучения. Они также используются для оценки работы. Подобно породистым лошадям, алгоритмы машинного обучения постоянно соревнуются друг с другом на соревнованиях, чтобы выяснить, какие из них показывают наилучшие результаты при работе с определенным набором данных. Эти эталонные наборы становятся алфавитом, на котором основывается язык общения, когда множество лабораторий из разных стран сходятся вокруг канонических систем и пытаются превзойти друг друга. Одно из самых известных соревнований – ImageNet Challenge, где исследователи соперничают в том, чьи методы наиболее точно классифицируют и обнаруживают объекты и сцены[205]205
«ImageNet Large Scale Visual Recognition Competition (ILSVRC).»
[Закрыть].
Успешные обучающие наборы адаптируют, строят на их основе и расширяют. Как мы увидим в следующей главе, возникает своеобразная генеалогия: они наследуют логику обучения от предыдущих примеров, а затем порождают последующие. Например, ImageNet опирается на таксономию слов, унаследованную от лексической базы данных 1980-х годов, известной как WordNet; а WordNet наследует многие источники, включая Brown Corpus из одного миллиона слов, опубликованный в 1961 году.
Учебные базы данных стоят на плечах более старых классификаций и коллекций. Подобно расширяющейся энциклопедии, старые формы остаются, а новые элементы добавляются в течение десятилетий. Таким образом, обучающие данные – это фундамент, на котором строятся современные системы машинного обучения[206]206
In the late 1970s, Ryszard Michalski wrote an algorithm based on symbolic variables and logical rules. This language was popular in the 1980s and 1990s, but as the rules of decision-making and qualification became more complex, the language became less usable. At the same moment, the potential of using large training sets triggered a shift from this conceptual clustering to contemporary machine learning approaches. Michalski, «Pattern Recognition as Rule-Guided Inductive Inference.»
[Закрыть]. Они определяют эпистемические границы, регулирующие работу ИИ, и, в этом смысле, создают границы того, как ИИ может «видеть» мир. Однако обучающие данные – это хрупкая форма базовой истины, и даже самые большие массивы данных не могут избежать фундаментальных ошибок, которые возникают, когда бесконечно сложный мир упрощается и нарезается на категории.
Краткая история спроса на данные
«Мир вступил в эпоху дешевых сложных устройств большой надежности; и из этого обязательно что-то выйдет». Так сказал Ванневар Буш, изобретатель и администратор, который руководил Манхэттенским проектом в качестве директора Управления научных исследований и разработок, а позднее участвовал в создании Национального научного фонда. Шел июль 1945 года; бомбы еще не были сброшены на Хиросиму и Нагасаки. У Буша имелась теория о новом виде системы передачи данных, которой еще только предстояло родиться. Он представлял себе «передовые арифметические машины будущего», которые будут работать на чрезвычайно высокой скорости, «выбирать собственные данные и манипулировать ими в соответствии с инструкциями». Но этим устройствам потребуются огромные объемы информации: «У них будет непомерный аппетит. Одна из таких машин будет принимать инструкции и данные от целой комнаты девушек, вооруженных клавиатурами, и каждые несколько минут выдавать листы с вычисленными результатами. В делах миллионов людей, занимающихся сложными задачами, всегда найдется множество вычислений»[207]207
Bush, «As We May Think.»
[Закрыть].
Девушки, о которых говорил Буш, – это операторы, выполнявшие повседневную работу по вычислениям. Как показали историки Дженнифер Лайт и Мар Хикс, этих женщин часто воспринимали как устройства для ввода данных. На самом же деле их роль была столь же важна для обработки данных и обеспечения работы систем, как и роль инженеров, проектировавших цифровые компьютеры военного времени[208]208
Light, «When Computers Were Women»; Hicks, Programmed Inequality.
[Закрыть]. Однако отношения между данными и обрабатывающими машинами уже представлялись как отношения бесконечного потребления. Машины будут жаждать данных, и перед ними, несомненно, откроются широкие горизонты материала, который можно будет извлечь из миллионов людей.
В 1970-х годах исследователи искусственного интеллекта в основном изучали так называемый подход экспертных систем: программирование на основе правил, направленное на сокращение поля возможных действий путем формулирования форм логических рассуждений. Тем не менее довольно быстро стало очевидно, что этот подход является хрупким и непрактичным в реальных условиях, где набор правил редко справляется с неопределенностью и сложностью[209]209
As described in Russell and Norvig, Artificial Intelligence, 546.
[Закрыть]. Требовались новые подходы. К середине 1980-х годов в исследовательских лабораториях стали использовать вероятностные подходы, основанные на применении грубой силы. Короче говоря, они использовали много вычислительных циклов для расчета как можно большего числа вариантов, чтобы найти оптимальный результат.
Одним из значимых примеров служит группа по распознаванию речи в IBM Research. Проблема распознавания речи решалась в основном с помощью лингвистических методов, но затем теоретики информации Фред Джелинек и Лалит Бахл сформировали новую группу, куда вошли Питер Браун и Роберт Мерсер (задолго до того, как Мерсер стал миллиардером, связанным с финансированием Cambridge Analytica, Breitbart News и президентской кампании Дональда Трампа в 2016 году). Они попробовали кое-что изменить. Их методы в конечном итоге стали предшественниками систем распознавания речи, лежащих в основе Siri и Dragon Dictate, а также систем машинного перевода, таких как Google Translate и Microsoft Translator.
Они начали использовать статистические методы, ориентированные на определение частоты появления слов по отношению друг к другу, вместо того чтобы пытаться научить компьютеры подходу, основанному на грамматических правилах или лингвистических особенностях. Для того чтобы этот статистический подход работал, потребовалось огромное количество реальных речевых и текстовых данных, или обучающих данных. В результате, как пишет исследователь медиа Сяочан Ли, потребовалось «радикальное сведение речи к данным, которые можно моделировать и интерпретировать в отсутствие лингвистических знаний или понимания. Речь как таковая перестала иметь значение». Этот сдвиг оказался невероятно значительным и в результате превратился в шаблон, повторявшийся десятилетиями: сведение контекста к данным, а смысла – к статистическому распознаванию образов. Ли объясняет:
Впрочем, опора на данные, а не на лингвистические принципы, создала новый вид проблем: статистические модели неизбежно определялись характеристиками обучающих данных. В результате их размер стал главной проблемой. Большие наборы данных о наблюдаемых исходах не только улучшают оценки вероятности для случайного процесса, но и увеличивают вероятность того, что данные будут отражать более редко встречающиеся исходы. Размер обучающих данных, по сути, был настолько важен для подхода IBM, что в 1985 году Роберт Мерсер объяснил перспективы группы, просто заявив: «Нет данных лучше, чем больше данных»[210]210
Li, «Divination Engines,» 143.
[Закрыть].
В течение нескольких десятилетий такой материал было очень трудно заполучить. Как описывает Лалит Бахл в интервью Ли: «В те времена… невозможно было найти даже миллион слов в читаемом компьютером тексте. Поэтому мы искали его повсюду»[211]211
Li, 144.
[Закрыть]. Они пробовали технические руководства IBM, детские книги, патенты на лазерные технологии, книги для слепых и даже напечатанную на машинке переписку сотрудника IBM Дика Гарвина, который создал первый проект водородной бомбы[212]212
Brown and Mercer, «Oh, Yes, Everything’s Right on Schedule, Fred.»
[Закрыть]. Их метод странным образом перекликался с рассказом писателя-фантаста Станислава Лема, где человек по имени Трурль решает построить машину, пишущую стихи. Он начинает с «восьмисот двадцати тонн книг по кибернетике и двенадцати тысяч тонн самой лучшей поэзии»[213]213
Lem, «First Sally (A), or Trurl’s Electronic Bard,» 199.
[Закрыть]. Но Трурль понимает, что для программирования автономной поэтической машины нужно «повторить Вселенную с самого начала – или хотя бы большую часть»[214]214
Lem, 199.
[Закрыть].
В конечном итоге группа IBM Continuous Speech Recognition нашла свой «лакомый кусочек». В 1969 году против IBM был подан крупный федеральный антимонопольный иск; разбирательство, в ходе которого было вызвано почти тысяча свидетелей, длилось тринадцать лет. IBM наняла большой штат сотрудников лишь для того, чтобы оцифровать все стенограммы показаний на перфокарты Холлерита. В итоге к середине 1980-х годов был создан корпус из ста миллионов слов. Печально известный антиправительственный журнал Mercer назвал это «случаем полезности, случайно созданной правительством вопреки самому себе»[215]215
Brown and Mercer, «Oh, Yes, Everything’s Right on Schedule, Fred.»
[Закрыть].
IBM оказалась не единственной группой, начавшей собирать слова. С 1989 по 1992 год группа лингвистов и компьютерщиков из Университета Пенсильвании работала над проектом Penn Treebank – аннотированной базой данных текстов. Они собрали четыре с половиной миллиона слов американского английского языка с целью обучения систем обработки естественного языка. Их источники включали рефераты Министерства энергетики, статьи из новостной ленты Доу Джонса и сообщения Федеральной службы новостей о «террористической деятельности» в Южной Америке[216]216
Marcus, Marcinkiewicz, and Santorini, «Building a Large Annotated Corpus of English.»
[Закрыть]. Появляющиеся коллекции текстов заимствовали из более ранних коллекций, а затем добавляли новые источники. Начали появляться генеалогии коллекций данных, каждая из которых основывалась на предыдущей и часто импортировала те же особенности, проблемы или упущения.
Другой классический свод текстов появился в ходе расследования мошенничества корпорации Enron после объявления ею крупнейшего банкротства в американской истории. Федеральная комиссия по регулированию энергетики изъяла электронную почту 158 сотрудников в целях судебного расследования[217]217
Klimt and Yang, «Enron Corpus.»
[Закрыть]. Она также решила опубликовать эти электронные письма в Интернете, поскольку «право общества на раскрытие информации перевешивает право человека на частную жизнь»[218]218
Wood, Massey, and Brownell, «FERC Order Directing Release of Information,» 12.
[Закрыть]. Коллекция получилась необычной. Более полумиллиона фраз повседневной речи отныне можно было использовать в качестве лингвистической шахты, которая, тем не менее, отражала гендерные, расовые и профессиональные различия этих 158 работников. База Enron цитировалась в тысячах научных работ. Но несмотря на ее популярность, ее редко рассматривают с пристальным вниманием: New Yorker описал ее как «канонический исследовательский текст, который на самом деле никто не читал»[219]219
Heller, «What the Enron Emails Say about Us.»
[Закрыть]. Такое построение и опора на обучающие данные предвосхитили новый способ работы. Оно изменило область обработки естественного языка и заложило основы того, что станет обычной практикой в машинном обучении.
Семена последующих проблем зарождались именно здесь. Текстовые архивы рассматривались как нейтральные коллекции языка, как будто существует общая эквивалентность между словами в техническом руководстве и тем, как люди пишут коллегам по электронной почте. Весь текст подлежал повторному использованию и замене до тех пор, пока его было достаточно для обучения языковой модели, чтобы с высокой степенью успешности предсказывать, какое слово может следовать за другим. Как и изображения, текстовые корпуса работают на основе предположения, что все обучающие данные взаимозаменяемы. Но язык – это не инертная субстанция, которая действует одинаково независимо от положения. Предложения, взятые из Reddit, отличаются от тех, что составлены руководителями Enron. Перекосы, пробелы и предубеждения в собранном тексте встроены в более крупную систему, и если языковая модель основана на типах слов, сгруппированных вместе, то становится важным, откуда эти слова взяты. Не существует нейтральной языковой среды. Более того, все коллекции текстов также являются свидетельствами времени, места, культуры и политики. Языки, которые имеют меньше доступных данных, не обслуживаются этими подходами и поэтому часто остаются за бортом[220]220
Baker et al., «Research Developments and Directions in Speech Recognition.»
[Закрыть].
Очевидно, что существует множество историй и контекстов, сочетающихся в учебных данных IBM, архиве Enron или Penn Treebank. Как понять, что является и что не является значимым для понимания этих наборов данных? Как передать предупреждения типа: «База, скорее всего, отражает перекосы, потому что основана на новостях о южноамериканских террористах в 1980-х годах»? Происхождение данных, лежащих в основе системы, может иметь невероятно важное значение, и все же спустя тридцать лет все еще не существует стандартизированной практики, позволяющей отметить, откуда взялись все эти данные или как они были получены, не говоря уже о том, какие предубеждения или классификационную политику они содержат[221]221
I have participated in early work to address this gap. See, e. g., Gebru et al., «Datasheets for Datasets.» Other researchers have also sought to address this problem for AI models; see Mitchell et al., «Model Cards for Model Reporting»; Raji and Buolamwini, «Actionable Auditing.»
[Закрыть].
Распознавание лиц
В то время как для распознавания речи все больше ценился читаемый компьютером текст, для создания систем распознавания лиц основное внимание уделялось человеческому лицу. Один из центральных примеров появился в последнем десятилетии двадцатого века и финансировался Управлением программы развития технологий борьбы с наркотиками Министерства обороны. Управление спонсировало программу (feret) для разработки автоматического метода идентификации в сфере разведки и правоохранительных органов. До начала программы feret существовало мало обучающих данных о человеческих лицах, только несколько коллекций из пятидесяти или около того снимков, чего, безусловно, недостаточно для масштабного распознавания. Исследовательская лаборатория армии США возглавила технический проект по созданию обучающего набора портретов более тысячи человек в разных позах, чтобы в общей сложности получилось 14126 изображений. Как и коллекция фотороботов NIST, feret стал эталоном – общим измерительным инструментом для сравнения подходов к распознаванию лиц.
Задачи, для решения которых была создана инфраструктура feret, включали, опять же, автоматизированный поиск по фотороботам, а также мониторинг аэропортов и пограничных пунктов, поиск по базам данных водительских прав для «выявления мошенничества» (многочисленные заявления на получение социального обеспечения были конкретным примером, упомянутым в исследовательских работах feret)[222]222
Phillips, Rauss, and Der, «FERET (Face Recognition Technology) Recognition Algorithm Development and Test Results,» 9.
[Закрыть]. Существовало два основных сценария тестирования. В первом сценарии алгоритму представлялся электронный журнал известных людей, который должен был найти ближайшие совпадения из большой галереи. Второй сценарий ориентировался на пограничный контроль и контроль в аэропортах: выявление известного человека – «контрабандистов, террористов или других преступников» – из большой популяции неизвестных людей.
Внимание! Это не конец книги.
Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?