Автор книги: Коллектив авторов
Жанр: Прочая образовательная литература, Наука и Образование
сообщить о неприемлемом содержимом
Текущая страница: 2 (всего у книги 24 страниц) [доступный отрывок для чтения: 8 страниц]
Проблематика безопасности использования систем искусственного интеллекта. Широкое проникновение систем машинного обучения обусловливается высокой эффективностью их использования и фактом свершившейся Четвертой промышленной революции. Совершенствуется автоматизация и интеллектуализация бизнес-процессов, технологические решения, совершенствуются роботы, функционирующие на базе систем искусственного интеллекта (ИИ). Все большее количество операций выполняется и решений принимается автоматически.
За счет этого расширяются возможности для киберпреступников атаковать информационные системы, использовать их в противоправных целях, что зачастую наносит вред жизни, здоровью, финансовый и другие виды ущерба. Если раньше хакеры ставили себе целью украсть данные с персонального компьютера или списать деньги с личного банковского счета, то в настоящее время глубокая цифровизация промышленности, транспортной и коммуникационной отраслей открывает новые возможности для деятельности злоумышленников. Одним из направлений атак стали системы ИИ, особенно уязвимые в случае наличия открытого доступа к их базовым алгоритмам и логике их работы.
Угрозы безопасности систем искусственного интеллекта.
В транспортной отрасли. Злоумышленники могут нарушать штатную работу автономных транспортных средств посредством провокаций приводящих к некорректной реакции транспорта на знаки ограничения проезда или скорости. Исследовательские проекты и эксперименты доказывают, что такие атаки не сложны для злоумышленников. К началу 2019 г. было опубликовано более 100 научных работ, в которых показаны разнообразные способы атак, имеющих целью вызвать ошибки системы распознавания изображений. Например: если маленький, трудноразличимый человеком стикер наклеить на дорожный знак система ИИ будет воспринимать его как другой знак, что при специальном выборе места атаки может спровоцировать аварию. За счет выявления уязвимости алгоритма ИИ и не сложного механизма ее реализации появляются угрозы не только для информационной системы, но и для жизни и здоровья людей.
В системах контроля доступа. Все более широкое распространение получают системы распознавания лиц в системах контроля физического доступа. Эти системы гораздо удобнее, чем RFID-карты, ключи или использование пин-кодов. Системы распознавания лиц снижают время, которое тратится на аутентификацию и повышают долю эффективного рабочего времени сотрудников организаций. Кроме того, в качестве дополнительной меры безопасности новые типы банкоматов используют механизм распознавания лица клиента. Однако, все еще нельзя быть уверенным и в том, что подобные средства абсолютно защищены и их нельзя взломать. В настоящее время независимые исследования показывают, что многие системы распознавания образов можно обойти при помощи специальных очков, что позволит проникнуть на охраняемую территорию, украсть материальные ценности или обмануть банкомат или платежную систему.
В системах анализа лояльности к бренду. Анализ слабоструктурированных или «сырых» текстов в социальных сетях и публичных платформах на тональность (негативный или позитивный характер) высказываний играет существенную роль для изготовителей товаров народного потребления, лекарств, производителей контента, кино– и музыкальной продукции. Атака на системы анализа тональности текста может вызвать серьезный ущерб для организаций, изучающих таким образом потребительский рынок и принимающий управленческие решения на основании результатов анализа. Исследователи продемонстрировали возможность переобучения и порчи модели ИИ, предназначенной для автоматического формирования оценки тональности комментариев. Злоумышленник может написать положительный комментарий, который ИИ воспримет как негативный и переобучится. Незначительное изменение в одном слове предложения может привести к тому, что система неправильно истолкует истинный характер комментария. Поскольку анализ «сырых» текстов имеет большое влияние на принятие управленческих решений атаки наносят прямой финансовый ущерб (в виде не окупившихся инвестиций в сам скомпрометированный проект) и упущенной прибыли.
В системах поведенческого анализа. Методы машинного обучения полезны для определения ненадлежащего поведения пользователей на публичных сервисах. Речь идет о выявлении фальшивых пользователей в социальных сетях и пользователей, которые платят за доменные имена, создают сайты-муляжи, чтобы иметь фальшивые, фактически анонимные учетные записи. Вредоносные краудсорсинговые, или, как их еще называют, краудтёрфинговые, системы нужны для связи заказчиков, которые готовы платить за дезинформацию о своем продукте или продукте конкурента, с исполнителями, которые реализуют эти планы, создают и распространяют поддельные новости, проводят вредоносные политические кампании. До недавнего времени модели машинного обучения были весьма эффективными в выявлении подобного рода активности, с точностью до 95 % отделяя естественное поведение от работы краудтерферов. Вместе с тем эти алгоритмы уязвимы, например для атак «отравлением» данных. При целевом противостоянии эффективность существенно снижается.
В системах обнаружения мошенничества с кредитными картами. В некоторых системах обнаружения мошенничества специальный аналитический инструмент (классификатор логистической регрессии) применяется для выявления транзакций с признаками мошенничества, которые блокируются до детального выяснения их валидности. Однако он тоже может подвергнуться атаке и мошеннические транзакции останутся незамеченными.
В системах интеллектуальной идентификации человека. Для усиления контроля выполнения «чувствительных» финансовых операций используются алгоритмы, определяющие по специфичности нажатия клавиш, что данные вводит человек, и идентифицирующие личность человека. Однако злоумышленники научились создавать состязательные выборки, которые обманывают весьма точный в нормальном режиме работы классификатор. После исследовательской атаки алгоритм начинал определять искусственно созданный клавиатурный ввод как принадлежащий конкретному пользователю-человеку.
В статистических спам-фильтрах. Некоторые спам-фильтры (например, SpamAssasin, SpamBayes, Bogo-фильтр) основаны на популярном алгоритме обучения Naive Bayes Machine, который впервые был применен в 1998 г. для фильтрации нежелательной почты. Посредством исследовательской атаки злоумышленники научились успешно «обходить» фильтры моделей машинного обучения.
Классификация атак на системы машинного обучения. Атаки на системы машинного обучения классифицируются по их целям, типу вызываемой в системе ошибки, осведомленности атакующего и типу атаки.
Классификация по целям атаки. Данная классификация проводится в зависимости от характера нарушения свойств безопасности: доступности, целостности, конфиденциальности модели и другим целевым свойствам, установленным для системы.
Нарушение доступности. К атакам с целью нарушения доступности относят атаки, направленные как на снижение стабильности работы модели для корректных входных данных, так и на полную остановку сервиса. К таким атакам относится:
– искусственное формирование запросов, которые требуют большей, чем планируемая, вычислительной мощности, искусственно вводя систему в режим пиковой нагрузки, что драматически снижает общую производительность;
– генерация потока сложноанализируемых объектов, которые будут ложно квалифицироваться и требовать медленной ручной классификации, отвлекая персонал от штатной работы;
– запуск конкурентных процессов, не позволяющих модели ИИ работать на проектных мощностях.
Нарушение целостности. Успешные атаки этого класса приводят к тому, что система продолжает корректно работать на основном потоке входных данных, но непредсказуемым образом дает некорректный вывод. Более сложной является атака обучающая модель таким образом, что на определенных, заранее установленных злоумышленниками данных выдается нужный злоумышленнику вывод. К этому классу атак относятся атаки состязательными примерами. Принцип атаки – подача модели на вход данных, изменённых таким образом, чтобы модель машинного обучения модель изменялась под задачи злоумышленника. Одно из планируемых последствий таких атак – подорвать доверие пользователей, которые увидев явные и непредсказуемые ошибки ИИ откажутся от этого сервиса.
Нарушение конфиденциальности. В результате атак этого класса происходит получение конфиденциальной информации о пользователях, самой модели, гиперпараметрах, использованных во время обучения (являющихся интеллектуальной собственностью), данных обучения. Это разведывательные атаки, backdoor, trojans и др.
Классификация по типу вызываемой ошибки. Когда атакующий ставит себе цель добиться гарантированно ошибочной классификации, атака называется non-targeted. Например, если на дорожный знак нанести определенную краску, модель распознавания уже не сможет отреагировать на знак.
Атака относится к типу targeted если цель атакующего отнести какой-либо экземпляр к определенному классу даже если это и не так. Например, рекламный плакат может содержать в себе паттерн, воспринимаемый моделью как дорожный знак и инициировать соответствующее поведение управляемой системой. Существенной проблемой является то, что человек визуально обнаружить проводимые таким образом атаки не сможет.
Классификация по осведомленности атакующего. Успешность атаки во многом зависит от того, сколько информации у атакующего о модели. Если атакующему известны модель, алгоритм, данные обучения, тип нейронной сети, количество ее слоев, то это атака называется атакой «белого ящика». Если атакующий обладает минимальными (общедоступными) знаниями о модели, данными обучения и алгоритмами, такие атаки называют атаками «черного ящика». Атаку, в которой используются частичные знания о модели, называют атакой «серого ящика».
Классификация по типу атаки. Среди атак на модели глубокого обучения выделяют три основных типа: состязательные атаки, «отравление» данных и исследовательские атаки. Кроме основных проводятся такие атаки как backdoors, trojans и др.
Состязательные атаки. Атаки реализуются посредством того, что входные данные изменяют таким образом, чтобы модель переобучилась и стала допускать ошибки в классификации. Угрозы от такого типа атак высока, поскольку подобные атаки очень эффективны, просты в реализации и масштабируемы – один и тот же метод атаки применим к различным моделям, построенным на одном алгоритме обучения.
«Отравление» данных. Такая атака проводится на этапе первичного обучения модели, когда злоумышленник вводит данные или манипулирует данными обучения, либо чтобы создать «черный ход» для использования во время эксплуатации (без ущерба для производительности модели при обычных входных данных), либо с целью добиться последующего генерирования произвольных ошибок искажая предназначение модели в процессе обучения.
В зависимости от цели злоумышленника это нарушает свойства целостности или доступности модели. Типичный пример создания «черного хода» – атака на распознавание лиц, когда злоумышленник вводит в набор обучающих образцов данные определенного объекта. Цель состоит в том, чтобы заставить модель связать конкретный объект (допустим, кепку) с целевым пользователем, например, пользователя, имеющего право доступа не территорию. Впоследствии любое изображение лица человека в кепке будет классифицироваться как пользователь, имеющих право доступа, даже если оно принадлежит не зарегистрированному в модели человеку. «Отравление» – один из самых распространенных типов атак. История «отравляющих» атак на ML началась в 2008 г. со статьи посвященной теме эксплуатации уязвимостей машинного обучения чтобы подорвать штатную работу спам-фильтров. В статье был представлен пример атаки на спам-фильтр. Позже было опубликовано более 30 других исследовательских работ об «отравлении» и защите от него.
Существуют четыре основных стратегии «отравления» данных:
1) модификация меток: атаку модификации меток злоумышленник проводит на этапе обучения модели – изменяются классификационные метки случайных экземпляров в наборах данных для обучения;
2) внедрение данных: при подобной атаке у злоумышленника нет доступа ни к данным обучения, ни и к алгоритму обучения, но у него есть возможность дополнить новыми данными обучающий набор. Таким образом можно исказить целевую модель, вставив в набор обучающих данных вредоносные образцы;
3) модификация данных: у атакующего нет доступа к алгоритму обучения, но он имеет полный доступ к данным обучения. Обучающие данные злоумышленник отравляет непосредственно путем изменения перед их использованием для обучения целевой модели;
4) разрушение логики: если у противника есть возможность напрямую вмешиваться в алгоритм обучения. Такая атака также называется логическим искажением.
Исследовательские атаки. Целью таких атак является нарушение конфиденциальности на этапе штатной работы модели. К исследовательским относят несколько типов атак: восстановление модели, восстановление принадлежности, инверсия модели, восстановление параметров. В процессе исследовательской атаки изучается модель ИИ или набор данных, которые в дальнейшем используют злоумышленники. Результат такой атаки – получение знаний о системе ИИ и ее модели, т. е. это атака для извлечения моделей. Атака на данные позволяет «добыть», в частности, сведения о принадлежности экземпляра классу (например, о наличии прав доступа на объект конкретного человека). При помощи инверсии модели извлекают конкретные данные из модели. В настоящее время исследования посвящены в основном атакам логического вывода на этапе разработки модели, но они возможны и во время обучения. Например, если мы хотим понять, как веб-сайт социальной сети определяет принадлежность к целевой аудитории, в частности к группе беременных женщин, чтобы показать конкретную рекламу, то можем изменить свое поведение, предположим, пытаясь найти информацию о памперсах, и проверить, получаем ли мы объявления, предназначенные для будущих мам.
Восстановление принадлежности экземпляра. Злоумышленник намеревается узнать, был ли конкретный экземпляр в наборе обучающих данных. Речь идет о распознавании изображений. Атакующий хочет проверить, были или нет в обучающем наборе сведения о конкретном человеке. Сам по себе это редко используемый тип разведочных атак. Однако он дает возможность разработать план дальнейших атаки, таких как атака «уклонение» класса «черный ящик». Чем больше вредоносный набор данных похож на набор данных жертвы, тем выше у злоумышленника шанс переобучить атакуемую модель. Вывод атрибута помогает узнать обучающие данные (например, об акценте ораторов в моделях распознавания речи). Успешная атака на восстановление принадлежности показывает, насколько соблюдается конфиденциальность, в частности персональных данных, разработчиками моделей ИИ.
Инверсия модели. На сегодняшний день является наиболее распространенным типом разведочных атак. В отличие от восстановления принадлежности, когда можно всего лишь угадать, был ли пример в наборе обучающих данных, при инверсии модели злоумышленник пытается извлечь из обучающего набора данные в полном объеме. При работе с изображениями извлекается определенное изображение. Например, зная только имя человека, злоумышленник получает его (ее) фотографию. С точки зрения конфиденциальности это большая проблема для любой системы, обрабатывающей персональные данные. Известны также атаки на модели ИИ, которые используются для оказания помощи в лечении в зависимости от генотипа пациента.
Восстановление параметров модели. Цель подобной атаки – определить модель ИИ и ее гиперпараметры для последующих атак типа «уклонение» класса «черный ящик». При этом восстановленные параметры модели используют, чтобы увеличить скорость атак. Одна из первых работ о таких атаках была опубликована в 2013 г. («Взлом умных машин при помощи более умных: как извлечь значимые данные из классификаторов машинного обучения»).
Кроме основных типов атак, выделяют атаки backdoors и trojans. Цели этих атак и типы атакующих различны, но технически они очень похожи на атаки «отравления». Разница заключается в наборе данных, доступных злоумышленнику.
Троянские атаки (trojans). Во время отравления злоумышленники не имеют доступа к модели и начальному набору данных, они могут только добавить новые данные в существующий набор или изменить его. Что касается трояна, то злоумышленники все еще не имеют доступа к начальному набору данных, но у них есть доступ к модели и ее параметрам, и они могут переобучить эту модель, поскольку в настоящее время компании, как правило, не создают свои собственные модели с нуля, а переобучают существующие модели. Например, если необходимо создать модель для обнаружения рака, злоумышленники берут новейшую модель распознавания изображений и переобучают при помощи специализированного набора данных, поскольку отсутствие данных и изображений раковых опухолей не позволяет обучать сложную модель с нуля. Это означает, что большинство компаний-разработчиков загружают популярные модели из интернета. Однако хакеры могут заменить их своими модифицированными версиями с идентичными названиями. Идея трояна заключается в следующем: найти способы изменить поведение модели в некоторых обстоятельствах таким образом, чтобы штатное поведение модели оставалось неизменным. Сначала хакеры объединяют набор данных из модели с новыми входными данными и уже на объединенном наборе переобучают модель. Модификация поведения модели («отравление» и трояны) возможна даже в среде «черного ящика» и «серого ящика», а также в режиме полного «белого ящика» с доступом к модели и набору данных. Тем не менее главная цель – не только ввести дополнительное поведение, но и сделать это таким образом, чтобы заложенная уязвимость (бэкдор) работала после дальнейшей переподготовки системы добросовестными разработчиками.
«Черный ход» (Backdoor). Идея такой атаки взята от одной из самых старых ИТ-концепций – бэкдоров. При разработке моделей ИИ исследователи закладывают в нее и общий, базовый функционал, и возможность дальнейшего переобучения. С целью маскировки атаки по завершению несанкционированного переобучения модель должна сохранить базовый функционал. Это достижимо за счет того, что нейронные сети, например, для распознавания изображений, представляют собой масштабные структуры, образованные миллионами нейронов. Чтобы внести изменения в такой механизм, достаточно модифицировать лишь небольшой их набор. Еще один фактор, делающий возможным атаку «черного хода», заключается в том, что модели распознавания изображений, например Inception или ResNet, крайне сложны. Они обучены на огромном количестве данных, для чего использовались дорогостоящие вычислительные мощности. Провести аудит и выявить черный ход крайне затруднительно.
Атаки подменой модели машинного обучения. Ресурсами малых и средних компаний создать модели машинного обучения высокого качества практически невозможно. Вот почему многие компании, которые обрабатывают изображения, применяют предварительно обученные нейронные сети крупных компаний. В связи с чем чтобы решить задачу обнаруживать раковые опухоли разработчики могут использовать сеть, доучивая ее, изначально предназначенную для распознавания лиц знаменитостей. Если злоумышленникам удастся взломать сервер, на котором хранятся общедоступные модели (а уровень безопасности общедоступных сервисов невысокий), и загрузить свою собственную модель с интегрированным «черным ходом», модели сохранят свойства, заложенные хакерами даже после переобучения модели добросовестными разработчиками. Например, «черный ход», встроенный в детектор американских дорожных знаков, оставался активным даже после того, как модель была переобучена на идентификацию шведских дорожных знаков вместо американских аналогов. Если владелец не является экспертом, обнаружить эти «черные ходы» практически невозможно. Регулярно появляются методики их обнаружения, но также регулярно возникают новые способы маскировки «черного хода», заложенного в модель.
Классификация атак на методики машинного обучения. Эталонный процесс обучения ИИ предполагает наличие большого набора подготовленных данных, доступ к высокопроизводительным вычислительным ресурсам. Задействованные данные не должны быть личными (приватными), они должны обрабатываться в едином централизованном хранилище. Необходима также фаза стандартного обучения и тонкой настройки гиперпараметров. Однако эти условия в полном объеме тяжело соблюдать на практике. В силу чего для смягчения таких жестких требований были разработаны и приняты в эксплуатацию методики машинного обучения, например трансферное обучение, федеративное обучение, сжатие моделей, многозадачное обучение, метаобучение и обучение на всем жизненном цикле. Они получили широкое распространение даже несмотря на наличие уязвимостей, позволяющих хакерам проводить успешные атаки на разработанные модели.
Многозадачное обучение. Оно повсеместно применяется для решения задач в области классификации изображений, обработки естественного языка и т. п. Даже когда целью обучения модели является выполнение одной задачи, модель обучают в целях выполнения связанных подзадач для улучшения качества и скорости решения главной задачи. Одна из возможных атак – «отравление» набора данных одной задачи и проверка возможности использовать ее выход (результат выполнения) для других задач. Например, жертва хочет обучить модель для определения выражения лица, но из-за нехватки данных решает вспомогательную задачу распознавания лиц при помощи общедоступных наборов данных. Злоумышленник «отравляет» общедоступный набор данных, когда занимается вспомогательной задачей, так чтобы создать «черные ходы» для всей модели. Безусловно, формирование обучающего изображения для создания бэкдора не является тривиальным вопросом и требует знаний и квалификации злоумышленника. Все атаки на однозадачные модели применимы к многозадачным моделям, однако последние могут подвергаться атакам новых типов. Пример – прогнозирование смены направления для рулевого управления в автомобиле без водителя. Разработчик атакуемой модели рассматривает классификацию характеристик дороги как вспомогательную задачу. Поскольку модель обучена для двух связанных задач, выходные данные классификации характеристик дороги имеют прямую связь с выходными данными задачи прогнозирования направления рулевого управления. Запрашивая ответ от зараженной модели характеристик дороги, злоумышленник задает взаимосвязи между этими заданиями. Хотя злоумышленник может не знать, как изменить входные данные, чтобы воздействовать на рулевое управление, но он может изменить вход – подменить определенную характеристику дороги, которая, в свою очередь, повлияет на прогнозирование рулевого управления. Другими словами, злоумышленник использует задачу A в целях создания задачи состязательного целевого ввода для задачи B. Даже если он напрямую не может атаковать B, то посредством вывода А он сделает это опосредованно.
Машинное обучение в течение жизненного цикла. С непрерывным обучением тесно связаны две концепции:
предположение о том, что все исторические знания доступны и используются для изучения новых задач;
накопление полученных новых знаний.
Первая концепция допускает потенциальное заражение данных при атаках типа Backdoor и исследовательских атаках. Согласно второй концепции, процесс может быть нарушен, поскольку атака не позволит системе сохранять получаемые знания и отработанные задачи. Это тип атаки на доступность, она не дает реализовать подход к обучению в течение жизненного цикла.
Выяснение того, как «черные ходы» и атаки «отравлением» данными могут повлиять на системы обучения, имеет первостепенное значение. Например, если решение справляется с задачей накопления знаний, может ли злоумышленник создать бэкдор для одной задачи и использовать ее для всех других новых задач? Если это возможно, то последствия для безопасности будут катастрофическими.
Также злоумышленники могут атаковать процесс накопления полученных знаний. Один из методов атаки заключается в изучении того, может ли добавление нескольких тщательно созданных обучающих образцов с правильными метками изменить структуру модели так, чтобы она плохо выполнялась в прежних задачах. Злоумышленники таким образом инициируют в модели оптимизацию ретроспективных знаний, цель которой состоит в том, чтобы изменить модель под новую, атакующую задачу, тем самым повредить результаты обучения на старых задачах. Механизмы атаки и защиты, характерные для обучения на протяжении всего жизненного цикла, требуют дополнительных исследований.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?