Водяные знаки для контента, созданного ИИ

- AI content watermarking** — это процесс внедрения незаметных, но обнаруживаемых сигналов в контент, созданный системами искусственного интеллекта, такой как текст, изображения, аудио или видео. Эта техника позволяет отслеживать и идентифицировать контент как созданный машиной, не ухудшая его качество для конечного пользователя. Водяные знаки ИИ стали ключевым подходом для решения растущих проблем, связанных с дезинформацией, дипфейками, нарушением авторских прав и отслеживаемостью синтетического контента в контексте быстрого развития генеративного искусственного интеллекта.

В отличие от традиционных видимых водяных знаков, используемых в фотографии, водяные знаки ИИ-контента обычно невидимы для человека и могут быть обнаружены только алгоритмически. Эта концепция отличается от нанесения водяных знаков на сами модели ИИ (для предотвращения кражи моделей) и от нанесения водяных знаков на обучающие данные (для борьбы с несанкционированным использованием данных).

В июле 2023 года администрация Байдена получила добровольные обязательства от ведущих компаний в области ИИ, включая OpenAI, Alphabet Inc., Meta Platforms и Amazon, разрабатывать технологии водяных знаков и другие методы установления происхождения, чтобы помочь пользователям идентифицировать контент, созданный ИИ.

Техники[править | править код]

Техники нанесения водяных знаков ИИ значительно различаются в зависимости от типа маркируемого контента. По своей сути процесс включает два основных этапа: внедрение (или кодирование) водяного знака и его обнаружение. Водяные знаки для текста работают лучше всего, когда языковая модель генерирует более длинные и разнообразные ответы, такие как эссе или творческие тексты, и менее эффективны для коротких, строго фактологических ответов, где меньше возможностей для корректировки распределения токенов. Подходы на основе глубокого обучения используют нейронную сеть для внедрения распределенного водяного знака в значения пикселей изображения в паре со второй моделью, обученной его обнаруживать. Эти водяные знаки разработаны так, чтобы выдерживать распространенные манипуляции, такие как кадрирование, добавление фильтров, изменение цвета и сжатие с потерями. Процесс часто включает преобразование аудиоволновой формы в спектрограмму, внедрение водяного знака в частотное представление, а затем обратное преобразование в волновую форму. Это делает водяной знак неслышимым для слушателей, но устойчивым к таким распространенным модификациям, как добавление шума, сжатие MP3 и изменение скорости.

Отраслевые реализации[править | править код]

SynthID[править | править код]

SynthID — это набор инструментов для нанесения водяных знаков, разработанный Google DeepMind, предназначенный для маркировки и идентификации изображений, текста, аудио и видео, созданных ИИ.

Для текста SynthID функционирует как процессор логитов, который увеличивает оценки вероятности токенов модели с помощью псевдослучайной функции (g-функции), кодируя информацию водяного знака без существенного влияния на качество текста.

Для изображений SynthID использует пост-обработный, независимый от модели подход: нейронный кодировщик внедряет водяной знак в данные пикселей после генерации, а соответствующий декодер обнаруживает его. Поскольку водяной знак распределен голографически по всему изображению, даже обрезанные фрагменты могут сохранять обнаруживаемую информацию. Система работает путем внесения тонких изменений в то, как ChatGPT выбирает токены, создавая невидимый шаблон, обнаруживаемый отдельным инструментом.

Несмотря на то, что технология была готова почти год, OpenAI решила не выпускать ее, как сообщила *The Wall Street Journal* в августе 2024 года. В отличие от незаметных водяных знаков на уровне пикселей, C2PA встраивает данные о происхождении (известные как «Учетные данные контента») в структуру метаданных файла с использованием стандарта JUMBF (JPEG Universal Metadata Box Format). Эти данные криптографически подписаны, что делает их защищенными от подделки. В состав коалиции входят Adobe Inc., Microsoft, Google, Intel и BBC, среди прочих. Отраслевая практика сходится к комбинированию обоих подходов: метаданные C2PA обеспечивают запись происхождения, а незаметные водяные знаки служат более устойчивым резервным сигналом.

Ограничения и проблемы[править | править код]

Устойчивость[править | править код]

Существует фундаментальное противоречие между незаметностью водяного знака и его устойчивостью. Сделать водяной знак менее заметным обычно означает внедрить его более тонко, но тонкие водяные знаки, как правило, более уязвимы для удаления с помощью таких распространенных операций, как сжатие или кадрирование.

Если доступ к инструменту обнаружения водяных знаков доступен, злоумышленник может итеративно изменять контент до тех пор, пока детектор не вернет низкую оценку достоверности, фактически удаляя водяной знак. В преамбулах Акта упоминаются «водяные знаки, идентификация метаданных, криптографические методы для доказательства происхождения и подлинности контента, методы регистрации, отпечатки пальцев или другие техники» как возможные методы реализации.

Обязательства по прозрачности в соответствии со Статьей 50 должны стать полностью применимыми с 2 августа 2026 года. Для поддержки соблюдения требований Европейская комиссия способствует разработке добровольного Кодекса практики по прозрачности контента, созданного ИИ, который предлагает многоуровневый подход, сочетающий цифровую подпись метаданных с незаметными водяными знаками. Второй проект этого Кодекса, опубликованный в марте 2026 года, рекомендует двухуровневую стратегию маркировки, включающую защищенные метаданные и водяные знаки, с дополнительным снятием отпечатков и регистрацией.

Соединенные Штаты[править | править код]

В октябре 2023 года Исполнительный указ 14110 о безопасной, защищенной и заслуживающей доверия разработке и использовании искусственного интеллекта предписал Министерству торговли США разработать руководящие принципы для аутентификации контента и нанесения водяных знаков, чтобы помочь отличить контент, созданный ИИ, от подлинного материала.

См. также[править | править код]

Цифровой водяной знак
Коалиция за происхождение и подлинность контента
Инициатива по подлинности контента
Дипфейк
Генеративный искусственный интеллект
Стеганография

Внешние ссылки[править | править код]

Ссылки[править | править код]