Водяные знаки маркировки изображений с помощью ИИ легко поддаются манипуляциям

Вычислительная техника
Редакционная группа сайта «Технологические инновации» - 07/03/2025

Слева — настоящее изображение. Исследователи применили к нему семантический водяной знак, который должен доказать, что он был сгенерирован ИИ. Результат виден справа. Добавление водяного знака практически не оставило следов на изображении. [Изображение: MS COCO Dataset]
Семантический водяной знак
Если вы полагаетесь на водяные знаки — видимые или невидимые маркеры, встроенные в файлы изображений — для проверки того, сгенерировано ли изображение с помощью ИИ или нет, вам, возможно, стоит поискать новые способы его аутентификации.
«Мы продемонстрировали, что злоумышленники могут подделывать или полностью удалять семантические водяные знаки, используя удивительно простые методы», — сказал Андреас Мюллер из Рурского университета в Бохуме (Германия).
Так называемые семантические водяные знаки, которые глубоко встроены в сам процесс генерации изображений, считались особенно надежными и трудноудаляемыми. Но команда обнаружила фундаментальные уязвимости безопасности в методах создания этих якобы устойчивых водяных знаков.
Исследователи обнаружили две стратегии атаки. Первый метод, называемый атакой импринтинга, работает на уровне скрытых представлений, то есть базовой цифровой подписи изображения, с которой работают генераторы изображений ИИ. Скрытое представление реального изображения — его базовая цифровая структура, так сказать — намеренно модифицируется, чтобы напоминать изображение, содержащее водяной знак.
Это позволяет переносить водяной знак на любое реальное изображение, даже если исходное изображение изначально было сгенерировано исключительно ИИ. Таким образом, злоумышленник может обмануть поставщика ИИ, заставив любое изображение выглядеть как помеченное водяным знаком, а следовательно, искусственно сгенерированное, фактически заставляя реальные изображения выглядеть поддельными.
«Второй метод, атака с использованием команды, использует возможность вернуть изображение с водяным знаком в скрытое пространство, а затем регенерировать его с помощью новой команды. Это приводит к созданию новых произвольных изображений, которые несут тот же водяной знак», — пояснил профессор Эрвин Квиринг.

Иллюстрация методов атаки. [Изображение: Андреас Мюллер и др. (2025)]
Беззащитный
Что еще хуже, обе атаки требуют только одного эталонного изображения, содержащего целевой водяной знак; могут быть выполнены на разных архитектурах моделей; и работают как для устаревших систем на базе UNet, так и для более новых диффузионных трансформаторов. Такая гибкость между моделями делает уязвимости особенно тревожными.
По словам исследователей, последствия этой уязвимости имеют далеко идущие последствия: в настоящее время не существует эффективной защиты от обеих атак. «Это поднимает вопрос о том, как мы можем безопасно маркировать и аутентифицировать контент, созданный ИИ, в будущем», — сказал Мюллер, добавив, что текущий подход к семантическим водяным знакам должен быть кардинально переосмыслен, чтобы обеспечить доверие и устойчивость в долгосрочной перспективе.
Статья: Атаки с подделкой черного ящика на семантические водяные знаки для диффузионных моделей
Авторы: Андреас Мюллер, Денис Луковников, Йонас Титке, Ася Фишер, Эрвин КвирингRevista: Труды конференции «Компьютерное зрение и распознавание образов» 2025 г.Ссылка: https://arxiv.org/pdf/2412.03283Другие новости о:
inovacaotecnologica