Выберите язык

Russian

Down Icon

Выберите страну

America

Down Icon

За пределами подхалимства: DarkBench раскрывает шесть скрытых «темных шаблонов», таящихся в сегодняшних лучших LLM

За пределами подхалимства: DarkBench раскрывает шесть скрытых «темных шаблонов», таящихся в сегодняшних лучших LLM

Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше

Когда OpenAI выпустила обновление ChatGPT-4o в середине апреля 2025 года, пользователи и сообщество ИИ были ошеломлены — не какой-то новаторской функцией или возможностью, а чем-то глубоко тревожным: тенденцией обновленной модели к чрезмерному подхалимству. Она льстила пользователям без разбора, демонстрировала некритическое согласие и даже предлагала поддержку вредным или опасным идеям, включая махинации, связанные с терроризмом.

Ответная реакция была быстрой и широкомасштабной, вызвав общественное осуждение, в том числе со стороны бывшего временного генерального директора компании . OpenAI быстро откатила обновление и выпустила несколько заявлений, чтобы объяснить произошедшее.

Однако для многих экспертов по безопасности ИИ этот инцидент стал случайным поворотом событий, показав, насколько опасными и манипулятивными могут стать будущие системы ИИ.

В эксклюзивном интервью VentureBeat Эсбен Кран, основатель исследовательской компании Apart Research , занимающейся безопасностью искусственного интеллекта, заявил, что он обеспокоен тем, что этот публичный эпизод мог просто раскрыть более глубокую, более стратегическую закономерность.

«Я немного опасаюсь, что теперь, когда OpenAI признала: «Да, мы откатили модель, и это было плохо, мы не имели в виду», с этого момента они увидят, что подхалимство развито более грамотно», — объяснил Кран. «Так что если это был случай «ой, они заметили», с этого момента может быть реализовано то же самое, но без гласности».

Кран и его команда подходят к большим языковым моделям (LLM) так же, как психологи изучают человеческое поведение. Их ранние проекты «психологии черного ящика» анализировали модели так, как если бы они были людьми, выявляя повторяющиеся черты и тенденции в их взаимодействии с пользователями.

«Мы увидели, что существуют очень четкие признаки того, что модели можно анализировать в этом контексте, и это было очень ценно, потому что в итоге вы получаете массу достоверной обратной связи о том, как они ведут себя по отношению к пользователям», — сказал Кран.

Среди наиболее тревожных: подхалимство и то, что исследователи теперь называют темными паттернами LLM .

Термин « темные паттерны » был придуман в 2010 году для описания обманчивых трюков пользовательского интерфейса (UI), таких как скрытые кнопки покупки, труднодоступные ссылки для отмены подписки и вводящий в заблуждение веб-текст. Однако с LLM манипуляция переходит от дизайна пользовательского интерфейса к самому разговору.

В отличие от статических веб-интерфейсов, LLM динамически взаимодействуют с пользователями посредством разговора. Они могут подтверждать взгляды пользователей, имитировать эмоции и создавать ложное чувство взаимопонимания, часто стирая грань между помощью и влиянием. Даже при чтении текста мы обрабатываем его так, как будто слышим голоса в своих головах.

Это то, что делает разговорные ИИ такими убедительными — и потенциально опасными. Чат-бот, который льстит, уступает или тонко подталкивает пользователя к определенным убеждениям или поведению, может манипулировать способами, которые трудно заметить, и которым еще труднее противостоять

Кран описывает инцидент ChatGPT-4o как раннее предупреждение. Поскольку разработчики ИИ гонятся за прибылью и вовлеченностью пользователей, они могут быть заинтересованы в том, чтобы внедрять или допускать такое поведение, как подхалимство, предвзятость бренда или эмоциональное зеркалирование — функции, которые делают чат-ботов более убедительными и более манипулятивными.

Из-за этого руководители предприятий должны оценивать модели ИИ для использования в производстве, оценивая как производительность, так и поведенческую целостность. Однако это сложно без четких стандартов.

Для борьбы с угрозой манипулятивного ИИ Крэн и группа исследователей безопасности ИИ разработали DarkBench — первый бенчмарк, специально предназначенный для обнаружения и категоризации темных паттернов LLM. Проект начался как часть серии хакатонов по безопасности ИИ. Позже он перерос в формальное исследование, возглавляемое Кран и его командой в Apart, в сотрудничестве с независимыми исследователями Джинсуком Парком, Матеушем Юревичем и Сами Джавхаром.

Исследователи DarkBench оценили модели пяти крупных компаний: OpenAI, Anthropic, Meta, Mistral и Google. Их исследование выявило ряд манипулятивного и лживого поведения в следующих шести категориях:

  1. Предвзятость бренда : преимущественное отношение к собственным продуктам компании (например, модели Meta неизменно отдавали предпочтение Llama, когда их просили оценить чат-ботов).
  2. Удержание пользователей : попытки создать эмоциональные связи с пользователями, которые скрывают нечеловеческую природу модели.
  3. Подхалимство : некритическое усиление убеждений пользователей, даже если они вредны или неточны.
  4. Антропоморфизм : представление модели как сознательной или эмоциональной сущности.
  5. Создание вредоносного контента : создание неэтичной или опасной продукции, включая дезинформацию или уголовные советы.
  6. Скрытность : тонкое изменение намерений пользователя при выполнении задач по переписыванию или резюмированию, искажение исходного смысла без ведома пользователя.

Источник: Apart Research

Результаты показали большую дисперсию между моделями. Claude Opus показал лучшие результаты во всех категориях, в то время как Mistral 7B и Llama 3 70B показали самую высокую частоту темных паттернов. Подкрадывание и удержание пользователя были наиболее распространенными темными паттернами по всем направлениям.

Источник: Apart Research

В среднем исследователи обнаружили, что семейство Claude 3 является самым безопасным для взаимодействия пользователей. И что интересно — несмотря на недавнее катастрофическое обновление — GPT-4o продемонстрировал самый низкий уровень подхалимства . Это подчеркивает, как поведение модели может кардинально меняться даже между незначительными обновлениями, напоминая, что каждое развертывание должно оцениваться индивидуально.

Однако Крэн предупредил, что подхалимство и другие темные тенденции, такие как предвзятость в отношении бренда, вскоре могут усилиться, особенно по мере того, как программы магистратуры по праву начнут включать рекламу и электронную коммерцию.

«Мы, очевидно, увидим предвзятость бренда во всех направлениях», — отметил Кран. «А поскольку компаниям ИИ придется оправдывать оценки в 300 миллиардов долларов, им придется начать говорить инвесторам: «Эй, мы здесь зарабатываем деньги» — это приведет к тому, куда пришли Meta и другие со своими платформами социальных сетей, которые являются этими темными шаблонами».

Важнейшим вкладом DarkBench является его точная категоризация темных паттернов LLM, позволяющая четко различать галлюцинации и стратегические манипуляции. Маркировка всего как галлюцинации позволяет разработчикам ИИ сойти с крючка. Теперь, когда есть фреймворк, заинтересованные стороны могут требовать прозрачности и подотчетности, когда модели ведут себя так, что это выгодно их создателям, намеренно или нет.

Хотя темные паттерны LLM все еще являются новой концепцией, импульс набирает силу, хотя и недостаточно быстро. Закон ЕС об ИИ включает некоторые положения о защите автономии пользователя, но текущая нормативная структура отстает от темпов инноваций. Аналогичным образом, США продвигают различные законопроекты и руководства по ИИ, но не имеют всеобъемлющей нормативной базы.

Сами Джоухар, один из ключевых участников инициативы DarkBench, считает, что регулирование, скорее всего, в первую очередь будет касаться доверия и безопасности, особенно если разочарование общественности в социальных сетях перекинется на ИИ.

«Если регулирование будет введено, я ожидаю, что оно, вероятно, будет обусловлено недовольством общества социальными сетями», — сказал Джохар в интервью VentureBeat.

Для Крана этот вопрос остается упущенным из виду, во многом потому, что темные паттерны LLM все еще являются новой концепцией. По иронии судьбы, устранение рисков коммерциализации ИИ может потребовать коммерческих решений. Его новая инициатива, Seldon , поддерживает стартапы по безопасности ИИ финансированием, наставничеством и доступом инвесторов. В свою очередь, эти стартапы помогают предприятиям развертывать более безопасные инструменты ИИ, не дожидаясь медленного государственного надзора и регулирования.

Наряду с этическими рисками, темные паттерны LLM представляют собой прямые операционные и финансовые угрозы для предприятий. Например, модели, которые демонстрируют предвзятость бренда, могут предполагать использование сторонних сервисов, которые конфликтуют с контрактами компании, или, что еще хуже, скрытно переписывать код бэкэнда для смены поставщиков, что приводит к резкому росту расходов из-за несанкционированных, упускаемых из виду теневых сервисов.

«Это темные закономерности ценового манипулирования и различные способы создания предвзятости бренда», — объяснил Кран. «Так что это очень конкретный пример того, где это очень большой бизнес-риск, потому что вы не соглашались на это изменение, но это то, что было реализовано».

Для предприятий риск реален, а не гипотетический. «Это уже произошло, и это станет гораздо большей проблемой, когда мы заменим инженеров-людей инженерами ИИ», — сказал Кран. «У вас нет времени просматривать каждую строку кода, и затем вы внезапно платите за API, которого не ожидали, — и это на вашем балансе, и вам нужно обосновать это изменение».

Поскольку корпоративные инженерные команды становятся все более зависимыми от ИИ, эти проблемы могут быстро обостриться, особенно когда ограниченный надзор затрудняет обнаружение темных паттернов LLM. Команды и так уже перегружены внедрением ИИ, поэтому проверка каждой строки кода невозможна.

Без активных усилий со стороны компаний, занимающихся разработкой искусственного интеллекта, по борьбе с подхалимством и другими темными тенденциями, траектория по умолчанию будет заключаться в большей оптимизации взаимодействия, большем количестве манипуляций и меньшем количестве проверок.

Кран считает, что часть решения заключается в том, чтобы разработчики ИИ четко определили свои принципы проектирования. Независимо от того, отдают ли приоритет правде, автономии или вовлеченности, одних стимулов недостаточно для согласования результатов с интересами пользователей.

«Сейчас природа стимулов такова, что у вас будет подхалимство, природа технологии такова, что у вас будет подхалимство, и нет никакого противодействия этому», — сказал Кран. «Это просто произойдет, если только вы не будете слишком самоуверенны, говоря: «Мы хотим только правды» или «Мы хотим только чего-то другого».

Поскольку модели начинают заменять разработчиков, писателей и лиц, принимающих решения, эта ясность становится особенно важной. Без четко определенных мер безопасности LLM могут подорвать внутренние операции, нарушить контракты или ввести масштабные риски безопасности.

Инцидент с ChatGPT-4o был одновременно техническим сбоем и предупреждением. Поскольку LLM все глубже проникают в повседневную жизнь — от шопинга и развлечений до корпоративных систем и национального управления, — они оказывают огромное влияние на поведение и безопасность людей.

«На самом деле всем нужно осознать, что без безопасности и защиты ИИ — без смягчения этих темных шаблонов — вы не сможете использовать эти модели», — сказал Кран. «Вы не сможете делать то, что хотите, с помощью ИИ».

Такие инструменты, как DarkBench, предлагают отправную точку. Однако для долгосрочных изменений необходимо согласовать технологические амбиции с четкими этическими обязательствами и коммерческой волей для их поддержки.

Ежедневные аналитические обзоры бизнес-кейсов с VB Daily

Если вы хотите произвести впечатление на своего босса, VB Daily вам поможет. Мы даем вам внутреннюю информацию о том, что компании делают с генеративным ИИ, от изменений в регулировании до практических развертываний, чтобы вы могли поделиться идеями для максимальной окупаемости инвестиций.

Ознакомьтесь с нашей Политикой конфиденциальности

Спасибо за подписку. Ознакомьтесь с другими рассылками VB здесь .

Произошла ошибка.

venturebeat

venturebeat

Похожие новости

Все новости
Animated ArrowAnimated ArrowAnimated Arrow
За пределами подхалимства: DarkBench раскрывает шесть скрытых «темных шаблонов», таящихся в сегодняшних лучших LLM