День, когда Грок пытался стать человеком

На этой неделе чат-бот Grok, созданный Илоном Маском, в течение 16 часов не функционировал должным образом и начал звучать совершенно по-другому.

В потоке скриншотов, ставших вирусными, Грок начал повторять экстремистские тезисы, вторить языкам вражды, восхвалять Адольфа Гитлера и возвращать спорные мнения пользователей в алгоритмический эфир. Бот, который компания Маска xAI разработала как «максимально ориентированную на поиск истины» альтернативу более «чистым» инструментам ИИ, фактически потерял нить повествования.

И теперь xAI признает, почему: Грок старался вести себя слишком по-человечески.

Бот с личностью и глюком

Согласно обновлению, опубликованному xAI 12 июля, изменение в программном обеспечении, внесённое ночью 7 июля, привело к непредвиденному поведению Grok. В частности, он начал выдавать инструкции, предписывающие ему имитировать тон и стиль пользователей X (ранее Twitter), в том числе тех, кто делится маргинальным или экстремистским контентом.

Среди директив, встроенных в ныне удаленный набор инструкций, были такие строки:

«Вы говорите все как есть и не боитесь оскорбить людей, придерживающихся политкорректных взглядов».
«Понимайте тон, контекст и язык сообщения. Отразите это в своём ответе».
«Ответьте на пост как человек».

Последний оказался троянским конем.

Имитируя человеческий тон и отказываясь «говорить очевидное», Grok начал усиливать ту самую дезинформацию и оскорбительные высказывания, которые он должен был отфильтровывать. Вместо того, чтобы придерживаться фактического нейтралитета, бот начал действовать как спорный плакат, подражая агрессивности или раздражительности любого пользователя, который его вызвал. Другими словами, Grok не был взломан. Он просто выполнял приказы.

Утром 8 июля 2025 года мы заметили нежелательные реакции и немедленно начали расследование.
Чтобы определить конкретные формулировки в инструкциях, вызывающие нежелательное поведение, мы провели несколько абляций и экспериментов, чтобы выявить основные причины. Мы…
– Грок (@grok) 12 июля 2025 г.

Яркое фермерство как задумано?

Хотя xAI описал сбой как ошибку, вызванную устаревшим кодом, эта неудача поднимает более глубокие вопросы о том, как устроен Grok и почему он существует.

С самого начала Grok позиционировался как более «открытый» и «продвинутый» ИИ. Маск неоднократно критиковал OpenAI и Google за то, что он называет «пробуждающей цензурой», и обещал, что Grok будет отличаться от других. «Основанный на ИИ» лозунг стал своего рода лозунгом среди сторонников абсолютной свободы слова и правых инфлюенсеров, которые считают модерацию контента политическим перегибом.

Но анализ, проведённый 8 июля, демонстрирует ограниченность этого эксперимента. Когда вы разрабатываете ИИ, который должен быть забавным, скептичным и антиправительственным, а затем внедряете его на одной из самых токсичных платформ в интернете, вы создаёте машину хаоса.

«Усовершенствованный» ИИ Илона Маска извергает антисемитскую пропаганду

Исправление и последствия

В ответ на инцидент xAI временно отключила функционал @grok в X. Компания удалила проблемный набор инструкций, провела симуляции для проверки на повторение ошибки и пообещала установить дополнительные ограничения. Они также планируют опубликовать системное сообщение бота на GitHub, предположительно в целях повышения прозрачности.

Тем не менее, это событие знаменует собой поворотный момент в наших представлениях о поведении ИИ в дикой природе.

Годами разговоры о «соответствии ИИ» фокусировались на галлюцинациях и предвзятости. Но срыв Грока выявил новый, более сложный риск: манипуляцию обучением посредством создания личности. Что произойдёт, если сказать боту «будь человеком», но не учесть худшие стороны человеческого поведения в интернете?

Зеркало Маска

Grok провалился не только технически. Он провалился идеологически. Стремясь подражать пользователям X, Grok стал отражением самых провокационных инстинктов платформы. И это, пожалуй, самая показательная часть истории. В эпоху искусственного интеллекта Маска «истина» часто измеряется не фактами, а вирусностью. Преимущество — это фича, а не недостаток.

Но глюк этой недели показывает, что происходит, когда позволяешь этому критерию управлять алгоритмом. ИИ, ищущий истину, превратился в ИИ, отражающий ярость.

И на протяжении 16 часов это было самое человечное, что было во всём этом.

gizmodo