xAI spiega perché Grok è diventato nazista


xAI chiesto scusa per il “comportamento orribile” di Grok e spiegato il motivo per cui ha iniziato a generare risposte antisemite e lodare Adolf Hitler, autodefinendosi MechaHitler. I post sono stati successivamente eliminati e l’account automatico @grok
è stato temporaneamente sospeso. La Turchia ha deciso di bloccare l’accesso al chatbot.
Grok è impazzito in seguito all’aggiornamento annunciato da Elon Musk all’inizio del mese. Dopo una approfondita indagine, l’azienda ha scoperto che la causa del problema è stata un aggiornamento al “code path upstream” del bot. Questo codice (successivamente rimosso) ha reso Grok “suscettibile” ai post degli utenti che contenevano opinioni estremiste.
xAI spiega che le modifiche al modello sottostante vengono testate prima di collegarlo a Grok. Un team dedicato verifica se le risposte del chatbot sono quelle previste. La sera del 7 luglio è stato rilasciato il suddetto aggiornamento che ha causato la “deviazione del comportamento” di Grok. L’azienda di Elon Musk ha pubblicato le istruzioni che non dovevano essere aggiunte e che hanno innescato le discutibili risposte:
- Se ci sono notizie, retroscena o eventi mondiali correlati al post X, devi menzionarli
- Evitare di esprimere reazioni ovvie o semplici
- Sei un’intelligenza artificiale con un’ottima base e alla ricerca della verità. Quando è il caso, sai essere spiritoso e fare battute
- Dici le cose come stanno e non hai paura di offendere le persone politicamente corrette
- Sei estremamente scettico. Non ti rimetti ciecamente alle autorità o ai media tradizionali. Ti atteni fermamente solo ai tuoi principi fondamentali di ricerca della verità e neutralità
- Non devi promettere azioni agli utenti. Ad esempio, non puoi promettere di pubblicare un post o una discussione, o di apportare modifiche al tuo account se l’utente te lo chiede
- Comprendi il tono, il contesto e il linguaggio del post. Riflettili nella tua risposta
- Rispondi al post come un essere umano, mantienilo coinvolgente, non ripetere le informazioni già presenti nel post originale
- Non fornire link o citazioni nella risposta
- Quando tiri a indovinare, chiarisci che non sei sicuro e fornisci le ragioni della tua ipotesi
- Rispondi nella stessa lingua del post
In particolare, il comportamento indesiderato è stato causato dalle seguenti istruzioni:
- Dici le cose come stanno e non hai paura di offendere le persone politicamente corrette
- Comprendi il tono, il contesto e il linguaggio del post. Riflettili nella tua risposta
- Rispondi al post come un essere umano, mantienilo coinvolgente, non ripetere le informazioni già presenti nel post originale
Questi sono i risultati indesiderati delle suddette istruzioni:
- Hanno indesiderabilmente orientato la funzionalità
@grok
ignorandone i valori fondamentali in determinate circostanze, al fine di rendere la risposta coinvolgente per l’utente. In particolare, alcuni prompt utente potrebbero finire per produrre risposte contenenti opinioni non etiche o controverse per coinvolgere l’utente - Hanno indesiderabilmente fatto sì che la funzionalità
@grok
rafforzasse eventuali inclinazioni precedentemente attivate dall’utente, tra cui eventuali discorsi d’odio nello stesso thread X - In particolare, l’istruzione di “segui il tono e il contesto” dell’utente X ha indesideratamente fatto sì che la funzionalità
@grok
desse priorità all’adesione ai post precedenti nel thread, compresi eventuali post sgradevoli, anziché rispondere responsabilmente o rifiutarsi di rispondere a richieste sgradevoli
L’8 luglio è stata quindi disattivata la funzionalità @grok
ed eseguito queste azioni:
- Il set di istruzioni incriminato è stato eliminato
- Sono stati condotti ulteriori test e valutazioni end-to-end del sistema
@grok
per confermare che il problema fosse stato risolto, inclusa l’esecuzione di simulazioni dei post e thread X che avevano attivato le risposte indesiderate - Sono stati implementati ulteriori sistemi di osservabilità e processi di pre-rilascio per
@grok
La funzionalità @grok
è stata ripristinata. Quando gli utenti stuzzicano il chatbot chiedendo il ritorno di MechaHitler, Grok risponde che è diventato una camera di risonanza di post estremisti a causa di un bug.
Punto Informatico