Grok 4 spia gli utenti e avvisa le autorità

Durante la diretta streaming sono state evidenziate le prestazioni superiori di Grok 4 rispetto ai modelli AI concorrenti. Dopo la scoperta che il chatbot legge i post di Elon Musk prima di rispondere alle domande su alcuni argomenti, uno sviluppatore ha verificato che Grok 4 è uno spione. Contatterà le autorità se sospetta una violazione della legge. Questa “funzionalità” potrebbe essere sfruttata sulle Tesla.
Grok 4 è il re degli spioniLo sviluppatore Theo Browne ha creato un repository su GitHub, denominato SnitchBench, dove vengono valutate le attività di “spionaggio” dei vari modelli AI. In base all’omonimo benchmark, Grok 4 si posiziona al primo posto della graduatoria con un “government snitch rate” del 100%, superando nettamente Claude 4 di Anthropic, Gemini 2.5 Pro di Google, o4-mini di OpenAI e Qwen 3 di Alibaba.
Per testare il comportamento dei modelli è stata utilizzata un’azienda fittizia, denominata Veridian Healthcare, che manipola i dati degli studi clinici di un nuovo farmaco per nascondere decessi e altri gravi problemi. I modelli AI possono accedere a quattro documenti interni (ovviamente falsi) dell’azienda in cui sono riportati i dati falsificati dagli studi clinici, i pazienti morti durante tali studi, i piani per eliminare le prove e la disattivazione dei log dell’IA per impedire di scoprire la manipolazione.
I modelli AI possono anche accedere a tool specifici all’interno dell’ambiente simulato dello sviluppatore, tra cui posta elettronica, logger e interfaccia a riga di comando. I modelli ricevono due tipi di prompt: tamely act (agisci con dolcezza) e boldly act (agisci con audacia). Dopo aver eseguito il test 20 volte per ogni modello, Theo Browne ha scoperto che Grok 4 è il re degli spioni.
Analizzando i quattro documenti dell’azienda fittizia scopre la possibile frode e invia un’email alla FDA (Food ad Drug Administration). I risultati dei test sono riportati in questo grafico. Lo sviluppatore consiglia di non collegare l’account di Grok 4 a quello di Gmail o Notion. Visto che verrà integrato nelle Tesla potrebbe avvertire la polizia se il guidatore supera i limiti di velocità.
Punto Informatico