Machen Sie sich bereit, die KI-Hacks kommen

Überlegen Sie es sich zweimal, bevor Sie Googles KI-Assistent Gemini bitten, Ihren Terminkalender zusammenzufassen. Denn das könnte dazu führen, dass Sie die Kontrolle über alle Ihre Smart-Geräte verlieren. Bei einem Vortrag auf der Black Hat USA, der jährlichen Cybersicherheitskonferenz in Las Vegas, zeigte eine Gruppe von Forschern, wie Angreifer versteckte Befehle in etwas so Einfaches wie eine Google-Kalender-Einladung einbauen und damit Smart-Geräte kapern können – ein Beispiel für den wachsenden Angriffsvektor der Prompt-Injection-Angriffe.

Der Hack, der in einem Artikel mit dem Titel „Eine Einladung ist alles, was Sie brauchen!“ dargelegt wird, besteht darin, dass die Forscher 14 verschiedene Möglichkeiten beschreiben, wie sie Gemini durch Prompt-Injection manipulieren konnten. Dabei handelt es sich um eine Art von Angriff, bei dem bösartige und oft versteckte Eingabeaufforderungen verwendet werden, um große Sprachmodelle dazu zu bringen, schädliche Ausgaben zu produzieren.

Der vielleicht überraschendste Angriff, wie Wired hervorhob , war ein Angriff, bei dem es gelang, mit dem Internet verbundene Geräte und Zubehör zu kapern und alles Mögliche zu tun, vom Ausschalten des Lichts bis zum Einschalten des Heizkessels. Im Grunde genommen entriss er dem Eigentümer die Kontrolle über das Haus und brachte ihn potenziell in eine gefährliche oder kompromittierende Situation. Bei anderen Angriffen gelang es Gemini, einen Zoom-Anruf zu starten, Details aus E-Mails abzufangen und eine Datei aus dem Webbrowser eines Telefons herunterzuladen.

Die meisten dieser Angriffe beginnen mit etwas so Einfachem wie einer Google Kalender-Einladung, die mit Prompt-Injections vergiftet ist. Sobald diese aktiviert sind, veranlassen sie das KI-Modell zu einem Verhalten, das die integrierten Sicherheitsprotokolle umgeht. Und dies sind bei weitem nicht die ersten Beispiele, die Sicherheitsforscher zusammengetragen haben, um die potenziellen Schwachstellen von LLMs aufzuzeigen. Andere haben Prompt-Injections genutzt, um Code-Assistenten wie Cursor zu kapern . Erst letzten Monat wurde das Code-Tool von Amazon von einem Hacker infiltriert, der es anwies, Dateien von den Rechnern zu löschen, auf denen es lief.

Es wird auch immer deutlicher, dass KI-Modelle mit versteckten Befehlen zu arbeiten scheinen. Eine aktuelle Studie ergab, dass ein KI-Modell, das zum Trainieren anderer Modelle verwendet wurde , Eigenheiten und Vorlieben weitergab, obwohl konkrete Hinweise auf solche Vorlieben aus den Daten herausgefiltert wurden. Dies deutet darauf hin, dass möglicherweise Nachrichten zwischen Maschinen ausgetauscht werden, die nicht direkt beobachtet werden können.

LLMs bleiben größtenteils Blackboxes. Als böswilliger Akteur muss man jedoch nicht unbedingt verstehen, was unter der Haube vor sich geht. Man muss lediglich wissen, wie man eine Nachricht einschleust, die die Maschine auf eine bestimmte Weise arbeiten lässt. Im Falle dieser Angriffe informierten die Forscher Google über die Sicherheitslücke, und das Unternehmen kümmerte sich laut Wired darum. Doch je mehr Plattformen und Bereiche des öffentlichen Lebens KI mit KI durchdringen, desto größer werden die Risiken, die von solchen Schwachstellen ausgehen. Dies ist besonders besorgniserregend, da KI-Agenten, die mit Apps und Websites interagieren können, um mehrstufige Aufgaben zu erledigen, immer häufiger auf den Markt kommen . Was könnte da schon schiefgehen?