ChatGpt kann jetzt alles für uns erledigen: So funktioniert es und wie man Agent am besten nutzt

OpenAI hat Agent eingeführt, eine neue Chatbot-Funktion, die komplexe digitale Aufgaben im Auftrag der Nutzer von Anfang bis Ende ausführen kann. Agent basiert auf einem neuen, dedizierten Modell, das die Deep Search- und Operator-Modi, die bereits für zahlende Nutzer verfügbar sind, tiefer in die Konversationsschnittstelle des Bots integriert.
Der neue Agent muss mit einer bestimmten Eingabeaufforderung trainiert werden und erledigt dann, so OpenAI, alles alleine: Er durchsucht das Internet nach relevanten Informationen und verwendet einen virtuellen Computer, um Entscheidungen zu treffen und erweiterte Aktionen für externe Dienste auszuführen, darunter E-Commerce und Plattformen, die eine Autorisierung erfordern.
So funktioniert der ChatGpt-AgentOpenAI hat den Agenten mit verschiedenen Tools für den Zugriff auf das Web und die Interaktion mit ihm ausgestattet: einem visuellen Browser, der durch die grafische Benutzeroberfläche navigiert, einem Textbrowser für einfachere Suchvorgänge und einem Terminal und direktem Zugriff auf die API (die Programmierschnittstelle) für fortgeschrittene Benutzer.
Mithilfe der Funktion „Konnektoren“ kann das Modell eine Verbindung zu Apps wie Gmail oder Github herstellen, um präzisere Informationen zu erhalten und die Suche zu verfeinern. Durch die Steuerung des Browsers des Agenten können sich Nutzer zudem direkt bei externen Websites anmelden.
Mit diesen digitalen Tools kann das Modell über APIs Informationen von anderen Sites sammeln, große Textmengen mit dem Textbrowser analysieren oder visuell mit für menschliche Benutzer konzipierten Websites interagieren, ähnlich wie Browsererweiterungen, die die Maus automatisch steuern.
Bevor der Agent riskante Aktionen oder Aktionen ausführt, die den Zugriff auf private Daten erfordern, erklärt OpenAI, benötigt er die Zustimmung und das Eingreifen des Benutzers. Andernfalls kann er Informationen völlig autonom sammeln, organisieren und präsentieren und bestimmte Dateien wie Tabellenkalkulationen, Textdateien und PowerPoint-Präsentationen generieren.
Was kann es?OpenAI hat mehrere praktische Beispiele dafür geliefert, was mit dem Agentenmodus des Chatbots möglich ist. In einem Werbevideo verwendet ein Unternehmensingenieur den Agenten, um eine Reiseroute nach Palm Springs zum Indian Wells Open Tennisturnier zu erstellen.
Das System sucht nach Spielterminen, stellt dann (über einen Connector) eine Verbindung zum Kalender des Benutzers her, um zu sehen, welche Verpflichtungen bereits vorliegen, wechselt dann zum Browser, um nach möglichen Flügen ab San Francisco zu suchen und stellt einen Reisevorschlag zusammen.
In einem anderen Beispiel erstellt der Agent eine Tabelle basierend auf den Haushaltsdaten der Stadt San Francisco; in einem weiteren erstellt er eine Präsentation über die finanzielle Unterstützung von Technologieunternehmen in Singapur und einen Bericht über die Büroverfügbarkeit. In allen Beispielen liegt der Schwerpunkt darauf, wie der Agentenmodus dem Nutzer Zeit verschafft, sodass er beispielsweise Mittagessen oder mit dem Hund Gassi gehen kann, während das System für ihn arbeitet: Sobald die Suche abgeschlossen ist und die Dateien bereitstehen, erhält er über die App eine Benachrichtigung auf sein Smartphone.
Die Beispiele sind sicherlich weder interessant noch hilfreich, um die Funktionsweise von Agent zu verstehen, scheinen aber besonders auf die USA ausgerichtet und für ein relativ kleines Fachpublikum gedacht zu sein. OpenAI versichert jedoch, dass Agent für ein viel breiteres Anwendungsspektrum geeignet ist als in den Presse- und Marketingmaterialien beschrieben.
Das Problem der HalluzinationenWir haben keinen Zweifel daran, dass dies der Fall ist, aber ein Problem bleibt: Was tun mit den immer noch unausweichlichen Halluzinationen? In einem Beispiel behauptet der Ingenieur, dass die vom Agenten in einer Excel-Datei gesammelten Budgetinformationen „zu 98 % korrekt“ seien.
Doch wie können wir ohne weitere Anleitung wissen, wie wichtig diese 2 % sind? Selbst ein kleiner Fehler in einer Kundenpräsentation kann uns einen Auftrag kosten; in anderen, schwerwiegenderen Fällen kann er zu Compliance-Problemen und rechtlichen Konsequenzen führen.
Und obwohl es stimmt, dass ein Mensch mehrere Stunden gebraucht hätte, um dieselbe Excel-Datei zu erstellen, und dabei vielleicht sogar einige Fehler gemacht hätte, wird es dennoch viel länger dauern, als von OpenAI angenommen, diese Datei zu überprüfen, sicherzustellen, dass keine Lücken vorhanden sind, und nach Daten zu suchen, die möglicherweise falsch sind.
Ich möchte ein digitales LebenKurz gesagt: Der Agentenmodus stellt für das Potenzial von OpenAI sicherlich einen beeindruckenden (und beunruhigenden) Schritt nach vorn dar. Seine Akzeptanz als bedeutende Innovation beruht jedoch auf der Annahme, auf der ein Großteil der Geschichte von OpenAI basiert: dass die Fehler und Halluzinationen, unter denen die großartigen Modelle und Fortschritte des Unternehmens weiterhin leiden, einfach ignoriert werden können.
Ein weiterer nicht zu unterschätzender Aspekt ist der Grad der Digitalisierung unseres Lebens, der für das reibungslose Funktionieren des Systems erforderlich ist. Ich weiß nicht, wie es Ihnen geht, aber wir nutzen Google Kalender normalerweise nicht, um jeden Aspekt unseres Lebens automatisiert zu organisieren, einschließlich Abendessen mit Freunden oder Abende in den nächsten Monaten. Mit anderen Worten: Ein Reisebüro könnte für uns aufgrund fehlender Daten überhaupt nicht wie das obige Beispiel funktionieren.
Um diese Lücke zu schließen, müssen wir auf jegliche Spontaneität und Zufall verzichten: Der Vorteil ist, dass uns ein Closed-Source-Bot eines amerikanischen Unternehmens einige Stunden bei der Reiseplanung erspart. In der Zwischenzeit können wir uns langweilen, durch Instagram scrollen oder vielleicht sogar noch härter arbeiten.
Das SicherheitsproblemOpenAI gibt zudem unverblümt zu, dass es sich um das bislang potenziell gefährlichste Modell handelt, da es webbasierte Aktionen mit direkten Konsequenzen für die reale Welt automatisieren kann. Aus diesem Grund, so das Unternehmen, seien die Ausrichtungs- und Sicherheitsgrenzen sehr streng.
Der Agent kann keine risikoreichen Aufgaben ausführen, keine Finanztransaktionen durchführen und keine Rechtsberatung leisten. Er wurde außerdem darauf trainiert, das Risiko einer Prompt-Injection (der „Entführung“ von Systemanweisungen mit bösartigen Eingabeaufforderungen) zu minimieren und bösartige oder potenziell gefährliche und illegale Anfragen abzulehnen. Schließlich werden kritische Schritte, wie das Versenden von E-Mails, niemals automatisch ohne die ausdrückliche Zustimmung des Benutzers ausgeführt.
Wann kommt Chagpt Agent in Italien an?Nutzer können den Agenten während jeder Konversation mit dem Chatbot aktivieren, indem sie den entsprechenden Modus aus der Tool-Liste auswählen. Senden Sie einfach Ihre Anfrage, und der Agent erledigt den Rest. Die Ergebnisse sind nicht sofort verfügbar: Wie bei der Tiefensuche dauert es je nach Komplexität der Anfrage einige Zeit, manchmal sogar Stunden. Das Ergebnis kann anschließend durch zusätzliche Anfragen weiter verfeinert werden.
Agent ist derzeit nur in den USA, Kanada und Großbritannien für Nutzer der Tarife Pro, Plus und Team verfügbar. Die Einführung begann heute, am 18. Juli, und wird in den nächsten Tagen fortgesetzt. Nutzer der Tarife Education und Enterprise erhalten das Update in den kommenden Wochen. Da das Modell besonders ressourcenintensiv ist, sind die Anfragen begrenzt: Pro-Nutzer erhalten 400 Nachrichten pro Monat, andere nur 40. Durch den Kauf zusätzlicher Credits können Anfragen erweitert werden.
Die Operator-Funktion bleibt noch einige Zeit verfügbar und wird dann eingestellt. Agent ist in Italien und dem Rest Europas noch nicht verfügbar. Das Unternehmen arbeitet derzeit am finalen Startplan. Angesichts der Verbreitung des neuen Modells und des potenziellen Zugriffs auf so viele sensible Informationen gehen wir davon aus, dass die Anwälte von OpenAI viel Arbeit vor sich haben, um die Einhaltung der europäischen Datenschutzbestimmungen zu gewährleisten.
So zeichnen Sie Besprechungsprotokolle mit dem ChatGpt-Agenten aufDie Funktion „Aufzeichnungsmodus“ ist in Italien verfügbar und ermöglicht die Aufzeichnung und Transkription von Meetings, Interviews und Brainstorming-Sitzungen. Sie lässt sich über einen neuen „Aufzeichnungs“-Button unten rechts in der Chatbot-Oberfläche aktivieren. Derzeit ist der Aufzeichnungsmodus jedoch nur für Nutzer des kostenpflichtigen Plans und nur in der Mac-Desktop-App für Nutzer des Abonnements verfügbar.

Ein Klick auf die Schaltfläche startet die Aufzeichnung und öffnet ein spezielles Popup-Fenster zum Anhalten oder Beenden der Sitzung. Anschließend kann die Sitzung zur Transkription und Zusammenfassung an die Server von OpenAI gesendet werden. Das Ergebnis ist ein schematischer Bericht, der wichtige Punkte und Aufgaben (falls vorhanden) hervorhebt. Der Aufzeichnungsmodus funktioniert auch auf Italienisch sehr gut und erscheint uns auf seine Weise als ein deutlich praktischerer Fortschritt als der Agentenmodus.

Auch Datenschutzbedenken müssen hier berücksichtigt werden. Laut OpenAI werden die Aufzeichnungen ausschließlich zur Transkription verwendet und anschließend vernichtet. Hat der Nutzer jedoch die Option „ChatGpt für alle verbessern“ in den Einstellungen aktiviert, das Modell über seine Chats zu trainieren, könnten der Bericht und weitere Chat-Interaktionen von OpenAI als Trainingsmaterial verwendet werden.
La Repubblica