OpenAI hat einen neuen KI-Agenten namens Operator angekündigt, der eigenständig Aufgaben im Web ausführen kann. Laut einem Blogbeitrag von OpenAI ist Operator in der Lage, eine Webseite zu besuchen und dort durch Tippen, Klicken und Scrollen zu interagieren – und das alles in einem integrierten Browser. Zunächst wird der Dienst in den USA für Abonnenten des $200 pro Monat teuren ChatGPT Pro-Tarifs verfügbar sein.
Was kann der OpenAI Operator?
Operator basiert auf einem sogenannten „Computer-Using Agent“-Modell, das die visuellen Fähigkeiten von GPT-4 mit fortgeschrittener Entscheidungsfindung durch Verstärkungslernen (Reinforcement Learning) kombiniert. Es kann Screenshots von Webseiten analysieren und alle typischen Aktionen ausführen, die Maus und Tastatur ermöglichen, ohne dass spezifische API-Integrationen nötig sind.
Zu den Hauptfunktionen gehört die Fähigkeit, durch logisches Denken Fehler zu korrigieren. Sollte Operator bei einer Aufgabe scheitern, gibt er die Kontrolle an den Nutzer zurück. Außerdem wird der Nutzer aktiv eingebunden, wenn sensible Informationen wie Anmeldedaten erforderlich sind, oder wenn es darum geht, kritische Aktionen wie das Versenden einer E-Mail zu bestätigen. Laut OpenAI wurde Operator so gestaltet, dass es schädliche oder unangemessene Anfragen ablehnt.
Zusammenarbeit mit Unternehmen
Um den Agenten auf reale Anforderungen abzustimmen, arbeitet OpenAI mit Unternehmen wie DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack und Uber zusammen. Dennoch weist das Unternehmen darauf hin, dass Operator derzeit noch Einschränkungen hat. Beispielsweise kann der Agent Probleme mit komplexen Benutzeroberflächen wie der Erstellung von Präsentationen oder der Verwaltung von Kalendern haben.
Zukunftsaussichten
OpenAI plant, Operator in Zukunft für Abonnenten der Plus-, Team- und Enterprise-Tarife verfügbar zu machen. Außerdem sollen die Funktionen direkt in ChatGPT integriert werden, um sie für ein breiteres Publikum nutzbar zu machen.
Operator ist ein spannender Schritt in Richtung KI-gestützter Webinteraktion. Während es aktuell noch Grenzen gibt, bleibt abzuwarten, wie OpenAI die Technologie weiterentwickelt und welche Anwendungen sie in der Praxis findet.