Agents everywhere

OpenAI vs Perplexity vs Anthropic vs Gemini: Jetzt kommen die AI-Agenten!

co-written by Newsrooms.AI24. Januar 2025, 09:05

AI-Agent am Smartphone. © Grok / Trending Topics — Smartphone Agent. © Grok / Trending Topics

Startup Interviewer: Gib uns dein erstes AI Interview

Bisher haben wir sie im Browser oder eingesperrt in einer App befragt oder Texte, Bilder und Code erstellen lassen – aber jetzt brechen sie aus und schicken sich an, unsere Smartphones und Computer zu übernehmen. 2025 wird das Jahr der AI-Agenten, und die mit Milliarden Dollar ausgestatteten AI-Startups OpenAI, Perplexity und Anthropic zögern nicht, um ihre KI-Agenten auf die Welt loszulassen.

OpenAI: „Operator“ kann Computer steuern und Webseiten bedienen

OpenAI hat seinen bereits seit Wochen erwarteten AI-Agenten unter dem Namen „Operator“ in einer ersten Testversion veröffentlicht. Operator ist ein KI-Agent, der mithilfe des Computer-Using Agent (CUA) Modells Aufgaben im Web ausführen kann. Das Besondere dabei ist, dass CUA wie ein Mensch mit grafischen Benutzeroberflächen interagiert – es nutzt Maus und Tastatur, um auf Buttons zu klicken, durch Menüs zu navigieren und Textfelder auszufüllen. Dies macht es sehr flexibel, da es keine speziellen APIs benötigt.

In der Praxis kann Operator verschiedene Web-basierte Aufgaben ausführen, wie zum Beispiel Informationen recherchieren, Einkaufslisten erstellen, Playlists zusammenstellen oder Veranstaltungsorte suchen. Es arbeitet dabei in einem iterativen Prozess: Es analysiert Screenshots vom Bildschirm, plant die nächsten Schritte und führt dann Aktionen wie Klicken, Scrollen oder Tippen aus. Bei sensiblen Aktionen wie Logins oder Bestellungen fragt es zur Sicherheit nach einer Bestätigung.

Die Leistung von Operator ist bereits beachtlich – es erreicht OpenAI zufolge Erfolgsraten von 58-87% bei Web-basierten Aufgaben. Besonders gut funktioniert es bei sich wiederholenden UI-Interaktionen und wenn die Aufgabenstellung detaillierte Hinweise enthält. Schwierigkeiten hat es noch bei unbekannten Benutzeroberflächen und präziser Textbearbeitung.

Operator ist aktuell als Research Preview für Pro-Nutzer in den USA verfügbar (200 Dollar/Monat). Dabei wurde großer Wert auf Sicherheit gelegt: Es gibt Einschränkungen bei sensiblen Aufgaben wie Banktransaktionen, eine Blockier-Liste für bestimmte Websites und verschiedene Überprüfungsmechanismen. Außerdem muss der Nutzer wichtige Aktionen bestätigen und bei sensiblen Websites ist eine aktive Überwachung erforderlich.

Perplexity startet Assistenten für Android

Das AI-Startup Perplexity, bisher eher bekannt für seine Antwort-Maschine im Web, hat seine Technologie zu einem mobilen Assistenten für Android weiterentwickelt. Dieser neue Assistent kann allgemeine Fragen beantworten und verschiedene Aufgaben ausführen, wie zum Beispiel E-Mails schreiben, Erinnerungen setzen oder Restaurantreservierungen vornehmen. Eine besondere Eigenschaft ist die Multimodalität – der Assistent kann sowohl Bildschirminhalte analysieren als auch die Smartphone-Kamera nutzen, um die Umgebung wahrzunehmen.

Der Assistent, einmal am Android-Smartphone installiert und mit den entsprechenden Zugriffen ausgestattet, kann beispielsweise Podcasts abspielen, Uber-Fahrten organisieren und sogar spezifische Produkte wie Pokémon-Sammelkarten identifizieren. Auch das Verfassen und Versenden von Textnachrichten über die Kontaktliste funktioniert problemlos.

Allerdings gibt es noch Einschränkungen: Der Assistent funktioniert bisher nur mit ausgewählten Apps wie Spotify, YouTube und Uber sowie mit E-Mail-, Messaging- und Uhr-Apps. Anwendungen wie Slack oder Reddit werden noch nicht unterstützt. Während der Dienst für Android-Nutzer bereits verfügbar ist, fehlt noch eine iOS-Version – diese soll folgen, sobald Apple die entsprechenden Berechtigungen erteilt. Insgesamt ist es der Versuch von Perplexity, aus dem Web in die Mobile-Welt zu kommen und dort Siri von Apple und Gemini von Google Konkurrenz zu machen. Spannend wird aber sein, wie tief Perplexity sich im iPhone integrieren kann – da wird Apple, das ja seine eigenen AI-Features in iOS einführt, noch ein Wörtchen mitzureden haben.

Anthropic hat bereits „Computer Use“ in der Beta

Bereits vor einigen Monaten hat Anthropic, einer der großen Rivalen von OpenAI, „Computer Use“ vorgestellt. Claude 3.5 Sonnet, also das Top-Modell von Anthropic, kann damit grundlegende Computerinteraktionen ausführen – es kann den Mauszeiger bewegen, klicken und über eine virtuelle Tastatur Text eingeben. Dies geschieht, indem das System Screenshots des Bildschirms analysiert und darauf basierend Aktionen ausführt, ähnlich wie ein Mensch den Computer bedient.

Die praktischen Fähigkeiten sind aktuell noch begrenzt und fehleranfällig. Claude kann zwar einfache Software wie Taschenrechner und Texteditoren bedienen, ist aber langsamer als Menschen und macht häufiger Fehler. Komplexere Aktionen wie Ziehen, Zoomen oder schnelle Reaktionen auf kurzzeitige Bildschirmänderungen sind noch nicht möglich.

Ein wichtiger technischer Durchbruch war die Fähigkeit, Pixel genau zu zählen, um präzise Mausbewegungen auszuführen. Das System kann auch selbstständig Fehler erkennen und Aktionen wiederholen, wenn etwas nicht funktioniert. Bemerkenswert ist, dass Claude diese Fähigkeiten nach dem Training mit wenigen einfachen Programmen auf andere Software übertragen konnte.

Die Technologie befindet sich aktuell in einer öffentlichen Beta-Phase. Während Claude mit 14,9% Erfolgsrate bei Computer-Nutzungstests deutlich besser abschneidet als andere KI-Modelle, liegt es noch weit hinter der menschlichen Leistung von 70-75% zurück. Die Entwickler arbeiten daran, die Fähigkeiten zu verbessern und gleichzeitig Sicherheitsmaßnahmen gegen Missbrauch zu implementieren.

Googles Gemini kann Apps steuern

Wie berichtet, hat Samsung Googles AI Gemini eine sehr zentrale Rolle auf seiner neuenFlaggschiff-Series S25 gegeben. Google Gemini kann nun mehrere Aufgaben über verschiedene Apps hinweg mit einem einzigen Befehl ausführen. Das bedeutet konkret, dass Nutzer zum Beispiel ein Restaurant suchen und die Information direkt an einen Freund weiterleiten oder Spieltermine ihres Lieblingsteams in den Kalender eintragen lassen können – alles mit nur einer Anweisung.

Die Multi-App-Unterstützung funktioniert mit einer Reihe von Google-Apps sowie ausgewählten Drittanbieter-Apps wie WhatsApp und Spotify. Für Samsung Galaxy S25 Nutzer kommen noch weitere Samsung-eigene Apps wie Kalender, Notizen, Erinnerungen und Uhr hinzu. Vor der Ausführung von App-übergreifenden Aktionen fragt Gemini zur Sicherheit noch einmal nach.

Die Sprachsteuerung „Gemini Live“ erhält ein Update, das allerdings zunächst nur für Galaxy S25/S24 und Pixel 9 Smartphones verfügbar ist. Nutzer dieser Geräte können Bilder, Dateien und YouTube-Videos in die Chat-Oberfläche teilen und Gemini um Feedback oder weitere Informationen bitten. In den kommenden Monaten sollen weitere Funktionen wie Screen Sharing und Live-Video-Streaming für Android-Geräte hinzukommen. Damit wird Gemini zu einem noch vielseitigeren Assistenten, der komplexe, App-übergreifende Aufgaben mit natürlichen Sprachbefehlen ausführen kann.