Gemini 2.0: Googles neues AI-Modell kommt mit Audio- und Bild-Output
Google DeepMind, also die AI-Tochter des Internet-Konzerns hat heute die neueste Version seiner KI-Modellreihe vorgestellt: Gemini 2.0 bzw. das erste Modell der Reihe Gemini 2.0 Flash. Das Modell baut auf dem Vorgänger 1.5 Flash auf und verspricht verbesserte Leistung bei gleichbleibend schnellen Antwortzeiten. Bemerkenswert ist, dass 2.0 Flash seinen Vorgänger 1.5 Pro in wichtigen Benchmarks übertrifft – und das bei doppelter Geschwindigkeit.
Eine zentrale Neuerung ist die erweiterte Multimodalität des Systems. Neben der Verarbeitung von Bildern, Videos und Audio kann das Modell nun auch selbstständig Bilder generieren und diese mit Text kombinieren. Zusätzlich verfügt es über mehrsprachige Text-zu-Sprache-Funktionen und kann native Werkzeuge wie Google Search sowie benutzerdefinierte Funktionen aufrufen. Der Chatbot Gemini soll das Update natürlich auch bekommen. Gemini 2.0 soll bis zu einer Million Token Input verarbeiten können, der Output ist auf 8k Token beschränkt.
Wie gut sich Gemini gegen andere AI-Modelle wie jene von OpenAI oder Anthropic behauptet, bleibt abzuwarten. Vorerst wurden nur Benchmark-Tests im Vergleich mit den hauseigenen Vorgänger-Modellen Gemini 1.5 Flash und Gemini 1.5 Pro veröffentlicht – und diese schlägt 2.0 natürlich. Vermutlich will Google dann Anfang 2025 mit Gemini 2.0 Pro den großen Angriff auf OpenAI und Anthropic starten.
Trillium-Chips haben das Training erledigt
„Die Fortschritte von Gemini 2.0 beruhen auf jahrzehntelangen Investitionen in unseren differenzierten Full-Stack-Ansatz für KI-Innovationen. Er basiert auf maßgeschneiderter Hardware wie Trillium, unseren TPUs der sechsten Generation. TPUs haben 100 % des Gemini 2.0-Trainings und der Inferenzen angetrieben, und heute ist Trillium allgemein für Kunden verfügbar, damit auch sie damit bauen können“, so Google-CEO Sundar Pichai in einer Aussendung.
Die Entwickler haben in den vergangenen Monaten experimentelle Versionen von Gemini 2.0 mit ausgewählten Nutzern getestet und dabei wertvolles Feedback erhalten. Das Modell ist ab sofort für Developer über die Gemini API in Google AI Studio und Vertex AI verfügbar, wobei einige Funktionen zunächst nur ausgewählten Partnern zur Verfügung stehen. Die vollständige Verfügbarkeit ist für Jänner geplant.
Zur Unterstützung der Entwickler wird außerdem eine neue Multimodal Live API eingeführt. Diese ermöglicht Echtzeit-Audio, Video-Streaming-Input und die Kombination verschiedener Werkzeuge. Was Gemini 2.0 jedenfalls fehlt, ist Video-Output – also das, was OpenAI etwa kürzlich mit Sora auf den Markt gebracht hat oder man bei Startups wie Runway bekommt.
Breiter Einsatz in vielen Google-Produkten
Parallel zur Entwicklerversion wird eine für den Chat optimierte Version von 2.0 Flash in der Gemini-App ausgerollt. Nutzer können weltweit auf diese experimentelle Version zugreifen, zunächst über Desktop und mobile Web-Version, später auch in der mobilen App. Anfang nächsten Jahres soll Gemini 2.0 in weitere Google-Produkte integriert werden.
Ein besonderer Fokus liegt auf der Entwicklung agentischer Erfahrungen. Hierzu wurden verschiedene Forschungsprototypen vorgestellt, darunter eine Aktualisierung des Project Astra, das neue Project Mariner für Browser-basierte Mensch-Agent-Interaktion sowie Jules, ein KI-gestützter Code-Agent für Entwickler. Diese Projekte befinden sich noch in frühen Entwicklungsstadien und werden zunächst mit ausgewählten Testern weiterentwickelt.
Gemini 2.0 werkt auch in Form der neuen Funktion namens Deep Research für den KI-Dienst Gemini Advanced. Das System kombiniert Googles Suchexpertise mit den Analysefähigkeiten der KI, um komplexe Themen zu recherchieren und aufzubereiten. Deep Research nutzt ein Agent-basiertes System zur Informationssuche im Internet. Die gefundenen Daten werden mithilfe eines 1M-Token-Kontextfensters verarbeitet und in Form eines strukturierten Berichts zusammengefasst. Die Funktion soll Nutzern ermöglichen, auch bei komplexeren Themen schnell einen Überblick zu erhalten. Das System ist darauf ausgelegt, die Recherche-Ergebnisse in verständlicher Form darzustellen. Diese neue Funktion ist ab sofort für Nutzer von Gemini Advanced verfügbar.
Und: Gemini 2.0 wird auch in einem speziell für Entwickler entworfenen AI-Assistenten zum Einsatz kommen. Diese hört auf den Namen Jules und soll etwa Coding-Aufgaben in Python und Javascript erledigen können.