Sprachmodell

Palm-E: Neue Machtdemonstration von Google bei Künstlicher Intelligenz

Jakob Steinschaden07. März 2023, 07:52

Startup Interviewer: Gib uns dein erstes AI Interview

Kannst du die noch an die Szene erinnern, als bei Jurassic Park die Velociraptoren gelernt haben, Türen zu öffnen? Diesen Moment hat nun auch Künstliche Intelligenz in einer Laborumgebung von Google erreicht. Denn in einer neuen Veröffentlichung von Google Research, der TU Berlin und der Abteilung Robotcs at Google wird gezeigt, wie ein Roboter in einer Laborumgebung längere komplexe Sprachbefehle ausführen kann. Die Anweisung „bring me the rice chips from the drawer“ etwa wird, wie im Video zu sehen ist, korrekt ausgeführt.

Hinter den neuen Roboter-Skills steckt ein ein neues Sprachlernmodell namens PaLM-E (Embodied Multimodal Language Model), das auf stattlichen 562 Milliarden Parametern basiert. Google und die TU Berlin haben dazu zwei Modelle kombiniert, und zwar PaLM von Google mit seinen 540 Milliarden Parametern, sowie ViT (Vision Transformers) mit noch einmal 22 Milliarden weiteren Parametern. Das ist insgesamt ein massives KI-Modell. Nur zum Vergleich: GPT-3 von OpenAI, das ChatGPT laufen lässt, hat etwa 175 Milliarden Parameter. GPT-4 soll dann aber um Potenzen größer sein, mit kolportierten 100 Billionen Parametern.

Aber zurück zu PaLM-E. Durch die Kombination von PaLMs Sprachverständnis (trainiert mit Text) und ViTs Computer Vision (trainiert mit Sprache) werden laut Google mehrere Dinge möglich. So können Roboter mit Sprachbefehlen gesteuert werden, aber es können auch Texte aus Bildern abgeleitet werden. In einer Demo zeigt Google, wie das KI-Modell quasi in Echtzeit bestimmte Sportler:innen auf Bildern erkennen und das auch korrekt niederschreiben kann.

Aleph Alpha: Deutsche Startup-AI kann mit ChatGPT und Meta AI mithalten

Google muss stärker kommunizieren

„Das Modell profitiert von vielfältigem gemeinsamen Training in den Bereichen Sprache, Sehen und visuelle Sprache im Internet“, heißt es in der wissenschaftlichen Veröffentlichung, die man sich auf GitHub zu Gemüte führen kann. Es gebe mehrere Anwendungsgebiete für PaLM-E, darunter etwa die sequentielle Planung von Robotermanipulationen, visuelle Beantwortung von Fragen und Untertitelung von Bildern.

Während PaLM mit seinen 540 Milliarden Parametern bereits 2022 vorgestellt wurde und als potenterer Nachfolger von LamDA gilt, ist ViT mit den 22 Milliarden Parametern ein ganz neues Ding – und ihre Kombination zu PaLM-E sowieso. Die neuerliche Veröffentlichung zeigt, wie sehr Google seit dem ChatGPT-Hype darauf bedacht ist, Fortschritte bei KI-Modellen auch zu kommunizieren. Mit dem OpenAI-Deal hat Microsoft es geschafft, sich im AI-Rennen ins Spiel zu bringen. Googles Mutter Alphabet hat unter dem ChatGPT-Hype und eigenen Kommunikationsfehlern dieses Jahr im Aktienkurs zeitweise ordentlich gelitten.

Nachdem Microsoft GPT-3 bereits in seine Suchmaschine Bing integriert hat, ist es nur eine Frage der Zeit, bis Google sein Konkurrenzmodell „Bard“ in seine milliardenschwere Suchmaschine einbauen wird. Das ist aber mit Bedacht zu machen. Auch Microsoft musste Bing Chat wieder ein wenig einschränken, weil einige Antworten der KI auf Skepsis und Unverständnis der Nutzer:innen stießen.