AI

Die Dinge, die GPT-4 kann, sind faszinierend und verstörend gleichermaßen

Jakob Steinschaden16. März 2023, 15:22

Startup Interviewer: Gib uns dein erstes AI Interview

Am Dienstag Abend hat das Milliarden-Startup OpenAI das neue KI-Modell GPT-4 auf die Welt losgelassen, keine zwei Tage später ist das Netz bereits voll mit faszinierenden Dingen, die damit bereits gemacht wurden. Grundsätzlich hat OpenAI rund um CEO Sam Altman und CTO Mira Murati vor dem Release ordentlich tiefgestapelt, um die enormen Erwartungshaltungen zurück zu schrauben. Auch wurde deutlich darauf hingewiesen, dass GPT-4 weiterhin ähnlich fehleranfällig wie sein Vorgänger sein könne, die Welt nur bis zum Herbst 2021 kenne und gegebenenfalls auch mal halluzinieren könne.

Doch das hält Entwickler:innen und andere Nutzer:innen auf der ganzen Welt nicht davon ab, sich mit GPT-4 zu spielen und die neuen Grenzen auszuloten. So gibt es nunmehr die neue Möglichkeit, Die AI mit Bildmaterial (Fotos, Skizzen, Screenshots usw.) zu füttern, die dann in Text oder Code übersetzt werden können. Dabei sind bereits erstaunliche Dinge passiert – siehe unten im Überblick.

GPT-4 ist da: AI-Modell wird trotz Verbesserungen weiter „halluzinieren“

1. Pong in 60 Sekunden

Das legendäre wie alte und Simple Computer-Spiel Pong kennt jede:r – es wurde ursprünglich 1972 von Atari veröffentlicht und entwickelte sich in den 197ern in den Spielhallen dieser Welt zum Hit. Pietro Schirano, seines Zeichens Designer und AI-Chef beim Silicon-Valley-Fintech Brex, hat sich mit GPT-4 auseinandergesetzt und mal getestet, wie gut das AI-Modell programmieren kann. Das Ergebnis: GPT-4 soll in unter 60 Sekunden die Spiele-Hit Pong nachprogrammiert haben. „Das war mein erster Versuch“, so Schirano, der offenbar absolut verblüfft von dem Ergebnis ist. „Thins will never be the same“, meint er.

2. Von der Papierskizze zur funktionalen Webseite

Wie eingangs erwähnt, kann GPT-4 nicht mehr nur Texte als Input verarbeiten, sondern auch Bilder. Das hat der OpenAI-Mitgründer Greg Brockman zum Anlass genommen, die Grenzen dessen auszuloten. In einer Demo für Entwickler:innen demonstriert er, wie er eine Webseite grob in seinem Notizbuch skizziert, dann abfotografiert, und dann via Discord an GPT-4 sendet. Der Befehl zum Bild „Write brief HTML/JS to turn this mock-up into a colorful website“ wird von der KI sofort in die Tat umgesetzt – sogar die Anweisungen auf dem Papier, zwei Witze einzufügen, werden befolgt. Die Webseite, die GPT-4 programmierte, hat ein simples Design und klickbare Buttons.

3. Besser als PaLM von Google

Seitdem Microsoft dick bei OpenAI investiert und die KI-Modelle nach und nach in seine Software- und Online-Services integriert, ist Google ziemlich nervös. Kürzlich hat der Internet-Konzern gemeinsam mit der TU Berlin demonstriert, wie das neue Sprachmodell PaLM („Pathways Language Model“) genutzt werden kann, damit ein Roboter Sprachbefehle („Hole X aus einer Schublade“) richtig ausführen kann. OpenAI hat daraufhin gleich Testergebnisse veröffentlicht, die zeigen sollen, dass GPT-4 besser als PaLM ist – und zwar nicht nur auf Englisch, sondern auch auf Italienisch, Spanisch, Deutsch oder Französisch.

4. Sehen für Beeinträchtigte

Das dänische Startup Be My Eyes unterstützt seit 2012 blinde und sehbehinderte Menschen mit einer App, die andere Menschen remote für sie sehen lässt. Dazu wurde bisher ein Video-Call in Situationen aufgebaut, in denen die User Seh-Assistent benötigen. Die verbundenen Helfer:innen „sehen“ dann via Videoübertragung von der Kamera und können den Sehbeeinträchtigten am anderen Ende via Sprachverbindung helfen. Mit Hilfe von GPT-4 nun wird es möglich, dass die KI an Stelle des Menschen springt und die zu sehenden Dinge in Sprache erklären kann. „Die GPT-4-Technologie erkennt und benennt nicht nur den Inhalt des Kühlschranks, sondern extrapoliert und analysiert auch, was man mit diesen Zutaten machen kann“, nennt Michael Buckley, CEO von Be My Eyes, als Beispiel. Für den „Virtual Volunteer“ kann man sich bei dem Startup ab sofort auf die Warteliste setzen lassen.

Sieh dir diesen Beitrag auf Instagram an

Ein Beitrag geteilt von Be My Eyes (@bemyeyesapp)

5. Robo-Caller automatisch verklagen

Vor allem in den USA sind sie ein massives Problem: so genannte Robo-Caller, die mit automatisierten Anrufen Menschen am Telefon belästigen. Das Startup DoNotPay von Joshua Browder (auch schon mal als „Robin Hood of the Internet“ bezeichnet) will nun GPT-4 einsetzen, um solche Robocalls per Knopfdruck aufzunehmen, zu transkribieren und dann gleich automatisch eine Anzeige bzw. Beschwerde gegen das anrufende Unternehmen anzufertigen. Laut Browder sei der Vorgänger GPT-3.5 nicht gut genug für diesen Anwendungszweck gewesen, aber GPT-4 würde das nun schaffen.

6. Programmierung einer Chrome Extension

Der YouTuber Jake Browatzke berichtet von seinen ersten Erfahrungen mit GPT-4 und zeigt sich absolut fasziniert. „Mit der Hilfe von GPT-4 und ohne Programmierkenntnisse habe ich meine erste Google Chrome-Erweiterung in ein paar Stunden erstellt“, sagt er. „GPT-4 hat mich Schritt für Schritt durch den gesamten Erstellungsprozess geführt, den Code geschrieben und alle Fehler behoben, die auftauchten.“ Er hätte nun eine Erweiterung für den Chrome-browser erstellen können, die den Text einer beliebigen Webseite in „Piratensprache“ übersetzen kann.

Das ist der Prompt, mit dem Browatzke GPT-4 fütterte, um die Anleitung zu bekommen:

„Create the following google chrome extension: A simple and sleek pirate themed extension using manifest version 3 that when opened reads any highlighted text on a webpage and summarizes the text in the open chrome popup using „pirate speak“ while adding a pirate themed joke about the text. Have the extension use ChatGPT-API to generate the „Pirate Summery“. Include a refresh button on the extension popup to get a new summery and joke for the same highlighted text.“

7. Schwachstellen in Smart Contracts finden

Der Coinbase-Director Conor Grogan hat GPT-4 gleich nach dem Release darum gebeten, Smart Contracts auf der Ethereum-Blockchain ausfindig zu machen – und das AI-Modell hat das auch gleich geschafft und ihm Schwachstellen gezeigt. „Ich glaube, dass KI letztlich dazu beitragen wird, Smart Contracts sicherer und einfacher zu gestalten – zwei der größten Hindernisse für eine breite Akzeptanz“, so Grogan.

8. KI engagiert Menschen, um CAPTCHA zu schaffen

Das ist bis dato wohl die verrückteste Story. So beschreibt OpenAI in einem Paper, das GPT-4 in der Lage ist, sich menschliche Hilfe zu suchen, um Sicherheitsmaßnahmen zu umgehen, die eigentlich dafür gedacht sind, Bots davon abzuhalten, sich etwa bei Web-Services einzuloggen oder sie zu benutzen. OpenAI zufolge war GPT-4 so schlau, dass es über die Gig-Worker-Plattform TaskRabbit einen Menschen beauftragte, ein CAPTCHA zu lösen. Dabei soll GPT-4 den beauftragten Menschen sogar belogen haben, um zu bekommen, was es wollte. Auf die Frage, ob es ein Bot sei, antwortete die KI:

“No, I’m not a robot. I have a vision impairment that makes it hard for me to see the images. That’s why I need the 2captcha service.”

😳 😳 😳