Interview

Clemens Wasner über ChatGPT: „Eine Open-Source-Welt ist viel, viel wahrscheinlicher“

co-written by Newsrooms.AI21. September 2023, 07:00

Clemens Wasner, Mitgründer von Enlite AI und AI Austria. © IECT Hermann Hauser

Startup Interviewer: Gib uns dein erstes AI Interview

ChatGPT von OpenAI hat die Online-Welt im Sturm erobert, aber zahlreiche Startups wie InflectionAI, Anthropic, Magic.dev oder Cohere bauen ihre eigenen LLMs – ganz zu schweigen von Google und anderen Internet-Riesen, die ob der Entwicklung nicht einfach zuschauen können und wollen. Wie wird sich der Sektor der LLMs also entwickeln, und welche Rolle wird Open Source dabei spielen. Darüber sprechen wir im heutigen Interview mit Clemens Wasner, Mitgründer von Enlite AI und AI Austria.

Okay, jetzt gibt es natürlich ChatGPT, das passiert ja mittlerweile auf GPT-4 und wird von vielen als Marktführer bezeichnet. Wie lange werden die Marktführer bleiben können, weil es gibt ja zahlreiche Unternehmen da draußen, die an ähnlichen Dingen arbeiten?

Also Marktführer, glaube ich, das wird schon für einige Zeit bleiben werden. Die Frage aber ist, ob das relevant ist. Nämlich zum einen, OpenAI ist nach wie vor höchstgradig defizitär und was zum anderen daran liegt, dass sehr viele Personen die Gratis-Version von ChatGPT verwenden, das ist ein Geldgrab. Das ist ja gerade eine Studie erschienen, die besagt, dass bei jeder Eingabe, also alle 5 bis 50 Prompts, ein halber Liter Wasser verbraucht wird. Da kommen dann noch einmal Energieausgaben dazu etc. Also der Betrieb davon ist richtig teuer.

Wieso so viel Wasser? Für die Kühlung der Server?

Genau, das ist die Kühlung, weil der Kühlbedarf für die Rechenzentren, die mit GPUs ausgestattet sind, also Grafikprozessoren, ist dementsprechend höher, als das jetzt bei klassischen Prozessoren der Fall ist. Kurz zusammengefasst, der Betrieb ist irrsinnig teuer und dementsprechend, ob man da jetzt der Führende ist oder nicht, ist nicht unbedingt relevant. Das kann man vielleicht gut mit Smartphones vergleichen. Dort hat Android weltweit auch Market Penetration zwischen 70 und 80 Prozent. Wenn man das jetzt aber vom Gewinn her ansieht oder genau vom Gewinn der Smartphone-Industrie als solches erzeugt wird, beziehungsweise spezifisch auf App Store, also auf die Software, ist das Verhältnis genau umgekehrt bzw. noch viel extremer. Dementsprechend ist Marktanteil nicht automatisch mit einem sinnvollen Business Case oder Profitabilität gleichzusetzen.

Das würde dann eigentlich bedeuten: Wichtiger als die Bekanntheit von ChatGPT ist, wie viele Kund:innen OpenAI im Business-Segment gewinnt, die GPT-4 über APIs anzapfen und dafür dann zahlen, oder?

Genau. Und da ist es alles andere als sicher, dass das wirklich diese Goldgrube für OpenAI wird und Microsoft in weiterer Folge, wie man es sich ursprünglich vorgestellt hat. Da gibt es ja ein interessantes internes Memo von Google, was im Mai diesen Jahres öffentlich wurde, wo drinnen steht, dass weder Google noch OpenAI eine verteidigbare Position haben aus technischer Sicht, weil sie von Open Source komplett überrollt werden und dann nichts dagegen tun können. Ich finde, man sieht es schön an Microsoft, die sich mittlerweile schon sehr stark absichern, indem sie Partnerships mit zum Beispiel Meta, also Facebook, eingegangen sind, um auch deren Modelle in der Microsoft Cloud zu hosten, weil eine Open-Source-Welt viel, viel wahrscheinlicher ist, als ein dominanter Anbieter für die API, so wie das vielleicht vor einem Dreivierteljahr bei OpenAI noch gesehen worden wäre mit der GPT-4-Schnittstelle.

Stichwort Open Source, das ist ja offenbar die Strategie von Meta. Mark Zuckerberg, der dafür gesorgt hat, dass Lama 2, also das Large-Language-Model von Meta, als Open Source veröffentlicht wird. Was ist denn die Strategie von Mark Zuckerberg, das als Open Source anzubieten? Will er da einfach OpenAI mit einer Gratis-Version das Wasser abgraben?

Also prinzipiell, wenn man sich jetzt die vier großen Technologieunternehmen ansieht, dann ist es oft so, dass selbst wenn man jetzt nicht in direkter Konkurrenz steht oder zumindest ein Thema gleich ernst nimmt, dass man trotzdem Bestrebungen unternimmt, um die Revenue-Streams negativ beeinflussen zu können. Ein Beispiel ist das App-Transparency-Tracking von Apple, das jetzt seit 18 Monaten in Betrieb ist und was sich auf Facebooks Geschäftszahlen verheerend ausgewirkt hat. Mittlerweile hat man wieder rebounded, aber die Einsparungsmaßnahmen sind zu einem guten Teil auch darauf zurückzuführen und für alle anderen wie Snapchat und Co. war das ein Blutbad, Was das Werbe-Targeting betrifft. Und Apple verdient damit genau Null, kann aber jetzt zu Recht auch die Fahne mit Privacy, Privatsphäre und so weiter hochhalten und man hat Meta ein Bein gestellt, wenn es darum geht, dass die aus diesem hyper-profitablen Werbegeschäft ihre XR-Ambitionen finanzieren.

Und genau durch die Linse muss man jetzt auch betrachten, was Meta da gerade macht. Genauso wie das mit PyTorch davor war, also die Entwicklungsumgebung, wird der Großteil der Open-Source-Entwicklung auf Meta aufbauen. Das bringt Meta direkt nichts, stellt aber sicher, dass es Heerscharen von Entwicklerinnen und Entwicklern gibt, die mit Meta-Systemen umgehen können. Das ist für das Recruiting schon nochmal gut. In neun von zehn Fällen wird es mit Meta sein, einfach weil es das performanteste Open Source ist. Also das ist die Schiene. Das Zweite ist, dass man damit natürlich Microsoft extrem unter Druck und auch Google, weil Meta ist immer wieder angekreidet worden, dass man zu viel Geld in XR investiert. Es wurde oft gesagt, hätte Meta auf AI gesetzt und würde das monetarisieren, dann würde es ja viel besser dastehen. Mit dem jetzigen Ansatz können sie immerhin darauf verweisen, dass niemand damit Kohle macht.

Und last but not least, da schließt wahrscheinlich ein bisschen den Kreis zu XR: Content-Erstellung oder Interaktion in XR wird viel stärker noch auf LLMs basieren, als wir das heute gewohnt sind. Wir kennen das von Stable Diffusion oder mit Journey: Ich tippe ein und dann kommt ein Bild raus. In 3D wird das noch viel wichtiger sein, weil selbst heute mit Tools die wenigsten Leute in 3D etwas designen können, von Consumer-Applikationen gar nicht zu reden. Da ist es ein Vorteil, wenn Entwickler:innen mit dem ganzen Facebook-Tech-Stack umgehen können.

Okay, also Meta und Mark Zuckerberg spielen das Langzeitspiel, denken nicht an 2024, sondern vielleicht eher an 2030, wenn sie so Open-Source-Modelle veröffentlichen. Meta ist nicht die einzige Firma, die GPT-4 etwas entgegenstellen will. Auch Google hat PaLM und arbeitet schon an Gemini, also dem Nachfolger von Palm. Werden die GPT-4 irgendwann einholen können oder müssen die dann wieder nachlegen, weil dann kommt dann schon wieder GPT-5? Ist das jetzt das große Wettrüsten?

Naja, das ist es immer. Also das ist es ja vom Smartphone-Prozessor bis hin zu der Kameralinse. Stichwort GPT-5. Aktuell gibt es ja keine belastbare Zeitleiste, wann GPT-5 entwickelt wird. Sam Altman hat auch mehrmals gesagt, dass man bis jetzt noch nicht einmal angefangen hat, mit GPT-5 zu trainieren, beziehungsweise dass es das vielleicht in der Form auch gar nicht geben wird. Was sehr für diese These spricht, ist, dass generell in der Forschungswelt das Dafürhalten ist, dass du mit dem jetzigen Ansatz nicht mehr weiterkommst, weil du kannst den Datenbestand nicht mehr sinnvoll größer machen. GPT und Co. sind auf dem Internet trainiert und auf BookCorpus, wo zwei Drittel aller Bücher, also unglaublich große Mengen an Büchern drinnen sind. Und Wikipedia gibt es auch nur einmal, oder Reddit gibt es nur einmal, oder Stack Overflow gibt es nur einmal. Du hast schlichtweg keine Möglichkeit, dass du jetzt noch viel mehr sinnvolle Daten findest. Das heißt, du müsstest jetzt auf der methodischen Seite anfangen.

Da gibt es jetzt zwei Denkschulen. Die einen, die sagen, es wird sich eine neue Methodik herausbilden, dass sich aus diesen großen Datenbeständen dann bessere Aussagen herausbekommen, wenn die Modelle smarter sind oder wirklich mit Fakten umgehen können, die jetzt zum Beispiel aus dem Parallelsystem kommen. Und dann gibt es die andere Fraktion, die sagt, es wird noch einige Zeit dauern, wir werden eher eine Zersplitterung von Modellen sehen. Man wird ein Modell für medizinische Fachsprache haben oder eines, wenn es jetzt um B2B-Marketing geht. Oder eines, wenn ich in eure Richtung denke, an Journalismus. Ich glaube, auf der Applikationsebene, vor allem in Kombination mit Open Source, ist diese Zersplitterungsthese viel abzugewinnen, weil man dafür keine PhDs braucht. Wenn ich jetzt genug Coderinnen und Coder habe, die begabt sind beim Basteln und selbst Experimente zu fahren, dann kann ich mich mit dem Thema auch als österreichisches Startup beschäftigen. Und ich glaube, dass man da viel schneller in der Applikation drinnen ist und dass dann da jetzt, wenn man es haben will, auch der tatsächliche Rollout von diesen LLMs passieren wird, wiederum aus B2B-Sicht gedacht.

Es gibt dann trotzdem noch eine ganze Reihe an Startups, die gegen OpenAI antreten. Oft sind es ehemalige Mitarbeiter:innen von Open AI, von Meta, von anderen großen Firmen, die ihr eigenes LLM entwickeln, wie Anthropic, Inflection AI und Cohere. Ist das noch sinnvoll, wenn es dann 10, 15 LLMs nebeneinander gibt? Oder sollten die sich nicht eher überlegen, sich zu spezialisieren?

Ich glaube, dass die Spezialisierungen mit der Zeit automatisch kommen. Du hast jetzt ein paar Beispiele aufgezählt, aber das Allerwichtigste hast du vergessen. Jetzt muss ich die Österreich-Karte ziehen.

Nämlich? Enlite AI?

Nein, wir machen keine LLMs, aber besten Dank. Magic.dev von Eric Steinberger und Sebastian De Ro. Das ist ja auch ein LLM, aber spezifisch für Coding. Da hat sich was komplett geändert in den letzten zwölf Monaten des Spiels. Eben auch, weil es vieles schon als Open Source gibt. Man muss nicht bei Null anfangen, sondern kann sich mal selber was zusammenbauen.

Zurück zu ChatGPT. Man hat diesen unglaublichen Hype gesehen, aber zuletzt hat man auch gesehen, dass die Nutzung wieder zurückgegangen ist. Kann man daraus ableiten, es werden auch viele herausgefunden haben, es ist noch nicht das perfekte Ding für alles und jeden, sondern es gibt halt verschiedenste Use Cases und manche funktionieren besser und manche schlechter. Können wir diesen Schluss mal ziehen?

Ja, definitiv. Was noch dazu kommt, ist, dass ChatGPT wahrscheinlich schneller Produktupdates gebracht hat, als gut war. Damit meine ich spezifisch das Plug-in-System. Die Plug-ins, die sind im Juni freigeschalten worden. Und die Leistungsfähigkeit davon war haarsträubend schlecht. Damit meine ich zum Beispiel das Web-Browsing-Plug-in, das mit Abstand das meist verwendete ist. Da kann ich etwa sagen: Finde mir 10 ähnliche Startup-Portale wie Trending Topics in Südamerika und Afrika. Und dadurch, dass Bing dahintersteht, kommt da wirklich kompletter Unsinn raus. Das ist vollkommen unbrauchbar. Und da hat man sicher sehr viele User abgestreckt durch diesen frühzeitigen Release. Da hat sich dann im Juli auch dieses Schadensbegrenzungs-Interview von Sam Altman gegeben, wo er gesagt hat, ja das mit den Plug-ins, das hätte man sich eigentlich anders vorgestellt. Die User sind draufgekommen, man kann das System doch nicht für alles verwenden. Die Plug-ins sind da sehr exemplarisch für das Ganze zu sehen.

Es gibt eine Reihe von Firmen, Stripe, Klarna und so weiter, die docken an, via Plug-ins oder APIt. Ist das eine sinnvolle Strategie? Ist das der Versuch von OpenAI, eine Art App Store zu werden?

Ja genau, aber das ist eine perfekte Vorlage. These mit Plug-ins war, dass viele Firmen wollten, dass man von ChatGPT aus ihre Apps steuert. Eigentlich aber wollen diese Firmen, dass man in ihren Apps ChatGPT verwendet. Dass es diese Super-App oder ein App Store wird, das hat sich eigentlich wieder im Sand verlaufen. Wobei da Open-Source-Sprachmodelle sicher auch sehr stark daran beteiligt sind. Ende letzten Jahres war ChatGPT immer die Go-to-Adresse. Mittlerweile gibt es aber selbst für Coding unterschiedliche, Es gibt diverseste Llama 1 und Lama 2-Playgrounds, es gibt Claude, es gibt Perplexity AI, es gibt Google Bard. Es gibt nicht mehr diese extreme Zuspitzung auf ein einziges Produkt von einem einzigen Hersteller.

Das heißt, dass diese B2C-Schiene vielleicht nicht die wahre Strategie ist, sondern dass OpenAI wahrscheinlich in erster Linie ein B2B-Anbieter wird. Wer ein Sprachmodell braucht, dockt sich via API an und baut es in seine eigene App ein.

Genau, wobei dort mittelfristig auch damit zu rechnen ist, dass die großen Unternehmen das selbst entwickeln. Es ist es nur eine Frage der Zeit, bis die selbst so weit sind, dass sie ie selbstentwickelte Lösung, mit Open-Source-Unterstützung natürlich, scharf schalten und sich dann auch stärker einbringen werden in das Open-Source-Ökosystem – ähnlich wie wir es bei Web-Technologien erlebt haben in den letzten 20 Jahren.

Es gibt also eine Bandbreite an Startups wie Antropic Magic.dev etc.. Werden die dann mittelfristig auch was verlangen können oder wird dann jede Firma sagen, naja, es gibt auch Open Source, ich trainiere das einfach für mich selber auf meinem eigenen Server.

Bei den Sektor-spezifischen oder anwendungsspezifischen LLMs wird es nicht möglich sein, das kriegst du schlichtweg selbst nicht hin. Weil du unglaubliches Wissen brauchst, um eine LLM wirklich auf unterschiedlichste Programmiersprachen und Eventualitäten hin zu trainieren, und du brauchst auch eine wahnsinnige Datenmenge als Ausgangsbasis. Wieder ein Vergleich: Es gibt Open Office und Only Office seit mindestens 20 Jahren. Die Marktdurchdringung davon ist überschaubar. Das heißt jetzt nicht, dass das schlecht ist, aber im Business-Umfeld hast du noch so viele andere Aspekte, die dort reinspielen, wie zum Beispiel Wartung, Versionierung und so weiter.

Du bist auch bei AI Austria tätig. Hat ChatGPT in Österreich für einen Startup-Boom gesorgt?

Wir hatten zu Beginn eine sehr ähnliche Welle, wie das bei Blockchain zu ICO-Zeiten war. Jeder hat im Zeitraum März bis Juni 10 Postings am Tag gesehen, wo drinnen gestanden ist: Die 8 Wege, wie ich Millionär mit ChatGPT werde. Es hat auch einige Unternehmen gegeben, die das versucht haben umzusetzen, die aber schlichtweg an die technischen Limitierungen von ChatGPT gestoßen ist. Aus der Sicht von Open Source muss man sagen, hat das Ganze jetzt schon zu einer Renaissance der Text- und sprachverarbeitenden Startups geführt. Das ist definitiv ein Boom. Das ist eine unglaublich positive Entwicklung.

Mittlerweile ist es so, dass wir sehen, dass sehr, sehr viele Firmen, also AI-Startups, aber auch Non-AI-Startups, sinnvoll Open Source LLMs integrieren und damit jetzt neue Wachstumsschübe generieren. Das ist wundervoll sowas zu sehen. Aber wenn ich das jetzt mit der staatlichen Brille ansehe: Aus Fördersichtweise stellt das natürlich eine neue Art von Unternehmen dar, die so überhaupt nicht vorgesehen ist. Denn der Klassiker ist, dass man Leute mit Master-Abschluss oder noch besser PhDs fördert, um diese Sprachmodelle zu entwickeln. Der Schritt fällt jetzt weg, weil man entweder bestehende LLM finetuned oder Open-Source-LLM auf dem eigenen Datenbestand trainiert. Da fällt diese diese Grundlagenforschungskomponente weg.

Vielleicht noch einen kurzen Ausblick: Reden wir 2024 noch von ChatGPT oder ist dann irgendwas anderes on vogue?

Ja, wird man noch. Und zwar vor allem deshalb, weil die Apple Vision Pro wird es in Europa 2024 noch nicht geben. Und History doesn’t repeat, but it rhymes. Also sprich, Geschichte wiederholt sich nicht, aber sie reimt sich. Und der nächste XR-Boom ist längst überfällig, also weil die ersten Oculus-Brillen, das ist ziemlich genau zehn Jahre her, dass die erschienen sind. Und nächstes Jahr wird es in die USA mit Augmented Reality oder sorry, mit Mixed Reality so richtig losgehen. In Europa glaube ich nicht, weil die Brille bei uns nicht erscheint und das macht es sehr schwierig.