Interview

Aleph Alpha: „Diese LLMs lernen einfach die Benchmarks auswendig!“

Jakob Steinschaden24. Oktober 2024, 08:00

Aleph Alpha-CEO Jonas Andrulis. © TEDAI / Robert Leslie

Startup Interviewer: Gib uns dein erstes AI Interview

Zuletzt wurden sie eher als die Verlierer im globalen Rennen um LLMs, Chatbots und AI porträtiert: Das deutsche Startup Aleph Alpha galt längere Zeit als der deutsche Hoffnungsträger im Wettbewerb mit OpenAI, Mistral AI und Co., änderte kürzlich aber die Strategie und sieht sich jetzt als KI-Partner für die Industrie.

Auf der TED AI-Konferenz in Wien sprach Jonas Andrulis, Mitgründer und CEO von Aleph Alpha über seine Sicht auf die KI-Zukunft – und im Interview mit Trending Topics darüber, warum man Benchmark-Vergleiche mit anderen AI-Modellen nicht ganz so ernst nimmt, warum man kommerziell am richtigen Weg ist und

Um was geht es da?

Da geht es um eine grundsätzliche Architekturänderung, sodass die Tokenization nicht mehr gelernt und trainiert wird und damit kein begrenztes Vokabular hat, das auf eine Standardsprache und Englisch spezialisiert ist, sondern dass wir alle Formen des geschriebenen Wissens, speziell Sprachen, spezielles kulturelles Wissen, Detailnotationen wie etwa aus der Fertigung bei Bosch, abbilden können. Das funktioniert im Fine-Tuning nicht. Du kannst solches Spezialwissen nicht in Open-Source-Modelle reinlernen, das scheitert technisch.

Was ändert es am Produkt? Was geht jetzt, was vorher nicht ging?

Die Abbildung dieses Spezialwissens. Wir haben es vor ein paar Wochen mit Bosch gezeigt. Die haben in ihren Requirements-Dokumenten in der Fertigung so etwas, was ein bisschen aussieht wie eine eigene Sprache. Das verstehen normal alle LLMs nicht, sie können es nicht verarbeiten. Wir haben internationale Partner und Kunden, die sich die Gedanken machen, wie denn Länder mit anderen Alphabeten, also angefangen von Türkei, Mittlerer Osten, Asien, in diese neue Ära mitgenommen werden?

Man kann Llama nicht auf Türkisch fine-tunen. Das klappt nicht. Unser Ziel ist überhaupt nicht, das Gedicht zum Geburtstag der Oma besser zu schreiben als Llama. Da gibt es super Open Source wie von Mistral oder eben Llama. Wir haben das Open Source Llama genommen, haben unsere Erklärbarkeit retrofitted. Wir brauchen nicht das fünfte Modell bauen, das diese Standardsachen kann.

Aleph Alpha ist jetzt nicht mehr in dem Rennen um Foundation Models dabei?

Das sind Foundation Models, aber halt für etwas anderes. Hast du dir die Benchmarks mal angeschaut, nach denen LLMs evaluiert werden? Da steht so was drin wie, „wie heißt der Knochen, der die Beine an den Torso verbindet“ oder „In welchem Land gibt es besonders starke Niederschläge“. Also Multiple-Choice-Fragen. Wenn du bei den Multiple-Choice-Fragen nur die Reihenfolge vertauschst, dann werden manche von den besten Modellen 30 Prozent schlechter. Die lernen einfach die Benchmarks auswendig.

Da habe ich kein Interesse daran. Das nutzt unseren Kunden nichts. Unsere Kunden wollen die Sachen lösen, die für sie Business-critical sind. Diese B2C-Use-Cases, da gibt es tolle Lösungen. Das ist für uns gar nicht so interessant. Wir waren nie eine B2C-Company.

>>> Anmerkung: Benchmark-Ergebnissen werden in der Welt der LLMs viel Relevanz zugewiesen Sie dienen dem Vergleich mit konkurrierenden AI-Modellen und werden meist von den LLM-Unternehmen veröffentlicht. Es geht aber auch anders: So gibt es etwa bei der Chatbot Arena ein Ranking der LLMs, die von Nutzer:innen am besten bewertet werden, und zwar in unterschiedlichen wie Mathematik, Sprachen oder Coding. Dort tauchen die Aleph-Alpha-Modelle aber auch nicht auf.

Wofür setzen Kunden wie Bosch eure Tools ein? Wollen sie die Belegschaft 10 Prozent effizienter machen?

Effizienz ist natürlich ein großes Thema. Uns fehlen überall die Arbeitskräfte. In der Verwaltung ist das ganz schlimm, aber es gilt eigentlich überall. Was aber auch viele Gespräche sind, die ich mit Vorständen habe, ist: Wie kann ich mein Unternehmen, mein Team so aufstellen, dass die nächste disruptive Innovation von mir selber kommen kann?

Es ist ganz einfach, wenn deine Strategie für ein neues Zeitalter Wissensarbeit ausschließlich ist, Anwender von Technologie zu sein, die jemand anders baut. Dann brauchst du dich nicht wundern, wenn von der Wertschöpfung nichts bei dir ankommt und wenn du am Schluss die Souveränität, die Kontrolle, die Fähigkeit verlierst, in deiner eigenen Industrie neue Produkte zu treiben. Du bist ein zahlender Anwender und das mag in manchen Bereichen toll sein. Wir sind alle zahlende Anwender von Apple und Google. Aber wenn das die einzige Strategie für ein Unternehmen ist, dann werden wir die Zukunft nicht mit gestalten.

Mit Hilfe von Aleph Alpha soll man also sein eigenes Foundation Model am eigenen Server installieren und dort weiterentwickeln?

Und Mensch-Maschine-Prozesse designen, die den Anforderungen aus der Sicherheit, aus der Verwaltung, aus der Finanzindustrie, aus der Fertigung gerecht werden. Souveränität bedeutet für mich, Verantwortung für die Zukunft übernehmen. Kann eine Bosch sich selbst neu erfinden und sagen, wie die nächste Generation von Wertschöpfungsprozessen in der Fertigung aussieht? Dafür brauchen sie eine technologische Basis.

Die Luminous-Modelle, die letztes Jahr veröffentlicht wurden, waren nicht sonderlich kompetitiv und auch im Preis deutlich teurer. Habt ihr das verändert, verbessert? Was ist da so der Status Quo?

Die Luminous-Modelle waren GPT-3-Generation, die kamen raus, bevor es GPT-4 gab. Dafür waren sie gut, aber das ist halt ein paar Jahre her. Die neue Generation der Modelle ist gut, es ist aber nicht mein Interesse, Multiple-Choice-Fragen auswendig zu lernen. Das interessiert mich eigentlich gar nicht. Mich interessiert, wie gut kann eine Schwarz-Gruppe damit ihre internen Prozesse steuern. Das heißt, diese Standard-Benchmarks, sind ungefähr vergleichbar mit Mistral und mit Llama.

Aber die Art und Weise, wie diese Modelle gemessen werden, ist für unsere Kunden nicht relevant: Wer war der Synchronsprecher von Mickey Mouse in der ersten deutschen Ausstrahlung? Das ist doch einer Bosch egal. Das sind aber die Benchmark-Fragen.

Um nochmal zu dieser 500-Millionen-Euro-Finanzierungsrunde zu kommen, da gab es viele Missverständnisse und viele Rückfragen. Was ist nun Fakt?

Es gibt keine öffentlichen Gelder, die da reinfließen. Das haben Leute falsch verstanden. Alles privates Geld. Viele von diesen Gen-AI-Runden waren ja so, dass man eine große Zahl announced hat und das dann alles Compute-Credits gegen Listenpreise auf der eigenen Cloud oder so waren. Bei uns ist es 100% Cash, das fließt, und von uns verwendet wird gemäß unserer Mission. Also nicht erst, wenn wir irgendwelche Meilensteine erreicht haben, sondern nach Bedarf. Was eines der Missverständnisse war, ist, wir haben von den 500 Millionen am Tag nach der Finanzierung nur 110 Millionen auf dem Konto gehabt.

Aber das ist ja üblich, dass Investoren in Tranchen überweisen.

Ja das ist üblich, das war bei unserer Series-A-Runde auch so, hat aber wohl Leute verunsichert oder verwirrt.

Wie siehst du Aleph Alpha in diesem Wettrennen, in dem Gen-AI-Startups vor allem aus den USA hunderte Millionen, wen nicht sogar Milliarden Dollar raisen, aufgestellt?

Es ist ein Wettrennen in dem Sinne, dass es jetzt halt eine neue Technologie-Generation gibt, so wie halt irgendwie das Internet groß wurde. Die Frage ist: Welche Geschäftsmodelle gibt es eigentlich im Internet und was funktioniert? Wenn du dich erinnerst: das Erste, auf das die Investoren gegangen sind im Internet, war Geocities. Das Erste, was die Investoren gesagt haben: Das Internet wird die Welt verändern. Also wir investieren jetzt alle in Website-Builder. Das ist das große Geschäft. Google hatte da niemand mehr auf dem Schirm. Dann haben sie irgendwann gemerkt, eine Website zu bauen, ist irgendwie nicht das heiße Geschäft.

Was ich damit sagen will, ist: Es ist noch nicht raus, was eigentlich die funktionierenden Geschäftsmodelle sind. Wir liegen kommerziell gerade vor Plan. das, was wir gerade versuchen zu tun, klappt sehr gut. Unsere Kunden sind happy. Wir laufen nicht direkt auf derselben Spur OpenAI hinterher. Viele Sachen, die OpenAI macht, die ja auch noch kein funktionierendes Geschäftsmodell haben, sorgen mich nicht. Wir sind so positioniert, dass wir ein nachhaltiges Geschäftsmodell bauen. Den Wettbewerb würde ich jetzt weniger bei OpenAI sehen.

Wer ist der Wettbewerb in dem Fall? Wen würdet ihr da nennen? Mit wem müsst ihr euch messen?

Unser Sweet Spot sind diese komplexen, kritischen Probleme, wo ein Chatbot keine vernünftige UX ist und die Verantwortung der Menschen besonders zentral ist – wie etwa eine Bundesagentur für Arbeit, wie die Verteidigungsindustrie, wie die Finanzindustrie. Wo die Souveränität der Kunden ganz entscheidend ist. Da gibt es ja jetzt auch Startups, die sich irgendwelche Industrien vorknöpfen und sagen, wir machen jetzt in Manufacturing, Requirements, Managementlösungen und so. Das sind eher Unternehmen, die vielleicht einen gewissen Overlap haben.

Wir haben das Joint Venture mit PwC im Bereich Compliance, und es gibt natürlich auch Compliance-Startups. Also eher die Leute, die auch dieses Industry-Know-How mit einfließen lassen und die Souveränität im Kern ihres Angebots haben. Da gibt es aber wahrscheinlich gar nicht so viele, weil viele von den Startups laufen natürlich irgendwo auf einer Cloud. Und das ist dann für viele unserer Kunden schon fast prohibitiv. Diese Daten sind ja die Lebensversicherung. Das ist meine Daseinsberechtigung für die Zukunft. Wenn das tiefe technische Spezialwissen eines deutschen Unternehmens am Schluss GPT-5 kann, dann hat es keine Daseinsberechtigung mehr. Dann kann es jeder.

Viele Medienunternehmen schließen Deals mit OpenAI ab. Wie würdest du davon abraten?

Nicht unbedingt. Jedes Unternehmen hat ganz individuelle Stärken und Schwächen. Man sollte sich die Frage stellen: What is my unfair advantage? What’s a unique move I can do? Und es ist total fein zu sagen, wir setzen voll auf Microsoft. Wir haben mit Unternehmen gesprochen, die sagen, wir haben keine internen AI-Leute. Der Zug Technologie-Souveränität ist über uns sowieso schon abgefahren, wir konzentrieren uns auf irgendwas anderes, wir migrieren sowieso alles in die Cloud. Es gibt auch Automotive-Deals, wo kritische AI-Funktionalitäten an US-Companies gegeben wurden. Das kann man schon machen. Es steht mir nicht zu, zu beurteilen, ob das jetzt eine richtige oder eine falsche Entscheidung ist, dafür kenne ich dann die Unternehmen zu wenig.

Aber ihr seid ein Gegenmodell genau dazu.

Wir haben ein Gegenmodell und wir sind dort zu Hause, wo Unternehmen sagen: Genau das will ich nicht tun, aus guten Gründen.

Eine Frage zum AI Act. Ist der nun gut oder schlecht für Firmen wie Aleph Alpha oder Mistral AI oder andere?

Er ist okay. Mistral ist ja jetzt sowieso in einer anderen Position, als sie es noch vor ein paar Monaten waren.

Was hat sich dort geändert?

Der Ownership-Stake von Microsoft. Die sind jetzt kein rein europäisches Unternehmen mehr. Wir haben gemeinsam auch mit Mistral dafür gesorgt, dass der AI Act nochmal auf den letzten Metern verbessert wurde, was ihm gut getan hat. Es gab zwischendrin ein paar Entwürfe, die sahen wild aus. Es ist gut und richtig, dass AI reguliert wird. Was mir am meisten Sorgen macht, ist, dass wir durch den AI Act und durch diesen Fokus auf Regulierung dafür gesorgt haben, dass die gesamte kreative Energie unserer Unternehmen, unserer AI-Leadership, den Technologiespitzen in der Regierung auf Regulierung gelenkt wurde. Wir haben nur eine begrenzte Zeit, um selber Innovation zu treiben. Wir werden uns nicht in die Technologiesouveränität regulieren können. Der Wohlstand der Zukunft, die Freiheit unserer liberalen Demokratie lässt sich nicht herbei regulieren. Wir müssen unbedingt kreative Energie und Power in Innovation packen. Das hätte ich nach eigenem Geschmack ein bisschen höher priorisiert, als jetzt den AI Act in seiner Gänze komplett so runterzuschreiben mit Dingen, die schon wieder veraltet sind.

Diese Compute-Grenze mit 10^25 FLOPs ist jetzt schon übertroffen. Die nächste Generation von Nvidia-Chips, ist zweieinhalb mal so schnell bei nur 20% mehr Kosten.

Das bedeutet, dass künftig jedes LLM unter den AI Act fällt?

Genau. Bis das Ding in Aktion ist, fällt alles darunter.

Oder man begnügt sich mit Small Language Models?

Ja, aber in ein paar Jahren werden selbst Small-Language-Models darunterfallen. Das ist so, man früher gesagt hätte, jeder Computer mit mehr als 640 KB RAM zählt als Mainframe. Irgendwann ist alles Mainframe.