ChatGPT und Co: Wie große Sprachmodelle effizienter werden können
Wenn es um „große Sprachmodelle“ (LLMs) wie ChatGPT geht, ist der Name Programm. Moderne KI-Systeme brauchen gewaltige künstliche neuronale Netze, also Software-Bits, die, sehr lose, biologischen Gehirnen nachempfunden sind. GPT-3 war beispielsweise ein Gigant, das LLM hatte 175 Milliarden „Parameter“, wie die simulierten Verbindungen zwischen diesen Neuronen heißen. Tausende von GPUs (spezialisierte Chips) haben für das Training über mehrere Wochen hinweg Hunderte von Milliarden von Wörtern aus Text durchforstet. Das alles soll mindestens 4,6 Millionen Dollar gekostet haben.
Mit dem KI-Boom werden die Sprachmodelle zunehmend größer. GPT-4, das im März auf den Markt kam, soll etwa eine Billion Parameter haben – fast sechsmal so viele wie sein Vorgänger. OpenAI-CEO Sam Altman bezifferte die Entwicklungskosten auf mehr als 100 Millionen Dollar. Dieser Gigantismus wird jedoch laut Economist allmählich zu einem Problem. Die Kosten für das Training könnten demnach bald explodieren. Außerdem könnten den Modellen bald die Daten ausgehen.
AudioPaLM: Google verspricht Game-Changer in der Sprachtechnologie
„Größer ist besser“-Ansatz ist überholt
Der Bestand an hochwertigen Texten für das Training könnte bald erschöpft sein. Und selbst wenn das Training abgeschlossen ist, kann die tatsächliche Nutzung des resultierenden Modells ebenfalls teuer werden. Je größer das Modell ist, desto mehr kostet sein Betrieb. Anfang dieses Jahres schätzte die Bank Morgan Stanley, dass die Hälfte der Google-Suchanfragen, die von einem aktuellen GPT-ähnlichen Programm verarbeitet werden, das Unternehmen zusätzlich sechs Milliarden Dollar pro Jahr kosten könnte. Wenn die Modelle größer werden, wird diese Zahl wahrscheinlich noch steigen.
Viele in der Branche sind daher der Meinung, dass der Ansatz „größer ist besser“ nicht mehr greift. Um die Modelle weiter zu verbessern und die damit verbundenen Zukunftsvisionen zu erfüllen, muss mit weniger Ressourcen mehr Leistung entstehen. Viele Forscher:innen konzentrieren sich nun darauf, ihre Modelle effizienter zu machen. Ein Ansatz besteht darin, Kompromisse einzugehen und die Anzahl der Parameter zu verringern, aber die Modelle mit mehr Daten zu trainieren.
Stability AI: Neuer Bildgenerator kann endlich realistische Hände zeichnen
Abrunden kann Hardwareanforderungen senken
Eine andere Möglichkeit besteht darin, die Mathematik unschärfer zu machen. Wenn man für jede Zahl im Modell weniger Nachkommastellen ermittelt, sie also abrundet, sinken die Hardwareanforderungen drastisch. Im März haben Forschende des Institute of Science and Technology Austria (ISTA) gezeigt, dass die Rundung den Speicherbedarf eines Modells, das GPT-3 ähnelt, verringern kann, sodass das Modell auf einem High-End-Grafikprozessor statt auf fünf laufen kann, und das bei nur „vernachlässigbarer Verschlechterung der Genauigkeit“.
Einige Nutzer:innen passen Allzweck-LLMs so an, dass sie sich auf eine bestimmte Aufgabe konzentrieren, wie die Erstellung von Rechtsdokumenten oder die Erkennung von Fake News. Das ist zwar nicht so mühsam wie die Ausbildung eines LLMs, kann aber dennoch kostspielig und langsam sein. Für die Feinabstimmung von Lama, einem Open-Source-Modell mit 65 Milliarden Parametern, das von Meta entwickelt wurde, benötigen mehrere Grafikprozessoren zwischen mehreren Stunden und einigen Tagen.
AI Foundation Models haben große Defizite bei Urheberrecht & Energieverbrauch
Große Sprachmodelle als „Lehrer“ für kleinere Pendants
Ein Team der University of Washington hat eine effizientere Methode entwickelt, die es ermöglichte, innerhalb eines Tages ein neues Modell, Guanaco, auf der Grundlage von Llama auf einem einzigen Grafikprozessor zu erstellen, ohne dass es zu großen Leistungseinbußen kam. Auch hier kam eine Rundungstechnik zum Einsatz. Aber das Team verwendetet auch eine Technik namens „Low-Rank-Adaption“, bei der die bestehenden Parameter eines Modells eingefroren werden und dann ein neuer, kleinerer Satz von Parametern dazwischengeschaltet wird. Damit sollen selbst relativ schwache Computer wie Smartphones dieser Aufgabe gewachsen sein.
Bei Google hat man unterdessen eine andere Option für diejenigen entwickelt, die mit kleineren Modellen auskommen können. Bei diesem Ansatz geht es darum, das benötigte spezifische Wissen aus einem großen, universellen Modell in ein kleineres, spezialisiertes Modell zu extrahieren. Das große Modell fungiert als „Lehrer“ und das kleinere als „Schüler“. Die Forschenden bitten den Lehrer, Fragen zu beantworten und zeigen, wie er zu seinen Schlussfolgerungen kommt. Sowohl die Antworten als auch die Überlegungen des Lehrers werden verwendet, um das Schülermodell zu trainieren. Dem Team gelang es, ein Schülermodell mit nur 770 Millionen Parametern zu trainieren, das bei einer speziellen Denkaufgabe besser abschnitt als sein Lehrer mit 540 Milliarden Parametern.
Mistral AI: 105 Millionen Euro für ein Startup klingen viel, sind aber eigentlich wenig
Modifizierter „Aufmerksamkeitsalgorithmus“
Anstatt sich darauf zu konzentrieren, was die Sprachmodelle tun, besteht ein anderer Ansatz darin, zu ändern, wie sie entstehen. Ein Großteil der KI-Programmierung erfolgt in einer Sprache namens Python. Sie ist einfach zu bedienen und befreit die Programmierer:innen von der Notwendigkeit, sich genau Gedanken darüber zu machen, wie sich ihre Programme auf den Chips, auf denen sie laufen, verhalten werden. Der Preis für die Abstraktion solcher Details ist langsamer Code. Wenn man diesen Implementierungsdetails mehr Aufmerksamkeit schenkt, kann das große Vorteile bringen.
Im Jahr 2022 veröffentlichten Forscher:innen der Universität Stanford beispielsweise eine modifizierte Version des „Aufmerksamkeitsalgorithmus“, mit dem Sprachmodelle Verbindungen zwischen Wörtern und Ideen lernen können. Die Idee war, den Code so zu verändern, dass er berücksichtigt, was auf dem Chip passiert, auf dem er läuft, und vor allem, dass er verfolgt, wann eine bestimmte Information nachgeschlagen oder gespeichert werden muss. Ihr Algorithmus konnte das Training von GPT-2, einem älteren großen Sprachmodell, um das Dreifache beschleunigen. Außerdem war es dadurch in der Lage, längere Abfragen zu beantworten.
TÜV Austria bringt Zertifizierung für vertrauenswürdige KI-Systeme
Viel Luft nach oben für große Sprachmodelle
Schlankerer Code kann auch durch bessere Tools entstehen. Anfang des Jahres veröffentlichte Meta eine aktualisierte Version von PyTorch, einem Framework für die KI-Programmierung. Dadurch, dass die Programmierer:innen mehr darüber nachdenken können, wie die Berechnungen auf dem eigentlichen Chip angeordnet sind, lasse sich die Trainingsgeschwindigkeit eines Modells durch Hinzufügen von nur einer Codezeile verdoppeln.
LLMs sind erst in jüngster Zeit zu kommerziellen, massenmarktfähigen Produkten geworden. Die Entwicklung und der Boom fanden mit rasanter Geschwindigkeit statt. Die meisten Expert:innen sind der Meinung, dass es noch viel Raum für Verbesserungen gibt. Chris Manning, Informatiker an der Stanford University, drückt es so aus: „Es gibt absolut keinen Grund zu glauben, dass dies die ultimative neuronale Architektur ist und wir nie etwas Besseres finden werden.“