Teuken 7B: Neues europäisches Sprachmodell unter Open Source veröffentlicht
Das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS) hat im Rahmen des europäischen Forschungsprojekts OpenGPT-X das KI-Sprachmodell „Teuken-7B“ zur freien Verfügung gestellt. Das Modell wurde in allen europäischen Amtssprachen trainiert und ist speziell für den Bildungsbereich optimiert. Forschungseinrichtungen und Unternehmen können das Open-Source-Modell für ihre eigenen KI-Anwendungen nutzen. Mit 7 Milliarden Parametern (7B) ist es deutlich kleiner als viele andere KI-Modelle am Markt.
Mit einer Größe von sieben Milliarden Parametern ermöglicht „Teuken-7B“ den Betrieb auf gängigen GPU-Infrastrukturen, wie sie an vielen Hochschulen vorhanden sind, heißt es. Ein besonderer Vorteil liege darin, dass kein Zugriff auf US-Cloud-Dienste erforderlich ist, wodurch europäische Datenschutzstandards gewährleistet werden können. Das Projekt wurde vom deutschen Bundesministerium für Wirtschaft und Klimaschutz mit etwa 14 Millionen Euro gefördert.
Ein Schwerpunkt der Entwicklung lag auf der Energieeffizienz des Modells. Durch einen speziell entwickelten multilingualen Tokenizer konnten die Trainingskosten im Vergleich zu anderen mehrsprachigen Modellen reduziert werden. Dies wirkt sich besonders positiv bei europäischen Sprachen mit längeren Wörtern aus, wie beispielsweise Deutsch, Finnisch oder Ungarisch.
Auch für kommerzielle Nutzung
Das Modell wurde auf einem Datensatz von 4 Billionen Token trainiert, was zwar weniger ist als bei kommerziellen US-Modellen, aber deutlich mehr als bei früheren Versionen wie ChatGPT-3. Durch so genanntes „Instruction Tuning“ wurde das Modell bereits für den Chat-Einsatz optimiert, wodurch es besonders gut Anweisungen von Nutzern verstehen kann. Noch muss sich in der Praxis zeigen, wie gut sich Teuken einsetzen lässt. Unter anderem bleibt abzuwarten, wie hoch Teuken 7B etwa im European LLM Leaderboard steigen kann. Dieses wird derzeit von Llama (Meta), Gemma (Google) und Mistral AI angeführt.
„Teuken-7B“ steht in zwei Versionen zur Verfügung: einer für Forschungszwecke und einer unter der Apache 2.0-Lizenz für kommerzielle Nutzung. Das Projektteam weist darauf hin, dass trotz Feinabstimmungen noch Verbesserungspotenzial bei der Vermeidung von unangemessenen oder schädlichen Inhalten besteht.
Das Projekt, an dem neben den Fraunhofer-Instituten weitere namhafte Partner wie das DFKI und die TU Dresden beteiligt sind, läuft noch bis zum 31. März 2025. In dieser Zeit sind weitere Optimierungen und Evaluierungen des Modells geplant. Das Training erfolgte auf dem Supercomputer JUWELS am Forschungszentrum Jülich.