Hunyuan T1: Jetzt liefert der nächste chinesische Tech-Riese ein Open-Source-LLM

Nach Baidu und Alibaba meldet sich nun der dritte große chinesische Tech-Konzern mit einem eigenen, konkurrenzfähigen KI-Modell: Tencent hat mit dem Hunyuan T1 ein neues LLM vorgestellt, das sich in den Bereichen Reasoning, Langtextverarbeitung und Effizienz auszeichne soll und ernsthafte Konkurrenz für etablierte Modelle aus den USA wie OpenAIs GPT-4.5 und China wie DeepSeek R1 darstellen soll.
Tencent ist als Macher der populären WeChat-App natürlich wie die anderen genannten Tech-Konzerne gefordert, im Ai-Bereich Schritt zu halten. Gelingen soll das unter anderem mit Hunyuan T1. Anders als dessen Vorgänger ist vorgesehen, das LLM unter Open Source auf den Markt zu werfen – ähnlich wie etwa auch Meta hofft Tencent so offenbar auf eine schnellere, weite Verbreitung.
Transformer und Mamba in Kombination
Hunyuan T1 basiert auf einer hybriden Architektur, die die Vorteile von Transformer- und Mamba-Technologien mit einem Mixture-of-Experts (MoE)-Ansatz kombiniert. Diese Kombination ermöglicht:
- Effiziente Verarbeitung langer Texte: Dank der Mamba-Komponente kann das Modell lange Sequenzen effizienter verarbeiten, da der Rechenaufwand linear statt quadratisch mit der Eingabelänge skaliert wird.
- Spezialisierte Expertennetzwerke: 16 spezialisierte Subnetzwerke sorgen für eine optimierte Bearbeitung spezifischer Aufgaben, was die Gesamtleistung steigert.
- Reinforcement Learning: 96,7 % der Rechenleistung wurden in RL-basierte Optimierungen investiert, um die Reasoning-Fähigkeiten und die Ausrichtung an menschlichen Präferenzen zu verbessern.
Hunyuan T1 glänzt in mehreren Benchmarks und übertrifft seine Konkurrenten in wichtigen Bereichen:
- MMLU-Pro-Benchmark: Mit 87,2 Punkten liegt es über DeepSeek R1 (84) und knapp hinter OpenAIs o1-Modell (89,3).
- Mathematik-Benchmark (MATH-500): Das Modell erzielte beeindruckende 96,2 Punkte und übertrifft damit DeepSeek R1.
- Langtextverarbeitung: Mit einem Kontextfenster von 256K ist Hunyuan T1 hervorragend für Aufgaben geeignet, die umfangreiche Texte oder komplexe Dialoge erfordern.
Soweit die Benchmarks, die Tencent selbst ausgewählt und herausgegeben hat. In der „echten“ Welt ist Hunyuan T1 noch nicht wirklich angekommen, jedenfalls gibt es noch keine Position für das AI-Modell im Ranking der Chatbot Arena, in der KI-Modelle von Nutzer:innen in ihrer Leistung miteinander verglichen werden.
Effizienz und Geschwindigkeit
Ein herausragendes Merkmal des Modells jedenfalls soll seine Geschwindigkeit sein Unter gleichen Bedingungen decodiert Hunyuan T1 doppelt so schnell wie vergleichbare Modelle, heißt es seitens Tencent. Es generiert bis zu 80 Tokens pro Sekunde und reduziert dabei den Ressourcenverbrauch erheblich. Diese Effizienz mache es besonders attraktiv für Echtzeitanwendungen und kostensensitive Umgebungen.
Das Training des Modells umfasste 4,8 Billionen Tokens, wobei 65 % des Datensatzes aus chinesischen Inhalten bestanden. Dies stärkt seine Fähigkeiten im Bereich der chinesischen Sprachverarbeitung erheblich. Ein Curriculum-Learning-Ansatz wurde verwendet, um die Schwierigkeit der Trainingsdaten schrittweise zu erhöhen und gleichzeitig die Effizienz bei der Nutzung von Tokens zu maximieren.
Mit einer aggressiven Preisstrategie zielt Tencent darauf ab, Marktanteile zu gewinnen. Die Kosten belaufen sich auf etwa 0,14 US-Dollar pro Million Eingabetokens und 0,56 US-Dollar pro Million Ausgabetokens – ein wettbewerbsfähiger Preis im Vergleich zu DeepSeek R1.