Launch

ElevenLabs: Neues Speech-to-Text-Modell „Scribe“ fordert Google und OpenAI

Jakob Steinschaden27. Februar 2025, 08:41

Startup Interviewer: Gib uns dein erstes AI Interview

ElevenLabs, ein mit 3,3 Milliarden Dollar bewertetes KI-Startup, das kürzlich eine Finanzierungsrunde von 180 Millionen Dollar abschloss, hat sein erstes eigenständiges Speech-to-Text-Modell namens Scribe vorgestellt. Das Unternehmen, bisher hauptsächlich für seine Audio-Generierungstechnologien bekannt, erweitert damit sein Angebot in Richtung Spracherkennung und tritt in Konkurrenz zu Anbietern wie Gladia, Speechmatics, AssemblyAI, Deepgram und OpenAIs Whisper-Modellen.

Scribe wurde für maximale Genauigkeit bei der Transkription von Audioinhalten entwickelt und unterstützt zum Start 99 Sprachen. In Benchmark-Tests wie FLEURS und Common Voice übertrifft das Modell laut Herstellerangaben führende Lösungen wie Google Gemini 2.0 Flash und Whisper Large V3 in verschiedenen Sprachen. Besonders hervorzuheben ist die hohe Genauigkeit bei traditionell unterversorgten Sprachen wie Serbisch, Kantonesisch und Malayalam, bei denen konkurrierende Modelle oft Fehlerraten von über 40 Prozent aufweisen.

ElevenLabs kategorisiert die Sprachunterstützung in verschiedene Genauigkeitsstufen. Über 25 Sprachen fallen in die Kategorie „exzellent“ mit einer Wortfehlerrate von weniger als 5 Prozent, darunter Englisch (mit einer angegebenen Genauigkeit von 97 Prozent), Französisch, Deutsch, Hindi, Indonesisch, Japanisch und weitere. Die übrigen Sprachen werden in die Kategorien „hoch“ (5-10 Prozent Fehlerrate), „gut“ (10-20 Prozent) und „moderat“ (25-50 Prozent) eingestuft.

Die technischen Funktionen von Scribe umfassen eine strukturierte JSON-Ausgabe mit Wort-für-Wort-Zeitstempeln, Sprechererkennung (Diarisierung) und die Markierung von Nicht-Sprach-Ereignissen wie Lachen. Diese Features machen das Modell besonders geeignet für Anwendungen wie Untertitelung, Meeting-Protokolle oder die Transkription von Songtexten.

CEO Mati Staniszewski betonte in einem Gespräch mit TechCrunch die Bedeutung verbesserter Spracherkennungsmodelle: „Viele behaupten, dass Speech-to-Text ein gelöstes Problem sei. Aber für viele Sprachen ist es ziemlich schlecht. Wir glauben, dass wir bessere Spracherkennungsmodelle entwickeln können, da wir interne Teams für die Datenannotation haben, die uns schnelles Feedback geben können.“

Für Entwickler ist Scribe über eine API verfügbar, die eine nahtlose Integration in bestehende Anwendungen ermöglicht. Endnutzer und Unternehmen können das Tool direkt über das ElevenLabs-Dashboard nutzen, um Audio- oder Videodateien hochzuladen und formatierte Transkripte zu generieren. Besonders hervorgehoben wird die Möglichkeit, Videoinhalte direkt mit Untertiteln oder Beschriftungen zu versehen.

Aktuell funktioniert Scribe nur mit voraufgezeichneten Audioformaten – eine Einschränkung für Echtzeit-Anwendungen wie Meeting-Transkriptionen oder Sprachnotizen. ElevenLabs hat jedoch angekündigt, in naher Zukunft eine latenzarme Echtzeit-Version des Modells zu veröffentlichen, die diese Lücke schließen soll.

Die Preisgestaltung für Scribe liegt bei 0,40 Dollar pro Stunde transkribiertem Audio. Dieser Tarif ist wettbewerbsfähig, obwohl einige Konkurrenten derzeit günstigere Preise für Audiotranskriptionen anbieten, allerdings mit teilweise abweichenden Funktionsumfängen. Mit diesem neuen Angebot positioniert sich ElevenLabs als umfassender Anbieter von KI-basierten Sprachlösungen, der nun sowohl Sprachgenerierung als auch -erkennung abdeckt.

ElevenLabs kann durchaus als halb-europäisches Startup angesehen werden. Es wurde von den Polen Piotr Dąbkowski (Ex-Google) und Mati Staniszewski (Ex-Palantir) gegründet und hat Büros in New York wie auch in Warschau.