LLM

Metas Llama 3 ist da, soll AI-Assistenten in Instagram und Co antreiben

Jakob Steinschaden18. April 2024, 19:17

Mark Zuckerberg von Meta. © Meta Platforms

Startup Interviewer: Gib uns dein erstes AI Interview

Meta hat die neuesten Modelle seiner Open-Source-Reihe für generative KI, Llama 3, veröffentlicht. Zunächst wurden zwei Modelle der neuen Llama 3 Familie freigegeben, Llama 3 8B mit 8 Milliarden Parametern und Llama 3 70B mit 70 Milliarden Parametern. Weitere Modelle sollen zu einem späteren Zeitpunkt folgen. Erstes Einsatzgebiet sind AI-Assistenten, die in die Suchfunktionen der vier Apps Facebook, Messenger, Instagram und WhatsApp integriert werden – schrittweise in immer mehr Ländern.

Die Llama 3 Modelle wurden auf zwei speziell gebauten 24.000 GPU-Clustern trainiert und stellen laut Meta einen großen Leistungssprung im Vergleich zu den Vorgängermodellen Llama 2 8B und Llama 2 70B dar. Das Unternehmen behauptet, dass Llama 3 8B und Llama 3 70B für ihre jeweilige Parameteranzahl zu den leistungsstärksten verfügbaren generativen KI-Modellen gehören.

Meta stützt diese Behauptung auf die Ergebnisse der Llama 3 Modelle in bekannten KI-Benchmarks wie MMLU, ARC und DROP. Llama 3 8B übertrifft andere Open-Source-Modelle wie Mistral 7B und Google Gemma 7B in mindestens neun Benchmarks, heißt es. Llama 3 70B sei außerdem wettbewerbsfähig mit führenden generativen KI-Modellen wie Google Gemini 1.5 Pro und schneide in einigen Benchmarks besser ab als das schwächste Modell der Claude 3 Serie von Anthropic. Der direkte Vergleich zu GPT-4 von OpenAI wird noch gescheut. Hier die Benchmarks, die von Mark Zuckerbergs Konzern gerade veröffentlicht wurden:

Mistral AI: Neues Open-Source-Modell Mixtral 8X22B übertrumpft Google und Meta

Trainingsdaten aus „öffentlichen Quellen“

Die neuen Llama-Modelle wurden auf einem Datensatz von 15 Billionen Token trainiert, der siebenmal größer ist als der Llama 2 Trainingsdatensatz. Meta gab nur bekannt, dass die Daten aus öffentlich zugänglichen Quellen stammen würden, viermal mehr Code als im Llama 2 Datensatz enthalten und zu 5% aus nicht-englischen Daten in etwa 30 Sprachen bestehen. Es ist davon auszugehen, dass öffentlich sichtbare User-Inhalte der Meta-Töchter Instagram und Facebook zum Training genutzt wurden.

Meta behauptet, dass die neuen Datenfilter-Pipelines und aktualisierten KI-Sicherheits-Suites Llama Guard und CybersecEval die Qualität und Sicherheit der Llama 3 Modelle verbessern. Ein neues Tool namens Code Shield soll zudem Code von generativen KI-Modellen erkennen, der Sicherheitslücken einführen könnte.

Die Llama 3 Modelle sind ab sofort zum Download vie Hugging Face und Github verfügbar und werden bald auf einer Vielzahl von Cloud-Plattformen wie AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM und Snowflake gehostet. In Zukunft sollen auch für Hardware von AMD, AWS, Dell, Intel, Nvidia und Qualcomm optimierte Versionen bereitgestellt werden.

Meta arbeitet derzeit an noch leistungsfähigeren Llama 3 Modellen mit über 400 Milliarden Parametern, die mehrsprachig und multimodal sein sollen, also nicht bloß Textein- und -ausgabe können, sondern etwa auch mit Bildern arbeiten können. Erste Benchmarktests zeigen, dass Llama 3 400B dann mit GPT-4 und Gemini Pro mithalten wird können.