Gastbeitrag

Wie AI-Modelle die Entwicklung neuer Werkstoffe revolutionieren können

Gastbeitrag12. April 2024, 07:00

Startup Interviewer: Gib uns dein erstes AI Interview

Sam Dale ist leitender Technologieanalyst bei dem Marktforscher IDTechEx. In diesem Gastbeitrag befasst er sich mit Großen Sprachmodellen (LLMs) und ihren potenziellen Auswirkungen auf den Bereich der Materialinformatik.

Die Materialinformatik wendet datengesteuerte Strategien auf die Materialforschung und -entwicklung an. Lange bevor die generative KI-Technologie ihren Höhepunkt erreichte, konnte sie auf diesem Gebiet bereits Erfolge vorweisen. Ein gängiger Ansatz ist die Verwendung von Modellen des maschinellen Lernens, die auf Datenbanken mit Materialstrukturen und -eigenschaften trainiert wurden und die dann die zugrunde liegende Struktur-Eigenschafts-Beziehung erfassen. Durch Umkehrung dieser Modelle mit optimierten Eigenschaften können neue potenzielle Materialien für weitere Untersuchungen vorgeschlagen werden. Große Sprachmodelle (Large Language Models, LLMs) wie die GPT3.5/4-Modelle hinter ChatGPT und Microsofts Copilot verwenden eine ähnliche Taktik, um Sprache zu modellieren: Im Jahr 2024 wird deutlich, wie sehr sie die Materialentwicklung verbessern können.

Wie im jüngsten IDTechEx-Bericht „Werkstoffinformatik 2024-2034: Märkte, Strategien, Akteure“ dargelegt, ist ein wesentliches Hindernis für die Rentabilität von Materialinformatiksoftware das Maß an menschlichem Engagement, das erforderlich ist, um neue Kunden in eine Plattform einzubinden und ihre Daten in ein nutzbares Format zu bringen. Dies kann dazu führen, dass die Aktivitäten eines SaaS-Unternehmens eher einem Beratungsunternehmen ähneln, was die Fähigkeit zur Skalierung einschränkt. LLMs bieten hier einen Rettungsanker für Softwareanbieter und Endnutzer gleichermaßen.

Stärkung der Macht der LLMs

Potenzielle Auswirkungen von LLMs in Materialinformatik. Quelle: IDTechEx

Mit Hilfe der Retrieval-Augmented Generation (RAG) kann ein LLM dazu gebracht werden, als Fachexperte zu agieren, indem man ihm Zugang zu einer Bibliothek von Texten und anderen Daten gibt, die es abfragen kann, ohne dass der Besitzer des LLM diese Daten sehen kann. Die Analogie ist die Umwandlung einer Prüfung von einem geschlossenen in ein offenes Buch, wobei das Modell nicht erneut auf neue Daten trainiert wird. Dies ist das wesentliche Instrument, das den LLMs die Möglichkeit gibt, die Materialinformatik zu verändern, wobei ein Schlüsselfaktor die Fähigkeit ist, Lösungsansätze für materialinformatische Probleme zu entwickeln.

Ein frühes kommerzielles Beispiel kommt von FEHRMANN MaterialsX, der Materialtechnologieabteilung eines langjährigen deutschen Legierungsunternehmens. MaterialsX lieferte dem GPT-4-Modell von OpenAI über RAG zunächst etwa 40.000 Seiten an Büchern, diese und andere Fachinformationen zur Materialentwicklung und zu Legierungen, und viele weitere wurden seitdem hinzugefügt. MaterialsX zitiert einen Forscher an einer deutschen technischen Universität, der dem Modell eine komplexe Frage zu technischen Legierungen stellte, für deren Beantwortung das Team etwa zehn Tage benötigte: das Modell brauchte nur 30 Sekunden.

Das Unternehmen sagt, dass es dabei helfen kann, eine komplette Forschungsmethodik zur Lösung von Legierungsentwicklungsproblemen zu entwickeln, indem es eine Schnittstelle zu anderen maschinellen Lernmodellen und einer Reihe von Datensätzen bildet, um neue Materialkandidaten vorzuschlagen. In Anlehnung an ein ähnliches Beispiel könnte RAG verwendet werden, um die Fähigkeit eines LLM zu verbessern, jeden Bereich der Materialwissenschaft zu verstehen, wobei die Möglichkeit besteht, die dem LLM gelieferten Informationen unter Verwendung der internen Daten des Kunden anzupassen.

Abflachung der Lernkurven

Durch den Einsatz von LLMs, die durch RAG verbessert wurden, können die Eintrittsbarrieren in die Materialinformatik gesenkt werden: Anstatt Materialwissenschaftler darin zu schulen, eine neue grafische Benutzeroberfläche zu benutzen oder Code zu verwenden, um einem Computer Probleme zu stellen, kann stattdessen natürliche Sprache die Schnittstelle sein. Dies könnte dazu beitragen, den gesamten adressierbaren Markt für Materialinformatik-Firmen zu vergrößern: Organisationen, die sich in einem frühen Stadium befinden, und Firmen mit kleineren Materialentwicklungsabteilungen könnten zum Beispiel plötzlich als Kunden in Frage kommen.

Die Aufgabe eines Werkstoffinformatikunternehmens besteht darin, das Fachwissen von Werkstoffwissenschaftlern und Datenwissenschaftlern/Ingenieuren zu verbinden, um die Werkstoffentwicklung voranzutreiben. Die Catalyst-Funktion der Plattform von Citrine Informatics nutzt LLMs, um diese Verbindung in vielerlei Hinsicht zu erleichtern. Ein wichtiger Aspekt ist Catalyst Model Expert, das die Verwendung von natürlicher Sprache ermöglicht, um Wissen über Beziehungen zwischen Eigenschaften in maschinelle Lernmodelle einzubringen. Dies macht es für Materialwissenschaftler einfacher, ihr Fachwissen vollständig zu nutzen, um die besten Ergebnisse aus der Materialinformatiksoftware herauszuholen.Natürlich sind all diese Vorteile nutzlos ohne einen Datensatz, auf dem Modelle des Materialverhaltens trainiert werden können.

Das Zusammenstellen und Bereinigen von Daten aus einer Vielzahl von Quellen ist häufig ein zeitaufwändiges Element von Materialinformatikprojekten, insbesondere angesichts der Schwierigkeit, Daten in der Materialbranche zu standardisieren. LLMs könnten Unternehmen auch hier helfen, indem sie zum Aufbau von Pipelines und zur Extraktion von Daten aus isolierten Excel-Tabellen und verschiedenen Cloud-Dateien eingesetzt werden, die viele Materialunternehmen noch immer zur Datenspeicherung verwenden. Auch wenn die manuelle Überprüfung hier immer noch ein wichtiger Schritt ist, könnten LLMs ein wichtiges Werkzeug sein, um das Dilemma der Datenbereinigung in der Materialinformatik zu lösen.

Ausblick auf die Zukunft

Datensicherheitsbedenken sind für viele Unternehmen der größte Hemmschuh für die Einführung von LLMs in der Werkstoffinformatik. Eine Sorge ist, dass die Anbieter der LLMs auf proprietäre Daten zugreifen könnten, die in RAG verwendet werden. Ein Ansatz könnte darin bestehen, ein lokal laufendes Open-Source-LLM zu verwenden, doch wäre es wahrscheinlich schwierig, hier die Fähigkeiten proprietärer Modelle zu erreichen.

Die Herausforderung für Materialinformatik-SaaS-Anbieter und LLM-Anbieter besteht darin, ihre Kunden von ihren Datensicherheitspraktiken zu überzeugen. In Anbetracht der Nachrichten über die beschleunigte Annahme von LLMs in anderen datenempfindlichen Branchen, wie die Zusammenarbeit zwischen PwC, OpenAI und Harvey zur Schulung und Bereitstellung von Basismodellen für Steuer-, Rechts- und HR-Anwendungen, scheint es wahrscheinlich, dass das Vertrauen hier mit der Zeit wachsen wird.

Insgesamt ist klar, dass LLMs einen erheblichen Einfluss auf den Markt für Materialinformatik haben werden, da sie die Nutzung von Software erleichtern, die Einbeziehung des Wissens von Materialwissenschaftlern in maschinelle Lernmodelle verbessern und den Prozess der Datenerfassung vereinfachen. Dies ist nur eine kleine Auswahl der Vorteile, wobei sich die wahren Auswirkungen dieser Werkzeuge erst in den nächsten Jahren zeigen werden.

Weitere Informationen zu diesem IDTechEx-Bericht, einschließlich Beispielseiten zum Herunterladen, finden sich hier.