Clear Sky Science · nl

Verbetering van op samenstelling gebaseerde voorspelling van materiaaleigenschappen door kruismodale kennisoverdracht

· Terug naar het overzicht

Waarom het raden van materiaalgedrag ertoe doet

Het ontwerpen van nieuwe batterijen, zonnecellen of sterkere legeringen begint vaak met een eenvoudig recept waarin staat welke elementen gemengd moeten worden. Dat recept omzetten in een echt materiaal met bekende sterkte, geleiding of stabiliteit vereist meestal kostbare kwantumberekeningen of experimenten. Deze studie laat zien hoe geavanceerde op taal gebaseerde AI-modellen, oorspronkelijk gemaakt om tekst te lezen, kunnen leren van veel soorten materiaalgegevens en vervolgens belangrijke eigenschappen direct uit een chemische formule kunnen voorspellen, waardoor de kosten en tijd om enorme ruimtes van mogelijke verbindingen te verkennen aanzienlijk afnemen.

Figure 1. Hoe AI chemische recepten koppelt aan materiaalgedrag door gedeelde kennis uit vele datatypen te gebruiken.
Figure 1. Hoe AI chemische recepten koppelt aan materiaalgedrag door gedeelde kennis uit vele datatypen te gebruiken.

Van recepten naar voorspellingen

Traditionele machine learning-tools in de materiaalkunde vallen in twee kampen. De ene familie heeft gedetailleerde kristalstructuren nodig, die beschrijven hoe atomen in drie dimensies zijn gerangschikt, en kan eigenschappen nauwkeurig voorspellen maar tegen hoge rekenkosten. De andere familie kijkt alleen naar de globale chemische formule, bijvoorbeeld hoeveel atomen van elk element aanwezig zijn; dat is goedkoper maar doorgaans minder nauwkeurig. De auteurs willen deze kloof dichten: ze streven naar modellen die alleen de formule zien maar toch bijna zo goed presteren als structuurgevoelige methoden, waardoor snelle screenings mogelijk worden van verbindingen die nog nooit zijn gemaakt of zelfs gestructureerd gemodelleerd.

De AI leren de taal van materialen te spreken

Het team bouwt voort op chemische taalmodellen, die een formule behandelen als een reeks tokens, vergelijkbaar met woorden in een zin. Eerst leren deze modellen om ontbrekende delen van formules in te vullen, een trainingsopgave die hen helpt regelmatigheden te vatten in welke elementen combineren en in welke verhoudingen. De auteurs sturen dit leren verder in de richting van thermodynamisch stabiele materialen, zodat het model meer aandacht besteedt aan samenstellingen die realistisch zijn. Vervolgens introduceren ze een cruciale wending: in plaats van alleen van tekst te leren zoals traditionele taalmodellen, worden hun modellen uitgelijnd met een aparte foundation-modellering die al heeft geleerd uit meerdere bronnen, waaronder kristalstructuren, elektronisch gedrag en ladingsverdelingen. In feite erft het taalmodel rijke structurele kennis terwijl het nog steeds alleen met formules werkt.

Figure 2. Hoe een op formules gebaseerd AI-model structurele en elektronische patronen opneemt om materiaaleigenschappen te voorspellen.
Figure 2. Hoe een op formules gebaseerd AI-model structurele en elektronische patronen opneemt om materiaaleigenschappen te voorspellen.

Twee wegen voor kennisdeling

De onderzoekers verkennen twee complementaire strategieën, die ze impliciete en expliciete kruismodale kennisoverdracht noemen. In de impliciete versie wordt het op formules gebaseerde taalmodel getraind om de interne representaties van het multimodale foundation-model te matchen, zodat het stilletjes opneemt hoe structuren en elektronische patronen zich verhouden tot samenstelling. In de expliciete versie stelt een groot generatief model eerst waarschijnlijke kristalstructuren voor voor elke formule, en voorspellen grafneurale netwerken, die goed zijn in het omgaan met netwerkstructuren van atomen, eigenschappen op basis van die structuren. Deze tweestapsroute probeert de ontbrekende kristalinformatie te reconstrueren voordat een voorspelling wordt gedaan.

Hoe goed de methoden werken

De modellen worden getest op twee grote benchmarkreeksen die tientallen doelgrootheden bestrijken, van bandgaps relevant voor zonnecellen tot mechanische eigenschappen zoals de schuifmodulus. In de meeste van deze taken, vooral voor datasets die gebaseerd zijn op kwantummechanische berekeningen, leveren de impliciete overdrachtsmodellen kleinere voorspellingsfouten dan eerdere taalmodellen en concurreren ze vaak met sterke structuurgebaseerde tegenhangers. De expliciete overdrachtsketen verbetert ook ten opzichte van eerdere op samenstelling gebaseerde taalmodellen maar wordt vertraagd door de noodzaak kristalstructuren te genereren. Het produceren van deze structuren kan tientallen keren langer duren per materiaal dan een directe voorspelling door een taalmodel, zeker wanneer samenstellingen veel verschillende elementen bevatten.

Een kijkje in de zwarte doos

Om te begrijpen wat het taalmodel heeft geleerd, passen de auteurs een speltheoretische analyse toe die meet hoe verschillende delen van de invoer, afzonderlijk of in combinatie, de voorspelde eigenschap beïnvloeden. Bij onderzoek naar de schuifmodulus, die aangeeft hoe goed een materiaal weerstand biedt tegen vormverandering, vinden ze dat bepaalde elementen en elementgroepen de waarde sterk verhogen of verlagen, in overeenstemming met bekende harde verbindingen zoals boriden en carbiden. Sommige drie-tokenpatronen in de formule kunnen zelfs worden gekoppeld aan bekende kristalprototypen, wat suggereert dat het model impliciet structurele motieven heeft opgepikt enkel uit de samenstelling.

Wat dit betekent voor toekomstige materiaalontdekking

Al met al laat de studie zien dat het delen van kennis tussen verschillende typen materiaalgegevens de eigenschapsvoorspelling aanzienlijk kan verbeteren wanneer alleen de chemische formule beschikbaar is. De impliciete benadering, waarbij het taalmodel wordt begeleid door een multimodaal foundation-model, biedt de beste combinatie van nauwkeurigheid en snelheid en is daarom aantrekkelijk voor grootschalige virtuele screenings van nieuwe verbindingen. De expliciete route die kristalstructuren reconstrueert biedt een andere veelbelovende invalshoek, vooral naarmate structuurgeneratoren verbeteren. Gezamenlijk wijzen deze methoden op AI-hulpmiddelen die snel door uitgestrekte chemische ruimtes kunnen zoeken en de meest veelbelovende kandidaten markeren lang voordat er een enkel kristal wordt gekweekt.

Bronvermelding: Rubtsov, I., Dudakov, I., Kuratov, Y. et al. Enhancing composition-based materials property prediction by cross-modal knowledge transfer. Sci Rep 16, 16434 (2026). https://doi.org/10.1038/s41598-026-53182-3

Trefwoorden: materialeninformatica, chemische taalmodellen, eigenschappenvoorspelling, multimodaal leren, kristalstructuren