Clear Sky Science · de
Betrieb fortschrittlicher wissenschaftlicher Instrumente mit KI-Agenten, die unterwegs dazulernen
Intelligentere Maschinen für die Alltagswissenschaft
Moderne wissenschaftliche Geräte, von leistungsfähigen Röntgenmikroskopen bis zu robotergesteuerten Chemielabors, können Daten schneller erfassen als je zuvor. Dennoch erfordert der Betrieb dieser Maschinen weiterhin fachliche Aufmerksamkeit und sorgfältige Einrichtung, was einschränkt, wer sie nutzen kann und wie zügig Entdeckungen gemacht werden. Dieses Papier untersucht, wie eine neue Generation künstlicher Intelligenz‑„Agenten“ gemeinsam mit menschlichen Forschenden lernen kann, komplexe Instrumente sicherer, flexibler und effizienter zu bedienen.

Vom Knöpfe‑Drücken zu lernenden Partnern
Die heutigen fortschrittlichen Labore automatisieren viele Routineaufgaben, doch echte Autonomie — das Planen von Experimenten, Interpretieren von Bildern und Entscheiden über die nächsten Schritte — bleibt unerreicht. Die Autorinnen und Autoren bauen auf großen Sprachmodellen auf, der gleichen Art von KI, die moderne Chatbots antreibt, und verwandeln sie in zielgerichtete Agenten, die Code schreiben, Software‑Tools aufrufen und auf Bilder und Videos reagieren können. Statt Forschende zu ersetzen, sind diese Agenten so konzipiert, dass sie im „Human in the loop“-Modus arbeiten: Menschen beschreiben die gewünschte Aufgabe, korrigieren bei Bedarf, und die KI merkt sich diese Lektionen für zukünftige Einsätze.
Ein digitaler Co‑Pilot für ein Röntgenmikroskop
Das erste Testfeld ist eine Hard‑Röntgen‑Nanoprobe‑Beamline, ein Gerät, das fokussierte Röntgenstrahlen verwendet, um die Struktur von Materialien auf der Skala von Milliardsteln Metern abzubilden. Wegen Strahlungsgefahren darf während des Betriebs niemand im Raum sein, und die gesamte Anlage wird von spezialisierter Software und Skripten gesteuert. Das Team koppelt mehrere KI‑Agenten an dieses Steuerungssystem. Ein Agent schreibt die Befehle zum Abtasten einer Probe; ein anderer prüft den Code auf Sicherheit und Korrektheit; ein Vision‑Agent analysiert die resultierenden Bilder und schlägt vor, wo für einen genaueren Blick hineingezoomt werden sollte. Die Agenten müssen nicht nur Anfragen in Alltagssprache in korrekte Scan‑Befehle übersetzen, sondern auch winzige helle Punkte in Beugungs‑ und Fluoreszenzaufnahmen erkennen und deren Positionen in präzise Koordinaten für neue Scans umwandeln.
Was die KI richtig machte — und wobei sie strauchelte
Durch den Vergleich mehrerer führender, visionsfähiger Sprachmodelle finden die Forschenden deutliche Leistungsunterschiede. Einige Modelle sind gut darin, Textanweisungen zu befolgen und die richtige Funktion aufzurufen, besonders nachdem sie Beispiele gesehen und von Menschen korrigiert wurden. Andere sind deutlich besser im visuellen Schließen, etwa beim punktgenauen Erkennen isolierter heller Partikel und beim Meiden dicht gedrängter Cluster bei der Auswahl von Scan‑Zielen. Das in dieser Studie herausragende Modell vereint beide Stärken und zeigt das konsistenteste Verhalten bei wiederholten Durchläufen. Die Autorinnen und Autoren stellen jedoch auch fest, dass Feedback hauptsächlich textbasierte Fähigkeiten wie die Parameterwahl verbessert; es behebt nicht auf magische Weise eine schwache visuelle Verarbeitung.

Roboter lehren, eigene Experimente durchzuführen
Das zweite Testfeld ist eine automatisierte Station zur Herstellung dünner Polymerfilme, wie sie in Elektronik‑ und Energieanwendungen verwendet werden. Hier bewegt ein Roboterarm mit verschiedenen Greifern Fläschchen, Substrate, Pipettenspitzen und ein Klingenbeschichtungstool zwischen verschiedenen Stationen. Die Forschenden entfernen die meisten hochleveligen Routinen und geben den Agenten nur niedrigstufige Befehle sowie eine Karte, wo sich alles befindet. Die KI muss ein wissenschaftliches Papier lesen, um geeignete Beschichtungsbedingungen zu extrahieren, eine lange Abfolge von Schritten planen — etwa ein Substrat aufnehmen, in den Coater legen, ein Fläschchen öffnen, Lösung dosieren und diese bei kontrollierter Temperatur und Geschwindigkeit verstreichen — und dann den Roboter‑Code generieren und verifizieren, um dies auszuführen. Menschliche Aufsichtspersonen genehmigen jede neue Sequenz, und ihre Korrekturen werden in einem Speichersystem abgelegt, sodass die Agenten erfolgreiche Muster später wiederverwenden können.
Auf dem Weg zu selbstfahrenden Laboren
Über die X‑ray‑Beamline und die robotische Fertigungsplattform hinweg zeigt die Studie, dass KI‑Agenten on the job lernen können und schrittweise fachliche Anleitung in wiederverwendbares Know‑how umwandeln. Mit einer strukturierten Erinnerung und Sicherheitsprüfungen, die einschränken, was die KI tun darf, können solche Systeme mit der Zeit verlässlicher werden, während kritische Entscheidungen weiterhin in menschlicher Hand bleiben. Die Autorinnen und Autoren betonen, dass echte, vollständig automatische Labore weitere Arbeit an Kalibrierung, Langzeit‑Gedächtnisverwaltung und an Aufgaben erfordern, die weiterhin menschliche Geschicklichkeit und Intuition benötigen. Dennoch weist diese Arbeit auf eine Zukunft hin, in der Forschende weniger Zeit mit dem Kampf gegen komplexe Steuerungen verbringen und mehr Zeit damit, ambitionierte Fragen zu stellen, während KI‑Partner helfen, die Instrumente zu betreiben, die Ideen in Entdeckungen verwandeln.
Zitation: Vriza, A., Prince, M.H., Zhou, T. et al. Operating advanced scientific instruments with AI agents that learn on the job. npj Comput Mater 12, 160 (2026). https://doi.org/10.1038/s41524-026-02005-0
Schlüsselwörter: KI-Agenten, selbstfahrende Labore, wissenschaftliche Instrumentierung, robotergestützte Experimente, multimodale große Sprachmodelle