Clear Sky Science · de

Ein groß angelegtes Benchmark zur Bewertung großer Sprachmodelle bei medizinischer Beantwortung von Fragen auf Rumänisch

2026-02-21 · Zurück zur Übersicht

Warum das für Gesundheit und Technologie wichtig ist

Viele Menschen wenden sich inzwischen an Online-Tools und Chatbots für Gesundheitsinformationen, doch die meisten dieser Systeme funktionieren am besten auf Englisch und haben Schwierigkeiten mit lokalen medizinischen Dokumenten. Dieses Paper schließt diese Lücke für Rumänien, wo Ärzte lange, komplexe Falzzusammenfassungen auf Rumänisch verfassen und zuverlässige digitale Helfer benötigen, die schnell Fragen zu Krebspatienten beantworten können. Die Autorinnen und Autoren stellen MedQARo vor, eine neue Ressource, die Forschenden erlaubt, große Sprachmodelle ernsthaft zu testen und zu verbessern, sodass diese echte klinische Notizen auf Rumänisch besser verstehen.

Ein neues Fragenkorpus aus echten Patientenakten

Im Zentrum der Studie steht MedQARo, eine sehr große Sammlung von 105.880 Frage‑Antwort-Paaren, die mit 1.242 Krebspatienten verknüpft sind. Statt englische Daten zu übersetzen, begann das Team von Grund auf mit originalen rumänischen Falzzusammenfassungen, überwiegend zu Brust‑ und Lungenkrebs sowie mehreren anderen Tumorarten. Sieben Onkologie‑Fachärztinnen und -ärzte sowie Assistenzärztinnen und -ärzte verbrachten fast 3.000 Stunden damit, diese Dokumente zu lesen und Antworten auf sorgfältig gestaltete medizinische Fragen zu schreiben. Einige Fragen sind Ja/Nein, andere extrahieren spezifische Details, und manche erfordern das Kombinieren von Hinweisen, um Stadien oder Behandlungszeiträume zu erschließen. Alle Patientendaten wurden vollständig anonymisiert und von Ethikkommissionen genehmigt.

KI testen auf heimischer medizinischer Sprache

Mithilfe von MedQARo bewerteten die Autorinnen und Autoren mehrere Familien großer Sprachmodelle, darunter zwei, die allgemein für Rumänisch angepasst sind, eines, das für sehr lange Texte konzipiert ist, und eines, das auf englischem medizinischem Material trainiert wurde. Sie verglichen diese außerdem mit zwei leistungsstarken kommerziellen Modellen, die über kostenpflichtige APIs zugänglich sind. Jedes Modell musste die Frage und einen Auszug aus der klinischen Zusammenfassung lesen und dann die Antwort generieren. Die Forschenden betrachteten nicht nur exakte Übereinstimmungen, sondern auch, wie häufig die Modelle die Schlüsselwörter erfassten und wie gut sie flexible rumänische Formulierungen bewältigten, wobei vier verschiedene Bewertungsmaße verwendet wurden.

Feinabgestimmte Modelle schlagen „out‑of‑the‑box“‑Giganten

Im Allgemeinen erzielten Modelle, die unverändert „out of the box“ eingesetzt wurden, auf MedQARo schlechte Ergebnisse, selbst wenn sie in Englisch stark oder leicht rumänisch vortrainiert waren. Einfache Baselines, die stets die häufigste Antwort rieten, kamen den Zero‑Shot‑Systemen teilweise fast gleich. Nachdem die Forschenden die Modelle jedoch auf dem neuen Datensatz feinabgestimmt hatten, stieg die Leistung dramatisch an. Das beste System, ein an Rumänisch angepasster Modell namens RoMistral‑7B, erreichte eine F1‑Punktzahl von etwa 0,67 für vertraute Krebsarten und Krankenhäuser und schlug damit klar alle anderen Open‑Source‑ und kommerziellen Modelle. Trotzdem beantwortete selbst dieses Spitzenmodell mehr als ein Drittel der Fragen falsch, was die Schwierigkeit des Benchmarks unterstreicht.

Generalisierung über Kliniken und Krebsarten hinweg unter Stress

Um zu prüfen, ob diese Systeme mit neuen Situationen zurechtkommen, erstellte das Team einen härteren Testdatensatz aus einer anderen medizinischen Einrichtung und aus Krebsarten, die während des Trainings nicht vorkamen. In diesem domänenübergreifenden Szenario fiel die Leistung aller Modelle, oft deutlich, ab; das beste feinabgestimmte Modell antwortete korrekt deutlich unter der Hälfte der Fälle. Auf englische biomedizinische Texte trainierte Modelle übertrugen sich nicht automatisch gut auf rumänische Notizen, und einfaches Zuführen eines viel längeren Ausschnitts des klinischen Dokuments half ebenfalls kaum. Tatsächlich funktionierte oft das Konzentrieren auf den ersten Teil der Zusammenfassung besser, als den gesamten langen Bericht zu geben, was darauf hindeutet, dass mehr Kontext eher verwirren als klären kann.

Was das für die zukünftige klinische KI bedeutet

Für eine(n) nicht‑fachliche(n) Leser(in) ist die Kernbotschaft: Der Aufbau sicherer und nützlicher medizinischer KI in Sprachen wie Rumänisch erfordert mehr, als lokale Daten einfach in einen großen, englischzentrierten Chatbot zu stecken. Sorgfältig gestaltete, sprachspezifische Benchmarks wie MedQARo machen sowohl das Potenzial als auch die Grenzen aktueller Systeme sichtbar. Sie zeigen, dass kleine Open‑Source‑Modelle, wenn sie auf hochwertigen lokalen Daten feinabgestimmt werden, größere allgemeine Modelle in der Cloud übertreffen können. Gleichzeitig mahnen die moderaten Werte, insbesondere bei neuen Krankenhäusern und Krebsarten, dass die heutigen Werkzeuge nicht bereit sind, menschliches Urteil zu ersetzen. Stattdessen bietet MedQARo eine solide Grundlage für die nächste Generation klinischer Assistenten, die rumänische Ärztinnen und Ärzte beim Navigieren komplexer Krebsakten unterstützen können, wobei Sicherheit und Datenschutz der Patientinnen und Patienten im Mittelpunkt stehen.

Zitation: Rogoz, AC., Ionescu, R.T., Anghel, AV. et al. A large-scale benchmark for evaluating large language models on medical question answering in Romanian. npj Digit. Med. 9, 268 (2026). https://doi.org/10.1038/s41746-026-02465-0

Schlüsselwörter: medizinische Fragebeantwortung, rumänische Sprach-KI, klinische Krebsakten, große Sprachmodelle, MedQARo-Benchmark