Clear Sky Science · de

AIM-Review-Tool: Künstliche Intelligenz für intelligenteres Screening systematischer Reviews

· Zurück zur Übersicht

Warum das Sortieren wissenschaftlicher Studien neu gedacht werden muss

Täglich veröffentlichen Wissenschaftlerinnen und Wissenschaftler tausende neuer Studien – weit mehr, als ein Forschungsteam bequem lesen kann. Wenn Gesundheitsleitlinien oder wichtige wissenschaftliche Entscheidungen auf der sorgfältigen Zusammenfassung dieser Evidenz in systematischen Reviews beruhen, können Fachleute Monate damit verbringen, nur zu entscheiden, welche Publikationen relevant sind. Dieser Artikel stellt das AIM-Review-Tool vor, ein webbasiertes System, das künstliche Intelligenz im Browser nutzt, um Forschenden zu helfen, wichtige Studien schneller zu finden, repetitive Arbeit zu reduzieren und die Prozesse transparenter zu machen.

Aus einer Papierflut einen handhabbaren Strom machen

Systematische Reviews zielen darauf ab, fokussierte Fragen zu beantworten – etwa, ob eine Behandlung wirkt – indem sie mehrere Datenbanken durchsuchen und dann jede potenziell relevante Arbeit sichten. Dieser Screening-Schritt ist langsam und anstrengend: Teams starten oft mit zehntausenden Titeln und Abstracts und entscheiden manuell, welche Arbeiten vollständig gelesen werden sollen. Bestehende KI-Tools können helfen, Prioritäten zu setzen, welche Einträge zuerst betrachtet werden sollten, basieren aber häufig auf geschlossenen, undurchsichtigen Algorithmen oder erfordern komplexe Softwareinstallationen. AIM Review wurde so konzipiert, dass es offen, konfigurierbar und direkt im Webbrowser einfach ausführbar ist, damit Forschende besser nachvollziehen und steuern können, wie die KI ihre Entscheidungen trifft.

Figure 1
Abbildung 1.

Wie das Tool aus menschlichen Entscheidungen lernt

AIM Review kombiniert zwei Hauptarten des maschinellen Lernens. Zunächst verwendet es Active Learning zur Unterstützung der Echtzeit-Priorisierung. Während Gutachterinnen und Gutachter Arbeiten als „relevant" oder „nicht relevant" kennzeichnen, lernt das System Muster in der Wortwahl von Titeln und Abstracts. Es ordnet dann die verbleibenden Arbeiten neu, sodass jene, die am wahrscheinlichsten relevant sind, früher in der Prüfungsliste erscheinen. Im Hintergrund wandelt die Software Text in numerische Fingerabdrücke um – mit Methoden von einfachen Wortzählungen bis hin zu fortgeschrittenen Sprachmodellen – und speist diese in Klassifikatoren wie logistische Regression oder Support-Vektor-Maschinen ein. Durch das Stapeln oder Verschmelzen dieser unterschiedlichen Textrepräsentationen kann AIM Review sowohl grundlegende Stichwörter als auch tiefere Bedeutungsaspekte der Sprache erfassen.

Arbeitsaufwand in realen systematischen Reviews reduzieren

Die Autorinnen und Autoren testeten AIM Review an sechs abgeschlossenen systematischen Reviews aus Psychologie, Psychiatrie, Informatik, Endokrinologie und Umweltgesundheit. In simulierten Screening-Durchläufen verringerte Active Learning die Anzahl der manuell zu prüfenden Arbeiten erheblich, während es dennoch mindestens 95 % der tatsächlich relevanten Studien fand. Je nachdem, wie selten relevante Studien waren, lag die „eingesparte Arbeit" zwischen etwa 20 % und bis zu 95 %. Beispielsweise hätte das System in einem Review mit mehr als 16.000 Arbeiten, aber sehr wenigen relevanten, das manuelle Screening auf etwa 2.400 Datensätze reduzieren können und dennoch fast jede wichtige Studie erfasst. In Bereichen, in denen viele Arbeiten tatsächlich relevant sind, fielen die Einsparungen kleiner, aber weiterhin bedeutsam aus.

Relevanz vorhersagen, um das Screening teilautomatisieren

Active Learning geht weiterhin davon aus, dass Menschen schließlich die meisten Hochprioritäts-Einträge ansehen. Um weiterzugehen, bietet AIM Review einen überwachten Lernmodus auf Basis von verschachtelter Kreuzvalidierung, einer strengen Methode zum Aufbau und Testen von Modellen. Nachdem Gutachterinnen und Gutachter einen Teil der Arbeiten manuell gekennzeichnet haben (zum Beispiel 20 %), trainiert und optimiert das Tool Modelle, um vorherzusagen, welche der verbleibenden 80 % wahrscheinlich relevant sind. In den Fallstudien erreichten diese Modelle balancierte Genauigkeiten von etwa 75 % bis 87 %, was bedeutet, dass sie sowohl relevante Arbeiten gut erfassten als auch irrelevante gut ausschlossen. Verschiedene Strategien boten Kompromisse: Das Stapeln mehrerer Modelle lieferte oft etwas höhere Genauigkeit, riskierte aber Overfitting, während das einfache Verschmelzen aller Textmerkmale tendenziell besser auf neues Material generalisierte.

Figure 2
Abbildung 2.

Von manueller Plackerei zu geführter, transparenter KI-Unterstützung

AIM Review ist in drei verbundene Module gegliedert: eine Labeling-App zum Screening von Arbeiten mit Active Learning, eine Agreement-App zum Vergleich von Entscheidungen unterschiedlicher Gutachterinnen und Gutachter und eine Prediction-App zum Trainieren überwachter Modelle und zum Kennzeichnen ungesichteter Datensätze. Alles läuft lokal im Browser, was den Datenschutz schützt und komplizierte Installationen vermeidet. Die Autorinnen und Autoren betonen, dass das Tool das fachliche Urteil nicht ersetzt. Stattdessen hilft es Teams, weniger Zeit mit repetitiver Sortierarbeit und mehr Zeit mit der Bewertung der Qualität und Bedeutung der besten Kandidaten zu verbringen. Ihre Ergebnisse deuten darauf hin, dass browserbasierte KI, wenn sie sorgfältig eingesetzt wird, große, vertrauenswürdige Evidenzzusammenfassungen realistischer macht – besonders in Bereichen, in denen das Forschungsvolumen Menschen ansonsten überwältigen würde.

Was das für die zukünftige Evidenzbeschaffung bedeutet

Für Nichtfachleute ist die Kernbotschaft, dass intelligentere Software die verborgenen, arbeitsintensiven Schritte hinter evidenzbasierter Medizin und Politik reduzieren kann. Indem sie aus den Entscheidungen der Gutachterinnen und Gutachter lernt und ihre eigenen Vorhersagen rigoros testet, bietet AIM Review einen praktischen Weg, systematische Reviews zu beschleunigen, ohne sie zu einer Blackbox zu machen. Bei breiter Nutzung könnten solche Werkzeuge dazu beitragen, dass Leitlinien, Gesundheitsratschläge und wissenschaftliche Synthesen mit dem schnell wachsenden Forschungsstand Schritt halten.

Zitation: Mena, S., Rituerto-González, E., Coutts, F. et al. AIM review tool: artificial intelligence for smarter systematic review screening. npj Artif. Intell. 2, 25 (2026). https://doi.org/10.1038/s44387-026-00080-8

Schlüsselwörter: systematische Übersichten, maschinelles Lernen, Literatur-Screening, Werkzeuge der künstlichen Intelligenz, Beweissynthese