Clear Sky Science · de

Klassifizierung von Meldungen zu Mängeln bei Gesundheitsprodukten durch Deep Learning

· Zurück zur Übersicht

Warum es wichtig ist, schlechte Arzneimittel schneller zu entdecken

Die meisten von uns gehen davon aus, dass die Arzneimittel und Gesundheitsprodukte, die wir verwenden, sicher sind und nach strengen Qualitätsstandards hergestellt werden. Dennoch werden weltweit jedes Jahr Hunderte von Arzneimitteln wegen Kontamination, falscher Inhaltsstoffe oder irreführender Etiketten zurückgerufen. Jedes fehlerhafte Produkt kann für Patientinnen und Patienten eine Gefahr darstellen. Die Behörden müssen Tausende von Mängelmeldungen schnell lesen und interpretieren, um zu entscheiden, welche sofortiges Eingreifen erfordern. Dieser Beitrag beschreibt, wie ein Deep‑Learning‑System entwickelt wurde, das Gesundheitsbehörden dabei hilft, diese Meldungen schneller und konsistenter zu klassifizieren, damit sie ihre Aufmerksamkeit auf die Probleme mit dem größten Risiko für die öffentliche Gesundheit richten können.

Wie Produktprobleme heute gemeldet werden

Wenn in einem Arzneimittel oder einem anderen Gesundheitsprodukt ein möglicher Mangel entdeckt wird, wird den Aufsichtsbehörden ein kurzer schriftlicher Bericht übermittelt. Diese Berichte können viele Probleme beschreiben: Glassplitter in einer Durchstechflasche, der falsche Wirkstoff in einer Tablette, undichte Verpackungen oder Etiketten, die zu Dosierungsfehlern führen könnten. In Singapur verwendet die Health Sciences Authority ein standardisiertes medizinisches Vokabular, das an lokale Bedürfnisse angepasst ist, um jede Meldung einer von mehreren spezifischen Kategorien zuzuordnen, zum Beispiel mikrobielle Kontamination oder werbliche Aussagen, die gegen Vorschriften verstoßen. Die zugeordnete Kategorie beeinflusst, wie schwerwiegend das Problem bewertet wird und wie schnell es bearbeitet werden muss. Derzeit lesen geschulte Sachbearbeitende jede Meldung und weisen manuell ein Label zu. Diese Arbeit ist langsam, komplex und kann inkonsistent sein, insbesondere wenn die Anzahl der Meldungen zunimmt.

Figure 1
Figure 1.

Dem Computer beibringen, Mängelberichte zu lesen

Die Forschenden wollten ein System der künstlichen Intelligenz bauen, das diese Sachbearbeitenden unterstützt, statt sie zu ersetzen. Sie sammelten 13.830 Mängelberichte aus den Jahren 2010 bis 2021, die Arzneimittel, Impfstoffe, Nahrungsergänzungsmittel und Kosmetika abdeckten. Ein Team erfahrener Apothekerinnen und Apotheker überprüfte und kennzeichnete jede Meldung sorgfältig mit 21 der häufigsten Mängelkategorien, die zusammen mehr als 99 % aller Fälle abdeckten. Als Kern des Systems verwendeten sie ein populäres Sprachmodell namens BERT, das dafür entwickelt wurde, die Bedeutung von Wörtern im Kontext zu erfassen. Durch Feinabstimmung (Fine‑Tuning) von BERT an dieser beschrifteten Sammlung entstand ein Werkzeug — MedDefects‑BERT — das Titel und Beschreibung einer Meldung lesen und die wahrscheinlichste Mängelkategorie vorhersagen kann.

Wie gut das System arbeitet

Bei Tests mit Meldungen, die es zuvor nicht gesehen hatte, stimmte MedDefects‑BERT in 86 % der Fälle mit der ersten Wahl der Expertinnen und Experten überein. Wenn das System seine drei wahrscheinlichsten Kategorien vorschlagen durfte, war die richtige Kategorie in 96 % der Fälle dabei. Das ist wichtig, weil eine Sachbearbeitende einfach eine kurze Vorschlagsliste prüfen kann, anstatt bei Null zu beginnen. Das System arbeitete besser für Kategorien, für die es mehr Trainingsbeispiele gab — ein typisches Verhalten beim maschinellen Lernen. Dennoch erhöhte das Zulassen von bis zu drei vorgeschlagenen Labels die Leistung für jede Kategorie auf über 70 %, auch für seltenere Kategorien. Die Vertrauenswerte des Modells — Zahlen zwischen 0 und 1, die die Sicherheit anzeigen — standen in starkem Zusammenhang mit der Trefferquote. Durch Festlegen eines Vertrauensschwellenwerts zeigte das Team, dass sie die Genauigkeit bei „sicheren“ Vorhersagen auf etwa 91 % steigern konnten, während nur ein kleiner Teil der Fälle als „unsicher“ für eine genauere menschliche Prüfung markiert wurde.

Figure 2
Figure 2.

Einblick in die Entscheidungsfindung des Modells

Die Autorinnen und Autoren gingen auch eine zentrale Sorge bei KI in sicherheitskritischen Bereichen an: Transparenz. Sie nutzten Visualisierungstools, um zu zeigen, dass Meldungen derselben Mängelkategorie im internen „Kartenbild“ des Modells nahe beieinander liegen, während fehlklassifizierte Meldungen an den Rändern zwischen Clustern positioniert sind. Auf der Ebene einzelner Wörter wandten sie eine Methode namens SHAP an, um hervorzuheben, welche Begriffe in einem Bericht das Modell in Richtung einer bestimmten Kategorie gedrängt haben. Beispielsweise beeinflussten Wörter im Zusammenhang mit Pilzen oder Schimmel stark Vorhersagen zur mikrobiellen Kontamination, während Begriffe wie „Sediment“ oder „Niederschlag“ eine Kategorie zu Ablagerungen in Produkten stützten. Diese Erklärungen geben Sachbearbeitenden eine schnelle Möglichkeit zu sehen, warum das Modell einen Vorschlag gemacht hat, und zu beurteilen, ob er im Kontext sinnvoll ist.

Das System klüger und effizienter machen

Um die Leistung weiter zu verbessern, ohne hohe Rechenkosten zu verursachen, verwendete das Team eine Technik, die als Deep Prompt Tuning bekannt ist. Anstatt alle internen Einstellungen des Modells zu verändern, fügten sie kleine trainierbare „Präfixe“ zu jeder Schicht hinzu, die das Modell sanft auf diese spezielle Aufgabe ausrichten. Die Kombination aus traditionellem Fine‑Tuning und diesen Prompts steigerte die Genauigkeit des Systems in mehr als der Hälfte der Mängelkategorien und verbesserte seine Fähigkeit, Fälle insgesamt korrekt zu erkennen. Tests an neueren Meldungen aus dem Jahr 2022 zeigten, dass die Genauigkeit des Systems im Zeitverlauf erhalten blieb, was darauf hindeutet, dass sein Verständnis für Mängelberichte nicht schnell veraltet.

Was das für Patientinnen, Patienten und Aufsichtsbehörden bedeutet

Die Studie zeigt, dass ein gut entwickeltes Sprachmodell Behörden wesentlich dabei unterstützen kann, große Mengen an Meldungen zu Mängeln bei Gesundheitsprodukten zu sichten, die Kategorisierung von Fällen zu standardisieren und problematische, risikoreiche Fälle schneller hervorzuheben. Da das System außerdem offenlegt, welche Wörter und Textstellen seine Vorschläge beeinflusst haben, bleiben menschliche Expertinnen und Experten bei der endgültigen Entscheidung fest in der Verantwortung. Mit weiterer Verfeinerung — etwa der Handhabung mehrerer Mängeltypen in einem Bericht und der Ausweitung auf seltenere Kategorien — könnten ähnliche Werkzeuge die Überwachung der Arzneimittelqualität weltweit stärken, Verzögerungen bei Rückrufen gefährlicher Produkte reduzieren und letztlich besseren Schutz für Patientinnen und Patienten bieten.

Zitation: Sancenon, V., Huang, Y., Zou, L. et al. Classification of health product defect reports by deep learning. Sci Rep 16, 13528 (2026). https://doi.org/10.1038/s41598-026-43961-3

Schlüsselwörter: Arzneimittelsicherheit, Qualität von Medikamenten, Deep Learning, regulatorische Überwachung, Verarbeitung natürlicher Sprache