Clear Sky Science · de

Umfassende Leistungsbewertung des BMIA-12, eines Systems zur Quantifizierung von Knochenmarkzellen in Proben aus normalem und hämatologischem Krankheitskontext

2026-02-13 · Zurück zur Übersicht

Warum das Zählen von Knochenmarkzellen wichtig ist

Bei der Diagnose von Blutkrebsarten wie Leukämie oder multiplem Myelom begutachten Ärztinnen und Ärzte Knochenmarkausstriche unter dem Mikroskop und zählen häufig tausende Zellen manuell. Diese langsame, mühsame Arbeit beeinflusst entscheidend Diagnose, Therapie und Prognose. Der Artikel stellt ein neues System der künstlichen Intelligenz, BMIA‑12A, vor und prüft es gründlich: Es soll einen Großteil dieser Zählarbeit automatisieren und so potenziell schnellere, konsistentere Ergebnisse liefern, die weniger von der individuellen Expertise der Begutachtenden abhängen.

Ein neuer digitaler Helfer fürs Mikroskop

Das BMIA‑12A‑System verarbeitet digitalisierte Bilder von Knochenmarkausstrichen und nutzt Deep‑Learning‑Algorithmen, um Zellen in 16 Haupttypen zu erkennen und zu klassifizieren, darunter frühe „Blast“-Zellen, die für die Definition von Leukämien wichtig sind, sowie Plasmazellen, die beim multiplen Myelom zentral sind. In dieser Studie analysierten Forschende 298 Knochenmarkausstriche von 149 Personen, darunter normale Proben, Plasmazellerkrankungen und mehrere Formen der akuten Leukämie. Für jeden Ausstrich verglichen sie drei Vorgehensweisen: vollständig automatisierte KI-Zählungen, KI-Zählungen, die von Spezialistinnen und Spezialisten überprüft und korrigiert wurden, sowie die traditionelle manuelle Zählung am Lichtmikroskop. Außerdem untersuchten sie zwei gebräuchliche Ausstrichtechniken, sogenannte Wedge‑ und Squash‑Ausstriche, um zu ermitteln, wie die Präparation die KI‑Leistung beeinflusst.

Wie gut das System normale Zellen erkennt

In Knochenmarkproben von Personen ohne Malignom lieferte das KI‑System beeindruckende Ergebnisse. Es klassifizierte etwa 95 % von fast 38.000 Zellen korrekt in sowohl Wedge‑ als auch Squash‑Präparaten, wobei 14 von 16 Zelltypen eine Sensitivität über 90 % zeigten. Wedge‑Ausstriche – bei denen die Probe gleichmäßig über das Glas verteilt wird – erzielten eine etwas bessere Präzision für wichtige diagnostische Zelltypen wie Plasmazellen, Blasten und seltene Basophile. Die meisten Fehler der KI traten zwischen sehr ähnlich aussehenden Zelltypen auf, etwa benachbarte Reifestadien der Leukozyten‑Maturation oder reaktive Lymphozyten, die Blasten ähneln. Verglich man die Häufigkeit einzelner Zelltypen über ganze Proben, stimmten die KI‑Ergebnisse nach Expertenüberprüfung eng überein, während traditionelle manuelle Zählungen deutlich variabler waren – ein Spiegelbild der Subjektivität und der begrenzten Stichprobe menschlicher Zählung.

Was bei Myelom und Leukämie passiert

In krankhaften Zuständen war die Systemleistung gemischter. Bei Plasmazellerkrankungen war die KI sehr präzise beim Erkennen von Plasmazellen, verfehlte aber etwa ein Viertel davon, vor allem beim multiplen Myelom, wo das Mark mit abnormen Plasmazellen überfüllt ist, die in Form und Aussehen von den im Trainingsmaterial verwendeten Idealbeispielen abweichen. Folglich neigte die KI dazu, den Anteil von Plasmazellen im Vergleich zu manuellen und von Experten korrigierten Zählungen zu unterschätzen, besonders bei hoher Tumorlast. Ein ähnliches Muster zeigte sich bei akuten Leukämien: Die KI war insgesamt recht gut darin, Blasten zu erkennen, insbesondere auf Wedge‑Ausstrichen, ordnete atypische Blasten jedoch häufig ähnlichen Kategorien zu, etwa Monozyten oder frühen myeloischen Zellen. Manuelle Zählungen ergaben durchgehend höhere Blastprozentsätze als automatisierte oder expertengereviewte digitale Ergebnisse, wobei die größten Unterschiede in bestimmten genetischen Subtypen auftraten, wie AML mit NPM1‑Mutation und B‑Zell‑ALL mit der BCR::ABL1‑Fusionsgen, bei denen die Blastmorphologie besonders ungewöhnlich ist.

Warum Präparation und Genetik eine Rolle spielen

Die Studie zeigte, dass sowohl die Art der Ausstrichpräparation als auch die zugrunde liegende Genetik die KI‑Leistung beeinflussen. Bei Squash‑Ausstrichen, bei denen Markfragmente sanft zwischen Objektträgern komprimiert werden, entstehen Verzerrungen, die feine nukleare Details verwischen und die Verwechslung zwischen benachbarten Reifestadien sowie zwischen Blasten und anderen jungen Zellen erhöhen. Wedge‑Ausstriche erhalten die Struktur besser und führten zu höherer Sensitivität und Präzision; die Autoren empfehlen daher dieses Format als Standard für KI‑gestützte Analysen. Auf biologischer Ebene weisen Blasten bestimmter genetischer Subtypen oft charakteristische, teils verzerrte Kernformen oder andere atypische Merkmale auf. Da aktuelle KI‑Systeme meist vorwiegend an normalen Zellen trainiert werden, können diese neoplastischen Varianten in die „nächstliegende“ normale Kategorie gedrängt werden, was zu einer systematischen Unterschätzung der Krankheitslast gerade bei den Patienten führen kann, für die genaue Schwellenwerte am wichtigsten sind.

Wie sich das heute im Labor auswirkt

Insgesamt deuten die Ergebnisse darauf hin, dass BMIA‑12A bereits zuverlässig genug ist, um als leistungsfähiges Screening‑ und Triage‑Werkzeug zu dienen, insbesondere für normale Knochenmarkproben und routinemäßige Differenzialzählungen. Es kann schnell Zehntausende von Zellen pro Objektträger analysieren und liefert stabile, reproduzierbare Ergebnisse, die gut mit der Expertenbewertung übereinstimmen. Die deutlichen und teils großen Diskrepanzen zu manuellen Zählungen bei Leukämien und Plasmazelltumoren zeigen jedoch, dass menschliche Spezialistinnen und Spezialisten für die endgültige Interpretation weiterhin unerlässlich sind – insbesondere in der Nähe diagnostischer Grenzwerte und bei genetisch definierten Hochrisiko‑Subtypen. Die Autoren plädieren dafür, dass Labore, die solche KI‑Werkzeuge einsetzen, diese sorgfältig für ihre eigenen Präparationsmethoden validieren und Abläufe schaffen, in denen die KI eine objektive Grundlage liefert, die Expertinnen und Experten verfeinern, statt sie zu ersetzen.

Zitation: Kim, H.N., Lee, J.H., Jung, Y. et al. Comprehensive performance assessment of the BMIA-12 a system for bone marrow cell quantification in normal and hematological malignancy samples. Sci Rep 16, 8798 (2026). https://doi.org/10.1038/s41598-026-39443-1

Schlüsselwörter: Künstliche Intelligenz in der Hämatologie, Knochenmarkzytologie, Leukämiediagnostik, Multiples Myelom, Digitale Mikroskopie