Clear Sky Science · de

Vergleich der Leistungsfähigkeit künstlicher Intelligenz und medizinischer Fachkräfte bei der Analyse chirurgischer und interventioneller Videos: eine systematische Übersichtsarbeit und Metaanalyse

· Zurück zur Übersicht

Klügere Augen im Operationssaal

Jedes Jahr unterziehen sich Hunderte Millionen Menschen Operationen und minimalinvasive Eingriffe, die per Video gesteuert werden – denken Sie an Koloskopien, Schlüssellochchirurgie oder winzige Kameras, die in Blutgefäße eingeführt werden. In solchen Momenten kann die Fähigkeit eines Arztes, subtile Warnsignale auf einem Bildschirm zu erkennen, darüber entscheiden, ob ein Krebs früh entdeckt oder übersehen wird. Diese Studie stellt eine Frage, die für jede künftige Patientin und jeden künftigen Patienten wichtig ist: Wie gut schneiden künstliche Intelligenzsysteme bei der Analyse chirurgischer und interventioneller Videos im Vergleich zu menschlichen Klinikerinnen und Klinikern ab, und was passiert, wenn beide zusammenarbeiten?

Figure 1
Figure 1.

Ordnung in die Flut chirurgischer Videos bringen

Die moderne Medizin zeichnet inzwischen eine enorme Anzahl von Eingriffs-Videos auf, von endoskopischen Untersuchungen des Verdauungstrakts bis zu robotergestützten Operationen. Diese Aufzeichnungen sind reich an Informationen: winzige Polypen im Darm, frühe Tumoren im Magen oder in der Speiseröhre, empfindliche Nerven, die geschont werden müssen, oder einzelne Schritte in einem komplexen Eingriff. Forschende trainieren KI-Systeme darauf, diese Bilder zu durchsuchen, verdächtige Stellen zu markieren und sogar zu erkennen, an welchem Punkt einer Prozedur sich das Team befindet. Bislang stellten die meisten Studien KI und Ärztinnen oder Ärzte in künstlichen Direktvergleichen gegenüber, statt zu untersuchen, wie die Technologie realistisch als Assistentin am Arbeitsplatz genutzt werden könnte. Diese Übersichtsarbeit hatte zum Ziel, die verstreuten Erkenntnisse aus vielen Fachgebieten systematisch zu sammeln und auszuwerten.

Was die Forschenden untersuchten

Das Team durchsuchte große medizinische und ingenieurwissenschaftliche Datenbanken und begann mit fast 38.000 Publikationen. Nach strengen Einschlusskriterien – nur Primärstudien, die KI an echten chirurgischen oder interventionellen Videos einsetzten und die Leistung direkt mit der von medizinischem Fachpersonal verglichen – blieben 146 Studien übrig. Diese deckten ein breites Spektrum an Eingriffen ab, besonders gastrointestinale Endoskopien, aber auch Eingriffe an Lunge, Schilddrüse, Gehirn, Herz und im urologischen Bereich. Die Mehrheit verwendete moderne Deep-Learning-Methoden, etwa Convolutional Neural Networks, die darauf trainiert waren, Erkrankungen zu erkennen, Anatomie zu identifizieren, die Sauberkeit des Darms zu bewerten oder Schritte einer Operation zu bestimmen. Sechsundsiebzig dieser Studien berichteten genug Details, um eine Zusammenführung der Ergebnisse zu ermöglichen und zu berechnen, wie oft KI und Menschen richtig oder falsch lagen.

KI allein versus Ärztinnen und Ärzte, und KI als Teammitglied

Verglichen mit ununterstützten Klinikerinnen und Klinikern, die dieselben Videos betrachteten, erkannten KI-Systeme im Allgemeinen mehr tatsächliche Probleme (höhere Sensitivität), ohne mehr Fehlalarme zu verursachen (ähnliche Spezifität). Dieses Muster zeigte sich sowohl bei Modellen, die auf bekannten Daten getestet wurden, als auch bei externen, neuen Datensätzen. Klinisch am aussagekräftigsten war jedoch das Ergebnis, wenn KI als Assistenz eingesetzt wurde. In einer Vielzahl von Aufgaben waren Klinikerinnen und Kliniker, die KI-Vorschläge sehen konnten, besser darin, Erkrankungen zu entdecken, und weniger geneigt, gesundes Gewebe als krank einzustufen, als jene, die allein arbeiteten. Dieser Zugewinn war besonders deutlich bei Nicht-Expertinnen und Nicht-Experten, etwa Auszubildenden, die am meisten von der KI-Unterstützung profitierten. Bei erfahrenen Spezialistinnen und Spezialisten lagen die Leistungen von KI-Assistenz und KI allein in etwa auf gleichem Niveau, was darauf hindeutet, dass in Expertenhänden die Mensch–Maschine-Kombination mit den besten eigenständigen Algorithmen mithalten kann.

Lücken zwischen Laborbedingungen und dem echten klinischen Alltag

Trotz dieser vielversprechenden Zahlen hebt die Übersichtsarbeit eine Lücke hervor zwischen der Art und Weise, wie KI derzeit getestet wird, und wie sie in realen klinischen Situationen arbeiten muss. Viele Studien bereinigten ihre Daten, indem sie verschwommene oder qualitativ schlechte Videoframes entfernten, obwohl in echten Operationssälen und Endoskopieräumen genau solche Unvollkommenheiten häufig vorkommen. Andere analysierten isolierte Momentaufnahmen statt kontinuierlicher Videos und umgingen damit die Herausforderung, Bewegung und zeitliche Abläufe zu verfolgen. Nur wenige Studien evaluierten KI in Echtzeit direkt am Patientenbett, und die meisten beruhten auf hochentwickelter Technik, die in ressourcenarmen Krankenhäusern möglicherweise nicht verfügbar ist. Auch die Berichterstattung war inkonsistent: Wichtige Details darüber, wie Modelle eingestellt und validiert wurden, fehlten oft, wodurch es schwierig wird, Ergebnisse zu reproduzieren oder fair zu bewerten.

Figure 2
Figure 2.

Vertrauenswürdige Mensch–KI-Partnerschaften aufbauen

Die Autorinnen und Autoren argumentieren, dass KI in Chirurgie und interventioneller Medizin von Anfang an als Partnerin für Klinikpersonal entwickelt und getestet werden sollte, nicht als Ersatz. Das bedeutet, Studien so zu gestalten, dass sie realen Bedingungen entsprechen, diverse Videodatensätze zwischen Zentren zu teilen und klare Berichtstandards zu übernehmen, damit andere Teams veröffentlichte Arbeiten prüfen und verbessern können. Es bedeutet auch, Klinikerinnen und Klinikern Schulungen zu geben, damit sie die Stärken und Verzerrungen von KI verstehen, statt ihren Vorschlägen blind zu vertrauen oder sie pauschal abzulehnen. Während die Metaanalyse zeigt, dass KI bereits in vielen video-basierten Aufgaben mit ununterstützten menschlichen Leistungen mithalten oder diese übertreffen kann, liegt der bedeutsamste Nutzen in der Art und Weise, wie sie das menschliche Urteil schärfen kann. Für Patienten lautet die Botschaft nicht, dass Maschinen den Operationssaal übernehmen werden, sondern dass sorgfältig gestaltete Mensch–KI-Teams Eingriffe sicherer, Diagnosen früher und Ergebnisse besser machen könnten.

Zitation: Rafati Fard, A., Williams, S.C., Smith, K.J. et al. Comparing artificial intelligence and healthcare professional performance in surgical and interventional video analysis: a systematic review and meta-analysis. npj Digit. Med. 9, 323 (2026). https://doi.org/10.1038/s41746-026-02401-2

Schlüsselwörter: chirurgische Video-KI, computerassistierte Endoskopie, Mensch–KI-Zusammenarbeit, medizinische Bildanalyse, klinische Entscheidungsunterstützung