KI-gesteuerte Bildanalyse ChatGPT statt Hautarztpraxis?
Wie genau sie dabei ist, war bisher nicht klar. Naweed Shifai vom Netherlands Cancer Institute in Amsterdam und Kollegen haben die Präzision der Software nun untersucht.
ChatGPT Vision bekam 100 Bilder gezeigt
In ihrer explorativen Studie konfrontierten sie ChatGPT Vision mit 100 zufällig ausgewählten Bildern aus dem Archiv der International Skin Imaging Collaboration. Die Aufnahmen zeigten 50 Melanome und 50 benigne melanozytäre Läsionen. Atypische Läsionen blieben außen vor. Die Wissenschaftler fragten zunächst die KI nach drei möglichen Diagnosen. Dann prüften sie die Ergebnisse in drei verschiedenen Fragestellungen.
- Stimmt die erstplatzierte KI-Diagnose mit dem histopathologischen Ergebnis überein?
Sensitivität 32 %, Spezifität 40 %, diagnostische Genauigkeit 36 % - Ist die richtige Diagnose in den ersten drei Vorschlägen der KI enthalten?
Sensitivität 56 %, Spezifität 53 %, diagnostische Genauigkeit 55 % - Unterscheidet die KI in ihrer Top-1-Diagnose korrekt zwischen gut- und bösartig?
Sensitivität 46 %, Spezifität 78 %, diagnostische Genauigkeit 62 %
Die Ergebnisse sprechen gegen den Einsatz von ChatGPT Vision zur Melanomdiagnostik am Patienten. Die Forscher warnen vor einem hohen Risiko für Falsch- und Fehldiagnosen. ChatGPT Vision kommt aktuell allenfalls die Rolle eines Assistenzsystems zu. Ein Einsatzbereich könnte die Erstellung von Befundberichten sein, schlagen die Autoren vor.
Quelle: Shifai N et al. J Am Acad Dermatol 2024; DOI: 10.1016/j.jaad.2023.12.062