Synthetische Real-World-Daten Liebe KI, bitte erfinde Patient:innen!

ESMO 2025 Autor: Dr. Moyo Grebbin

KI-generierte Kohorten aus Registerdaten könnten datenschutzfreundlicher sein als reale Daten.
KI-generierte Kohorten aus Registerdaten könnten datenschutzfreundlicher sein als reale Daten. © Sandwish – stock.adobe.com

Sie könnten helfen, aus Registerdaten das Beste herauszuholen: KI-generierte Nachbauten realer Kohorten. Aus Datenschutzsicht sind sie unproblematischer als das reale Pendant, sodass laut einem Referenten sogar öffentliche Datenbanken vorstellbar wären.

Die Geschwindigkeit bei den Zulassungen onkologischer Medikamente hat sich in den letzten zwei Dekaden dramatisch erhöht, stellte Prof. Dr. Eddy Saad vom Dana-Farber Cancer Institute in Boston fest.1 „Das ist fantastisch für unsere Patient:innen.“ Auf der anderen Seite ergebe sich aus dieser gesteigerten Forschungsaktivität ein exponentieller Anstieg an benötigten Daten. 

Als Alternative zu klinischen Studien werde seit einiger Zeit bereits vermehrt auf Real-World-Daten zurückgegriffen. Deren Anwendbarkeit bleibe aktuell allerdings begrenzt durch regulatorische Hürden und Problematiken im Bereich des Patient:innen-Datenschutzes. „Und an dieser Stelle kommt die Künstliche Intelligenz ins Spiel, denn sie erlaubt es uns, synthetische Versionen dieser Real-World-Daten zu schaffen“, erklärte Prof. Saad.

Diese synthetischen Real-World-Daten (sRWD) könne man sich als einen virtuellen Zwilling der Originaldaten vorstellen, idealerweise mit identischen statistischen Eigenschaften – allerdings ohne, dass sie auf tatsächlichen Patient:innenfällen beruhen. Der Ansatz unterscheide sich grundlegend von einer bloßen „De-Identifikation“, bei der lediglich die Namen aus dem Datensatz entfernt werden, betonte auch Diskutant Prof. Dr. Julien Vibert vom Institut Gustave Roussy, Villejuif.2 Denn dann blieben durchaus einzelne Personen aus den Daten re-identifizierbar. Im Gegensatz dazu würden die sRWD tatsächlich von Künstlicher Intelligenz neu generiert.

Zwei verschiedene Wege führen zum Ziel

In der von Prof. Saad vorgestellten Arbeit leiteten die Forschenden aus einem realen Datensatz mit verschiedenen Methoden sRWD-Kohorten ab und analysierten diese anschließend. Als Quelle dienten gut 19.000 Patient:innen aus der Flatiron-Gesundheitsdatenbank, die an metastasiertem Brustkrebs litten und zwischen 2011 und 2023 eine Erstlinientherapie erhalten hatten. Zur Umwandlung in sRWD nutzte das Team zwei verschiedene Methoden.

  1. Conditional tabular generative adversarial networks (CTGANS)
    Dieses generative KI-Modell beruht auf der Kombination zweier Komponenten, von denen eine als „Generator“ Daten erfindet und die andere als „Diskriminator“ beurteilt, wie real dieser Output wirkt, erklärte der Referent. Die Daten durchlaufen zwischen den Komponenten so viele Zyklen, bis sie kaum mehr unterscheidbar zu der Ausgangskohorte sind; dabei lässt sich die erwünschte Datenschutzstringenz einstellen.
  2. Classification and regression trees (CART)
    Diese Algorithmen beruhen auf einer Abfolge von „Wenn…, dann…“-Entscheidungsbäumen, was eher dem entspricht, wie ein:e Mediziner:in einen Fall beurteilen würde, so Prof. Saad. Zum Beispiel: „Wenn die Patientin prämenopausal ist, folge diesem Entscheidungspfad, ist sie postmenopausal, folge jenem.“ CART-Systeme bilden und lernen solche Entscheidungsbäume, auf deren Basis sie dann synthetische Datensammlungen generieren.

„Da die Vorgänge der CTGANS eine Art Black Box darstellen, wollten wir auch einen transparenteren und Kliniker:innen-freundlicheren Ansatz testen“, begründete der Referent die Auswahl der beiden Modelle.

Entscheidungsbäume machen das Rennen

Fünf synthetische CTGANS-Kohorten mit unterschiedlicher Datenschutzstringenz sowie eine CART-Kohorte generierten die Forschenden auf diese Weise. Diese evaluierten sie zum einen im Hinblick darauf, wie gut sie die grundlegenden Eigenschaften und Überlebensdaten der Originalpopulation widerspiegeln, und zum anderen unter dem Aspekt der Datenschutzsicherheit und des Re-Identifizierungsrisikos. Das Ergebnis: Die per CART generierte synthetische Kohorte rekapitulierte das Originaldatenset in allen getesteten Punkten mit erheblichem Abstand besser als die CTGANS-abgeleiteten Modelle.

So zeigten etwa die Kaplan-Meier-Kurven für PFS und OS nach der CART-Methode eine annähernd perfekte Überlappung mit der Vorlage, und auch die Hazard Ratios für Korrelationen bestimmter Basisvariablen mit Überlebensendpunkten stimmten im CART-Output am besten mit der Realität überein. Andererseits schnitt das CART-Modell beim Datenschutz schlechter ab, mit einem „Sample-to-population re-identification risk“ von knapp 2 % gegenüber ca. 0,6–0,1 % bei den CTGANS-Modellen. Insgesamt lag aber das Re-Identifizierungsrisiko aller sRWD deutlich unter dem laut internationalen Gesellschaften als akzeptabel anerkannten Grenzwert von 9 %, ordnete Prof. Saad ein, sodass das CART-Modell als brauchbarste Methode hervorsticht.

Hilfsmittel für eine bessere Patient:innenkommunikation

Als weitere Anwendungsidee schilderte Prof. Saad eine Rolle der sRWD bei der gemeinsamen Entscheidungsfindung mit Erkrankten. Komme etwa eine Patientin mit neu diagnostiziertem, triple-negativem metastasiertem Brustkrebs in die Sprechstunde, wäre Folgendes möglich: „Wir nehmen diese reale Patientin, projizieren sie mit all ihren klinischen Eigenschaften in den synthetischen Datenraum und suchen nach ähnlichen Fällen – was technisch als ‚nearest neighbors‘ bezeichnet wird.“ Dann könne man grafisch und in Zahlen darstellen, welche Therapien diese „nähesten Nachbarn“ erhalten haben und mit welchen Outcomes. Sowohl den Behandelnden als auch den Erkrankten könnte diese Art der Analyse realistisch erwartbare Verläufe aufzeigen und eine Kommunikation auf Augenhöhe erleichtern, so der Referent.

Bisher nur als unterstützende Evidenz anerkannt

Ein Anwendungsbeispiel für die synthetischen Datenzwillinge ist, dass sie künftig verschiedenen Akteuren einfacher zur Verfügung gestellt werden könnten als die Originale. Möglicherweise sogar auf öffentlichen Plattformen – doch da gibt es laut Diskutant Prof. Vibert noch einige offene Fragen zu klären. Zum einen die Beurteilung und Akzeptanz vonseiten der Behörden; aktuell erkennen EMA und FDA sRWD-abgeleitete Ergebnisse lediglich als unterstützende Evidenz an. Zum anderen ethische Fragen wie die, wer als Besitzer der sRWD und damit der „synthetischen Patient:innenfälle“ gelten soll.

Prof. Vibert sieht in sRWD potenziell einen großen Nutzen: Neben dem Teilen der Daten und dem „patient matching“ nannte er z. B. die Möglichkeit synthetischer Kontrollarme in Studien sowie bei deren Planung eine digitale Hilfe und Methode zur Beurteilung der Machbarkeit. Doch natürlich gebe es auch Grenzen. Vor allem seien die sRWD immer nur so gut, wie die Daten, die ihnen zugrunde liegen. 

Achtung bei kleineren Datenmengen

In der Arbeit von Prof. Saad habe dieser mit einer sehr großen Kohorte gearbeitet – aus kleineren Datensammlungen könne sich das wesentlich schwieriger gestalten. Und wenn die Originale einen Bias enthalten, könne dieser unbeabsichtigt amplifiziert werden. Bei schlechter Validierung bestehe auch das Risiko, die synthetischen Daten zu überschätzen. Der Schlüssel zu einer erfolgreichen Synergie zwischen realen, prospektiven Daten und synthetischen liege in der richtigen Balance, resümierte Prof. Vibert: „Genug echte Patient:innen für die Wahrheit und genug KI für Schnelligkeit und Effizienz.“

Quellen:
1. Saad E. ESMO Congress 2025; Abstract 3136O
2. Vibert J. ESMO Congress 2025; Invited Discussant Abstract 3136O