Met de komst van predictive analytics in de geneeskunde, komt de vraag of het gebruik ervan zonder meer veilig is. Recent werd in JAMA een artikel geplubiceerd waarin drie methodologische experts hun zorgen uitten over het rücksichtlos implementeren van predictive analytics modellen in de kliniek. Ten eerste werd genoemd de ontbrekende kalibratie van de modellen. Daarnaast hebben de commerciële partijen een financiële stimulans om de performance van hun modellen beter voor te spiegelen dan de realiteit. Ten slotte werd gesproken over de heterogeniteit en incompleetheid van de EPD’s en de daarmee samenhangende onzekerheden. Bij dit alles werd benadrukt dat de gebruiker, de arts, niet beschikt over de kennis om voorspellende modellen op waarde te schatten.
Het is goed dat nu, temidden van de hype, met gezond verstand wordt nagedacht over de consequenties van het gebruik van predictive analytics. In handen van commerciële partijen zijn het in feite medische hulpmiddelen. Er wordt dan ook netjes een CE-keurmerk aangevraagd alvorens deze modellen worden aangeboden. Helaas is het zo dat het CE-keurmerk niet is toegespitst op het keuren van predictive analytics. Daarnaast zijn er voorbeelden van toekenning van het CE-keurmerk voor onzinproducten. Het CE-keurmerk heeft bij predictive analytics dus nauwelijks enige waarde, maar wordt wel als geruststelling ingezet.
Dat verzekeraars zijn begonnen met het ondersteunen van commerciële partijen die dit soort producten leveren en implementeren in ziekenhuizen is in ieder geval een compliment voor de verkopers van de modellen en geeft aan hoe hoog de verwachtingen zijn. En eerlijk is eerlijk, daar is ook alle reden voor. In vele bedrijfstakken heeft kunstmatige intelligentie zijn waarde bewezen. Maar het is juist dat bewijzen waar de auteurs van bovengenoemd artikel zich zorgen over maken. Dat heeft te maken met een bekend probleem bij het gebruik van voorspellende scores. De nadruk ligt vaak op de c-statistics, ofwel de AUROC (area under the receiver operator curve). Vrijwel alle modellen die enige waarde hebben blijken een AUROC te hebben waar de statisticus blij van wordt. Dat is alleen niet het hele verhaal. Aan de voorspellende score kleeft namelijk nog een onzekerheid die gekwantificeerd kan worden. Deze zogenoemde kalibratie krijgt veel minder aandacht en druppelt eigenlijk helemaal niet meer door naar de klinische praktijk, terwijl dat wel zou moeten. Een consequenties van matige is bijvoorbeeld de MEWS, die op de longafdelingen nauwelijks enige rol van betekenis speelt. Lage saturaties en oppervlakkige ademhaling van veel longpatiënten leveren bij voorbaat een hoge score op en maken de score voor longartsen minder bruikbaar. Het kalibratieprobleem is eigenlijk niet uniek voor de op machine learning gebaseerde predictive analytics, maar speelt bij alle scores die kunnen helpen met voorspellen van klinische verandering. De belangrijkste determinant voor goed gebruik is dan ook de statistische en methodologische kennis van het model.
Waar artsen vaker mee te maken krijgen, is een overmatig optimistische houding van producenten. Ik weet niet hoe het met u zit maar een belangrijk deel van mijn nekharen is gevoelig voor commercieel over-optimisme en dat draagt er aan bij dat ik commerciële partijen probeer te mijden bij mijn dagelijkse werk. De meeste artsen zullen een gesprek met een farmaceut niet leidend laten zijn als het gaat om hun medisch beleid. We zijn immers opgeleid voor het inschatten van de waarde van medicatie op basis van wetenschappelijke literatuur en richtlijnen. Er zal veel minder kennis paraat zijn over statistische en methodologische aspecten van predictive analytics, laat staan als deze met machine learning is ontwikkeld. In dat geval ben je eigenlijk aan de goden van Silicon Valley – en nationale equivalenten daarvan – overgeleverd.
De heterogeniteit en incompleetheid van onze patiëntendatabases – de EPD’s – is het derde belangrijke punt dat de auteurs maken. Ieder ziekenhuis heeft een iets ander EPD, ook al zijn ze van hetzelfde merk. Daarnaast wordt er in ieder ziekenhuis net iets anders gewerkt en gedocumenteerd. Dat is niet perse een gemiste kans of implementatiefout, maar veel meer een logisch gevolg van groepsdynamiek. Ik geloof ook niet dat het doel moet zijn dat we allemaal overal precies hetzelfde doen. Uniformiteit op zich garandeert geen kwaliteit. Dat neemt niet weg, dat we wel degelijk een Basis Gegevensset Zorg (BGZ) moeten hebben en dat interoperabiliteit een groot goed is. Dat zal alleen nooit een oplossing worden voor heterogeniteit omdat de BGZ maar een klein deel van onze medische documentatie vertegenwoordigd. Dat betekent dat een predictive analytics model dat getraind is in het ene ziekenhuis sowieso niet zonder meer gebruikt mag worden in een ander ziekenhuis. Er moet een gedegen validatie met bepaling van c-statistics en kalibratie plaatsvinden voordat zo’n model uit een ander ziekenhuis in het werkproces wordt opgenomen. Op voorhand is de kans groot dat het model niet zo goed zal werken, als in het andere ziekenhuis. Ik voorzie dat veel modellen het beste zullen werken als ze in ieder ziekenhuis opnieuw getraind worden. Dat speelt minder bij bijvoorbeeld herkennen van patronen in radiologische diagnostiek of bloeddrukgolven, hoewel de voorafkans daar doorgaans niet meegenomen wordt, terwijl die zoals bekend van invloed is op de uitkomst.
Uit alle voorbeelden blijkt dat succesvolle implementatie van predictive analytics staat of valt bij kennis over het model en de methode van predictive analytics. Moeten dan alle artsen zich nu storten op het ontwerpen en valideren van predictive analytics? Dat gaat volgens mij te ver. Maar als je het mij vraagt zou ieder ziekenhuis (en natuurlijk iedere huisartsenkoepel of andere deelverzameling van artsen) tenminste moeten beschikken over enkele artsen die bekend zijn met de materie. En snel ook, want volgens de AI-gemeenschap in Europa lopen we de boot mis als we niet opschieten.