Hoe laat je AI de zorg ondersteunen? – dokter.ai time capsule

Nu de voorbeelden van potentieel bruikbare machine learning algoritmes voor de zorg zich beginnen op te stapelen, rijst ook de vraag hoe deze technologie zinvol en veilig kan worden gebruikt. Voordat een machine learning algoritme onderdeel wordt van het instrumentaal van de zorgverlener moet een aantal vragen worden beantwoord. De belangrijkste vragen hebben niet direct iets met de onderliggende techniek te maken. Het draait in eerste instantie vooral om de beleving en de organisatie van de zorg rondom AI, waarbij een goed model natuurlijk een voorwaarde is.

Is er wel behoefte aan het algoritme?

Beantwoord het algoritme een vraag die zorgverleners stellen? Of kan een bekend probleem in de zorg misschien worden opgelost met behulp van het algoritme? Dit lijkt bij de meeste algoritmen die worden verkocht wel het geval te zijn. Beeldherkenning wordt op sommige plekken al met succes ingezet bij PA-analyse en bij retinafotografie. In de Verenigde Staten wordt in veel ziekenhuizen dankbaar gebruik gemaakt van de door EPD-leverancier Epic aangeboden 18 (!) algoritmes die onder andere klinische verslechtering, heropname en valneiging voorspellen. Het Nederlandse bedrijf Pacmed werkt met het Amsterdam UMC en het AvL hard aan modellen die heropname op IC voorspellen en die helpen bij de keuze van behandeling van prostaatcarcinoom. Quantib werkt aan radiologische beeldherkenning en heeft modellen die FDA-approved zijn en in het Erasmus MC getest worden. Diverse andere bedrijven werken samen met artsen om AI te ontwikkelen die de zorg kan helpen. Je kan ook zelf aan de slag gaan met AI, zoals ik in mijn vorige bericht beschreef. Er zijn veel AI-oplossingen waar een weldenkende zorgverlener het nut van in zal zien.

Is er draagvlak?

Spannender is de vraag of er draagvlak is in de zorginstelling bij alle betrokken zorgverleners. Wordt het te tackelen probleem in de dagelijkse praktijk ook door de zorgverleners als een probleem ervaren? Dat volgt niet vanzelfsprekend op voorgaande conclusie. Er is een reële kans, dat een algoritme wordt gezien als een bedreiging. Dit kan ook deels terecht zijn. Bij de invoering van een geïntegreerd EPD vallen altijd ontslagen. De kans is groot dat effectieve inzet van kunstmatige intelligentie er ook toe zal leiden dat er op sommige vlakken minder werk is in de zorg. Je mag dus niet verwachten dat zorgverleners op voorhand een positieve houding hebben ten opzichte van AI, ook al is de verwachting dat er vooral minder ondersteunende medewerkers nodig zijn terwijl de zorgverleners zelf minder snel vervangen zullen kunnen worden.

Digitale strategie

Los van steun op de werkvloer moet er in de zorginstelling een klimaat zijn dat het gebruik van een technologie als AI faciliteert. Dat begint bij een breed gedragen strategie, die – onder andere – gericht is op zorg-innovatie met maximale inzet van IT. In een organisatie die doordrenkt is van het besef dat automatisering zal helpen bij het verbeteren van kwaliteit en efficiëntie, zal snel genoeg het besef rijzen dat hiervoor meer nodig is dan alleen ‘conventionele’ automatisering. Een ander punt is, dat een organisatie echt vruchten hiervan zal plukken als de zorgverlener de ruimte krijgt om het voortouw te nemen bij deze digitale transitie. Andersom durf ik te beweren dat het ontbreken van deze strategie en/of een top-down benadering van IT kan leiden tot een gevaarlijk achterstand op dit gebied.

Begrijpt men het algoritme voldoende?

Een belangrijke basis voor draagvlak is het begrip. Begrijpen de zorgverleners voldoende hoe het algoritme tot zijn voorspellingen komt? De zorgverlener die de verantwoordelijkheid neemt voor de medische beslissingen is terughoudend als het gaat om accepteren van een nieuwe techniek zoals kunstmatige intelligentie. En terecht. De zorgverlener staat immers voor het schavot als het mis gaat. Hij of zij moet op zijn minst een globaal begrip hebben van machine learning om te snappen hoe het model aan zijn voorspellingen komt. Daarnaast bestaat de behoefte om te begrijpen hoe de individuele input-variabelen van het algoritme bijdragen aan de voorspelling. Dit is niet noodzakelijk een makkelijke opgave als je bedenkt dat een model meer dan duizend input-variabelen kan hebben en een ruwe weergave hiervan snel onoverzichtelijk kan worden. Bij beeldherkenning is het op voorhand al moeilijk om het model te begrijpen, omdat de herkenpunten niet vanzelf te visualiseren zijn. Het begrijpelijk maken van uitkomsten van algoritmes is op dit moment een zeer actief onderzoeksonderwerp. Het goede nieuws is dat er steeds meer gereedschappen komen om de ‘black box’ van het machine learning algoritme interpretabel te maken. En dat moet ook, wil het algoritme vertrouwen winnen van de zorgverlener. Een voorbeeld is het Shap-algoritme, dat met behulp van simulaties de bijdrage van de individuele variabele berekent. Het is vervolgens de uitdaging om de variabelen te clusteren zodat er een betekenisvolle interpretatie kan worden gegeven.

Is het algoritme goed gevalideerd?

Als er behoefte en draagvlak is en voldoende begrip van de materie, dan is een volgende vraag of het algoritme wel voldoende betrouwbaar is. Een diagnostisch algoritme verdient eenzelfde validatie als andere diagnostische middelen in de zorg. Ieder laboratorium valideert nieuwe meetmethoden alvorens deze in de praktijk in te zetten. Ik zou niet weten welk argument kan worden ingezet om dat niet met machine learning algoritmen te doen. Een algoritme van elders dat op ons EPD werd toegepast bleek een AUROC van 0.68 te hebben, terwijl de oorspronkelijke AUROC 0.74 bedroeg. Diagnostische algoritmen mogen wat mij betreft niet worden ingezet alvorens een lokale validatie te verrichten. De noodzaak hiervoor hangt natuurlijk samen met de variatie in data. De data, die werd gebruikt om het algoritme een taak te leren verschilt natuurlijk per instelling. Dat geldt niet alleen voor algoritmen die op het EPD triggeren maar ook op beeldherkenningsalgoritmen. De reden om een röntgenfoto te maken zou overal hetzelfde moeten zijn maar in de praktijk zijn er sterke verschillen die te maken hebben met de lokale diagnostische cultuur en verschillende opleiding of specialisme. De voorafkans op een aandoening kan dus per instelling verschillen. Voor PA-onderzoek is dat niet anders. Hoewel richtlijnen dicteren wanneer onderzoeken plaats dienen te vinden kan daar met goede redenen van afgeweken worden. Moeten we dan vaststellen hoe de data dient te worden verzameld voor dergelijke algoritmen? Volgens mij is dat ondoenlijk. Ten eerste omdat veel algoritmen gebruik maken van transferlearning. Hierbij wordt een bestaand goed getraind algoritme gebruikt dat met relatief weinig nieuwe data verder wordt getraind om de specifieke nieuwe taak te verrichten. Het oorspronkelijke algoritme werd met data getraind, die niets met medische zorg te maken heeft. Datzelfde geldt voor word-embeddings bij spraakherkenning, die ook vaak op willekeurige teksten worden getraind die van internet worden geplukt. De hierop gebaseerde algoritmen zijn niettemin zeer bruikbaar. Hoe wil je dan vaststellen wat wel en niet mag met data en waaraan die data dan moet voldoen? De enige objectieve methode om te controleren of een algoritme werkt blijft mijnsinziens validatie in de instelling waar het model gebruikt wordt. Laten we daar dan in Nederland afspraken over maken.

Is het algoritme handig ingebed?

Dit punt blijft vaak onderbelicht. Als de licentiekosten van een algoritme betaald zijn, blijkt nogal eens dat de zorgverleners veel onhandige stappen moeten zetten alvorens de uitkomst te hebben. Dit ongemak kan een dealbreaker zijn. De software rond het algoritme moet in staat zijn automatisch de gegevens uit Het EPD te halen en na de voorspelling deze automatisch weer in het EPD zetten. Het EPD moet in staat zijn de voorspelling op de meest handige plek te visualiseren voor de zorgverlener, binnen een relevant werkproces. Het moet zo zijn dat de zorgverlener hier niets voor hoeft te doen, omdat dat gewoon mogelijk is en omdat de zorgverlener al voldoende administratieve last heeft.

Plan van aanpak

Een volgend punt is de organisatie rondom de nieuwe technologie. Er is draagvlak, men weet wat er aankomt, het algoritme is gevalideerd en de techniek is op orde. Toch kan je natuurlijk niet zomaar een AI-algoritme ‘aanzetten’. Op zijn minst moet er een project gestart worden dat de invoering van het algoritme begeleidt. Er moeten werkafspraken gemaakt worden en misschien wel protocollen. Risico’s zullen moeten worden geïnventariseerd. En er moet worden nagedacht over het meten van het effect van gebruik van een AI-algoritme. De gebruikte middelen moeten achteraf kunnen worden verantwoord. Mogelijke baten of kwaliteitswinst moeten worden gemeten, maar ook verborgen kosten of derving van inkomsten, bijvoorbeeld door substitutie van zorg van de tweede naar de eerste lijn of door afname van zorgvraag (hoe wenselijk dat ook moge zijn). Onder de streep moeten alle partijen er natuurlijk beter van worden, zodat innovatie zal blijven worden gestimuleerd. Ten slotte moet worden nagedacht over risico’s, over hoe te handelen als het een keer mis gaat en de rol van de inspectie moet hierbij duidelijk zijn.

Maatschappelijke impact

Inmiddels wordt door het ministerie van VWS en andere partijen zoals het Europese BigMedilytics-consortium hard nagedacht over het veilig inzetten van AI in de zorg. Ondergetekende mocht zijn bijdrage aan beide partijen leveren. De eerste adviezen die hieruit zullen volgen kunnen in mijn ogen niet meer dan een tussenstand zijn. De ware impact van AI in de zorg moet immers nog blijken en wat wijsheid is dus ook. In mijn instelling zullen we in ieder geval met bovenstaande punten rekening houden en ik verwacht dat die lijst zal groeien.