Veilige en legale AI in de zorg – deel 1: MDR of MDR-light?

Op diverse plekken in Nederland wordt in ziekenhuizen en andere zorginstellingen gewerkt aan algoritmen die moeten helpen bij het verbeteren van de kwaliteit van zorg, zoals heropname na ontslag, infectierisico, etc. Als deze algoritmen worden ingezet, dan zullen de voorspellingen van deze algoritmen zonder twijfel van invloed zijn op het ziektebeloop van patiënten. Dat kan ten goede zijn maar het kan ook verkeerd uitpakken. Wat is er nodig om veilig gebruik te kunnen maken van algoritmen in het algemeen? En wat ben je als zorginstelling verplicht te doen als je zelf algoritmen ontwikkelt?

De nieuwe Europese regels voor medische hulpmiddelen en in vitro diagnostica (MDR/IVDR, verordeningen (EU) 2017/745&746), die respectievelijk mei 2020 en 2022 van kracht zijn, stellen dat software in in veel gevallen niet meer mag worden ingedeeld in de lichtste risicoklasse van medische hulpmiddelen (klasse 1). Dat betekent dat deze software – en dus ook algoritmen – niet meer door de leverancier van een CE-markering mag worden voorzien, voordat ze mag worden gebruikt voor patiëntenzorg maar dat geïnvesteerd moet worden in een toetsing door een aangemelde instantie (notified body). Het is natuurlijk de vraag of deze vernieuwing in MDR en IVDR op zich gaan zorgen voor veilige algoritmen, want de specifieke eigenschappen van algoritmen als medisch hulpmiddel zijn op veel punten anders dan die van de meeste andere medische hulpmiddelen. Dat neemt niet weg dat zelf ontwikkelende instellingen vaak met de vraag kampen wat nu precies nodig is voor het gebruik van hun algoritmen. Door middel van het schrijven van deze reeks artikelen probeer ik te begrijpen wat een instelling moet doen om een zelf ontwikkeld algoritme veilig te mogen gebruiken voor patiëntenzorg.

CONCLUSIE

Zorginstellingen hebben volgens de nieuwe medical device regulation (MDR) de mogelijkheid zelf medische hulpmiddelen te vervaardigen en gebruiken zonder dat een CE-markering nodig is. Dat mag alleen als er geen alternatief op de markt is met gelijkwaardige prestaties. De algoritmes moeten ook voldoen aan de algemene veiligheids- en prestatie-eisen zoals genoemd in bijlage 1 van de MDR en het hulpmiddel moet beter zijn dan de markt. De kans is reëel dat er de komende jaren steeds meer algoritmen te koop zijn die even goed worden als zelf vervaardigde algoritmen, zodat uiteindelijk alleen gebruik kan worden gemaakt van zelfgemaakte algoritmen als zij zijn voorzien van een CE-markering. Samenwerking tussen zorginstellingen biedt de mogelijkheid om zelf ontwikkelde algoritmen te voorzien van een CE-keurmerk terwijl de kosten hiervan worden gedeeld. De MDR houdt geen rekening met moderne vormen van machine learning zoals transferlearning en decentralized federated learning. Daarnaast is niet duidelijk omschreven of een algoritme een update mag krijgen zonder dat het hele CE-markeringsproces opnieuw mag worden doorlopen. In een volgend artikel wordt ingegaan op de eisen in bijlage 1 van de MDR en op het benodigde kwaliteitsmanagementsysteem.

inleiding

Tot de nieuwe MDR en IVDR van kracht zijn kunnen we als zorginstelling nog naar hartenlust onze eigen algoritmisering toepassen op de zorg. Algoritmen die door instellingen worden vervaardigd vallen ten hoogste onder risicoklasse I van de oude/huidige MDD, ofwel richtlijn 93/42/EEG, betreffende medische hulpmiddelen. We hebben ons natuurlijk te houden aan alle wetgeving die verantwoordelijkheden in de zorg beschrijven, zoals de WABG, de WKKGZ en de wet BIG. Data van een zorginstelling mag in die zorginstelling gebruikt worden voor kwaliteitsverbetering. Kwaliteitsverbeterprojecten kunnen op basis van deze data worden opgezet en uitgevoerd, eventueel met zelf vervaardigde algoritmen. De vraag is natuurlijk wat er gebeurt als het mis gaat.

Vernieuwing van MDR/IVDR

De huidige richtlijnen over medische hulpmiddelen werden nog in de EEG in 1990 en 1993 vastgelegd en sindsdien is op het gebied van techniek, digitalisering en organisatie natuurlijk veel veranderd. Voor 2007 viel software niet onder de MDD. In 2007 is daar verandering in gekomen met het vijfde amendement op de MDD. Vanwege de opkomst van medische software en de impact die deze software op klinische uitkomsten kon hebben, werd – na een uitgebreide principiële discussie over de juridische definitie van software – besloten medische software ook te beschouwen als medisch hulpmiddel of diagnosticum, als deze software impact heeft op patiëntenuitkomsten. Volgens de toenmalige classificatieregels viel software als niet-invasief hulpmiddel bijna altijd onder risico klasse I, wat inhoudt, dat de leverancier zelf de CE-markering mag aanbrengen na voldaan te hebben aan een beperkte set eisen. Sindsdien werd de MDD niet meer aangepast. Diverse schandalen met implantaten hebben vernieuwing van deze Europese regelgeving versneld. De nieuwe MDR en IVDR verplichten fabrikanten van medische hulpmiddelen en medische diagnostica veel dwingender dan voorheen de kwaliteit van nieuwe hulpmiddelen te evalueren en kwaliteitscontrole uit te voeren, ook nadat de hulpmiddelen op de markt zijn verschenen. Alle medische hulpmiddelen worden daarnaast geregistreerd in een nieuwe Europese hulpmiddelendatabase (Eudamed). Tenslotte worden de classificatieregels aangepast, zodat medische software veel minder dan voorheen in klasse I valt, maar eerder in klasse IIa of hoger. Dat betekent dat medische software moet worden goedgekeurd door een aangemelde instantie (‘notified body’). Deze veranderingen zullen grote impact hebben op de administratieve belasting van zowel leveranciers van medische software als instanties die controle uitoefenen. Er wordt dan ook gevreesd dat goedkeuringsprocessen zullen stagneren, zodra de verordeningen van kracht zijn. Aan de andere kant is iedereen het er over eens dat de vernieuwing noodzakelijk is. Hoewel software integraal onderdeel is van de MDR en nu ook een strengere keuring krijgt, reist wel de vraag of de verordening recht doet aan algoritmen. Hieronder wordt nader ingegaan op een aantal belangrijke aspecten van de MDR.

Uitgangspunten, artikelen en bijlagen

De MDR en IVDR hebben grofweg dezelfde opbouw. De MDR begint met 101 overwegingen. De overwegingen zijn de uitgangspunten die in de daaropvolgende wetteksten worden geformaliseerd. De overwegingen worden gevolgd door 123 artikelen – de daadwerkelijke regels – en sluit af met 17 bijlagen. De bijlagen bevatten aanvullingen, die eventueel in de loop der tijd gemakkelijker aangepast kunnen worden. Één en ander vult 175 pagina’s. Er wordt nauwgezet beschreven wat er allemaal nodig is voordat een medisch hulpmiddel vermarkt mag worden. De IVDR heeft een vergelijkbare opbouw en omvang en is natuurlijk meer toegespitst op in vitro diagnostica. De fabrikanten worden met deze verordeningen in een keurslijf gestopt, dat excessen uit het verleden moet voorkomen. Instellingen die zelf algoritmen vervaardigen zullen zich ook aan de verordeningen moeten houden. Het is – gelukkig – zo dat er voor instellingen onder sommige omstandigheden een lichtere wetgeving geldt, een MDR-light zeg maar. Daar kom ik later op terug. De individuele lidstaten hebben er daarnaast invloed op wat wel en wat niet een medisch hulpmiddel is (uitgangspunt 8 MDR/IVDR):

“Het dient aan de lidstaten te zijn om per geval te beslissen of een product al dan niet onder het toepassingsgebied van deze verordening valt.”

Overigens worden de lidstaten hierbij gecontroleerd door de Europese Unie, met hulp van een ‘Medical Device Coordination Group’ (MDCG), bestaande uit deskundigen uit alle lidstaten. Het is de bedoeling dat in de EU producten of productgroepen consequent worden beoordeeld, dus in de praktijk zullen de producten in Europa waarschijnlijk redelijk homogeen worden beoordeeld. Waar we in Nederland wel voor moeten uitkijken is dat we niet zoals bij de AVG de meest strikte lezing toepassen, omdat dit onnodig tot vertraging en extra kosten zal leiden.

Definitie medisch hulpmiddel

Er is een heldere definitie van medische hulpmiddelen. De definitie omvat onder andere software. Het doel van een medisch hulpmiddel is volgens de definitie in artikel 2, lid 1 van de MDR:

  • diagnose, preventie, monitoring, voorspelling, prognose, behandeling of verlichting van ziekte,
  • diagnose, monitoring, behandeling, verlichting of compensatie van een letsel of een beperking,
  • onderzoek naar of vervanging of wijziging van de anatomie of van een fysiologisch of pathologisch proces of een fysiologische of pathologische toestand,
  • informatieverstrekking via in vitro-onderzoek van specimens afkomstig van het menselijk lichaam, waaronder orgaan-, bloed- en weefseldonaties

Belangrijk is verder nog dat er geen farmacologische werking is (dan valt het middel onder andere regels). De definitie van de IVDR onderscheidt zich doordat het hulpmiddel moet worden gebruikt voor “in-vitro-onderzoek van specimens die afkomstig zijn van het menselijk lichaam, met inbegrip van donorbloed en – weefsel“.

MDR of IVDR?

Een algoritme dat heropnames voorspelt, zoals beschreven in mijn vorige blog, kan van invloed zijn op het ziektebeloop en zou aldus onder de MDR vallen. Een algoritme dat CT-scans beoordeeld ook. Het is mij aan de andere kant niet duidelijk of een algoritme dat PA-cytologie classificeert nu onder de MDR of onder de IVDR valt, omdat beide definities hieraan refereren. In dit artikel beperk ik me tot de consequenties voor predictive analytics op basis van klinische patiëntengegevens. Die valt (indien van invloed op het ziektebeloop) in principe onder de MDR.

Kans voor zelf ontwikkelende instellingen

Het goede nieuws is dat de MDR onder bepaalde omstandigheden voorziet in een behoefte van zorginstellingen om zelf medische hulpmiddelen te ontwikkelen. Dat is te lezen in uitgangspunt 30 van de MDR en 29 van de IVDR:

“Zorginstellingen moeten de mogelijkheid hebben hulpmiddelen intern te vervaardigen, aan te passen en te gebruiken, om, weliswaar op niet-industriële schaal, tegemoet te komen aan de specifieke behoeften van patiëntendoelgroepen waaraan niet op een passend prestatieniveau kan worden voldaan door een gelijkwaardig hulpmiddel dat op de markt beschikbaar is.”

Let wel: het algoritme dat door een zorginstelling wordt vervaardigd mag pas gebruikt worden als het beter is dan een gelijkwaardig alternatief dat te koop is.

Eisen zelf vervaardigde algoritmen

Boven werd al genoemd dat de MDR voorziet in de behoefte van zorginstellingen om zelf medische hulpmiddelen te vervaardigen. Er wordt onderscheid gemaakt tussen de volledige MDR en de afgeslankte versie ervan – zeg maar de MDR-light. In artikel 5, lid 5 van de MDR wordt duidelijk en omvattend omschreven wanneer de lichtere variant van toepassing is en wat dat inhoudt:

Met uitzondering van de toepasselijke algemene veiligheids- en prestatie-eisen van bijlage I gelden de vereisten van deze verordening niet voor hulpmiddelen die uitsluitend binnen in de Unie gevestigde zorginstellingen worden vervaardigd en gebruikt, mits aan iedere onderstaande voorwaarde wordt voldaan:

  1. de hulpmiddelen worden niet overgedragen aan een andere rechtspersoon;
  2. de hulpmiddelen worden vervaardigd en gebruikt met inachtneming van een passend kwaliteitsmanagementsysteem;
  3. de zorginstelling rechtvaardigt in haar documentatie dat aan de specifieke behoeften van de patiëntendoelgroep niet kan worden voldaan, of daaraan niet op een passend prestatieniveau kan worden voldaan, door een op de markt beschikbaar gelijkwaardig hulpmiddel;
  4. de zorginstelling verstrekt haar bevoegde autoriteit op verzoek informatie over het gebruik van bedoelde hulpmiddelen, waaronder een rechtvaardiging voor de vervaardiging, de wijziging en het gebruik ervan;
  5. de zorginstelling stelt een verklaring op, die ze openbaar maakt en die de volgende elementen bevat: i) naam en adres van de vervaardigende zorginstelling, ii) gegevens ter identificatie van de hulpmiddelen, iii) een verklaring waaruit blijkt dat de hulpmiddelen voldoen aan de algemene veiligheids- en prestatie-eisen van bijlage I bij deze verordening en, indien van toepassing, informatie over vereisten waaraan niet helemaal wordt voldaan, met een met redenen omklede rechtvaardiging daarvoor;
  6. de zorginstelling stelt documentatie op met uitleg over de productiefaciliteit en het productieproces, het ontwerp en de prestatiegegevens van de hulpmiddelen, met inbegrip van het beoogde doeleind, die voldoende gedetailleerd is om de bevoegde autoriteit in staat te stellen te beoordelen of er wordt voldaan aan de algemene veiligheids- en prestatieeisen van bijlage I bij deze verordening;
  7. de zorginstelling neemt alle maatregelen die nodig zijn om te garanderen dat alle hulpmiddelen in overeenstemming met de onder 6. bedoelde documentatie worden vervaardigd, en
  8. de zorginstelling evalueert de ervaring die is opgedaan met het klinisch gebruik van de hulpmiddelen en onderneemt alle vereiste corrigerende acties.

Kortom, zorg voor een passend kwaliteitsmanagementsysteem en dat je ergens publiceert welke algoritmen je gebruikt, wat ze doen, dat er geen gelijkwaardig alternatief te koop is en een verklaring dat je aan de eisen van bijlage 1 voldoet. Dit laatste is nog wel een klus, maar op zich goed te doen. In een volgend artikel ga ik hier verder op in.

Overigens mogen lidstaten beperkingen opleggen aan ontwikkelmogelijkheden en daarnaast mogen lidstaten natuurlijk inspecties uitvoeren om te controleren of voldaan wordt aan eisen van de MDR. In iedere lidstaat wordt daartoe een bevoegde autoriteit aangewezen. In Nederland worden deze inspecties uitgevoerd door de Inspectie Gezondheid en Jeugd (IGJ).

CE-loos vervaardigen in de toekomst

Hoewel er op dit moment in Nederland nog wordt gediscussieerd over de interpretatie van de MDR, neigen de autoriteiten er naar om artikel 5, lid 5 dusdanig uit te leggen dat vooral de markt gestimuleerd wordt. Als een algoritme van een fabrikant even goed is als een zelfgemaakt algoritme zonder CE-keurmerk, dan mag het zelfgemaakte algoritme niet gebruikt worden voor patiëntenzorg. Het maakt daarbij niet uit, of de markt exorbitante bedragen vraagt. Dit heeft belangrijke consequenties. AI-experts gaan er namelijk van uit dat de prestaties van algoritmes beter zullen worden dan de prestaties van mensen maar dat ze nooit boven een bepaald niveau uit zullen stijgen:

Prestaties van machine learning algoritmen convergeren naar een maximum.

Dat maximale niveau wordt de ‘Bayes optimale fout’ genoemd. Ruim voordat dit hoogste prestatieniveau wordt bereikt zal met de huidige statistische technieken geen significant verschil worden gevonden tussen algoritmen die hier in de buurt zitten. Als deze theorie wordt gevolgd, dan zal het in-huis vervaardigen en gebruiken van algoritmen als medisch hulpmiddel zonder CE-keurmerk in de loop der tijd afnemen, omdat er volgens de MDR steeds meer vergelijkbare alternatieven op de markt zullen zijn, die – tenminste statistisch gezien – even goed presteren. De markt zal vervolgens bepalen wat de kosten worden van algoritmen. Maar waarom wordt er dan gekozen voor een wetgeving die het uiteindelijk de zorginstellingen onmogelijk maakt zelfgemaakte medische algoritmen zonder CE-keurmerk te gebruiken? Ten eerste omdat dit de markt zou stimuleren om betere algoritmen te ontwikkelen. De redenering is, dat de marktpartijen het af zullen laten weten als medische hulpmiddelen gemakkelijk CE-loos door instellingen vervaardigd mogen worden, terwijl de leverancier moeten investeren in een prijzig CE-keurmerk. Dit zou juist tot stagneren van ontwikkeling kunnen leiden. Europa beschouwt de markt dus altijd als drijvende kracht van ontwikkeling, niet de professional in de zorginstelling. Ten tweede wordt er vanuit gegaan dat de veiligheid van een medisch hulpmiddel mét CE-keurmerk beter gewaarborgd is, dan de veiligheid van een medisch hulpmiddel zonder deze markering. Ofwel, als je het dan als zorginstelling zo belangrijk vindt om je eigen medische algoritme te gebruiken terwijl er vergelijkbare algoritmen op de markt zijn, betaal dan ook voor een CE-keurmerk.

Beter dan de markt: hoe dan?

Zoals boven besproken wordt de IGJ belast met het handhaven van de MDR. Maar hoe moet de IGJ dan bepalen of er een gelijkwaardig alternatief op de markt is voor een door een instelling vervaardigd algoritme? Een leverancier, die stelt dat de prestaties van zijn algoritme even goed zijn als die van de instelling vertelt namelijk niet het hele verhaal. In de meeste gevallen presteren algoritmen het beste op de trainingsdata en slechter op externe data. Het algoritme van een leverancier zal naar alle waarschijnlijkheid dus slechter presteren op de data van de instelling, dan op de eigen trainings- en testdata. Bijvoorbeeld, de vergelijking van ons heropname algoritme met een commercieel algoritme liet grote prestatieverschillen zien, tussen de oorspronkelijke testresultaten van het commerciële algoritme, de voorspellingen van dat algoritme op onze ziekenhuispopulatie en de voorspellingen van ons eigen algoritme op die populatie. Het commerciële algoritme bleek beduidend slechter te presteren op onze populatie dan op de testpopulatie van de leverancier. Met andere woorden, hoewel de leverancier kan stellen dat de prestaties even goed zijn, kan dat pas bewezen worden als de modellen rechtstreeks met elkaar vergeleken worden. In dit geval betekent dat, dat het commerciële algoritme geïnstalleerd moet worden in de instelling om vervolgens een representatief aantal voorspellingen te doen. Daarna kunnen de prestaties van het commerciële algoritme en het door de instelling vervaardigde algoritme statistisch met elkaar vergeleken worden. Een belangrijke keuze is dan de statistische test die gebruikt wordt, om de prestaties van de algoritmen met elkaar te vergelijken. Wie gaat de IGJ vertellen welke statistische test gebruikt moet worden. Wat wordt hier de norm?

de ene AUC is de andere niet

Er zijn nogal wat methoden om algoritmen met elkaar te vergelijken en de experts zijn het hier lang niet altijd met elkaar eens. Los daarvan zijn er nog methodologische hordes te nemen bij het de ontwikkelprocessen van machine learning algoritmen. Recent publiceerde een vooraanstaand AI-wetenschapper uit Stanford in JAMA een opiniestuk waarin bekritiseerd werd dat op dit moment de selectie van het optimale algoritme gedurende het trainingsproces plaatsvindt op basis van meetinstrumenten (zoals area under the curve, sensitiviteit, specificiteit), die weliswaar algemeen geaccepteerd zijn maar niet altijd representatief zijn voor de bruikbaarheid van het algoritme in de praktijk. In feite mag het juiste meetinstrument pas worden vastgesteld als bedacht is wat de consequenties voor de praktijk zijn. Als op basis van de kosten of personele inzet of misschien zelfs acceptatie door zorgverleners de ruimte voor interventies klein is dan heeft dat consequenties voor de selectie van het juiste model en dat zou kunnen betekenen dat de gangbare meetinstrumenten niet voldoen. Dat betekent impliciet dat er geen standaardmethoden zullen zijn waarmee algoritmen met elkaar vergeleken kunnen worden. Dat wordt nog een zware klus voor de toezichthouders!

Transferlearning? Updates?

De beperking, dat zelf gebouwde algoritmen niet mogen worden overgedragen heeft wel een belangrijke keerzijde. Het is de verwachting dat met verbeterende interoperabiliteit (die met VIPP-5 allicht al gerealiseerd kan zijn) de uitwisselbaarheid van algoritmen ook toeneemt. Hoewel uitwisseling van algoritmen zonder verdere maatregelen en validatie riskant is, moet wel worden nagedacht over de door interoperabiliteit gefaciliteerde transferlearning. Transferlearning is een methode waarbij een algoritme getraind wordt met data van instelling A om vervolgens nog kortdurend getraind te worden met data van instelling B waarna het model beter presteert omdat de kennis nu uit de data van zowel instelling A als B is geëxtraheerd. Dit fenomeen is uniek voor algoritmen en wordt niet besproken in de verordeningen. Het voordeel van dit soort trainingsmethodes is dat het model verplaatst wordt terwijl de data in de instelling kan blijven. Een vergelijkbare methode betreft decentralized federated learning, waarbij in verschillende centra een algoritme tegelijk steeds een stapje verder wordt getraind en tussen iedere stap de parameters van de resulterende algoritmen worden gemiddeld. Met deze methoden worden belangrijke AVG-hordes genomen. Daarnaast is natuurlijk de verwachting dat met uitbreiding van data de algoritmen na opnieuw trainen een update verdienen. Moet dan weer een nieuw CE-keurmerk behaald worden? Ik hoop dat de EU op tijd een oplossing vindt, die toepassing van deze methoden niet in een administratieve draak verandert.

Misschien zou Europa een voorbeeld kunnen nemen aan de regels die de FDA heeft opgesteld voor updates van algoritmen en software.

Algemene veiligheids- en prestatieeisen

Goed, als we er van uitgaan dat de markt ons niet kan voorzien van een acceptabel algoritme, dan kunnen we dus zelf aan de slag. Uit artikel 5, lid 5 volgt, dat het grootste deel van de 175 pagina’s tellende verordening niet van toepassing is op intern vervaardigde medische hulpmiddelen. We moeten alleen nog voldoen aan bovengenoemd artikel 5, lid 5 en aan de algemene veiligheids- en prestatie-eisen van bijlage 1. Deze bijlage telt 14 pagina’s in een klein lettertype. Het blijkt dat veel onderdelen van deze bijlage niet van toepassing lijken op algoritmen (het betreft dan opmerkingen over implantatie, straling en weefsels). Ik heb het mezelf makkelijker gemaakt door de onderdelen van deze bijlage die relevant zijn voor algoritmen die in een instelling gebruikt worden te groeperen in dit bestand. Het zijn nog altijd 7 pagina’s in lettertype 12 maar toch een stuk minder intimiderend dan de volledige bijlage.

In de algemene veiligheids- en prestatie-eisen worden enkele voor software belangrijke punten genoemd, zoals het verplicht opzetten van een kwaliteitsmanagementsysteem van het algoritme, waarbij kan worden uitgegaan van de norm NEN/ISO 13485:2016. In een volgend artikel ga ik daar verder op in.

normenstelsel: generieke exercitie

Er zijn daarnaast andere normen van belang die meer specifiek over software gaan (zoals o.a. IEC 62304 ) en er wordt op dit moment gewerkt aan een nieuwe norm over kunstmatige intelligentie in de zorg (uitgaande van het concept van ISO 24028:2019). Voor wat betreft de MDR lijkt uiteindelijk het leveren van de verplichte documentatie en het opzetten van de juiste werkwijzen (zoals het risicomanagementsysteem) een tamelijk generieke exercitie. Er zijn dan ook al de nodige cursussen over dit onderwerp te vinden. Het zou evenwel mooi zijn als er voor instellingen een generiek draaiboek zou zijn, dat gebruikt kan worden om intern vervaardigde algoritmen te laten voldoen aan de eisen van de MDR. Het lijkt me slim om hier nu niet per instelling het wiel opnieuw uitvinden maar – zeg maar – gezamenlijk te werken aan het verminderen van deze administratielast. Sterker nog; als over enkele jaren de commerciële algoritmen kwalitatief in de buurt komen van zelf vervaardigde algoritmen, dan loont het de moeite om als zorginstellingen gezamenlijk CE-keurmerken aan te vragen voor gezamenlijk vervaardigde algoritmen. Dit zou een belangrijk argument zijn voor een nationaal zorg-AI-platform: een platform waarin kennis en ervaring op het vlak van AI gebundeld wordt terwijl kosten worden beheerst.

Disclaimer: beschouw dit artikel als persoonlijke interpretatie, niet als gebruiksaanwijzing. Hoewel dit artikel met grote zorgvuldigheid werd samengesteld, kan noch de auteur, noch dokter.ai verantwoordelijkheid nemen voor eventueel geleden schade ten gevolge van beslissingen die genomen zijn op basis van de informatie op deze website. Mocht u op onjuistheden stuiten of anderszins opmerkingen hebben, laat het dan weten.

Update: voorspelling van heropname binnen 30 dagen na ontslag

In januari werden hier de eerste resultaten gepresenteerd van een neuraal netwerk dat in staat was heropname binnen 30 dagen na ontslag uit een ziekenhuis te voorspellen. Sindsdien zijn de resultaten verbeterd en de inzichten veranderd. Daarom heb ik het artikel grotendeels herschreven en de resultaten van een update voorzien.

Samenvatting

  • Dit artikel beschrijft een methode waarmee een algoritme kan worden geconstrueerd dat in staat is om ziekenhuis-heropnames te voorspellen. Het algoritme presteert beter dan tot dusver gepubliceerde vergelijkbare algoritmen.
  • Het algoritme kan worden aangevuld met een functie die de uitkomst verklaart aan de hand van de gebruikte variabelen. Er zijn verschillende methoden waarmee de bijdrage van individuele variabelen of clusters van variabelen kan worden gevisualiseerd. Hiermee wordt een belangrijke drempel weggenomen voor gebruik van dit soort algoritmen.
  • Het algoritme is vanwege het leunen op de implementatie van het EPD bedoeld voor het St Jansdal Ziekenhuis. De gebruikte methode om tot dit algoritme te komen is daarentegen wél herbruikbaar in een ander ziekenhuis. Bestaande algoritmen, die wél in andere ziekenhuizen zouden moeten kunnen worden gebruikt blijken minder accuraat. Het gemak waarmee dit soort modellen nu kunnen worden gemaakt, suggereert dat het maken van minder nauwkeurige (inter)nationaal bruikbare algoritmen geen voordeel hebben.
  • Ieder ziekenhuis zou moeten beschikken over een afdeling die in staat is om samen met de zorgverleners dit soort algoritmen te maken. Een nationaal zorg AI platform zou kennis en methoden om algoritmen te maken kunnen verzamelen en het gebruik kunnen promoten. Dit zou zowel implementatie als gebruik van AI in de zorg stimuleren tegen waarschijnlijk lagere kosten dan een introductie en verspreiding door de markt met bijbehorende service- en licentiekosten. Omdat de verwachting is dat dit soort modellen een belangrijke rol gaan spelen in de zorg, is nadenken over dit kostenaspect op dit moment belangrijk.
deel van de Shap violinplot, zie Resultaten

Ik wil eerst nog enkele uitgangspunten herhalen, die ik in eerdere blog-posts noemde:

  1. Iedere arts kan zich bekwamen in machine learning, als er maar interesse is (en een growth-mindset). Er zijn inmiddels vele cursussen waaruit gekozen kan worden, enkele goede instapcursussen werden eerder al op dit blog genoemd. Er komt een punt waarop kennis van programmeren, calculus en waarschijnlijkheidsleer helpen, maar ook deze onderwerpen worden in vele online cursussen behandeld.
  2. Als met behulp van machine learning een voorspellend model gemaakt wordt, dan werkt dat model het beste op patiëntengegevens uit de populatie waaruit de patiëntengegevens kwamen die gebruikt werden om het model te trainen. Met andere woorden, als in ziekenhuis A een model wordt getraind, dat werkt dat model waarschijnlijk beter in ziekenhuis A dan in ziekenhuis B. Verdiep je er dus vooral in hoe je een model maakt, niet hoe je aan een model komt.
  3. Machine learning bestaat uit een krachtige instrumentenset die in ieder ziekenhuis zou moeten worden ingezet om kwaliteit en efficiëntie te verhogen. Ik zou ieder ziekenhuis daarom willen adviseren hun business intelligence afdeling uit te breiden met data-scientists zodat zelfstandig de technieken van machine learning kunnen worden ingezet. De meeste commerciële bedrijven met 1.500+ werknemers hebben dat al lang gedaan en doen er hun voordeel mee. Wacht er niet te lang mee want het duurt minimaal een jaar voordat de eerste machine learning modellen in productie zijn.

Eerste model: heropnamerisico

Ik heb ervoor gekozen om te beginnen met een model dat in staat moet zijn om heropnames te voorspellen. Hiervoor zijn enkele redenen. Allereerst is een heropname voor patiënten en naasten vaak een traumatische gebeurtenis. Heropnames gaan gepaard met toegenomen morbiditeit en mortaliteit. Het voorkomen van heropnames is dan ook een doel op zich. Daarnaast zijn er enkele eerdere modellen elders gemaakt, die heropnames kunnen voorspellen. Een nieuw model kan dus vergeleken worden met bestaande modellen. Omdat bestaande modellen niet in Nederland zijn gemaakt, laat staan in ons ziekenhuis, is het ten slotte de moeite waard om een model te maken met behulp van geanonimiseerde patiëntengegevens uit het ziekenhuis, zodat daarmee de eigen patiënten beter bediend kunnen worden, waarbij natuurlijk rekening wordt gehouden met de AVG.

Modellen van elders vs eigen model

Om te visualiseren dat een model dat in een ander land getraind is waarschijnlijk minder goed presteert in Nederland (of Harderwijk in dit geval). In ons EPD werd een bestaand model geimplementeerd, dat in de USA in een tweetal ziekenhuizen werd getraind. Het betrof een LASSO logistic regression analysis. De area under the curve was aldaar 0,74. In ons ziekenhuis kwam de area under the curve niet boven 0,68, beduidend lager en vergelijkbaar met een simpeler heropnamemodel zoals de LACE+ score.

Validatie van bestaand model uit USA in ons ziekenhuis

Point of care

Het is belangrijk om precies te specificeren waarvoor het model gebruikt gaat worden. Dat heeft namelijk direct invloed op de bouw van het model. Het doel van het model is om professionals een gereedschap in handen te geven waarmee ze bij ontslag hun aandacht kunnen focussen op die patiënten, die vanwege een verhoogd risico op heropname die aandacht nodig hebben. Met andere woorden, om de kwaliteit te verhogen zonder dat het meer gaat kosten. Het is de vraag of het de hoofdbehandelaar moet zijn die hierop gaat letten. Als een chirurgische patiënt bij ontslag een verhoogd risico op heropname heeft vanwege multimorbiditeit, bijvoorbeeld met hartfalen en diabetes mellitus, dan kan je beter aan de ziekenhuisarts, internist of geriater vragen hier een behandelplan voor op te stellen dan aan de chirurg. De uitkomst van het model moet daarbij interpretabel zijn; de factoren die sterk bijdragen aan de voorspelling moeten zichtbaar zijn voor de arts die hiermee verder gaat.

Project heropname

Daarmee ben je er natuurlijk nog niet. Om hier vervolgens mee aan de slag te gaan moet een project worden gestart met alle stakeholders gericht op implementatie in de kliniek. Het is niet het doel van dit blog om hier verder op in te gaan. Iedere projectmatig denkende clinicus kan dit in zijn eigen ziekenhuis opzetten.

Methoden (kort)

Allereerst wil ik benadrukken dat dit model nog niet af is. Belangrijke gegevens moeten worden toegevoegd zoals medicatiegegevens, geslacht, vitale parameters, orders en poliklinische contacten. Ondanks dat gemis blijkt het model nu al heropnames te kunnen voorspellen, waarmee wat mij betreft bevestigd wordt dat dit iets is dat ieder ziekenhuis zelf zou moeten kunnen. Daarnaast zullen verder in de tekst steeds meer technische termen gebruikt worden. Ik zou de collega’s die niet bekend zijn met het onderwerp zijn willen adviseren daar overheen te lezen en te focussen op de resultaten.

De uitleg van de methoden is kort en zeker niet uitputtend. In een later blog ga ik hier meer op in maar voor nu wil ik vooral een proof of concept neerleggen. Ik overweeg om in een later stadium mijn bevindingen elders te publiceren, waarbij het de conclusie niet niet het model zelf wordt, maar vooral de weg er naartoe. Buiten mijn ziekenhuis is dit model waarschijnlijk niet bruikbaar, maar de methode wel. Dit gebrek aan generaliseerbaarheid en extrapoleerbaarheid moet ook niet gezien worden als een gebrekkige uitkomst maar als een consequentie van één van de doelen van het model, namelijk een optimale lokale voorspelling geven, rekening houdend met lokale factoren. Andersom zou ik durven stellen dat modellen zoals LACE+ juist gebrekkig zijn omdat ze zo weinig lokale factoren kunnen meenemen in de voorspelling. Als blijft dat lokale factoren – zoals de cultuur van mijn ziekenhuis, afdelings- en specialismespecifieke karakteristieken – kunnen leiden tot verhoogde kans op heropname, dan biedt dat kansen op kwaliteitsverbetering. Het model werd geprogrammeerd in python 3.6 via Jupyter Notebook. Hieraan werden vele pakketten toegevoegd, waaronder Numpy, Pandas, Tensorflow, Keras, SciPi, SciKitPlot, SKLearn, Matplotlib, Shap, Imblearn, GpyOpt, enz.

De gebruikte features

In het model wordt gebruik gemaakt van gegevens over opnameduur en -datum, afdeling, specialisme, aantal SEH-bezoeken en bijbehorende parameters, een aantal laboratoriumbepalingen, problemen op de probleemlijst (ICD-10) en leeftijd. Zoals boven aangegeven komen hier in de toekomst nog medicatiegegevens, geslacht, orders en poliklinische contacten bij.

Het heropname-label

De definitie van heropname is in dit model iedere spoedopname, die binnen 30 dagen na een indexopname start en die minimaal één nacht heeft geduurd. Een indexopname moet ook minimaal één nacht hebben geduurd. Tussen 1-10-2016 en 1-10-2018 waren volgens deze definitie in ons ziekenhuis 5,6% van de opnames heropnames.

Keuze van het machine learning model

In de medische setting moet een model in mijn ogen aan de volgende voorwaarden voldoen:

  • De uitkomst moet overeenkomen met een gouden standaard. In dit geval moet de voorspelde kans op heropname overeenkomen met de daadwerkelijke fractie heropnames. Dit is het doel van ieder model, dus bepaalt niet zo zeer de keuze. Er zijn diverse instrumenten beschikbaar om dit vast te stellen.
  • De uitkomst moet interpretabel zijn. Dat is bij machine learning modellen een aandachtspunt. Gelukkig zijn er inmiddels diverse instrumenten die hierbij helpen.
  • Het model moet goed om kunnen gaan met de aangeboden gegevens. Ook dat is een aandachtspunt. Medische gegevens in een patiëntendossier zijn berucht. Ze worden niet verzameld om achteraf als cohort te worden beoordeeld maar voor patiëntenzorg. Die moet zinnig en zuinig zijn. Daarom zullen gegevens vaak ontbreken als ze voor de patiënt niets opleveren. De gegevens moeten meestal worden bewerkt en klaargezet voor het model.
  • Het model moet op basis van de aangeboden gegevens een zinnige voorspelling kunnen doen. Dat betekent in dit geval dat gekozen moet worden voor een model dat met minder data een bruikbare uitkomst kan opleveren. End-to-end modellen – waarbij ruwe gegevens zonder voorbewerking worden aangeboden en bij de uitgang van het model na trainen een voorspelling volgt – worden daardoor minder interessant omdat zij vaak minstens het tienvoudige aan gegevens nodig hebben om te kunnen werken.
  • Het model moet verbanden tussen de gegevens kunnen herkennen en op basis hiervan de voorspelling kunnen aanpassen.
  • Het liefst wil je ook een uitspraak kunnen doen over de betrouwbaarheid van de voorspelling.

Op grond van bovenstaande voorwaarden kom ik uit op een ‘decision tree’-model gebaseerd model of een neuraal netwerk. De laatste voorwaarde is dan nog niet meegenomen, daarvoor is een bayesiaans neuraal netwerk nodig. Ik heb nu gekozen voor zowel een regulier neuraal netwerk met drie verborgen lagen, als het ‘decision tree’-model LightGBM. Het is de bedoeling om in een latere fase met Bayesiaanse neurale netwerken te experimenteren.

Preprocessing

Een neuraal netwerk kan niet gevoed worden met ruwe patiëntendata. De gegevens moeten leesbaar worden gemaakt voor het model. Er moet een tabel worden gemaakt met voor iedere opname een rij en voor iedere mogelijke factor of patiëntenkarakteristiek een kolom. Om het model te helpen heb ik problemen in de probleemlijst in HSMR-groepen ingedeeld. Daarnaast heb ik de 200 meest voorkomende problemen in de probleemlijst toegevoegd als kolom. Laboratoriumwaarden werden in twee mandjes gestopt: één voor de uitslagen van de laatste twee weken en één voor de uitslagen daarvoor. Voor iedere bepaling werd voor ieder mandje een kolom gemaakt met het gemiddelde, de standaarddeviatie, het aantal metingen, het ontbreken van metingen, de laatste meting en de verschillen tussen de mandjes. Categorische variabelen werden ‘one hot’ gecodeerd.

Medische gegevens zijn berucht om hun grillige karakter. Als zonder onderzoeksopzet achteraf gegevens uit een EPD geëxtraheerd worden blijken veel gegevens te ontbreken, simpelweg omdat ze voor het medisch proces niet nodig zijn en verzamelen ervan verspilling van gemeenschapsgeld zou betekenen en mogelijk risico voor de patiënt t.g.v. overdiagnostiek. Bovenstaande bewerkingen leverden een tabel op met veel ontbrekende waarden. Deze ontbrekende waarden kunnen op verschillende manieren worden ingevuld, zoals simpelweg met een nul, met het gemiddelde, de mediaan of met complexere methoden zoals een variational autoencoder, waarover later meer. In eerste instantie werden alle ontbrekende waarden, vervangen door het gemiddelde van de variabelen. Later in het proces zullen deze ontbrekende waarden worden ingevuld met behulp van een variational autoencoder.

De set werd verdeeld in een trainings-, validatie- en testset met een verhouding van 70:15:15. Alle transformaties van de dataset, zoals normalisatie en missing data imputation, werden gefit op de trainingsset, zodat er geen informatie uit de validatie- en testset in de trainingsdata lekte.

Trainen met ongebalanceerde data

5,6% van de opnames in de dataset werd gevolgd door een heropname. Trainen met behulp van zulke ongebalanceerde data resulteert vaak in een model dat de neiging heeft de minder vaak voorkomende uitkomst niet te herkennen. Dit resulteert in een minder betrouwbaar model. Het is dus van belang om zo’s disbalans te herkennen en hier maatregelen tegen te treffen. Er zijn grofweg 3 methoden om hier mee om te gaan. Undersampling, oversampling of aanpassen van het algoritme om hier rekening mee te houden.

Bij undersampling wordt een willekeurig deel van de meest voorkomende uitkomst verwijderd. Dit wordt wel gedaan bij ‘huge data’, bij miljoenen of miljarden casus , omdat bij het verwijderen van een deel van die data waarschijnlijk weinig informatie verloren gaat. In ons geval, bij ruwweg 25000 opnames, is dat in mijn ogen geen optie. De kans is te groot dat belangrijke informatie uit onze populatie verloren gaat, waardoor het model slechter wordt.

Bij oversampling wordt met behulp van een methode, zoals SMOTE of generatief model zoals een variational autoencoder of een generative adversarial network, nieuwe data gegenereerd op basis van de oude data. Ik heb geëxperimenteerd met zowel SMOTE als de variational autoencoder en kwam tot de conclusie dat een getrainde variational autoencoder beter nieuwe trainingsdata genereert dan het SMOTE-algoritme. Het is niet de scope van dit blog om hierover uit te weiden maar ik zal wel kort de variational autoencoder bespreken omdat ik die later zal gebruiken voor het invullen van de missing data.

In feite is een variational autoencoder een neuraal netwerk, dat bestaat uit twee in spiegelbeeld aan elkaar geplakte neurale netwerken waarbij de middelste laag verdeeld is in een mu-laag (gemiddelde) en sigma-laag (standaard deviatie) die gebruikt worden als normaalverdeling waaruit gesampeld wordt voor het rechter deel van het netwerk:

Variational autoencoder

Nu volgt een wat wiskundig-technisch verhaal. Bij het trainen van dit netwerk wordt er namelijk naar gestreefd de output van het netwerk de input te laten benaderen. De informatie van de input wordt alleen wel door een vernauwing in het netwerk geperst. Deze vorm forceert het netwerk de ingevoerde gegevens te ‘coderen’ in een kleinere hoeveelheid variabelen in het midden. Een soort compressie. Bij deze variational autoencoder wordt – in tegenstelling tot bij een ‘gewone’ autoencoder – tijdens trainen de kansdichtheidsfunctie van de middelste knopen benaderd. Omdat uitrekenen van deze kansdichtheidsfunctie normaal gesproken vanwege de complexiteit leidt tot een niet oplosbare integraal, wordt gepoogd de achterafverdeling te benaderen met kansdichtheidsfuncties die wel uitgerekend kunnen worden, zoals de Normaalverdeling. Dit wordt variational inference genoemd. Door nu te samplen uit die getrainde verdelingen en ze aan het rechter deel van het netwerk aan te bieden ‘hallucineert’ het netwerk vervolgens nieuwe opnames die aan de dataset kunnen worden toegevoegd. Het bleek voor oversamplen wel noodzakelijk om het model te trainen met alleen de daadwerkelijke ‘wel heropname’-casus (conditioneel trainen bleef tot ongebalanceerde uitkomsten leiden). De nieuwe opnames zullen stochastisch verdeeld alle eigenschappen bevatten die het model na training heeft kunnen onthouden. Door deze opnames toe te voegen aan de originele dataset kunnen de klassen gebalanceerd worden. Dit blijkt verbazingwekkend goed te werken. Langs deze route kunnen ook ‘missing’ variabelen worden ingevuld in bestaande opnames. Hoewel de input van de missing variabelen het gemiddelde van die variabele was, is de output van de variational autoencoder een variabele die stochastisch gezien het meest waarschijnlijk is. Omdat het model niet alleen naar de variabele kijkt maar ook naar de samenhang van de hele dataset is de resulterende variabele waarschijnlijk meer realistisch dan een simpel gemiddelde van de hele groep. Het blijkt dat het resulterende voorspellende model beter is als de data op deze manier voorbewerkt wordt. Vanzelfsprekend mag de variational autoencoder alleen getraind worden op de trainingdata of ‘dataleakage’ te voorkomen. Saillant detail: deze variational autoencoder is een Nederlandse uitvinding.

Ten slotte kan er ook voor gekozen worden het voorspellende model zelf rekening te laten houden met de disbalans van uitkomsten. In het geval van een neuraal netwerk kan de ‘loss-function’ aangepast worden zodanig dat het verkeerd voorspellen van de minst voorkomende uitkomst (bij ons de daadwerkelijke heropname, die kwam immers maar 5,6% voor) een hogere penalty krijgt. Keras en tensorflow hebben hier functionaliteit voor ingebouwd die gemakkelijk gebruikt kan worden. Hoewel ik in het begin de variational autoencoder gebruikte voor oversampling blijkt uiteindelijk een hogere penalty voor verkeerd voorspellen van de kleinere groep in ons geval het beste werken. Ik denk dat dit komt omdat ik in de loop van de tijd meer variabelen aan het model heb toegevoegd.

Het neurale netwerk

Er werd gebruik gemaakt van een standaard neuraal netwerk. Voor de kenners: met drie verborgen lagen, ieder met dropout en batchnormalization. De activatiefunctie van de verborgen lagen was ‘relu’ en van de voorspellende laag de sigmoid-functie. Naast dropout werd L2-regularizatie gebruikt om overfitten te voorkomen.

schematische weergave van het neurale netwerk

Het trainen: Bayesiaanse optimalisatie

Om vervolgens het neurale netwerk optimaal te trainen moeten de verschillende verborgen lagen in het netwerk de optimale hoeveelheid knopen hebben. Er zijn verschillende methoden om achter deze aantallen te komen. Met de hand zou ik niemand aanraden. Vaak wordt ‘random search’ gebruikt, een techniek waarbij de grootte van de verborgen lagen, de dropout-ratio en de learning-rate binnen grenzen willekeurig worden gekozen, net zo vaak tot een keer een mooie uitkomst wordt gevonden. Eleganter is het om Bayesiaanse optimalisatie te gebruiken, waarbij op grond van Gaussiaanse curven wordt getracht de meest logische volgende grootte van de verborgen lagen, de dropout-ratio en de learning-rate te kiezen. Dit werkt sneller en zorgt uiteindelijk ook voor betere optimalisatie dan random search. Het doel van de Bayesiaanse optimalisatie was het maximaliseren van de F1.5-score (een aangepaste F1-score, zie resultaten).

De gradient boosting machine

Het tweede algoritme dat gebruikt werd betreft de ‘gradient boosting machine’. Dit is een algoritme dat automatisch veel beslisbomen genereert en de minder goed passende beslisbomen verwerpt, terwijl de sterke beslisbomen worden behouden. De uiteindelijke voorspelling is een ‘ensemble’ van de beslisbomen die enige voorspellende waarde hebben. Hierbij levert iedere beslisboom een gewogen bijdrage aan de voorspelling. Dit algoritme geldt als één van de sterkste machine learning algoritmen. Smaken zijn onder andere het XGBoost-algoritme en het LightGBM-algoritme.

Voorbeeld van een gedeelte van een automatisch gegenereerde beslisboom. In het kader is de contour van de hele beslisboom te zien.

Resultaten: tijdsinvestering

De meeste tijd zat in het trainen van mezelf: ik ben nu ruim een jaar in mijn vrije tijd bezig en die tijd heb je nodig om uiteindelijk dit soort modellen in python te leren programmeren. Ik kan me voorstellen dat er weinig dokters zijn die dat ook willen doen. Ziekenhuizen zullen een weg moeten vinden om dit te organiseren samen met een enthousiaste dokter, die genoeg weet om dit samen met een BI-team te doen. Ik zou ziekenhuizen nogmaals willen adviseren deze kennis in huis te halen en niet uit te besteden.

Ik kon vanaf begin oktober aan de slag met de data en na drie maanden had ik de eerste resultaten. Inmiddels is het model een stuk beter zodat ik het nodig vond om dit blog van een update te voorzien. Zou ik met de kennis van nu opnieuw beginnen, dan zou ik vermoedelijk binnen een maand een werkend model hebben. Overigens is er altijd ruimte voor verbetering maar ’the worst enemy of good is better’.

Resultaten: de modellen

Onderstaande resultaten hebben allen betrekking op de testset. Het neurale netwerk wordt verder ‘Keras’ genoemd. De gradient boosting machhine wordt verder LightGBM genoemd. Het Keras-model en het LightGBM-model hebben de volgende area’s under the curve:

AUC- of ROC-curve van neuraal netwerk
AUC- of ROC-curve van LightGBM-model

De AUC hangt af van de verhouding tussen de sensitiviteit en de specificiteit of zoals hier weergegeven de echtpositieve ratio en de foutpositieve ratio. Als de kromme curve op de stippellijn zit dan kan je evengoed een muntje opgooien, de AUC is dan 0,5. In dit geval hebben de modellen een AUC van gemiddeld 0,8 en daarmee voorspellende waarde, waarbij het LightGBM-model iets beter lijkt. Ter vergelijking: het model van Google heeft een AUC van 0.75 en het model van Epic 0.74. Ik ben in de literatuur geen beter model tegengekomen. We zullen de testwaarden verder bestuderen, afgezet tegen de mogelijke afkapwaarden:

Metrics van neuraal netwerk
Metrics van LightGBM-model

Opvallend is dat het neurale netwerk bij hogere cut-off waarden een acceptabeler sensitiviteit (in de grafiek ‘recall’) heeft dan het LightGBM-model. Daar staat tegenover dat de precision, ofwel positief voorspellende waarde, zeer matig blijft vergeleken met het LightGBM-model.

ongecorrigeerde kalibratiecurve
gecorrigeerde kalibratiecurve

De calibratiecurve wordt getoond van het neurale netwerk. Boven zonder correctie, onder met correctie (predictie ^ 1,8 * 0,37). De plots lijken bedroevend. De sterkste voorspellingen van het neurale netwerk vangen namelijk maximaal ca. 35% van de echt-positieven. Dat betekent trouwens niet dat het neurale netwerk onbruikbaar is. De kalibratiecurve van he LightGBM-model is beduidend beter (volgt). Hieronder volgen confusion-plots van beide modellen. Hiervoor wordt een cut-off waarde gebruikt waarbij de sensitiviteit 0,75 is. Bovenstaande metricscurven visualiseren dat deze cut-off waarde verschilt per model.

Confusion-matrix van neuraal netwerk bij een sensitiviteit van 0,75

Confusion-matrix van LightGBM-model bij een sensitiviteit van 0,75

Bij het neurale netwerk gaat een sensitiviteit van 0,75 gepaard met een specificiteit van 0,69, terwijl de specificiteit bij het LightGBM-model in dat geval 0,72 is. Het lightGBM-model lijkt dus weer iets beter. Dit betekent, dat de ~30% hoogst scorende patiënten in 3 op de 4 gevallen heropgenomen worden. Of bij alle patiënten extra middelen moeten worden ingezet ter voorkoming van heropnames of slechts bij 30%, zal aanzienlijk schelen in de kosten.

Resultaten: interpretabiliteit

Machine learning algoritmes worden door gebruikers (en zeker artsen) vaak als ‘black box’ beschouwd, juist vanwege het ontbreken van inzicht in hoe het model tot zijn voorspelling komt. Dit heeft een ongunstig effect op geloofwaardigheid en adoptie. Om dit te voorkomen, is het nodig die variabelen te laten zien die de grootste invloed op de voorspelling hadden. Hiervoor zijn inmiddels prachtige tools beschikbaar zoals SHAP en sommige algoritmen, zoals LightGBM, laten zelf zien welke variabelen belangrijk zijn voor de uitkomst:

Visualisatie van bijdrage van variabelen aan uitkomst van LightGBM-model, weergegeven met behulp van het model. Of de invloed positieve of negatief is wordt niet weergegeven.

Visualisatie van bijdrage van variabelen aan uitkomst van LightGBM-model, weergegeven met behulp van SHAP. SHAP visualiseert ook met behulp van de kleur of de bijdrage positief of negatief was.

De bar-chart van het LightGBm model geeft wel een contributie weer maar niet of deze contributie positief of negatief is. De SHAP-grafiek daarentegen toont ‘violin-plots’ van de variabelen met de hoogste impact. De dikte van de horizontale figuur geeft weer hoe vaak de waarde voorkomt, de plaats op de x-as geeft weer hoe groot het effect is en de kleur rood geeft weer dat het de voorspelling versterkt. Een probleem is dat deze visualisatie beperkt is tot de beste variabelen. De modellen gebruiken ~2800 variabelen en het neurale netwerk maakt ook nog binaire variabelen van de continu variabelen zodat het neurale netwerk in totaal zelfs ~8000 variabelen heeft. Het is dus nodig om de gebruikte variabelen op de een of andere manier te clusteren. Het ligt voor de hand dat op basis van de soort variabele te doen, zoals hieronder gevisualiseerd voor een aantal variabelen uit de probleemlijst:

Bijdrage van variabelen uit de probleemlijst. De HSMR-variabelen blijken na de totale aantallen problemen het sterkst bij te dragen.

Visualiseren van de bijdrage van de variabelen en clusters van variabelen zal een belangrijke bijdrage leveren aan het ont-‘blackboxen’ van machine learning modellen. Dat betekent natuurlijk niet dat in dit geval de heropnames voorkomen kunnen worden door de sterk bijdragende factoren te elimineren. Als bijvoorbeeld zou blijken dat gebruik van antistolling het risico op heropname verhoogd, dan weet iedere zorgverlener dat staken van antistolling niet de oplossing is. Iedere patiënt met een verhoogd risico moet zorgvuldig beoordeeld worden voordat een beleid kan worden gemaakt, dat gericht is op het voorkomen van heropname.

Uitdagingen

Zoals boven aangegeven is dit model niet voltooid. Dat zal het overigens ook nooit zijn. Van de volgende acties verwacht ik dat ze een gunstig effect op de kwaliteit van het model hebben:

  • Fout-analyse: zijn er factoren in het EPD aan te wijzen die nu niet bekeken worden maar die gebruikt kunnen worden voor betere voorspellingen?
  • Artsen willen ook weten hoe betrouwbaar de voorspelling is. De voorspelling moet dus een geloofwaardigheidsinterval krijgen. Daarvoor is een Bayesiaans neuraal netwerk nodig.

Belangrijkste conclusies

  • Het blijkt goed mogelijk om met machine learning op basis van de data in een elektronisch patiëntendossier een bruikbaar model te creëren dat heropnames kan voorspellen.
  • Een competitief model voor voorspelling van heropnames kan in ieder ziekenhuis worden gemaakt als de data in het EPD toegankelijk zijn en kennis en kunde beschikbaar zijn.
  • Generaliseerbaarheid en nauwkeurigheid zitten elkaar bij machine learning in de weg. Als het model nauwkeuriger wordt voor ziekenhuis A vanwege variabelen die typisch zijn voor dat ziekenhuis, wordt het minder nauwkeurig voor ziekenhuis B. Variabelen in een EPD weerspiegelen de cultuur van een ziekenhuis en dit kan bijdragen aan voorspellende waarde van een model. Volgens mij moeten we met machine learning niet altijd nastreven een model te creëren dat in alle ziekenhuizen werkt, maar juist profiteren van de ziekenhuis-specifieke variabelen om kwaliteitsslagen te maken.
  • Als ieder ziekenhuis de kennis in huis creëert om dit soort modellen te maken dan maakt dat vele verbeteringen op het vlak van kwaliteit en efficiency mogelijk.
  • Het zou veel tijd en geld besparen als in Nederland een centraal zorg-AI-platform zo worden opgericht waar de kennis op het vlak van machine learning wordt samengebalt om alle ziekenhuizen de mogelijkheid te geven deze technologie in te zetten om kwaliteit van zorg te verbeteren.

Laat gerust een commentaar achter als je opmerkingen hebt. Dit blog zal waarschijnlijk in de nabije toekomst worden aangevuld. Blijf op de hoogte: schrijf je in voor de mailing.

Hoe laat je AI de zorg ondersteunen?

Nu de voorbeelden van potentieel bruikbare machine learning algoritmes voor de zorg zich beginnen op te stapelen, rijst ook de vraag hoe deze technologie zinvol en veilig kan worden gebruikt. Voordat een machine learning algoritme onderdeel wordt van het instrumentaal van de zorgverlener moet een aantal vragen worden beantwoord. De belangrijkste vragen hebben niet direct iets met de onderliggende techniek te maken. Het draait in eerste instantie vooral om de beleving en de organisatie van de zorg rondom AI, waarbij een goed model natuurlijk een voorwaarde is.

Is er wel behoefte aan het algoritme? 

Beantwoord het algoritme een vraag die zorgverleners stellen? Of kan een bekend probleem in de zorg misschien worden opgelost met behulp van het algoritme? Dit lijkt bij de meeste algoritmen die worden verkocht wel het geval te zijn. Beeldherkenning wordt op sommige plekken al met succes ingezet bij PA-analyse en bij retinafotografie. In de Verenigde Staten wordt in veel ziekenhuizen dankbaar gebruik gemaakt van de door EPD-leverancier Epic aangeboden 18 (!) algoritmes die onder andere klinische verslechtering, heropname en valneiging voorspellen. Het Nederlandse bedrijf Pacmed werkt met het Amsterdam UMC en het AvL hard aan modellen die heropname op IC voorspellen en die helpen bij de keuze van behandeling van prostaatcarcinoom. Quantib werkt aan radiologische beeldherkenning en heeft modellen die FDA-approved zijn en in het Erasmus MC getest worden. Diverse andere bedrijven werken samen met artsen om AI te ontwikkelen die de zorg kan helpen. Je kan ook zelf aan de slag gaan met AI, zoals ik in mijn vorige bericht beschreef. Er zijn veel AI-oplossingen waar een weldenkende zorgverlener het nut van in zal zien.

Is er draagvlak?

Spannender is de vraag of er draagvlak is in de zorginstelling bij alle betrokken zorgverleners. Wordt het te tackelen probleem in de dagelijkse praktijk ook door de zorgverleners als een probleem ervaren? Dat volgt niet vanzelfsprekend op voorgaande conclusie. Er is een reële kans, dat een algoritme wordt gezien als een bedreiging. Dit kan ook deels terecht zijn. Bij de invoering van een geïntegreerd EPD vallen altijd ontslagen. De kans is groot dat effectieve inzet van kunstmatige intelligentie er ook toe zal leiden dat er op sommige vlakken minder werk is in de zorg. Je mag dus niet verwachten dat zorgverleners op voorhand een positieve houding hebben ten opzichte van AI, ook al is de verwachting dat er vooral minder ondersteunende medewerkers nodig zijn terwijl de zorgverleners zelf minder snel vervangen zullen kunnen worden. 

AI helpt de zorg

Digitale strategie

Los van steun op de werkvloer moet er in de zorginstelling een klimaat zijn dat het gebruik van een technologie als AI faciliteert. Dat begint bij een breed gedragen strategie, die – onder andere – gericht is op zorg-innovatie met maximale inzet van IT. In een organisatie die doordrenkt is van het besef dat automatisering zal helpen bij het verbeteren van kwaliteit en efficiëntie, zal snel genoeg het besef rijzen dat hiervoor meer nodig is dan alleen ‘conventionele’ automatisering. Een ander punt is, dat een organisatie echt vruchten hiervan zal plukken als de zorgverlener de ruimte krijgt om het voortouw te nemen bij deze digitale transitie. Andersom durf ik te beweren dat het ontbreken van deze strategie en/of een top-down benadering van IT kan leiden tot een gevaarlijk achterstand op dit gebied.

Begrijpt men het algoritme voldoende?

Een belangrijke basis voor draagvlak is het begrip. Begrijpen de zorgverleners voldoende hoe het algoritme tot zijn voorspellingen komt? De zorgverlener die de verantwoordelijkheid neemt voor de medische beslissingen is terughoudend als het gaat om accepteren van een nieuwe techniek zoals kunstmatige intelligentie. En terecht. De zorgverlener staat immers voor het schavot als het mis gaat. Hij of zij moet op zijn minst een globaal begrip hebben van machine learning om te snappen hoe het model aan zijn voorspellingen komt. Daarnaast bestaat de behoefte om te begrijpen hoe de individuele input-variabelen van het algoritme bijdragen aan de voorspelling. Dit is niet noodzakelijk een makkelijke opgave als je bedenkt dat een model meer dan duizend input-variabelen kan hebben en een ruwe weergave hiervan snel onoverzichtelijk kan worden. Bij beeldherkenning is het op voorhand al moeilijk om het model te begrijpen, omdat de herkenpunten niet vanzelf te visualiseren zijn. Het begrijpelijk maken van uitkomsten van algoritmes is op dit moment een zeer actief onderzoeksonderwerp. Het goede nieuws is dat er steeds meer gereedschappen komen om de ‘black box’ van het machine learning algoritme interpretabel te maken. En dat moet ook, wil het algoritme vertrouwen winnen van de zorgverlener. Een voorbeeld is het Shap-algoritme, dat met behulp van simulaties de bijdrage van de individuele variabele berekent. Het is vervolgens de uitdaging om de variabelen te clusteren zodat er een betekenisvolle interpretatie kan worden gegeven. 

Is het algoritme goed gevalideerd?

Als er behoefte en draagvlak is en voldoende begrip van de materie, dan is een volgende vraag of het algoritme wel voldoende betrouwbaar is. Een diagnostisch algoritme verdient eenzelfde validatie als andere diagnostische middelen in de zorg. Ieder laboratorium valideert nieuwe meetmethoden alvorens deze in de praktijk in te zetten. Ik zou niet weten welk argument kan worden ingezet om dat niet met machine learning algoritmen te doen. Een algoritme van elders dat op ons EPD werd toegepast bleek een AUROC van 0.68 te hebben, terwijl de oorspronkelijke AUROC 0.74 bedroeg. Diagnostische algoritmen mogen wat mij betreft niet worden ingezet alvorens een lokale validatie te verrichten. De noodzaak hiervoor hangt natuurlijk samen met de variatie in data. De data, die werd gebruikt om het algoritme een taak te leren verschilt natuurlijk per instelling. Dat geldt niet alleen voor algoritmen die op het EPD triggeren maar ook op beeldherkenningsalgoritmen. De reden om een röntgenfoto te maken zou overal hetzelfde moeten zijn maar in de praktijk zijn er sterke verschillen die te maken hebben met de lokale diagnostische cultuur en verschillende opleiding of specialisme. De voorafkans op een aandoening kan dus per instelling verschillen. Voor PA-onderzoek is dat niet anders. Hoewel richtlijnen dicteren wanneer onderzoeken plaats dienen te vinden kan daar met goede redenen van afgeweken worden. Moeten we dan vaststellen hoe de data dient te worden verzameld voor dergelijke algoritmen? Volgens mij is dat ondoenlijk. Ten eerste omdat veel algoritmen gebruik maken van transferlearning. Hierbij wordt een bestaand goed getraind algoritme gebruikt dat met relatief weinig nieuwe data verder wordt getraind om de specifieke nieuwe taak te verrichten. Het oorspronkelijke algoritme werd met data getraind, die niets met medische zorg te maken heeft. Datzelfde geldt voor word-embeddings bij spraakherkenning, die ook vaak op willekeurige teksten worden getraind die van internet worden geplukt. De hierop gebaseerde algoritmen zijn niettemin zeer bruikbaar. Hoe wil je dan vaststellen wat wel en niet mag met data en waaraan die data dan moet voldoen? De enige objectieve methode om te controleren of een algoritme werkt blijft mijnsinziens validatie in de instelling waar het model gebruikt wordt. Laten we daar dan in Nederland afspraken over maken.

Is het algoritme handig ingebed?

Dit punt blijft vaak onderbelicht. Als de licentiekosten van een algoritme betaald zijn, blijkt nogal eens dat de zorgverleners veel onhandige stappen moeten zetten alvorens de uitkomst te hebben. Dit ongemak kan een dealbreaker zijn. De software rond het algoritme moet in staat zijn automatisch de gegevens uit Het EPD te halen en na de voorspelling deze automatisch weer in het EPD zetten. Het EPD moet in staat zijn de voorspelling op de meest handige plek te visualiseren voor de zorgverlener, binnen een relevant werkproces. Het moet zo zijn dat de zorgverlener hier niets voor hoeft te doen, omdat dat gewoon mogelijk is en omdat de zorgverlener al voldoende administratieve last heeft.

Plan van aanpak

Een volgend punt is de organisatie rondom de nieuwe technologie. Er is draagvlak, men weet wat er aankomt, het algoritme is gevalideerd en de techniek is op orde. Toch kan je natuurlijk niet zomaar een AI-algoritme ‘aanzetten’. Op zijn minst moet er een project gestart worden dat de invoering van het algoritme begeleidt. Er moeten werkafspraken gemaakt worden en misschien wel protocollen. Risico’s zullen moeten worden geïnventariseerd. En er moet worden nagedacht over het meten van het effect van gebruik van een AI-algoritme. De gebruikte middelen moeten achteraf kunnen worden verantwoord. Mogelijke baten of kwaliteitswinst moeten worden gemeten, maar ook verborgen kosten of derving van inkomsten, bijvoorbeeld door substitutie van zorg van de tweede naar de eerste lijn of door afname van zorgvraag (hoe wenselijk dat ook moge zijn). Onder de streep moeten alle partijen er natuurlijk beter van worden, zodat innovatie zal blijven worden gestimuleerd. Ten slotte moet worden nagedacht over risico’s, over hoe te handelen als het een keer mis gaat en de rol van de inspectie moet hierbij duidelijk zijn.

Maatschappelijke impact

Inmiddels wordt door het ministerie van VWS en andere partijen zoals het Europese BigMedilytics-consortium hard nagedacht over het veilig inzetten van AI in de zorg. Ondergetekende mocht zijn bijdrage aan beide partijen leveren. De eerste adviezen die hieruit zullen volgen kunnen in mijn ogen niet meer dan een tussenstand zijn. De ware impact van AI in de zorg moet immers nog blijken en wat wijsheid is dus ook. In mijn instelling zullen we in ieder geval met bovenstaande punten rekening houden en ik verwacht dat die lijst zal groeien.

PGO: effectieve patiëntenparticipatie of dure hobby van enkeling?

Recent verschenen kritische artikelen in De Groene Amsterdammer en Trouw over de ontwikkeling van persoonlijke gezondheidsomgevingen ofwel PGO’s. Honderden miljoenen euro’s gemeenschapsgeld zouden worden verspild aan het geschikt maken van de elektronische patiëntendossiers (EPD’s) van ziekenhuizen voor het delen van hun gegevens met de PGO’s. Vanwege beperkte digitale vaardigheden zouden de belangrijkste doelgroepen onder de patiënten onvoldoende gebruik kunnen maken van een PGO. De uitspraken zouden worden gestaafd door tegenvallende resultaten uit de ons omringende landen. Verder zou de arts niet op een PGO zitten te wachten, mede gezien de gevreesde toename van administratieve lasten. Daarnaast wordt gevreesd voor de veiligheid van de patiëntengegevens. Dit terwijl de artsen onderling nog steeds niet digitaal hun gegevens kunnen uitwisselen, terwijl hier wel grote behoefte aan is. Al met al zou dit een blijk zijn van gebrek aan visie bij politiek en ministerie.
Hoewel dit laatste altijd een geliefd standpunt is, wil ik de conclusies van de artikelen van journalistenplatform Investico toch nuanceren en van de gelegenheid gebruik maken een goed beeld te krijgen van de mogelijkheden van een PGO.

MedMij versus BGZ
Allereerst is het van belang de juiste onderdelen binnen de plannen een naam te geven. Om PGO’s mogelijk te maken werd het nodige geïnvesteerd in de afsprakenset MedMij. Als een ziekenhuis-EPD en een PGO voldoen aan de afsprakenset MedMij, dan garandeert dat, dat het ziekenhuis-EPD medische gegevens kan delen met het PGO. Deze afsprakenset bevat onder andere standaarden over de vorm van de gegevens en de te gebruiken communicatietechniek. Ziekenhuizen die hun EPD’s conformeren volgens MedMij krijgen hiervoor subsidie. Deze subsidie is onderdeel van een groter subsidiepakket (de VIPP-subsidie) gericht op digitale uitwisseling van informatie tussen de patiënt en de zorgprofessional. Een belangrijk onderdeel van de afsprakenset MedMij is dat alle medische gegevens worden geformuleerd volgens de gegevensstandaard ‘Basisgegevensset Zorg’ ofwel de BGZ. Deze standaard werd niet alleen ontwikkeld voor MedMij, maar voor het harmoniseren en delen van medische gegevens in het algemeen. Ofwel, als een EPD in staat is om gegevens te versturen volgens de BGZ, dan maakt het in principe niet uit of die gegevens ontvangen worden door een PGO of door een ander ziekenhuis-EPD of een geschikt HIS (Huisarts Informatie Systeem). Uiteindelijk gaat een aanzienlijk deel van de subsidie naar het uitrollen van deze BGZ. Dat blijkt een moeilijk onderdeel van MedMij, maar wel belangrijk omdat EPD’s die de BGZ-taal ‘spreken’ in feite vrij makkelijk hun gegevens kunnen uitwisselen, ofwel interoperabel zijn. Waarom is dit onderdeel dan zo moeilijk? Dat komt omdat de medische gegevens net weer iets anders opgeslagen zijn in verschillende EPD’s – ook al zijn ze van hetzelfde merk. De EPD-leveranciers moeten de EPD’s dus aanpassen om de databasegegevens te kunnen vertalen naar de BGZ. Hier zit een pijnpunt. Ze vragen voor deze aanpassingen behoorlijke bedragen (de één overigens beduidend meer dan de ander, ik noem geen namen vanwege het agressieve gedrag van sommige softwarehuizen). Vandaar dat deels terecht gebromd wordt over het doorsluizen van subsidiegelden naar de EPD-leveranciers. Alleen is het resultaat wel degelijk een grote stap dichterbij digitale gegevensuitwisseling tussen zorgverleners. En daar zitten we allemaal wél op te wachten.

subsidie

60 PGO’s voor een handjevol patiënten?
Ongeveer 60 PGO’s hebben zich inmiddels bij MedMij aangemeld voor de impulsfinanciering. Het is moeilijk voor te stellen dat we in ons kikkerlandje zo veel PGO’s nodig zullen hebben. Ook financieel lijkt dit niet reëel. Eén van de ideeën om op termijn de PGO’s te financieren is om een PGO per gebruiker per jaar te subsidiëren met een bepaald bedrag. Als in de eerste jaren maximaal een miljoen Nederlanders gebruik zouden maken van een PGO – en dat zou wel eens optimistisch kunnen zijn – dan worden de taartstukjes met 60 PGO’s wel erg klein. Recent sneuvelde een grotere speler op de PGO-markt. Dat laat zien dat PGO’s vooralsnog een riskante investering zijn. Niet alleen zijn er teveel van, ze leveren voorlopig nog niet veel geld op. De makers van de artikelen in Trouw en De Groene Amsterdammer gaan er in mijn ogen terecht van uit dat er veel minder PGO’s zullen overleven. Waar ik het niet mee eens ben is de stelling dat PGO’s maar door een kleine groep digivaardige mensen gebruikt zullen worden. Dat zal natuurlijk in het begin wel zo zijn maar je kan de PGO’s beter beschouwen als een onderdeel van veel grotere veranderingen in de zorg, analoog aan de globalisering van handel, de ontwikkeling van de webshop en de ontwikkeling van kunstmatige intelligentie. Substitueer die veranderingen naar de zorg en het wordt voorstelbaar, dat PGO’s een grote rol gaan spelen in de zorg. Zo is het technisch mogelijk dat een foto van een huidafwijking meteen door het juiste algoritme gaat en de afgeleide diagnose zo nodig bij de juiste dokter terecht komt. Het is maar de vraag of dat de eigen huisarts of de dermatoloog van het naburige ziekenhuis is of een nationaal opererende zorgaanbieder. Of dit met behulp van een PGO gaat gebeuren, hangt af van de wens van de gebruiker ofwel patiënt en van de commerciële kracht van een PGO. Dat de gebruiker soms wat moet leren, blijkt wel uit het hilarische filmpje van Frans Bromet, die 20 jaar geleden mensen op straat interviewde over de noodzaak van een mobiele telefoon. Als we naar mobiele telefonie kijken of bijvoorbeeld telebankieren dan blijkt de belangrijkste drijfveer achter de ontwikkeling én acceptatie van een goed idee het commerciële belang en de investeringskracht van de betrokken organisaties te zijn. Mobiele telefonie was braakliggend terrein dat en masse door grote telecombedrijven ontgonnen werd en consumenten kregen snel genoeg door dat een mobieltje toch wel handig was. Noodzakelijke reorganisatie- en efficiency-slagen hebben de bankenwereld doen digitaliseren en de klant ging mee, enerzijds vanwege het afnemend aantal filialen maar ook mede dankzij het groeiende gebruiksgemak. Volgens mij is dat bij een PGO niet anders. PGO’s zullen een commerciele inslag moeten hebben, willen ze succesvol zijn. Stellen dat er voor PGO’s geen verdienmodel is, is het zelfde als de handdoek in de ring gooien. Visie was bij de meeste grote innovaties niet genoeg voor succes. Het is daarom relevant om te bedenken welke factoren zullen bepalen of een PGO een commercieel succes wordt.

Alternatieve geldbronnen
Zoals besproken zal voor individuele PGO’s de subsidiepot niet kostendekkend zijn. Recent sprak ik met een aantal aanbieders van PGO’s over plannen en mogelijkheden van financiering. Hieronder volgen enkele voorbeelden van constructies die bedacht (zouden kunnen) worden.

chat

Chatservice
PGO’s kunnen hun diensten tegen vergoeding aanbieden aan de zorgverleners. Er zijn diverse routes bedacht. De zorgverleners betalen de PGO’s bijvoorbeeld voor toegang tot de mogelijkheid om met patiënten berichten uit te wisselen. Kosten worden per instelling, per zorgverlener of per patiënt gedeclareerd. Dit brengt een knelpunt van PGO’s aan het licht. Waar MedMij met de BGZ voorziet in uniforme uitwisseling van medische gegevens, is er nog geen standaard voor berichtenuitwisseling met de patiënt. Er zijn bij mijn weten ook nog geen plannen voor een dergelijke standaard. De consequentie is dat zorgverleners in zee kunnen gaan met slechts één enkel PGO waarna de patiënt simpelweg geen keuze meer heeft. Het is voor zorgverleners immers ondoenlijk om dagelijks in te loggen op de websites van 15 PGO’s om berichten uit te wisselen met de patiënt. Gezien de vooralsnog redelijk sterke monopoliepositie van regionale ziekenhuizen, zal dit er ongetwijfeld toe leiden dat de keuzevrijheid fictief blijft en de organische ontwikkeling en groei van PGO’s geremd wordt. De oplossing is simpel: zorg dat MedMij 2.0 ook een chatstandaard bevat, zodat naast de medische gegevens het berichtenverkeer ook geen belemmering meer zal zijn voor keuzevrijheid van de patiënt. Natuurlijk moet het berichtenverkeer dan ook geïntegreerd zijn in het werkproces in het de EPD’s.

Webshop
PGO’s kunnen als – betaald – platform dienen voor derde partijen zoals leveranciers van – al dan niet medische – hulpmiddelen of diensten. Dit kan tot toename van gebruiksgemak leiden, zeker als er een koppeling kan worden gemaakt tussen de gezondheid of ziekte van de gebruiker en bepaalde producten van een leverancier. Dit is waar dit blog weer recht doet aan zijn naam. Webshops zijn bijvoorbeeld redelijk goed in staat om met behulp van machine learning technieken de gebruikers van aanbevelingen te voorzien op basis van surfgedrag en eerdere aankopen. PGO’s kunnen deze kunst prima afkijken en implementeren. Op basis van het dossier en verder gebruik van het PGO kan bij openen van de in het PGO geïntegreerde webshop-app al voorspeld worden wat de patiënt nodig heeft en suggesties voor aanschaf worden gedaan.

Online apotheek
PGO’s zouden als betaalde intermediair kunnen opereren tussen de zorgverlener en de apotheek. Hier moeten nog wel juridische en digitale hobbels worden genomen. Op dit moment kan alleen een vooraankondiging van een medisch recept digitaal naar een apotheek worden verzonden via het landelijk schakelpunt (LSP). In principe moet de patiënt vervolgens nog een door de arts getekend recept laten zien, voordat de apotheek medicatie kan verstrekken. Op dit moment worden door lokale apotheken en zorgverleners convenanten gesloten waarin wordt afgesproken dat de vooraankondiging voldoende is voor verstrekken van medicatie, zodat het fysieke recept niet meer nodig is. Dit zijn dus regionaal geïmplementeerde omwegen, die mij niet praktisch lijken voor landelijk opererende PGO’s, omdat langs deze route iedere zorgverlener en iedere apotheek met ieder PGO een convenant zou moeten sluiten in Nederland. Het is beter om digitale verzending van recepten goed te regelen en ervoor te zorgen dat de PGO’s hiervoor als tussenpersoon kunnen dienen. Waarschijnlijk moet dan nog wel onderzocht worden wat de neveneffecten zijn van zo’n constructie. Zo moet bijvoorbeeld voorkomen worden dat patiënten met één recept meerdere malen medicatie bestellen.

Zorginnovatie
Het PGO kan dienen als coördinerend medium voor complexe multidisciplinaire zorgpaden. Dit wordt op dit moment door PGO’s geïmplementeerd voor bijvoorbeeld zorg rondom chronische pijn. De patiënt heeft alle relevantie informatie rondom zijn zorgtraject bij elkaar en communiceert waar nodig met de verschillende zorgverleners. Face-to-face contacten zijn minder nodig en alle betrokken zorgverleners zijn op de hoogte van alle relevante aspecten van de ziekte van de patiënt. De inzet is, dat zorg hierdoor goedkoper kan worden aangeboden door verhoogde efficiency en minder dubbel werk. Het verdienmodel voor de PGO’s is hier gebaseerd op het model van shared savings. Dit soort constructies zijn natuurlijk alleen mogelijk nadat hier afspraken over zijn gemaakt met (lokale) zorgverleners en de verzekeraars. Het zal in eerste instantie ondoenlijk zijn om de patiënt vrije PGO-keuze te laten houden als deze gebruik moet maken van zo’n zorgpad. Toch kan ik me voorstellen dat de PGO’s in samenwerking met landelijke georganiseerde (koepels van) zorgaanbieders wel degelijk concurrerende implementaties van dit soort zorgpaden zouden moeten kunnen opzetten, als tenminste aan de andere voorwaarden, zoals gestandaardiseerd berichtenverkeer, is voldaan. Overigens staat of valt het succes niet alleen bij gebruiksgemak voor de patiënt, maar ook bij gebruiksgemak voor de zorgverleners. Het zal een uitdaging zijn deze paden soepel te integreren in de EPD’s.

Digitaal ziekenhuis
PGO’s kunnen contracten afsluiten met zorgaanbieders die op basis van de gegevens die beschikbaar zijn in het PGO een conclusie kunnen trekken en een behandeling kunnen aanbieden. Dit zouden bijvoorbeeld leefstijlcoaches kunnen zijn in het kade van cardiovasculair risicomanagement maar ook dermatologen, al dan niet met behulp van deep learning algoritmes die dermatomogische ziekten op basis van een door de patiënt gemaakte foto kunnen diagnosticeren. Als PGO’s de mogelijkheid bieden om vragenlijsten te laten invullen, dan kan die extra informatie ook worden gebruikt voor conclusies en beleid van de zorgaanbieders. Het ligt voor de hand om machine learning technieken te gebruiken om patiënten uiteindelijk aan de juiste zorgverleners te koppelen. Je kan zelfs bedenken dat je een zorgmarkt creëert op de PGO waarbij de patiënt een keuze kan maken uit verschillende zorgaanbieders, bijvoorbeeld op basis van Zorgkaart.

Toeters en bellen?
Los van de zaken die direct geld op zouden kunnen leveren, is het natuurlijk ook belangrijk dat PGO’s zo veel mogelijk gebruikers krijgen. Er moeten daarom ook voor de patiënt duidelijke voordelen zijn om een PGO te gebruiken. In de onderlinge concurrentiestrijd zullen PGO’s daarnaast maximaal moeten inzetten op gebruiksgemak. Hieronder volgen enkele mogelijkheden voor PGO’s die het PGO aantrekkelijker kunnen maken.

Chatgroepen
Eerder werd gesproken over de chatfunctie binnen een PGO. Sommige PGO’s zijn bezig met het opzetten van een chatfunctie, waarbij ook groepsgesprekken mogelijk zijn met groepen zorgverleners, zoals we dat ook kennen van OZO-Verbindzorg, maar dan geïntegreerd in het PGO. Gezien het succes van OZO-Verbindzorg, lijkt dit een waardevolle aanvulling op de functionaliteiten van een PGO. Ik kan me voorstellen dat zulke chatgroepen niet naar believen door de patiënt zouden moeten worden aangemaakt. Er zal enige vorm van regie moeten plaatsvinden om onnodige communicatie te voorkomen. Het eerdergenoemde multidisciplinair zorgpad is bijvoorbeeld een plek waar deze vorm van communicatie wordt onderzocht.

Thuismetingen
Als PGO’s een onderdeel gaan vormen van de communicatie op afstand tussen de zorgverlener en de patiënt, dan is het cruciaal dat de patiënt in staat wordt gesteld om de informatie die hij of zij zelf vergaart, zoals glucosemetingen, gewicht, peak flow of bloeddruk, rechtstreeks digitaal vanuit de thuismeetapparatuur in het PGO moet kunnen worden gedocumenteerd en dat die metingen ook discreet naar de zorgverlener kunnen worden gecommuniceerd. Als van de zorgverlener wordt verwacht dat de metingen handmatig in het EPD worden gedocumenteerd, dan is de vrees van artsen voor toename van administratielast terecht en de kans op medewerking beduidend kleiner. De tijd die het kost om dit soort koppelingen te implementeren moet niet onderschat worden. Het valt bovendien niet mee de geproduceerde data in een mooi vloeiend werkproces in het EPD te gieten. Ook hier is dus een rol voor EPD-leveranciers.

Speld in de hooiberg
Medische statusvoering verloopt altijd volgens een vast documentatiemodel, vaak beginnend met reden van komst en eindigend met conclusie en beleid. Veel PGO’s hebben de medische informatie niet volgens dit klassieke medische documentatiemodel gevisualiseerd maar aan de hand van de hoofdklacht van de patiënt. Zo zou een hoofdstukje ‘hoge bloeddruk’ bijvoorbeeld de laatste bloeddrukmetingen, nierfunctie, gewicht en bloeddrukmedicatie van patiënt kunnen visualiseren. Dit komt voort uit de visie dat patiënten minder goed in staat zijn om de complexe structuur van medische documentatie te kunnen doorgronden terwijl ze veel beter de voor hun relevante informatie op waarde kunnen schatten als deze gebundeld wordt aangereikt. Omdat ‘de patiënt’ eigenlijk niet bestaat – net zo min als ‘de arts’ trouwens – zouden patiënten uit verschillende visualisaties moeten kunnen kiezen, aangepast aan digitale- of gezondheidsvaardigheden. Het ligt voor de hand dat vaardige patiënten behoefte hebben aan meer informatie.

A.I.

Digitale adviezen
De data in een PGO kan gebruikt worden voor het genereren van medische adviezen. Boven noemde ik al de mogelijkheid om vragenlijsten te laten invullen. Samen met de bestaande gegevens kan op basis van machine learning algoritmen de kans op bepaalde aandoeningen worden berekend. De voorspellingen kunnen tegenwoordig op het mobieltje van de patiënt uitgevoerd worden zodat de medische gegevens niet noodzakelijk hoeven te worden verzonden naar een andere partij. Mensen kunnen zo bijvoorbeeld gewaarschuwd worden voor risico’s die ze lopen op bepaalde aandoeningen. Deze technieken kennen ook een keerzijde. De patiënt krijgt veel informatie voorgeschoteld en de vraag is of hij of zij wel altijd weet wat een verstandige volgende stap is. Daarnaast kan op deze manier veel onrust worden veroorzaakt. Het zal daarom de kunst zijn om deze informatie op de juiste manier te doseren en te voorzien van veilige adviezen en achtergrondinformatie. Het is voorstelbaar dat ook hierbij rekening wordt gehouden met de gezondheidsvaardigheden van de patiënt. In andere sectoren wordt wel een inschatting verkregen van de vaardigheden van de klant voordat wordt toegestaan dat de klant hoger risico loopt. Bij een beleggingsbank bijvoorbeeld moeten klanten vaak een aantal kennisvragen correct beantwoorden voordat zij in risicovolle producten mogen handelen. Misschien moet zo’n soort ‘examen’ ook in PGO’s worden afgenomen om de kans op een verkeerde interpretatie door de patiënt te verkleinen.

Koudwatervrees
Er is bij veel artsen weerstand tegen het delen van het dossier met de patiënt. De uitspraken van de door Investico geïnterviewde artsen waren exemplarisch voor deze weerstand. Artsen zijn vooral bang dat ze veel tijd kwijt zullen zijn aan het uitleggen van licht afwijkende niet relevante uitslagen die nu ineens door de patiënt kunnen worden ingezien. Die vrees herken ik ook bij mijn collega’s. Iedere casus waarbij de beschikbaarheid van informatie voor de patiënt ongemak opleverde blijft permanent in het geheugen gegrift van de klassiek georiënteerde arts. Toch worden verreweg de meeste uitslagen in ons ziekenhuis zonder grote problemen met de patiënt gedeeld. Bovendien ben ik nauwelijks extra tijd kwijt aan de vragen die ontstaan door de medische gegevens die beschikbaar zijn op ons patiëntenportaal. Ik vrees alleen dat veel artsen zijn opgeleid met het beeld dat gedeeltelijke onwetendheid van de patiënt een deugd is. De opleiding van de arts moet dus meer doordrenkt worden met de notie dat de patiënt in principe alle informatie heeft, die de dokter ook heeft. Overigens vind ik dat we nu nog tekort schieten als het gaat om uitleg van de gegevens die op het patiënten portaal te zien zijn. Saltro heeft een mooie stap gemaakt door alle laboratoriumuitslagen fraai weer te geven met referentiewaarden en van een uitleg te voorzien op hun portaal. Een herkenbare categorisering van de gegevens voor de patiënt binnen een PGO met eventueel een geautomatiseerde korte uitleg zou uiteindelijk ook voor de dokter wel eens tot grotere efficiency kunnen leiden. Het blijft evenwel cruciaal, dat we goed blijven kijken naar de werkprocessen van de zorgverleners. Administratielast is een belangrijke oorzaak voor de schrikbarende toename van burn-out in de Verenigde Staten onder zorgverleners. De impact van de beweging ‘Ontregel de Zorg’ toont aan dat dit in Nederland ook een aandachtspunt is. Dat betekent dat acceptatie van PGO’s staat of valt bij een goede implementatie van alle raakvlakken in de EPD’s. Zonder EPD-leveranciers lukt dit dus niet.

Geen digitaal ziekenhuis zonder patiënten
Het PGO is geen doel op zich. Inmiddels is ook tot de politiek doorgedrongen dat preventie uiteindelijk tot kostenreductie leidt. Het is de verwachting dat preventie binnenkort bij het inkoopbeleid van de zorgverzekeraars een grotere rol zal spelen. Een belangrijke drijfveer voor PGO’s is de overtuiging dat het beschikken over het medisch dossier leidt tot grotere patiëntenparticipatie en daarmee tot meer inzicht en betere preventie van ziekte-episodes. Daarnaast is de beschikbaarheid van informatie voor alle zorgverleners een belangrijke drijfveer. Een andere reden is de maatschappelijke roep om transparantie waarbij het beschikken over de medische gegevens het summum hiervan zou moeten zijn. Mede hierom is er vanuit de patiëntenfederatie een lang gekoesterde wens om te beschikken over het eigen medische dossier. PGO’s zijn ook bruikbare platforms voor eerdergenoemde zorginnovatie zoals multidisciplinaire zorgpaden. PGO’s bieden ten slotte ook een mogelijkheid om de concurrentie aan te gaan met de ‘klassieke’ zorgaanbieders, zoals de ziekenhuizen en gevestigde huisartsen.
De grote vraag blijft evenwel hoeveel patiënten zich uiteindelijk zullen laten verleiden om met een PGO aan de slag te gaan. Gezien het belang en de mogelijkheden verwacht ik dat uiteindelijk de meeste patienten een PGO zullen nemen. Het zal alleen even duren. Er groeit een generatie mensen op met grotere digitale vaardigheden. Deze mensen zijn alleen meestal nog niet ziek. Oudere mensen hebben vaak toch iets meer moeite met techniek. De klassieke acceptatiecurve – met innovators, early adaptors, early majority, etc. – zal dus uitrekken over vele jaren. Misschien wel langer dan een decennium. En als de patiëntenmassa met een PGO aanzwelt, dan zullen de artsen vanzelf – moeten – volgen, op zijn laatst als ze zien dat hun productie anders afneemt. Het zorglandschap zou er tegen die tijd wel eens heel anders uit kunnen zien.
Als een PGO-maker in staat is om alle in dit artikel genoemde technieken en modellen goed te implementeren, dan moet daar een markt voor zijn. Het hangt dus ook voor een belangrijk deel af van de ontwikkel- en implementatiekracht van de PGO’s, maar ook van de integratiesnelheid binnen de EPD’s. Als de acceptatie nog een decennium duurt, dan betekent dat, dat PGO’s een lange adem moeten hebben. De kans is dus groot dat succesvolle PGO’s uiteindelijk uit de hoek van de gevestigde orde komen. Dat neemt niet weg dat er nu ook succesvolle lokale projecten mogelijk zijn met hierop toegespitste PGO’s.

goud!

Data, data, data!
Tenslotte is het in het AVG-tijdperk natuurlijk de vraag wat er allemaal met de medische gegevens van de patiënt mag gebeuren, zodra deze in het PGO zitten. Data is immers het nieuwe goud. Op zich kan de patiënt de data in de PGO-app laten met back-up in de mobiele cloud. Waarschijnlijker is dat de een centrale server van de PGO-aanbieder de gegevens beheert, natuurlijk AVG-compliant. Het voordeel is dat – met toestemming van patiënt – de data dan kan worden gebruikt om de gebruikservaring van het PGO te verbeteren en daar worden patiënt en zorgverlener uiteindelijk toch beter van. Natuurlijk moet je afwachten hoeveel gebruikers dit daadwerkelijk toestaan. Medische gegevens worden immers als zeer gevoelig en persoonlijk beschouwd. Mocht een goed deel van de patiënten hiermee instemmen, dan kunnen de eerder genoemde voorbeelden van machine learning snel worden gerealiseerd. Uiteindelijk worden de mogelijkheden van artificiële intelligentie in PGO’s alleen beperkt door de fantasie en de beschikbaarheid van datascientists.

Conclusie
Het abstracte karakter van het begrip PGO maakt dat het voor buitenstaanders niet makkelijk is om nut en noodzaak te herkennen. Nadere bestudering leert dat PGO’s veel potentiële verdienmodellen mogelijk maken terwijl zowel de patiënt als de zorgverlener baat kunnen hebben van het gebruik. Kunstmatige intelligentie zoals machine learning kan worden ingezet om de gebruikservaring van PGO’s te optimaliseren en om de zorg efficiënter te maken. Het is voor PGO’s cruciaal dat ze snel de juiste combinatie van functionaliteiten ontwikkelen.
De afsprakenset MedMij maakt de PGO’s mogelijk en legt tegelijk een basis voor het digitaal uitwisselen van medische gegevens tussen zorgverleners. Het is noodzakelijk dat deze afsprakenset op zijn minst wordt uitgebreid met een standaard voor berichtenuitwisseling om de vrije PGO-keuze voor de patiënt te veilig te stellen. Er moet ook voldoende aandacht worden besteed aan soepele werkprocessen van de zorgprofessionals daar waar interactie met de PGO’s plaatsvindt. Hier ligt een belangrijke rol voor EPD-leveranciers. Als aan deze voorwaarden voldaan wordt, dan zullen de PGO’s geleidelijk een belangrijke, misschien zelfs centrale plek in het zorglandschap krijgen.

Cave: TFL (Toxische Feedback Loop)

Er lijken weinig twijfels meer te zijn over de groeiende rol die artificiële intelligentie gaat spelen in de zorg. In ons streven naar verbeteren van kwaliteit van zorg, proberen we immers alle middelen in te zetten die ons ter beschikking staan. Het blijft wel belangrijk kritisch te blijven kijken naar de nieuw aangeboden middelen. Eerder refereerde ik aan de statistische aandachtspunten bij machine learning algoritmes. Los van deze meer technische kanttekeningen, zijn er nog andere belangrijke redenen om voorzichtig met machine learning algoritmen om te gaan. Ieder machine learning model is immers een abstracte afspiegeling van de werkelijkheid. Abstracte modellen kunnen bruikbaar zijn maar doen natuurlijk de echte werkelijkheid geen recht. Cruciale informatie kan ontbreken in het model waardoor interpretatie van de abstracte werkelijkheid fout kan gaan. Desalniettemin worden op basis van deze abstracte werkelijkheid beslissingen genomen die de ‘echte’ werkelijkheid zullen beïnvloeden. De volgende dag worden er op basis van de nieuwe ‘echte’ werkelijkheid nieuwe abstracte modellen ontwikkeld en oude modellen worden ververst met nieuwe data. Er is dus een feedback loop, een cirkel van data. Afhankelijk van het werkproces waarin de modellen zitten verwerkt kan dit een toxische feedback loop worden.

Laat ik een voorbeeld geven van zo’n toxische feedback loop of TFL. Lagere sociaal economische status is geassocieerd met slechtere gezondheid. Het meenemen van de sociaal economische status in een model dat bijvoorbeeld mortaliteit voorspelt binnen een bepaalde periode, zorgt er hoogstwaarschijnlijk voor dat de voorspelde kans op overlijden hoger is bij mensen met een lagere sociaal economische status. Met een ideële bril zou dit leiden tot meer aandacht voor deze patiëntencategorie om het verhoogde overlijdensrisico te verminderen. In de praktijk moeten er echter regelmatig beslissingen worden genomen over wel of niet behandelen, wel of niet reanimeren, wel of niet opereren. Een goede inschatting van overlijdensrisico is natuurlijk een welkome aanvulling op het arsenaal van de behandelend arts. Bij iemand met hoog overlijdensrisico denk je twee keer na of je wel een riskante behandeling aanbiedt. Het is reëel te veronderstellen dat dit model er langs deze route toe leidt dat mensen met lagere sociaal economische status minder vaak een riskante maar wel curatieve behandeling zullen ondergaan. Daarmee neemt in feite hun overlijdensrisico nog meer toe. Latere modellen zullen dit bevestigen en op hun beurt leiden tot een ongunstiger beleid voor deze patiëntencategorie, enzovoort. Daarmee is de TFL een feit: dit soort inzet van artificiële intelligentie leidt tot een steeds slechtere uitkomst voor patiënten uit een bepaalde categorie, puur en alleen vanwege het feit dat ze in deze categorie zitten. Niet omdat er een direct oorzakelijk verband is. Met de beste bedoeling wordt hiermee een kwetsbare groep steeds verder in een ongunstiger hoek geduwd. Misschien vindt u dit vanzelfsprekend en denkt u dat een dokter met gezond verstand dit zal voorkomen. Ik heb daar mijn twijfels over zo lang de arts niet weet hoe en waar het model naar kijkt.

Weapons of Math Destruction
Een mooie omschrijving van het fenomeen van de TFL werd gegeven door de Amerikaanse wiskundige, machine learning expert en Occupy Wallstreet-activiste Cathy O’Neil in haar boek Weapons of Math Destruction. O’Neil beschrijft de schokkende praktijken die ontstaan door TFL’s. Ze gebruikt zelf vooral de term WMD als afkorting van de titel waarmee ze de schaal van de collaterale schade aangeeft, waarbij ze de toxische feedback loop als oorzaak herkent. O’Neil beschrijft diverse mechanismen waarbij centrale beoordeling plaatsvind op basis van machine learning algoritmen, zoals het herkennen van recidivisten in de gevangenis en concludeert dat blanke mensen die niet in een kansarme buurt wonen nooit door het algoritme worden geoormerkt, in tegenstelling tot gekleurde minderheden. De mensen met een hoge recidiefkans worden niet geholpen, maar dusdanig verder beperkt, dat dit juist de recidiefkans vergroot en de toxische feedback loop compleet is. De aanklacht van O’Neil is dat de Amerikaanse samenleving op deze manier het verschil tussen arm en rijk versterkt.

Weapons of Math Destruction

De bottom line is dat de gebruikers van machine learning algoritmes eigenlijk niet begrijpen wat zo’n algoritme doet en dat daardoor op grote schaal veel persoonlijk leed veroorzaakt wordt bij kwetsbare groepen in de samenleving. Voor de gebruikers is het algoritme in feite een ‘black box’. Het non-fictie boek leest als een mengsel tussen een roman en een thriller. Ik adviseer iedereen die zelf met machine learning aan de slag wil gaan dit boek te lezen. Iedereen die machine learning inzet in patiëntenzorg moet zich er continu ervan vergewissen, dat in het proces waarvoor het machine learning model gebruikt wordt geen TFL schuilt.

Hoe voorkomen we TFL’s?
De enige manier om TFL’s te voorkomen is door ervoor te zorgen dat een verbeterproces volledig transparant is en voortdurend met gezond verstand geëvalueerd wordt. Hiervoor is het nodig dat het gebruikte model geen ‘black box’ is. Het moet duidelijk zijn welke factoren het meest significant de voorspellingen van het model beïnvloeden. Factoren die belangrijk blijken moeten beoordeeld worden op oorzakelijkheid. Als uit analyse zou blijken dat ons mortaliteitsmodel sterk leunt op sociaal economische status dan kan op basis van gezond verstand al gesteld worden dat deze sociaal economische status meer een gevolg is van andere factoren (zoals roken, sedentair bestaan, ongezond eten, ontbrekende gezondheidsvaardigheden, erfelijke factoren), dan dat het als factor zelf direct de oorzaak is van mortaliteit. In sommige gevallen kan zo’n model bruikbaar zijn, bijvoorbeeld als hulpmiddel om patiënten te overtuigen gezonder te leven. Maar als beslissingen over wel of niet behandelen worden genomen op basis van dit model, dan kan het mis gaan. Het ontwerp en de training van een model moet dus afhangen van het uiteindelijke doel van het model. Een model dat ontwikkeld is voor het ene doel (lifestyle counseling) mag niet zonder meer worden gebruikt voor een ander doel (inschatting operatierisico). Hier schuilt ook het risico van commercieel verkrijgbare modellen: met welke data en welk doel werd het model in eerste instantie gemaakt en wie heeft dat inhoudelijk gemonitord?

Aandachtspunten voor ontwerp
Het creëren van een predictive analytics model blijkt dus geen sinecure. Nog voordat gedacht wordt aan enige vorm van validatie of zelfs ontwerp, moet een duidelijke omschrijving van het probleem worden gemaakt dat met behulp van welk model dan ook moet worden opgelost. Dat probleem moet uitputtend worden beschreven in uitkomsten die specifiek relevant zijn voor de omstandigheden. Mortaliteitsrisico is te aspecifiek om conclusies op te baseren en heeft op basis van gezond verstand al een risico op een TFL. Machine learning moet in staat zijn om veel specifiekere uitkomsten te voorspellen, zoals kans op ICU-opname, kans op intubatie, kans op heropname, kans op sepsis, kans op myocardinfarct, dehydratie/overvulling, nierinsufficiëntie, enzovoort. Deze voorspellingen samen moeten vervolgens op waarde geschat worden. Dat wordt een nieuwe vaardigheid. Dit druist in tegen de neiging van onderzoekers om de situatie van de patiënt te vatten in één getal, één score. Volgens mij is de vergrijzende zieke patient inmiddels te complex aan het worden om in één getal samen te vatten. Wordt het niet tijd dat we A.I. inzetten om dat paradigma te doorbreken? Een patiëntendashboard met twintig duidelijk weergegeven risico’s met goede uitleg lijkt mij erg behulpzaam voor het beoordelen van de hedendaagse multimorbide patiënt.

Conclusie
Kunstmatige intelligentie die leidt tot een self-fulfilling prophecy: de toxische feedback loop of TFL is een reëel risico bij de inzet van machine learning in welke setting dan ook. Het voorkomen hiervan kan alleen als in een vroeg stadium, bij de omschrijving van het probleem dat moet worden opgelost, wordt gekeken door de bril van zowel de arts als de data-scientist. Ook zonder toxische feedback loop is er een risico dat de voorspellingen van een model niet kloppen. Modellen moeten transparant zijn en begrepen worden om dit te kunnen herkennen. De verwachting dat de situatie met een enkele score kan worden weergegeven moet getemperd worden. In een toekomst waar in een gemiddeld ziekenhuis honderden A.I.-modellen naast elkaar draaien moet regie gevoerd worden door mensen die zowel inhoud als methode beheersen. In feite is dit opnieuw een pleidooi voor het opleiden van artsen op het vlak van data-science en machine learning. Het wordt tijd dat er nagedacht wordt over het opleiden van deze professionals.

Google’s EPD-voorspellingen

Hoe fijn zou het zijn als je met behulp van artificiële intelligentie aan de hand van het EPD zonder verdere tussenkomst van een arts medische conclusies, voorspellingen en behandelopties zouden kunnen worden gegenereerd. Recent presenteerde Google een algoritme dat diagnoses destilleert uit het EPD en voorspellingen doet over mortaliteit, heropname en lange opnameduur. Het is terecht dat er aandacht is voor een model dat zulke prestaties neerzet, ook al is het niet het eerste model dat met dit doel ontwikkeld werd. Wat me wel verbaast is dat – ondanks de media-aandacht – niemand de moeite neemt om uit te leggen hoe het model precies werkt. Begrip van het model leidt immers tot een betere inschatting van de (on)mogelijkheden. In dit artikel volgt daarom een globale beschrijving van de werking van het model, aan de hand van de verschenen artikelen van Google (het Nature-artikel van mei jl. werd voorafgegaan door een arXiv.org-artikel in januari 2018).

De ontwikkeling van een A.I.-model
Machine learning suggereert dat het meeste werk in het trainen van het model zit. Als het aantal berekeningen als maat wordt genomen, dan is dat in feite ook zo. Het geluk is dat de computer dat deel voor zijn rekening neemt. Het meeste werk zit hem voor de data scientist in het ‘klaarzetten’ van alle data voor het rekenmodel. Er moet een mapping worden gemaakt van de gegevens zoals deze in het EPD staan naar de input-features van het model. Vaak moeten de EPD-gegevens nog een veranderslag ondergaan om door een model verwerkt te kunnen worden. Deze exercitie vormt het leeuwendeel van het werk. Om deze hoeveelheid werk te verminderen heeft google het model zó ingericht dat de data uit het EPD kunnen worden gelezen met behulp van de FHIR-standaard. In theorie kan het model op deze manier data uit ieder interoperabel EPD volgens de FHIR standaard gegevens trekken om te verwerken. Dus zodra ieder ziekenhuis op dit punt aan de VIPP-norm voldoet kunnen we het model hier toepassen. Dit onderdeel van het experiment is misschien wel de allerbelangrijkste bijdrage aan het onderzoeksveld! Er zijn al vele honderden predictive analytics tools maar ze worden slechts mondjesmaat gebruik, en dat heeft te maken met de moeizame technische implementatie, voor een groot deel vanwege gebrekkige interoperabiliteit. Complimenten voor Google!

Ensemble van 3 modellen
Google nam geen genoegen met een enkel model maar berekende de gemiddelde voorspelling van 3 modellen. Dit wordt vaker gedaan om de tekortkomingen van het ene model te verbloemen met een ander model. De drie modellen zijn fundamenteel verschillend. Het eerste model is het meest interessant omdat dit soort modellen steeds meer wordt ingezet voor natural language processing, waarover later meer. De drie modellen betreffen een recurrent neuraal netwerk, een ’time aware’ feedforward neuraal netwerk en een ‘boosted embedded time-series’-model. Over de laatste twee modellen kan ik kort zijn. In beide gevallen wordt de predictie uiteindelijk gedaan door een standaard feedforward neuraal netwerk. In het 2e model wordt de data ingedeeld in tijdintervallen, die als gewogen gemiddelde worden gevoed aan het neurale netwerk. Het 3e model is samengesteld uit een ‘beslisregel-generator’ en een standaard neuraal netwerk. De beslisregel-generator maakte eerst miljoenen binaire beslisregels zoals ‘is het Hb hoger dan 7’, gebaseerd op alle data-items en mogelijke waarden ervan. Met machine learning werden de meest belovende beslisregels geselecteerd en weer gevoed aan een standaard feedforward neuraal netwerk. Aan de hand van het eerste model, het recurrente neurale netwerk (RNN), zal het artikel verder beschreven worden.

Natural Language Processing
In een aantal nieuws-artikelen over dit onderzoek wordt geclaimd dat dit model in staat zou zijn om handgeschreven tekst te interpreteren. Er is zelfs een artikel dat eerst roept dat er veel indianenverhalen rondom het model zijn ontstaan om vervolgens ook deze onwaarheid te verkondigen. Het model verwerkt digitale vrije tekst, niet handgeschreven. Dit valt onder de noemer Natural Language Processing (NLP). Het is van belang te benoemen wat het model met de digitale tekst doet. Er is namelijk geen interpretatie-algoritme. Het model maakt geen gebruik van de argumentatie in de tekst. Wat wel gebeurt is dat de woorden uit de tekst worden omgezet in een rij getallen, een ‘embedding’, die verder wordt verwerkt. In de getallen van zo’n embedding zitten – in een voor het menselijk oog onleesbare code – de karakteristieken van het woord verwerkt, zoals ‘mannelijk/vrouwelijk’, ‘eetbaar’, ‘oud/jong’, etc. Normaal worden deze embeddings stuk voor stuk aan een model gevoed. Bij het RNN-model worden de embeddings van alle woorden van een notitie in één keer gemiddeld alvorens ze aan het model te voeden. Het kan niet anders dan dat daar informatie bij verloren gaat. Kennelijk is de data in het EPD redundant genoeg, want dit model is het best voorspellende model ooit.

Natural EPD Processing
Embeddings worden al langer gebruikt als representatie van woorden in getallen. Nieuw voor mij is dat niet alleen de vrije tekst, maar zelfs alle informatie in het EPD wordt omgezet in embeddings. Het is zo dat je voor een netwerkcel moet instellen of er wel of niet een embeddinglaag in zit. Omdat alle data aan de cel wordt gevoed, is dit allicht onontkoombaar. Aan de andere kant voorkomt dit eindeloze one-hot-vectors omdat de embedding eigenlijk de uiting is van het belang van de waarde van het dataitem, nog voor de weging van het dataitem. Deze embeddings werden door alle drie modellen gebruikt.

Recurrent neuraal netwerk
Het eerste model betreft een recurrent neuraal netwerk met ‘LSTM-cellen’. Wat houdt dat in? Hiervoor moeten we een beetje de diepte in. Ik zou iedere lezer aanraden dit filmpje te bekijken als dat nog niet werd gedaan. In het filmpje wordt heel intuïtief uitgelegd wat een (standaard) neuraal netwerk nu eigenlijk is. Het verschil met een recurrent of sequentieel neuraal netwerk is dat een recurrent neuraal netwerk per tijdseenheid data wordt gevoerd en aan het einde van deze data-ketting met een voorspelling komt. Voor gevorderden is een mooie en indrukwekkende blog door een vooraanstaand A.I.-wetenschapper geschreven over de werking van recurrente neurale netewerken. Het blijkt dat de simpele vorm van een neuraal netwerk na een aantal tijdstappen nog wel eens cruciale informatie gaat ‘vergeten’. Daarom is er een LSTM-vorm bedacht die ook een soort lange termijn geheugen heeft (LSTM staat voor long-short-term-memory). Dit klinkt complex, maar als je het rekenprincipe doorhebt dan snap je niet hoe zo’n simpel model uiteindelijk in staat is om in een andere setting bijvoorbeeld gesproken taal om te zetten in digitale tekst. In dit geval wordt dit model gebruikt door Google om de data van de patiënt per tijdsinterval te verwerken om aan het einde van de rit met een voorspelling te komen, zoals heropnamerisico of een diagnose. De diagnose uit de volledige ICD-9 kan met een micro-F1-score van 0,4 worden gesteld, wat een sterke verbetering is ten opzichte van eerdere modellen.

Black Box
We zullen niet te weten komen welke woorden in de tekst belangrijk zijn omdat er al gemiddelden van berekend zijn voordat ze het model in gaan. Dat geeft dan weer een nadeel van dit soort complexe modellen weer: het is moeilijk om te beoordelen hoe het model tot zijn voorspelling komt, welke factoren bij deze patient van belang zijn. Het is een Black Box model. Google heeft dat voor de Bühne opgelost door speciaal met dit doel een model te maken en dusdanig in te richten dat wel zichtbaar wordt hoe de voorspelling tot stand komt. Lastig is dat dit ’transparante’ model dan weer minder goed is dan het oorspronkelijke model. Ten slotte blijft de vraag open welk model van de drie het meest betrouwbaar is. De uiteindelijke predictie is het resultaat van een gemiddelde van drie modellen. Is het echt nodig om ieder model te implementeren? Onder welke omstandigheden presteerde welk model beter? Die vragen blijven onbeantwoord.

Conclusie
Google heeft indrukwekkend werk geleverd. Niet alleen werd een FHIR geadopteerd voor interoperabiliteit. Ook werden met alle beschikbare data goede voorspellingen gedaan van overlijdensrisico, heropname binnen 30 dagen en langere opname duur dan 7 dagen. Overigens is de voorspelling van heropname door Google maar nét beter dan een model van Epic (AUROC 0.75 vs 0.74), terwijl dat laatste model met een ouderwetse Lasso-analyse werd gecreëerd en in productiesetting de voorspellingen met lineaire regressie worden berekend. Dat is dus een hoop tijd en middelen voor 0.01 stijging van de AUROC. Mijn bedenkingen gaan overigens uit naar de voorspelling van overlijden. Die zou wel eens als een self fullfilling profecy kunnen werken, uitkijken dus of een andere naam geven. Voor het overige is de sky natuurlijk de limit! Ik zie de diagnosesuggesties al voor me op mijn beeldscherm, met benodigde orders en medicatie, terwijl de kwaliteit toeneemt omdat complicaties van tevoren worden herkend. Geneeskunde gaat exponentieel veranderen.

A.I.: wat kun je er als arts mee?

Daar zijn veel antwoorden op mogelijk. Bij machine learning draait het om een rekentruc waarmee betere voorspellingen kunnen worden gedaan naarmate er meer data wordt gebruikt. Het gaat dus om een rekentruc, voorspellingen en om data. Iedereen die meerdere keren per dag door een EPD bladert weet dat er een overvloed aan data in de geneeskunde is. Op de rekentruc kom ik later terug. De voorspellingen zijn in een aantal categorieën in te delen.

Beeldherkenning
Beeldherkenning is wat mij betreft de meest tot de verbeelding sprekende tak van machine learning in de geneeskunde. Op een CT-scan wordt automatisch een bloeding herkend, bij coloscopie wordt een poliep herkend, PA-cytologie van PAP-uitstrijkjes worden inmiddels beter beoordeeld door een algoritme dan door de mens. Huidafwijkingen worden herkend, ga zo maar door. Slim ingedeelde gelaagde systemen zorgen voor herkenning van structuren die per laag in complexiteit toenemen totdat classificatie kan plaatsvinden. Hieronder is een voorbeeld van gezichtsherkenning op basis van dit principe (Lee, Honglak, et al, 2009, ‘Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations’. Dit betreft trouwens een ‘deep belief network’, een bijzondere vorm van een neuraal netwerk, waarbij ook rekening wordt gehouden met het theorema van Bayes)
Lagen in deep belief network

Spraakherkenning
Op dit moment wordt door in grote softwarehuizen hard gewerkt aan spraakherkenningssoftware die gesproken taal om kan zetten in discrete data, die direct in het EPD geplaatst wordt. Dit deelgebied van kunstmatige intelligentie heet natural language processing. Voor de Nederlandse markt is deze software nog niet beschikbaar maar hier zal naar verwachting op niet al te lange termijn verandering in komen. Herkenning van spraak is mogelijk met een neuraal netwerk, waarvan de knopen als een lange ketting aan elkaar worden geregen. Dit zogenoemde ‘recurrente’ neurale netwerk krijgt als input de gesproken tekst en heeft als output de tekst of discrete data, die verder verwerkt kan worden in het EPD. Om zo’n netwerk goed te laten werken is duizenden uren gesproken tekst nodig. Grotere betrouwbaarheid wordt bereikt als de tekst domeinspecifiek is. Dat betekent, dat dokters het beste zelf de tekst in kunnen spreken. Iemand zou de discrete uitkomsten hieraan kunnen koppelen. Dit vormt een aanzienlijke drempel voor de ontwikkeling van dit soort toepassingen.

Predictive analytics, klassiek
Predictive analytics is een containerbegrip voor algoritmes die op basis van een bepaalde input een voorspelling kunnen doen. Een voorbeeld is het voorspellen van ongeplande heropname binnen 30 dagen na ontslag. Hiertoe worden relevante gegevens uit het EPD, bijvoorbeeld met behulp van een regressieanalyse, gecombineerd tot een voorspelling op basis waarvan medisch beleid kan worden aangepast. Klassiek worden enkele tientallen gegevens gecombineerd zoals bloeddruk, medicatie, laboratoriumuitslagen en diagnoses. Er zijn de laatste tien jaar vele honderden bruikbare modellen beschikbaar gekomen. Toch blijkt de daadwerkelijke toepassing van dit soort modellen op praktische bezwaren te stuiten. Ten eerste beschikken de meeste ziekenhuizen niet over flexibele EPD’s waarmee de dokter snel in staat is om dit soort modellen te implementeren. Ten tweede wordt vaak onvoldoende discreet gedocumenteerd in EPD’s zodat de modellen niet met eenduidige patiëntendata gevoed kunnen worden. Een ander belangrijk probleem is dat dit soort modellen meestal worden getraind op basis van patiëntendata één of enkele ziekenhuizen in een bepaald regio. Patiënten zijn niet homogeen verdeeld. Modellen die in ziekenhuis A werken hoeven dus niet in ziekenhuis B te werken. Dit laatste blijkt trouwens geen enkele beperking te vormen voor de huidige wijd verbreide toepassing van simplistische modellen zoals de AMBU-65 score of de PSI score. Voor dit soort modellen gelden dezelfde beperkingen, hoewel ze beter gevalideerd zijn in meerdere centra/regio’s.

Predictive analytics met neurale netwerken
De laatste tijd worden ook modellen gebruikt die veel meer (of zelfs alle) medische data in het EPD combineren tot zo’n voorspelling. Hiervoor worden doorgaans neurale netwerken gebruikt, omdat deze goed in staat zijn niet-lineaire verbanden te herkennen in grote hoeveelheden data. Het blijkt dat dit soort modellen veelzijdig in te zetten zijn. Toch moeten hoopgevende publicaties met de nodige voorzichtigheid worden geïnterpreteerd, als de meeste data uit een EPD wordt gebruikt. EPD’s worden namelijk consequent verschillend geïmplementeerd in ziekenhuizen. Dokters maken ook nog eens anders gebruik van EPD’s, zowel individueel als per ziekenhuis. Dat betekent dat een model dat hierop gebaseerd is ook zal verschillen per ziekenhuis. De consequentie hiervan is dat ieder ziekenhuis zijn eigen lokaal getrainde model zal moeten hebben zo lang deze verschillen bestaan, zodat de kans op een goede voorspelling het grootst is. Je zou kunnen zeggen dat het gebruik van machine learning, in het bijzonder neurale netwerken, een vorm van toegepaste wetenschap is. Alle daarbij horende parafernalia moeten geborgd zijn, zoals goede validatie, kalibratie, redundantie van kennis, toetsing van kennis en verantwoording. Het is de vraag of transparantie voldoende geborgd is als al deze taken in handen van commerciële partijen liggen. Daarnaast is de verbinding met de medische staf niet geborgd. In mijn ogen moeten ziekenhuizen investeren in kennis op het vlak van neurale netwerken, mede gezien de ongekende mogelijkheden van deze vorm van kunstmatige intelligentie.

Gemengde modellen
Verschillende vormen van ‘pre-processing’ en machine learning kunnen ook worden samengevoegd tot een grote ‘pipe-line’ die een complexe taak kan uitvoeren, zoals vaak bij natural language processing gebeurt. Het signaal van gesproken taal wordt van tevoren bewerkt en gevoed aan een neuraal netwerk dat digitale tekst produceert, waarna het opnieuw aan een tweede neuraal netwerk wordt gevoed dat er discrete informatie van maakt. Als er grote hoeveelheden data beschikbaar zijn, dan kan ook gepoogd worden direct van de data naar de benodigde informatie te vertalen, worden zonder uitgebreide pipe-line.

Gezond artificieel verstand

Met de komst van predictive analytics in de geneeskunde, komt de vraag of het gebruik ervan zonder meer veilig is. Recent werd in JAMA een artikel geplubiceerd waarin drie methodologische experts hun zorgen uitten over het rücksichtlos implementeren van predictive analytics modellen in de kliniek. Ten eerste werd genoemd de ontbrekende kalibratie van de modellen. Daarnaast hebben de commerciële partijen een financiële stimulans om de performance van hun modellen beter voor te spiegelen dan de realiteit. Ten slotte werd gesproken over de heterogeniteit en incompleetheid van de EPD’s en de daarmee samenhangende onzekerheden. Bij dit alles werd benadrukt dat de gebruiker, de arts, niet beschikt over de kennis om voorspellende modellen op waarde te schatten.

Het is goed dat nu, temidden van de hype, met gezond verstand wordt nagedacht over de consequenties van het gebruik van predictive analytics. In handen van commerciële partijen zijn het in feite medische hulpmiddelen. Er wordt dan ook netjes een CE-keurmerk aangevraagd alvorens deze modellen worden aangeboden. Helaas is het zo dat het CE-keurmerk niet is toegespitst op het keuren van predictive analytics. Daarnaast zijn er voorbeelden van toekenning van het CE-keurmerk voor onzinproducten. Het CE-keurmerk heeft bij predictive analytics dus nauwelijks enige waarde, maar wordt wel als geruststelling ingezet.

Dat verzekeraars zijn begonnen met het ondersteunen van commerciële partijen die dit soort producten leveren en implementeren in ziekenhuizen is in ieder geval een compliment voor de verkopers van de modellen en geeft aan hoe hoog de verwachtingen zijn. En eerlijk is eerlijk, daar is ook alle reden voor. In vele bedrijfstakken heeft kunstmatige intelligentie zijn waarde bewezen. Maar het is juist dat bewijzen waar de auteurs van bovengenoemd artikel zich zorgen over maken. Dat heeft te maken met een bekend probleem bij het gebruik van voorspellende scores. De nadruk ligt vaak op de c-statistics, ofwel de AUROC (area under the receiver operator curve). Vrijwel alle modellen die enige waarde hebben blijken een AUROC te hebben waar de statisticus blij van wordt. Dat is alleen niet het hele verhaal. Aan de voorspellende score kleeft namelijk nog een onzekerheid die gekwantificeerd kan worden. Deze zogenoemde kalibratie krijgt veel minder aandacht en druppelt eigenlijk helemaal niet meer door naar de klinische praktijk, terwijl dat wel zou moeten. Een consequenties van matige is bijvoorbeeld de MEWS, die op de longafdelingen nauwelijks enige rol van betekenis speelt. Lage saturaties en oppervlakkige ademhaling van veel longpatiënten leveren bij voorbaat een hoge score op en maken de score voor longartsen minder bruikbaar. Het kalibratieprobleem is eigenlijk niet uniek voor de op machine learning gebaseerde predictive analytics, maar speelt bij alle scores die kunnen helpen met voorspellen van klinische verandering. De belangrijkste determinant voor goed gebruik is dan ook de statistische en methodologische kennis van het model.

Waar artsen vaker mee te maken krijgen, is een overmatig optimistische houding van producenten. Ik weet niet hoe het met u zit maar een belangrijk deel van mijn nekharen is gevoelig voor commercieel over-optimisme en dat draagt er aan bij dat ik commerciële partijen probeer te mijden bij mijn dagelijkse werk. De meeste artsen zullen een gesprek met een farmaceut niet leidend laten zijn als het gaat om hun medisch beleid. We zijn immers opgeleid voor het inschatten van de waarde van medicatie op basis van wetenschappelijke literatuur en richtlijnen. Er zal veel minder kennis paraat zijn over statistische en methodologische aspecten van predictive analytics, laat staan als deze met machine learning is ontwikkeld. In dat geval ben je eigenlijk aan de goden van Silicon Valley – en nationale equivalenten daarvan – overgeleverd.

De heterogeniteit en incompleetheid van onze patiëntendatabases – de EPD’s – is het derde belangrijke punt dat de auteurs maken. Ieder ziekenhuis heeft een iets ander EPD, ook al zijn ze van hetzelfde merk. Daarnaast wordt er in ieder ziekenhuis net iets anders gewerkt en gedocumenteerd. Dat is niet perse een gemiste kans of implementatiefout, maar veel meer een logisch gevolg van groepsdynamiek. Ik geloof ook niet dat het doel moet zijn dat we allemaal overal precies hetzelfde doen. Uniformiteit op zich garandeert geen kwaliteit. Dat neemt niet weg, dat we wel degelijk een Basis Gegevensset Zorg (BGZ) moeten hebben en dat interoperabiliteit een groot goed is. Dat zal alleen nooit een oplossing worden voor heterogeniteit omdat de BGZ maar een klein deel van onze medische documentatie vertegenwoordigd. Dat betekent dat een predictive analytics model dat getraind is in het ene ziekenhuis sowieso niet zonder meer gebruikt mag worden in een ander ziekenhuis. Er moet een gedegen validatie met bepaling van c-statistics en kalibratie plaatsvinden voordat zo’n model uit een ander ziekenhuis in het werkproces wordt opgenomen. Op voorhand is de kans groot dat het model niet zo goed zal werken, als in het andere ziekenhuis. Ik voorzie dat veel modellen het beste zullen werken als ze in ieder ziekenhuis opnieuw getraind worden. Dat speelt minder bij bijvoorbeeld herkennen van patronen in radiologische diagnostiek of bloeddrukgolven, hoewel de voorafkans daar doorgaans niet meegenomen wordt, terwijl die zoals bekend van invloed is op de uitkomst.

Uit alle voorbeelden blijkt dat succesvolle implementatie van predictive analytics staat of valt bij kennis over het model en de methode van predictive analytics. Moeten dan alle artsen zich nu storten op het ontwerpen en valideren van predictive analytics? Dat gaat volgens mij te ver. Maar als je het mij vraagt zou ieder ziekenhuis (en natuurlijk iedere huisartsenkoepel of andere deelverzameling van artsen) tenminste moeten beschikken over enkele artsen die bekend zijn met de materie. En snel ook, want volgens de AI-gemeenschap in Europa lopen we de boot mis als we niet opschieten.

Deep Learning?

Sinds enkele jaren worden we toenemend geconfronteerd met toepassingen van kunstmatige intelligentie in de gezondheidszorg. Cardiovasculaire events kunnen voorspeld worden met op machine learning gebaseerde algoritmes. PAP-uitstrijkjes worden door slimme algoritmes minstens zo goed beoordeeld als door de patholoog. Moderne EPD’s bieden inmiddels algoritmes aan die heropnames kunnen voorspellen. Voorbeelden stapelen zich op. Toen ik in november 2017 de abstracts van de ASN Kidney Week doornam, verbaasde het mij daarom, dat slechts 11 van de 4454 abstracts rapporteerden over onderzoek met behulp van machine learning. Ik woonde twee presentaties hiervan bij en constateerde dat de ene arts-onderzoeker eigenlijk nog steeds verbaasd was dat de techniek werkte bij zijn onderzoek, terwijl de andere arts een commerciële partij in de arm had genomen omdat hij eigenlijk niet wist hoe het werkte. Ik besefte dat we als beroepsgroep hard op weg zijn om een belangrijk diagnostisch arsenaal mis te lopen. Vanaf dat moment heb ik me gestort op machine learning. En het was natuurlijk zo dat ik het niet heel druk had tijdens het congresbezoek, zodat ik rond kon struinen op internet op zoek naar de ideale uitleg van machine learning.

Het is niet heel makkelijk om wegwijs te worden in dit onderwerp terwijl (maar ook omdat) er kilometers tekst en jaren Youtube films over te vinden zijn. Ik zal je besparen aan welke ebooks en filmpjes ik mijn tijd heb verspild en meteen to the point komen: op Coursera.org is de cursus Machine Learning van (oprichter) Andrew Ng te vinden. Ik heb niet eerder meegemaakt dat iemand iets zó duidelijk kan uitleggen. De cursus duurt drie maanden (in de vrije tijd), kost ongeveer 60 euro en dat is een schijntje. Daarna volgde de ‘Deep Learning Specialization’, ook van Andrew Ng. Kost ook niet veel en levert des te meer op. Na deze cursussen snap je echt waar het om draait en ben je al aardig in staat om na te denken over ontwikkeling en implementatie van predictive analytics in je eigen ziekenhuis. Een groot voordeel is bovendien dat je in staat bent om wetenschappelijke literatuur over machine learning te lezen en je verder te verdiepen in het onderwerp.

Gaat dit je allemaal te ver voor nu? Dan kom je ook een eindje als je af en toe dit blog leest.