Cave: TFL (Toxische Feedback Loop) – dokter.ai time capsule

Er lijken weinig twijfels meer te zijn over de groeiende rol die artificiële intelligentie gaat spelen in de zorg. In ons streven naar verbeteren van kwaliteit van zorg, proberen we immers alle middelen in te zetten die ons ter beschikking staan. Het blijft wel belangrijk kritisch te blijven kijken naar de nieuw aangeboden middelen. Eerder refereerde ik aan de statistische aandachtspunten bij machine learning algoritmes. Los van deze meer technische kanttekeningen, zijn er nog andere belangrijke redenen om voorzichtig met machine learning algoritmen om te gaan. Ieder machine learning model is immers een abstracte afspiegeling van de werkelijkheid. Abstracte modellen kunnen bruikbaar zijn maar doen natuurlijk de echte werkelijkheid geen recht. Cruciale informatie kan ontbreken in het model waardoor interpretatie van de abstracte werkelijkheid fout kan gaan. Desalniettemin worden op basis van deze abstracte werkelijkheid beslissingen genomen die de ‘echte’ werkelijkheid zullen beïnvloeden. De volgende dag worden er op basis van de nieuwe ‘echte’ werkelijkheid nieuwe abstracte modellen ontwikkeld en oude modellen worden ververst met nieuwe data. Er is dus een feedback loop, een cirkel van data. Afhankelijk van het werkproces waarin de modellen zitten verwerkt kan dit een toxische feedback loop worden.

Laat ik een voorbeeld geven van zo’n toxische feedback loop of TFL. Lagere sociaal economische status is geassocieerd met slechtere gezondheid. Het meenemen van de sociaal economische status in een model dat bijvoorbeeld mortaliteit voorspelt binnen een bepaalde periode, zorgt er hoogstwaarschijnlijk voor dat de voorspelde kans op overlijden hoger is bij mensen met een lagere sociaal economische status. Met een ideële bril zou dit leiden tot meer aandacht voor deze patiëntencategorie om het verhoogde overlijdensrisico te verminderen. In de praktijk moeten er echter regelmatig beslissingen worden genomen over wel of niet behandelen, wel of niet reanimeren, wel of niet opereren. Een goede inschatting van overlijdensrisico is natuurlijk een welkome aanvulling op het arsenaal van de behandelend arts. Bij iemand met hoog overlijdensrisico denk je twee keer na of je wel een riskante behandeling aanbiedt. Het is reëel te veronderstellen dat dit model er langs deze route toe leidt dat mensen met lagere sociaal economische status minder vaak een riskante maar wel curatieve behandeling zullen ondergaan. Daarmee neemt in feite hun overlijdensrisico nog meer toe. Latere modellen zullen dit bevestigen en op hun beurt leiden tot een ongunstiger beleid voor deze patiëntencategorie, enzovoort. Daarmee is de TFL een feit: dit soort inzet van artificiële intelligentie leidt tot een steeds slechtere uitkomst voor patiënten uit een bepaalde categorie, puur en alleen vanwege het feit dat ze in deze categorie zitten. Niet omdat er een direct oorzakelijk verband is. Met de beste bedoeling wordt hiermee een kwetsbare groep steeds verder in een ongunstiger hoek geduwd. Misschien vindt u dit vanzelfsprekend en denkt u dat een dokter met gezond verstand dit zal voorkomen. Ik heb daar mijn twijfels over zo lang de arts niet weet hoe en waar het model naar kijkt.

Weapons of Math Destruction
Een mooie omschrijving van het fenomeen van de TFL werd gegeven door de Amerikaanse wiskundige, machine learning expert en Occupy Wallstreet-activiste Cathy O’Neil in haar boek Weapons of Math Destruction. O’Neil beschrijft de schokkende praktijken die ontstaan door TFL’s. Ze gebruikt zelf vooral de term WMD als afkorting van de titel waarmee ze de schaal van de collaterale schade aangeeft, waarbij ze de toxische feedback loop als oorzaak herkent. O’Neil beschrijft diverse mechanismen waarbij centrale beoordeling plaatsvind op basis van machine learning algoritmen, zoals het herkennen van recidivisten in de gevangenis en concludeert dat blanke mensen die niet in een kansarme buurt wonen nooit door het algoritme worden geoormerkt, in tegenstelling tot gekleurde minderheden. De mensen met een hoge recidiefkans worden niet geholpen, maar dusdanig verder beperkt, dat dit juist de recidiefkans vergroot en de toxische feedback loop compleet is. De aanklacht van O’Neil is dat de Amerikaanse samenleving op deze manier het verschil tussen arm en rijk versterkt.

Weapons of Math Destruction

De bottom line is dat de gebruikers van machine learning algoritmes eigenlijk niet begrijpen wat zo’n algoritme doet en dat daardoor op grote schaal veel persoonlijk leed veroorzaakt wordt bij kwetsbare groepen in de samenleving. Voor de gebruikers is het algoritme in feite een ‘black box’. Het non-fictie boek leest als een mengsel tussen een roman en een thriller. Ik adviseer iedereen die zelf met machine learning aan de slag wil gaan dit boek te lezen. Iedereen die machine learning inzet in patiëntenzorg moet zich er continu ervan vergewissen, dat in het proces waarvoor het machine learning model gebruikt wordt geen TFL schuilt.

Hoe voorkomen we TFL’s?
De enige manier om TFL’s te voorkomen is door ervoor te zorgen dat een verbeterproces volledig transparant is en voortdurend met gezond verstand geëvalueerd wordt. Hiervoor is het nodig dat het gebruikte model geen ‘black box’ is. Het moet duidelijk zijn welke factoren het meest significant de voorspellingen van het model beïnvloeden. Factoren die belangrijk blijken moeten beoordeeld worden op oorzakelijkheid. Als uit analyse zou blijken dat ons mortaliteitsmodel sterk leunt op sociaal economische status dan kan op basis van gezond verstand al gesteld worden dat deze sociaal economische status meer een gevolg is van andere factoren (zoals roken, sedentair bestaan, ongezond eten, ontbrekende gezondheidsvaardigheden, erfelijke factoren), dan dat het als factor zelf direct de oorzaak is van mortaliteit. In sommige gevallen kan zo’n model bruikbaar zijn, bijvoorbeeld als hulpmiddel om patiënten te overtuigen gezonder te leven. Maar als beslissingen over wel of niet behandelen worden genomen op basis van dit model, dan kan het mis gaan. Het ontwerp en de training van een model moet dus afhangen van het uiteindelijke doel van het model. Een model dat ontwikkeld is voor het ene doel (lifestyle counseling) mag niet zonder meer worden gebruikt voor een ander doel (inschatting operatierisico). Hier schuilt ook het risico van commercieel verkrijgbare modellen: met welke data en welk doel werd het model in eerste instantie gemaakt en wie heeft dat inhoudelijk gemonitord?

Aandachtspunten voor ontwerp
Het creëren van een predictive analytics model blijkt dus geen sinecure. Nog voordat gedacht wordt aan enige vorm van validatie of zelfs ontwerp, moet een duidelijke omschrijving van het probleem worden gemaakt dat met behulp van welk model dan ook moet worden opgelost. Dat probleem moet uitputtend worden beschreven in uitkomsten die specifiek relevant zijn voor de omstandigheden. Mortaliteitsrisico is te aspecifiek om conclusies op te baseren en heeft op basis van gezond verstand al een risico op een TFL. Machine learning moet in staat zijn om veel specifiekere uitkomsten te voorspellen, zoals kans op ICU-opname, kans op intubatie, kans op heropname, kans op sepsis, kans op myocardinfarct, dehydratie/overvulling, nierinsufficiëntie, enzovoort. Deze voorspellingen samen moeten vervolgens op waarde geschat worden. Dat wordt een nieuwe vaardigheid. Dit druist in tegen de neiging van onderzoekers om de situatie van de patiënt te vatten in één getal, één score. Volgens mij is de vergrijzende zieke patient inmiddels te complex aan het worden om in één getal samen te vatten. Wordt het niet tijd dat we A.I. inzetten om dat paradigma te doorbreken? Een patiëntendashboard met twintig duidelijk weergegeven risico’s met goede uitleg lijkt mij erg behulpzaam voor het beoordelen van de hedendaagse multimorbide patiënt.

Conclusie
Kunstmatige intelligentie die leidt tot een self-fulfilling prophecy: de toxische feedback loop of TFL is een reëel risico bij de inzet van machine learning in welke setting dan ook. Het voorkomen hiervan kan alleen als in een vroeg stadium, bij de omschrijving van het probleem dat moet worden opgelost, wordt gekeken door de bril van zowel de arts als de data-scientist. Ook zonder toxische feedback loop is er een risico dat de voorspellingen van een model niet kloppen. Modellen moeten transparant zijn en begrepen worden om dit te kunnen herkennen. De verwachting dat de situatie met een enkele score kan worden weergegeven moet getemperd worden. In een toekomst waar in een gemiddeld ziekenhuis honderden A.I.-modellen naast elkaar draaien moet regie gevoerd worden door mensen die zowel inhoud als methode beheersen. In feite is dit opnieuw een pleidooi voor het opleiden van artsen op het vlak van data-science en machine learning. Het wordt tijd dat er nagedacht wordt over het opleiden van deze professionals.

Geef een reactie Reactie annuleren