Een kunstmatig intelligent algoritme dat de dokter kan ondersteunen met real time triage van symptomen en een diagnose voorstelt: dit promotiefilmpje van Babylon was het startpunt van een levendige discussie tijdens de masterclass Kunstmatige Intelligentie die SmartHealth organiseert. Het Britse bedrijf Babylon haalde miljoenen dollars investeringskapitaal op en werkt hard aan de uitbreiding van zijn kunstmatig intelligente chatbot in het buitenland, maar ligt in Engeland al jaren onder vuur. Een recente tv-uitzending van BBC Newsnight kaart de tekortkomingen en wetenschappelijke discussie aan: is een AI-triage systeem wel bewezen effectief?
In de Newsnight uitzending laat dr. David Watkins, oncologisch arts en bekend onder zijn Twitter alias DrMurhpy, treffend zien wat er in zijn ogen fout gaat bij de digitale triagetool. Als hij in Babylons chatbot een aantal kenmerken invoert – 67-jarige man, stevige roker, pijn op de borst – komt er geen notificatie dat je de tool niet moet gebruiken bij pijn op de borst, of direct een arts moet bellen.
In plaats daarvan stelt de chatbot nog een aantal aanvullende vragen en toont de software vervolgens resultaten bij de ingevoerde symptomen: de 67-kettingroker heeft waarschijnlijk maagslijmvliesontsteking (gastritis) of sikkelcelziekte in de borst. Twee diagnoses die volgens artsen niet erg waarschijnlijk zijn: hartproblemen of een hartaanval zijn veel relevanter bij deze ingevoerde patiëntgegevens en symptomen.
“Er is geen bewijs dat de AI-chatbot even veilig en effectief is als een huisarts die triageert. Misschien is de software zelfs veel minder veilig”, stelt Watkins.
Bankier
Ook andere artsen in de uitzending beamen dat de CE-markering van de software in feite niets zegt over de klinische effectiviteit en veiligheid van het algoritme. De kritiek die de afgelopen maanden in het Verenigd Koninkrijk en daarbuiten klinkt is:
- De samenwerking met de Britse NHS gaat om andere diensten in de Babylon app, gericht op service en gemak zoals een videoconsult en chatten met een zorgverlener;
- Er zijn nog geen randomized controlled trials waarin Babylon’s AI-dokter onderzocht wordt;
- Er zijn nog geen klinische studies gepubliceerd naar de werking van Babylon’s AI-triagesysteem;
- Er is geen duidelijkheid en transparantie over de manier waarop Babylon omgaat met patiëntendata vanuit Engeland en andere landen waar het bedrijf actief is;
- Bonuspunt van kritiek: de oprichter van Babylon - Ali Parsa - is een bankier en weet niets van geneeskunde.
PR fiasco
Babylon onderneemt actie, maar op een manier die wordt afgeraden in het allereerste jaar van de opleiding Communicatie: op de man af reageren. Het bedrijf publiceert een artikel waarin het dr. David Watkins afschildert als ‘Twitter trol’ die eindelijk zijn ware aard toont. Een PR-blunder, volgens velen, en opnieuw een teken dat Babylon ‘toondoof’ is en ‘weinig transparant’.
Watkins wordt door Babylon neergezet als een scepticus (of techno-realist, afhankelijk van je point of view). In het stuk maakt Babylon openbaar dat David Watkins de software honderden uren heeft getest – het equivalent van 5 werkweken – en ruim 2400 testen deed met de kunstmatig intelligentie chatbot. Daarvan waren er 100 testen die Watkins alarmerend vond en aankaartte bij Babylon, de NHS en toezichthouders, zegt het bedrijf.
Fouten in de software
Wie de reactie van Babylon doorneemt, leest dat van die 100 meldingen er 20 gevallen waren waarin Watkins “genuine errors in our AI” vond. Die fouten werden vervolgend gerepareerd, maar hoe en wat de implicaties van die fouten zijn, dat wordt niet duidelijk. Van de 2400 testen met de chatbot zijn er 20 gevallen waarin het systeem een verkeerde diagnose of advies gaf: een foutmarge van 0,8%. Babylon haast zich te melden dat geen van deze fouten leidde tot een ‘gerapporteerde bijwerking’.
De vraag is natuurlijk: waren die 20 fouten verkeerde diagnoses? En zo ja, waren ze potentieel schadelijk of zelfs levensbedreigend voor andere patiënten die gebruik maakten van de chatbot? Hoe verhoudt die 0,8% van de triage-chatbot zich tot de foutmarge bij de huisarts van vlees en bloed? Allemaal vragen die nog niet te beantwoorden zijn, maar enorm relevant zijn bij de komst van AI-triage software.
Newsnight zette dr. David Watkins tegenover de medisch directeur van Babylon, Keith Grimes. Volgens Grimes heeft de NHS de Babylon app getest, maar de interviewer en Watkins brengen daar tegenin dat de service en design van de app zijn getest, maar niet het AI-systeem. Niemand heeft de klinische validiteit van de app aangetoond, stelt Watkins, en er zijn fouten gevonden in de tests. “We vonden 20 inderdaad gevallen waarbij we de service konden verbeteren”, aldus de medisch directeur van Babylon, die dr. David Watkins consequent bij zijn Twitter-naam blijft noemen.
Babylon geeft “genuine errors in our AI” aan. Maar wat zijn de implicaties van die foute diagnoses? De kijker blijft een tikkeltje onbevredigd achter na het zien van de uitzending. Want een hoop vragen over de kunstmatig intelligentie chatbot blijven onbeantwoord. Wordt vervolgd.
Dr David Watkins is doing us a great service raising these concerns. There are too much hype around Babylon. It is not good to rush to market before the product is properly validated and undergoes peer review.