Column Mark de Graaf: Hallucineren

Peter Vandermeersch, de oud-hoofdredacteur van het NRC, werd op non-actief gesteld door zijn werkgever Mediahuis nadat bleek dat hij in zijn blogposts en nieuwsbrieven citaten gebruikte die door AI waren verzonnen. Dit incident leidde in de Nederlandse media tot een breed debat over de betrouwbaarheid van journalisten die AI gebruiken zonder strikte “human oversight”. Vandermeersch gaf toe in de “val van de hallucinaties” te zijn getrapt door te vertrouwen op samenvattingen van AI-tools zoals ChatGPT en Perplexity.

 

Er zijn genoeg situaties te vinden waarin hallucinerende LLM’s tot schadelijke gevolgen (kunnen) leiden. Zoals recent nog bleek in een studie waarin aan de 21 bekendste LLM’s gevraagd werd op basis van incomplete informatie een differentiële diagnose te verrichten (een wetenschappelijk gevalideerde methode om uit een lijst van mogelijke aandoeningen waaraan een bepaalde patiënt zou kunnen lijden, gegeven de klachten en symptomen die op dat moment bekend zijn, een diagnose te stellen). Alle LLM’s zaten er in maar liefst 80% van de gevallen naast.

 

Toch gebruiken veel mensen naar grote tevredenheid LLM’s, zowel professioneel – zoals software developers – als privé. Voor deze column heeft manus.ai mij uitstekend geholpen in het analyseren van bronnen bijvoorbeeld.

 

Wat is dat hallucineren nu echt? Wat moeten we ermee? Het UMC beschrijft een hallucinatie als ‘een waarneming die niet klopt’, iets wat ons allemaal overkomt. Hoewel hallucineren bij de meeste mensen het gevoel oproept dat er iets mis gaat, is het dus eigenlijk een doodnormaal verschijnsel. Om de befaamde neurowetenschapper Anil Seth te citeren, “reality is a controlled hallucination’. Onze ervaring van de werkelijkheid wordt gevormd door de percepties die onze zintuigen mogelijk maken. Ons brein probeert vervolgens voortdurend voorspellingen te doen over wat er om ons heen gaat gebeuren. Deze voorspellingen zijn mede gebaseerd op ervaringen die we opdoen. Dat is waarom mensen in een donker bos allerlei levende wezens menen te zien: we willen voorbereid zijn op bijvoorbeeld het gevaar van een wild dier. Als we veel contextinformatie hebben, en ons brein getraind is in die context, gaat het meestal wel goed. De boswachter die in een natuurgebied stropers moet betrappen zal niet van elke bewegende tak of vleugje wind door de bladeren schrikken. Maar wie niet getraind is in deze context staat doodsangsten uit voor dingen die er niet zijn.

 

Er zijn veel overeenkomsten tussen hallucinaties van mensen en van LLM’s. Het menselijk brein is in de evolutie gevormd om op basis van incomplete informatie te anticiperen op situaties. Daarvoor vergroten we contrasten, filteren we informatie en waar we het niet weten vullen we die rijkelijk aan vanuit eerdere ervaringen. We maken er altijd wel iets van, al slaat het soms nergens meer op. LLM’s zijn ontworpen om in iedere situatie het best mogelijke antwoord te geven op een vraag. Daarvoor gebruiken ze beschikbare informatie, aangevuld vanuit geleerde patronen waar ze op getraind zijn. Er is altijd een beste antwoord…

 

IBM definieert AI hallucinaties als ‘perceiving patterns or objects that do not exist’ waarbij het ‘nonsensical or inaccurate content’ genereert. Klinkt bekend, toch?

 

Hallucinaties zijn dus net zo goed een fundamentele eigenschap van LLM’s als van mensen. Helemaal verdwijnen zullen ze nooit. Maar we kunnen er wel het een en ander aan doen om de problemen zoals hierboven beschreven te beperken.

 

Mensen kunnen leren kritischer om te gaan met de modellen. We mogen best leren nadenken over de beperkingen van modellen, en over de keuze voor een model voor het doel wat we ermee hebben. We kunnen de modellen ook beter leren gebruiken. We kunnen ze vragen ook kritische vragen te stellen. Het is altijd een goed idee om bronnen zelf na te lezen; niet alleen leer je daar iets van, maar je weet dan ook beter waar het model de informatie vandaan heeft – en of je daar vertrouwen in hebt.

 

Ook aan de technologiekant gebeurt het nodige. Zo worden sommige modellen steeds transparanter over het proces dat tot een antwoord heeft geleid, de onzekerheid daarin en worden bronnen steeds nadrukkelijker meegenomen. Ook worden steeds meer modellen voor specifieke toepassingen getraind. Binnen die context wordt de kans op hallucineren dan een stuk kleiner. Dat is vergelijkbaar met advies vragen aan een menselijke expert; de kans dat die een zinnig advies geeft is ook een stuk groter dan van een willekeurige influencer.

 

Kortom, hallucineren kan in sommige gevallen tot problemen leiden maar is daarom nog geen bug. Het is een fundamentele eigenschap van de AI-modellen waar we vooral goed mee om moeten leren gaan. Hier ligt een schone taak voor het onderwijs.

 

Mark de Graaf, PRIO