
Het Veni-project van Eric Nalisnick is behoorlijk abstract, maar gaat in de kern over hoe AI-technieken kunnen samenwerken met menselijke beslissers. Nalisnick werkte voorheen bij GoogleDeepMind. Daar ontdekte hij dat ai-modellen grote fouten kunnen maken. ‘We trainden een ai-systeem met data om plaatjes van vliegtuigen, auto’s en boten te herkennen. Na de training toonden we plaatjes die het niet tijdens de training had gezien. Het had geleerd om de vervoersmiddelen te signaleren, maar nu keurde het soms een plaatje van een huisnummer goed. De conclusie was: een ai-systeem kan zich enorm vergissen.’
Samen beslissen
Het Veni-project van Nalisnick borduurt op dat onderzoek voort. Maar nu wil hij niet alleen foto’s aan een ai-systeem geven, dat er vervolgens over beslist, hij wil dat dat systeem gaat samenwerken met de mens. Daarvoor moeten zowel systeem als mens weten wie het probleem het beste kan behandelen.
In het eerste deel van zijn Veni-project kijkt Nalisnick naar de validiteit van de estimate of correctness. ‘Het systeem moet een inschatting maken van wie het beste de beslissing kan nemen. Neem een medische longfoto waarvan we al weten of er al dan niet een tumor is gesignaleerd. We laten die zien aan het systeem en aan mensen en kijken naar de kans dat het systeem die tumor correct detecteert én hoe de mens scoort. Als je die schatting weet, kun je later het probleem voorleggen aan degene die het vaakst correct is.’
Het systeem overschatte de mens, die had het minder vaak goed, dan het systeem voorspelde
Overigens bestond het hier beschreven systeem al, alleen overschatte het systeem de mens. De mens had het minder vaak goed dan het systeem voorspelde. Dat heeft Nalisnick in het systeem gecorrigeerd, en vervolgens heeft hij het systeem in verschillende experimenten getest. In die experimenten maakte hij gebruik van bestaande (en al beoordeelde) data.
In het eerste experiment gaat het om een vlek op de huid en moet zowel het ai-systeem als een dokter bepalen of het huidkanker is of niet. In het tweede experiment gaat het om foto’s gemaakt door een telescoop waarvan duidelijk moet worden welk soort sterrenstelsel te zien is. Het gaat om zoveel beelden dat een mens ze niet allemaal kan bekijken, dus we geven ze aan het ai-systeem dat beslist of het ze zelf kan beoordelen of dat het beter door een astronoom bestudeerd kan worden.
Beledigingen herkennen
In het derde experiment gaat het om beledigend taalgebruik. Een ai-systeem moet beslissen of het tweets automatisch kan classificeren als beledigend of dat het naar een menselijke beoordelaar moeten worden gestuurd. Voor die experimenten maakt het gebruik van beschikbare data die al gelabeld zijn. Het doel is het ai-systeem verder te ontwikkelen en te testen. En, zo voegt Nalisnick eraan toe: ‘We werken aan het idee, wij zijn niet de makers van het werkende systeem, dat bestaat al, en met onze kennis kan het beter gemaakt worden.’
Meer deskundigen
Het tweede project binnen zijn Veni gaat erover dat je meervoudige experts in het systeem kunt opnemen. Neem de situatie waarin een röntgenfoto binnenkomt, die moet worden beoordeeld door een ai-model of door een van een aantal dokters. Hierbij moet het systeem kiezen tussen ofwel het ai-systeem of tussen verschillende personen.
Hoe stop je de kennis van de verschillende experts in zo’n systeem? ‘Dat is het meest interessante deel van mijn studie. We moeten modelleren wat er in de hoofden van de verschillende personen omgaat. Tot nu toe hebben we alleen naar de eerdere prestaties van de personen gekeken. Dan weten we bijvoorbeeld: in een vergelijkbare casus heeft dokter Brown het vaker dan gemiddeld goed. Maar je kunt ook andere parameters opnemen, zoals hoe moe een arts is. Er zijn twee dokters, beiden expert, even goed, alleen de een heeft al twaalf uur gewerkt en de ander komt net binnen. Dan kan de beoordeling beter worden gedaan door degene die uitgerust is.
Een ander probleem waarmee hij zich bezighoudt is: wat als er een nieuwe dokter komt, van wie je nog geen data hebt? Nalisnick: ‘Je mag ervan uitgaan dat de nieuwe arts net zo beslist als het gemiddelde van de aanwezige personen. En als de data uitwijst dat het anders is, pas je het systeem aan.
Of een volgend probleem: je hebt drie specialismen, er komt een vierde bij. Dan kun je er niet vanuit gaan dat de vierde arts beslist als het gemiddelde van de andere drie. Ik ben nog aan het uitdenken hoe dat moet.’
En er kunnen dingen veranderen. Een van de artsen wordt ziek, begint te drinken, zijn oordeelsvermogen gaat achteruit. Dan wil je dat het systeem ontdekt dat hij of zij zich niet meer zo gedraagt als vroeger. Het kan ook zijn dat een van de experts beter wordt.
Een volgende stap zou zijn om ook te kijken naar samenwerking. Nu neemt ieder individu een beslissing. Maar die beslissing wordt misschien wel beter als er samenwerking komt tussen twee mensen of tussen een mens en het ai-systeem.
Het zijn fundamentele vragen die moeten worden opgelost, voordat het systeem echt gebouwd kan worden.
Bruikbaarder
‘We zijn nu bezig om simpele ai-systemen steeds beter in het dagelijks leven te laten werken, zodat ze bruikbaarder worden. Als de systemen in de gaten krijgen dat ze interacteren met mensen, dat ze zien hoe die zich gedragen en dat ook mensen begrijpen wat het systeem kan en weet, dan ontstaat er een betere samenwerking en wordt het allemaal bruikbaarder. Vergelijk het met een hamer: tot nu toe kon je die gebruiken of niet. Wij maken als het ware een hamer die kan praten: “Als je iets harder slaat, dan krijg je de spijker er beter in”.’