Met deze vraag lieten onderzoekers 4600 proefpersonen ieder twaalf tot zestien zelfbeschrijvingen lezen: in 52% van de gevallen klopte het antwoord. Personen zeiden hun beslissingen te baseren op basis van inhoud (onzinnig), toon (onpersoonlijk) en grammaticagebruik (onjuist). Vervolgens kwantificeerden de onderzoekers al deze kenmerken – hoe vaak telt een tekstfragment de woordjes ‘ik’ of ‘wij’– en stopten ze in een analyse.
Sommige vuistregels bleken correct: teksten van ChatGPT kenmerkten zich inderdaad door repetitief taalgebruik en onzinnige inhoud. Als de proefpersonen zich alleen op deze beslisregels hadden gebaseerd, waren 59% van hun antwoorden goed geweest. Maar de proefpersonen pasten ook regels verkeerd toe. Want niet computers, maar mensen maken meer grammaticale fouten. Tot slot bleken veel beslisregels die mensen intuïtief hanteren irrelevant. Zo schrijft ChatGPT net zo vaak een tekst vanuit de eerste persoon als een echt mens.
In een nieuwe ronde lazen proefpersonen ‘geoptimaliseerde’ ai-teksten die speciaal waren geselecteerd om de menselijke intuïtie om de tuin te leiden. De onderzoekers slaagden in hun opzet. Een geoptimaliseerde ai-tekst werd in 66% van de gevallen beoordeeeld als menselijk, een menselijke tekst in 52%.
Dit betekent helaas ook dat geautomatiseerde fraude menselijker dan menselijk kan zijn.
Bron: Jakesch, M. et al. Human heuristics for AI-generated language are flawed. In: Proceedings of the National Academy of Sciences, doi/abs/10.1073/pnas.2208839120
Beeld: Lidiia Head / Shutterstock