Vi målte Dunning-Kruger-effekten inde i en sprogmodel

Paper 21 · Pødenphant Lund (2026) · Læs på Zenodo

Vi målte Dunning-Kruger-effekten direkte inde i en sprogmodel.Dunning-Kruger-effekten er den iagttagelse, at folk ofte er mest sikre, når de ved mindst, og den er blevet diskuteret i årtier, fordi ingen kan se det der faktisk driver den. I et menneske er selvtillid noget man må gætte sig til ud fra hvad folk siger og hvor godt de klarer sig. I en sprogmodel kan man kigge lige ind og se hvor hårdt svarene konkurrerer, før den binder sig. Så det gjorde vi. Og den berømte kurve falder lige ud af det.

Det du aldrig kan se i et menneske

Dunning-Kruger-kurven har fire pejlemærker. En begynder starter passende usikker. Så kommer en stejl stigning til en top af selvsikker uvidenhed, ofte kaldet "Mount Stupid." Så et dyk, "fortvivlelsens dal," efterhånden som den lærende begynder at se hvor meget han gik glip af. Så en langsom klatren tilbage, mens rigtig kunnen indhenter det.

Hele diskussionen handler om én skjult størrelse: hvor hårdt et menneskes konkurrerende svar slås om det inde i hovedet, før man vælger ét. Det kan man aldrig se direkte. Man rekonstruerer det fra selvtillidsvurderinger og testresultater, og kritikere har vist at den rekonstruktion kan fremstille kurven helt på egen hånd, gennem statistiske finurligheder, før der overhovedet kommer rigtig overmod ind i billedet.

Så vi flyttede blikket

En sprogmodel vælger hvert ord ved en slags kapløb mellem kandidater, og man kan læse stillingen. For hvert svar den giver, kan man se hvor mange muligheder der var i spil, og hvor langt vinderen var foran. Det er præcis den størrelse ingen kan aflæse i en menneskehjerne. Her ligger den lige i tallene.

Før vi brugte den, tjekkede vi at den måler det vi tror. Forspringet mellem det øverste svar og toeren (vi kalder det balancen i evidensen) forudsiger om modellen har ret, slår det enklere mål feltet hidtil har brugt, og kan endda skelne rigtige fra forkerte svar i tilfælde hvor det enklere mål siger de ligner hinanden. Det virker på vidensspørgsmål og på en visuel "er det her mest rødt eller grønt?"-opgave. Den aflæser en ægte beslutningsstørrelse, ikke en tilfældighed.

Så byggede vi en Mount Stupid med vilje

For at få kurven skal man bruge et sted hvor en selvsikker-men-forkert overbevisning dannes og så bliver rettet. Forestil dig en lærer med en skjult karakterregel: en elevs karakter er lig med deres nummer på klasselisten, bortset fra at hver elev hvis nummer er deleligt med fem får lagt 100 til, så elev 10 får 110, ikke 10. Vis kun modellen de nemme tilfælde (1→1, 2→2, op til 9→9) og aldrig et tal deleligt med fem. Den gør præcis hvad et menneske gør: den spotter "nummer = karakter" og bliver sikker på det. Spørg hvad elev 10 får, og tilbage kommer "10," selvsikkert, sikker og forkert. Det er toppen: ét svar vandt nemt, fordi intet konkurrerede med det endnu, og en nem sejr føles som selvtillid.

Så ankommer sandheden lidt ad gangen ("faktisk fik elev 5 105"). Et andet svar bliver lagt ned, og det at blive modsagt får det til at lande hårdere, så nu konkurrerer to svar og den nemme sejr skrumper. Det er dalen. Bliv ved, og det rigtige svar vinder til sidst rent. Det er vejen op igen.

Hvad vi fandt

Tre dele af kurven dukkede op helt uden biologi. De kommer direkte fra måden læring konkurrerer på:

To andre dele opførte sig anderledes, og forskellen er det interessante. De manglede ikke rigtig. De var skjult af måden modellen normalt tvinges til at svare på:

Hvorfor det betyder noget

Det her vender den sædvanlige retning af friktionsteori om. Paper 1 brugte teorien til at forklare hvordan et sind træffer en beslutning. Her bruger vi en models aflæselige tal som et måleinstrument for den slags begrænsede beslutninger mennesker også træffer. Selvtillid følger hvordan de konkurrerende svar afgøres, ikke hvor god du faktisk er. At blive klogere er ikke mere mystisk end at gå fra ét svar der vinder for nemt til flere svar der konkurrerer, indtil det rigtige vinder. Dunning-Kruger er ikke en sær menneskelig fejl; det er formen på enhver læring, der starter for simpelt.

Det sorterer også kurven i to bunker. Den selvsikre stigning, genkendelsen og vejen tilbage er egenskaber ved selve beslutningsmaskineriet. Ingen neuroner krævet. Den følte ydmyghed og den følte fortvivlelse er den del som den biologiske hjerne ser ud til at lægge oveni. Det er et mere brugbart svar end "modeller viser eller viser ikke Dunning-Kruger": det siger præcis hvilke stykker der er mekaniske, og hvilke der er menneskelige.

Citat

Pødenphant Lund, T. (2026). Mount Stupid in the machine: how evidence competition explains the Dunning-Kruger curve in a language model. Zenodo. https://doi.org/10.5281/zenodo.20562415

Læs på Zenodo → · Teknisk version · Plain English version

Relateret på sitet: