Vi målte Dunning-Kruger-effekten inde i en sprogmodel

Paper 21 · Pødenphant Lund (2026) · Læs på Zenodo

Vi målte Dunning-Kruger-effekten direkte inde i en sprogmodel.Dunning-Kruger-effekten er den iagttagelse, at folk ofte er mest sikre, når de ved mindst, og den er blevet diskuteret i årtier, fordi ingen kan se det der faktisk driver den. I et menneske er selvtillid noget man må gætte sig til ud fra hvad folk siger og hvor godt de klarer sig. I en sprogmodel kan man kigge lige ind og se hvor hårdt svarene konkurrerer, før den binder sig. Så det gjorde vi. Og den berømte kurve falder lige ud af det.

Det du aldrig kan se i et menneske

Dunning-Kruger-kurven har fire pejlemærker. En begynder starter passende usikker. Så kommer en stejl stigning til en top af selvsikker uvidenhed, ofte kaldet "Mount Stupid." Så et dyk, "fortvivlelsens dal," efterhånden som den lærende begynder at se hvor meget han gik glip af. Så en langsom klatren tilbage, mens rigtig kunnen indhenter det.

Hele diskussionen handler om én skjult størrelse: hvor hårdt et menneskes konkurrerende svar slås om det inde i hovedet, før man vælger ét. Det kan man aldrig se direkte. Man rekonstruerer det fra selvtillidsvurderinger og testresultater, og kritikere har vist at den rekonstruktion kan fremstille kurven helt på egen hånd, gennem statistiske finurligheder, før der overhovedet kommer rigtig overmod ind i billedet.

Så vi flyttede blikket

En sprogmodel vælger hvert ord ved en slags kapløb mellem kandidater, og man kan læse stillingen. For hvert svar den giver, kan man se hvor mange muligheder der var i spil, og hvor langt vinderen var foran. Det er præcis den størrelse ingen kan aflæse i en menneskehjerne. Her ligger den lige i tallene.

Før vi brugte den, tjekkede vi at den måler det vi tror. Forspringet mellem det øverste svar og toeren (vi kalder det balancen i evidensen) forudsiger om modellen har ret, slår det enklere mål feltet hidtil har brugt, og kan endda skelne rigtige fra forkerte svar i tilfælde hvor det enklere mål siger de ligner hinanden. Det virker på vidensspørgsmål og på en visuel "er det her mest rødt eller grønt?"-opgave. Den aflæser en ægte beslutningsstørrelse, ikke en tilfældighed.

Så byggede vi en Mount Stupid med vilje

For at få kurven skal man bruge et sted hvor en selvsikker-men-forkert overbevisning dannes og så bliver rettet. Forestil dig en lærer med en skjult karakterregel: en elevs karakter er lig med deres nummer på klasselisten, bortset fra at hver elev hvis nummer er deleligt med fem får lagt 100 til, så elev 10 får 110, ikke 10. Vis kun modellen de nemme tilfælde (1→1, 2→2, op til 9→9) og aldrig et tal deleligt med fem. Den gør præcis hvad et menneske gør: den spotter "nummer = karakter" og bliver sikker på det. Spørg hvad elev 10 får, og tilbage kommer "10," selvsikkert, sikker og forkert. Det er toppen: ét svar vandt nemt, fordi intet konkurrerede med det endnu, og en nem sejr føles som selvtillid.

Så ankommer sandheden lidt ad gangen ("faktisk fik elev 5 105"). Et andet svar bliver lagt ned, og det at blive modsagt får det til at lande hårdere, så nu konkurrerer to svar og den nemme sejr skrumper. Det er dalen. Bliv ved, og det rigtige svar vinder til sidst rent. Det er vejen op igen.

Hvad vi fandt

Tre dele af kurven dukkede op helt uden biologi. De kommer direkte fra måden læring konkurrerer på:

Den selvsikre stigning til Mount Stupid. Mens den halvlærte regel danner sig, løber modellens selvtillid forud for dens faktiske kunnen. Den er sikker og forkert præcis dér hvor reglen gemmer en overraskelse. På de nemme tilfælde, hvor den virkelig er kompetent, er der ikke noget sådant gab.
Genkendelsens øjeblik. I det øjeblik modsigelsen lander, falder de to svar til næsten dødt løb inde i modellen. Det er dalens tvivl, synlig i tallene.
Vejen tilbage op. Med nok eksempler vinder det rigtige svar. Større modeller klatrer hurtigere tilbage; den mindste kommer sig aldrig og bliver selvsikkert forkert.

To andre dele opførte sig anderledes, og forskellen er det interessante. De manglede ikke rigtig. De var skjult af måden modellen normalt tvinges til at svare på:

Begynderens ydmyghed. Tvunget til at give et tal ser modellen født-overmodig ud. Men i samme øjeblik vi lod den sige "jeg er ikke sikker," sagde den præcis det, hver eneste gang, når den var ægte uvidende. Ydmygheden var der hele tiden. Vi havde bare kneblet den. (Mennesker gør det samme: lad dem vælge hvad de vil svare i stedet for at tvinge det frem, og det de faktisk siger bliver mere præcist.)
Fortvivlelsens dal. I sit udtalte svar viste modellen intet dyk. Men indeni, i modsigelsens øjeblik, sad det vindende og det tabende svar næsten lige. Den gængse måde at aflæse "det ene mest sandsynlige svar" smider det dødt løb væk, og derfor så dykket ud til at forsvinde. Læs forspringet i stedet, og dalen er umiskendelig.

Hvorfor det betyder noget

Det her vender den sædvanlige retning af friktionsteori om. Paper 1 brugte teorien til at forklare hvordan et sind træffer en beslutning. Her bruger vi en models aflæselige tal som et måleinstrument for den slags begrænsede beslutninger mennesker også træffer. Selvtillid følger hvordan de konkurrerende svar afgøres, ikke hvor god du faktisk er. At blive klogere er ikke mere mystisk end at gå fra ét svar der vinder for nemt til flere svar der konkurrerer, indtil det rigtige vinder. Dunning-Kruger er ikke en sær menneskelig fejl; det er formen på enhver læring, der starter for simpelt.

Det sorterer også kurven i to bunker. Den selvsikre stigning, genkendelsen og vejen tilbage er egenskaber ved selve beslutningsmaskineriet. Ingen neuroner krævet. Den følte ydmyghed og den følte fortvivlelse er den del som den biologiske hjerne ser ud til at lægge oveni. Det er et mere brugbart svar end "modeller viser eller viser ikke Dunning-Kruger": det siger præcis hvilke stykker der er mekaniske, og hvilke der er menneskelige.

Citat

Pødenphant Lund, T. (2026). Mount Stupid in the machine: how evidence competition explains the Dunning-Kruger curve in a language model. Zenodo. https://doi.org/10.5281/zenodo.20562415

Læs på Zenodo → · Teknisk version · Plain English version

Relateret på sitet:

Dunning-Kruger-effekten — en gennemgang af fænomenet i hverdagssprog, fra start til slut.
Hvad sprogmodeller afslører om sind — det større billede af at aflæse kognition på en model man kan se ind i.
Paper 1 (Friktionsteori) — rammeværket hvis retning denne artikel vender om.
Paper 0 (BFT) — den biologiske version af samme maskineri.