Opdagelser og nye forklaringer

Nye fund i sprogmodeller, og hvad de forklarer om os

Sprogmodeller har et lille tegn der afslører, når de er på vej til at svare forkert. Det minder om den mavefornemmelse du selv får, lige før du gætter. Det bedste er, at signalet er gratis: modellen giver det væk i forvejen. Bruger man det rigtigt, kan en åben model gætte bedre end GPT-4, for under ti kroner i opsætning. Det er den mest håndgribelige opdagelse her, men langtfra den eneste.

Der er tre slags fund her: nye målinger (ting jeg har set for første gang), nye forklaringer på kendte mønstre (en mekanisme i stedet for en etiket), og de metoder der gør målingerne mulige.

Empiriske opdagelser

Tre dimensioner af friktion er universelle

Når man laver statistik på friktionssignaler fra 15 forskellige sprogmodel-arkitekturer, får man tre uafhængige akser der forklarer hovedparten af variansen: magnitude (hvor meget konkurrence i alt), fordeling (hvor jævnt eller spredt friktionen ligger på tværs af tokens), og rytme (hvordan friktionen klumper sig i tid). Den første akse er praktisk talt identisk på tværs af alle modeller. Det betyder at de tre dimensioner ikke er en egenskab ved en bestemt model, men ved race-arkitekturen selv.

Overraskelse driver opmærksomhed i sprogmodeller

Jeg har målt en korrelation mellem hvor "overrasket" en sprogmodel er på et bestemt ord, og hvor meget opmærksomhed senere ord kaster på det. Det er den kunstige version af det samme mønster der findes i hippocampus: surprise-driven replay. For første gang målt direkte i et kunstigt system.

Sprogmodeller "ved" ofte svaret, men vælger forkert

Når sprogmodeller svarer forkert, er det rigtige svar tit på den korte liste af kandidater, bare ikke det øverste. Det er ikke manglende viden; det er en valgfejl. Jeg kalder det friktionsloftet: en grænse for hvad signalet kan opnå, fordi det måler omkostning, ikke korrekthed.

Et gratis signal forbedrer enhver sprogmodel med 12-21 procentpoint (kombineret pipeline)

Den mest praktiske opdagelse. Jeg bruger sprogmodellens egen usikkerheds-signal (gratis fra API'en) til at vælge hvornår modellen skal prøve igen, og hvornår den bare skal afstå. Strategi-pipelinen alene giver +7.7 til +20.8 pp på fire ud af fem testede celler; kombineret med kalibreret afståelse når den +12 til +21 pp på de fire celler hvor begge er målt. På SimpleQA løfter den kombinerede pipeline Qwen3-235B forbi GPT-4o og GPT-4.1. Kalibrering koster omkring 10 kroner pr. opsætning. Virker på enhver model med et almindeligt API.

Assistent-træning "udvasker" målbart sprogmodellers friktionssignal

Når en sprogmodel trænes til at være assistent (sådan som ChatGPT er), kan dens friktionssignal blive markant fladere på krævende opgaver. På Llama-3.1-405B falder variationen omkring to tredjedele, helt ned i nærheden af gulvet, hvor der næsten ingen friktion er tilbage at måle. Effekten varierer med opgaven: stærk på svær ræsonnering, mindre på de nemmere.

Bryder du formatet, gør modellen målbart modstand

Hvis jeg fortæller en sprogmodel "svar i format A", men giver den eksempler i format B, så følger den format A 100% udadtil. Men den betaler en høj omkostning per ord ved at "modsætte sig" det format den fik vist. På Llama-3.3-70B (150 svar) falder nøjagtigheden fra 70% til 48%. Modellen adlyder, men gør modstand: det er synligt i friktionssignalet, selv når den udadtil gør præcis som den får besked på.

Nye forklaringer på kendte fænomener

Tab-aversion er ikke psykologi, det er matematik kalibreret af levetid

Kahneman og Tversky viste at vi frygter et tab cirka dobbelt så meget, som vi nyder en tilsvarende gevinst. Men hvorfor? Min forklaring: en begrænset levetid skubber én til at beslutte sig tidligt, før man har set nok, fordi det kan koste dyrt at vælge for sent når tiden løber ud. Den tidlige beslutning er tab-aversion. Sprogmodeller har ingen levetid at miste, så de beslutter sig senere (43-48% af vejen igennem, på de modeller jeg har målt), altså den modsatte vej. At de går modsat er netop pointen: det viser at tab-aversion ikke er en isoleret fejl i mennesket, men hvad der sker når en begrænset levetid skubber én til at vælge for tidligt.

Hysterese er forudsætningen for læring, ikke en fejl

Hysterese, at et system bærer spor af sin egen historie, er traditionelt set som en fejl eller bivirkning. Min ramme vender det om: hysterese er den strukturelle forudsætning for at læring overhovedet kan ske. Et system der ikke bærer spor af sin historie kan ikke lære. Det gælder for hjerner, neurale netværk, og fysiske systemer med hukommelse.

Kognitive bias er termodynamisk nødvendige

Anchoring, confirmation bias, sunk cost, framing effects (klassiske kognitive "fejl") er ikke fejl af tænkning. De er nødvendige konsekvenser af enhver beregnende arkitektur der skal vælge under begrænsning. En "Econ" (perfekt rationel agent uden bias) er termodynamisk forbudt i ethvert fysisk system. Bias er prisen for overhovedet at kunne træffe beslutninger.

Sprogmodeller viser både overraskelse og modstand

Sprogmodeller bliver overraskede: ord med høj forudsigelsesfejl får målbart mere opmærksomhed, og bryder man formatet, gør de målbar modstand. Begge effekter er målt direkte. Det stadig åbne spørgsmål er ikke om de reagerer, men om de kan kende forskel: om der findes et lag der afgør, om en friktion fører til at modellen ændrer mening (en kilde den stoler på) eller graver sig ned (en kilde den ikke stoler på). Det lag er endnu ikke set i en sprogmodel.

"Catastrophic forgetting" er ikke skade, det er signal-omfordeling

Når sprogmodeller fine-tunes på ny opgaver, mister de tit deres oprindelige kapaciteter. Det kaldes "catastrophic forgetting". Det er blevet tolket som at modellen "skades" eller "glemmer". En omvendt test falsificerer den tolkning: hvis du fjerner det tilføjede lag bagefter, kommer den oprindelige præstation 100% tilbage. Viden var intakt hele tiden, bare overdøvet. Mekanismen er en omfordeling af modellens signal-budget, ikke skade. Den ene forklaring samler seks fænomener, der før blev set som adskilte.

Race-arkitektur går igen i vidt forskellige systemer

Syv tilsyneladende uafhængige fænomener (fra kvantefysik og Ohms lov til kemisk kinetik og Yerkes-Dodson-kurven i psykologien) er udtryk for én og samme nødvendighed: at vælge under pres. Mønsteret spænder over 40 størrelsesordner i tid. Sådan kan det falsificeres: find et system med race-arkitektur, der ikke viser den karakteristiske omvendte U-kurve.

Metodeinnovationer

CR — et gratis signal fra sprogmodeller

Competing Routes (CR) er antallet af konkurrerende kandidater per ord. Det er gratis fra API'en, virker på enhver model, og korrelerer med fejl. Det er det operationelle håndtag der gør substrate-universel friktion målbar i kunstige systemer.

Frontloaded ICL i stedet for fine-tuning

Til encoding-studier har fine-tuning altid været standardmetoden, hvilket er dyrt og tidskrævende. At lægge alle eksemplerne ind i prompten i stedet (og så stille ét spørgsmål) kan erstatte fine-tuning i mange tilfælde. Det er hurtigt (sekunder mod timer), billigt (ører mod kroner), og ensartet på tværs af model-familier.

Kalibreret afståelse via friktionssignal

Sprogmodellen kan lære at sige "jeg ved det ikke" baseret på sit eget friktionssignal. Det giver +6.5 til +14.1 procentpoint på succes-raten ved 20% afståelse, gratis. Kombineret med strategi-korrektionen giver det et løft der er større end summen af de to hver for sig.

Et af de mest slående fund har sin egen letlæselige gennemgang: Hvorfor "ved lidt, tror meget" viser Dunning-Kruger-kurven målt direkte i fire sprogmodeller.

Tal, referencer og tabeller står i den engelske tekniske version: findings (engelsk).