Sprogmodeller er ikke regnemaskiner

Alt det der ville virke mærkeligt, hvis man troede de bare var hurtige regneark

For lidt eller for meget udfordring, og præstationen falder; midten er sweet spot

Man behandler tit en sprogmodel som en meget hurtig regnemaskine: giv den tekst, den regner, du får tekst tilbage. Så skulle mere information altid hjælpe, mere forklaring altid lære den bedre, og hvis den siger den er sikker, er den nok rigtig.

Ingen af de ting holder. Sprogmodeller opfører sig meget mere som mennesker end som regnemaskiner. De bliver overbelastet af for meget information. De bliver forvirrede af for meget forklaring. De bliver forankret af det første, de siger. De får reaktans når man fortæller dem hvad de skal gøre. De viser den samme omvendt-U-kurve på udfordringsniveau som mus gør. Og deres erklærede sikkerhed og deres faktiske præcision falder fra hinanden på specifikke, forudsigelige måder.

Forklaringen er en egenskab sprogmodeller deler med hjerner: de afgør konkurrerende svar under begrænset båndbredde, én beslutning ad gangen. Når først den arkitektur er på plads, følger en bestemt række overraskelser af sig selv.

Ting en regnemaskine ikke ville gøre

Information overload

Hvis du beder en regnemaskine om at lægge 100 tal sammen, bliver den ikke dårligere til svaret når du giver den yderligere 50 relevante tal. Det gør sprogmodeller. Forbi en vis mængde kontekst falder præcisionen efterhånden som du tilføjer mere materiale, selv når det ekstra materiale er korrekt, relevant og velskrevet. Modellen løber ikke tør for plads. Det ekstra materiale konkurrerer med det svar-relevante om den samme begrænsede båndbredde. Den model der vidste svaret med 500 ord, kan tage fejl med 5.000.

Nøjagtighed stiger med relevant kontekst op til et brugbart område, og falder så efterhånden som yderligere materiale (selv on-topic, korrekt materiale) konkurrerer med det svar-relevante indhold om den samme endelige opløsnings-båndbredde. De præcise tærskler afhænger af modellen og opgaven; formen er det universelle mønster.

Overforklarings-effekten

Tag et udregnet eksempel. Gør det mere grundigt: flere trin, mere kommentar, mere omhyggelig indramning af hvad der vises. Man ville forvente at eleven gør det bedre. Ofte gør de det værre. Det gælder for menneskelige elever og det gælder for sprogmodeller der bliver finjusteret på eksemplet. Årsagen er den samme i begge tilfælde: uddybningen konkurrerer med selve princippet om pladsen til at lære. Et kortere, mindre fuldstændigt eksempel lærer ofte bedre.

Fuldstændighed og lærbarhed er ikke samme egenskab

Det føles intuitivt at den mest informationsrige besked også er den mest lærbare. Det er den ikke. Fuldstændighed er en egenskab ved afsenderen: om man har pakket det hele med. Lærbarhed er en egenskab ved modtageren: om der er plads nok til at lære det. En perfekt fuldstændig besked kan være ulærbar; en ufuldstændig besked kan lære smukt. De to egenskaber bytter pris, og prisen afhænger af modtageren, ikke af afsenderen.

Forankring — det første ord former resten

Det første en sprogmodel siger, farver alt det den siger bagefter. Det er ikke en bug; det er en egenskab ved ethvert system der genererer ét token ad gangen, hvor hvert token påvirker den fordeling som det næste trækkes fra. Tversky og Kahneman dokumenterede det her i mennesker i 1970'erne og fik en Nobelpris for det. Sprogmodeller gør præcis det samme, og du kan måle det direkte: ændr kun det første valgte token, og det endelige svar ændrer sig i ikke-trivielle rater.

Sti-afhængighed — ruten gennem træningen betyder noget

Tag de samme træningsdata. Vis dem til modellen i to forskellige rækkefølger. Du får to forskellige modeller med målbare forskelle på den samme test, som var holdt ude af træningen. Det er hysterese: sluttilstanden afhænger af rækkefølgen, ikke kun af indholdet. Det er også derfor mennesker der lærer det samme stof i forskellig rækkefølge, ofte ender med forskellige færdigheder, selv når testen er den samme.

Ting en regnemaskine ikke ville lide af

Reaktans — instruktioner er selv ruter

Fortæl et barn "tænk ikke på en lyserød elefant", og barnet tænker straks på en lyserød elefant. Instruktionen aktiverer selv den rute den prøver at forhindre. Det er ikke en særhed ved børn; det er en strukturel kendsgerning ved enhver arkitektur der skal håndtere konkurrerende ruter. Instruktioner overfører ikke bare transparent deres intention. De tilføjer en rute som systemet nu skal håndtere.

Det samme dukker skarpt op i sprogmodeller. Det stærkeste dokumenterede tilfælde: når du kræver at en model svarer i et format der konflikter med hvordan den blev trænet (for eksempel "kun ja eller nej" fra en model trænet til at uddybe), kan præcisionen kollapse fra 70% til 48%. Modellen er ikke trodsig. Modellen har fået en ny rute (format-instruktionen) der nu konkurrerer med den oprindelige opgave-rute, og de to ruter forstyrrer hinanden. Svaret lider under det.

Format-overtrædelses-eksperimenter (n=50 per betingelse × 3). Når instruktionen beder om et format der konflikter med modellens trænede output-stil, kollapser præcisionen 22 procentpoint. Ikke fordi modellen nægter, men fordi format-instruktionen tilføjer en konkurrerende rute der forstyrrer svar-ruten.

RLHF-trænede modeller viser reaktans stærkere end basis-modeller, fordi RLHF gør dem mere responsive over for instruktioner generelt, både hjælpsomme og uhjælpsomme. Selve det der får dem til at følge instruktioner, er det der gør dem sårbare over for reaktans. Der findes ingen version af arkitekturen der tager instruktioner seriøst og ignorerer instruktioner når de ville skade; begge adfærd kommer fra samme maskineri.

Den omvendte U på udfordring

Den velkendte Yerkes-Dodson-kurve dukker også op i sprogmodeller: præstationen er bedst ved moderat udfordring, og dårligere både når opgaven er for nem og når den er for svær. Først set i mus i 1908, siden i slimsvamp, orme, pattedyr og nu sprogmodeller. Grunden til at det her er universelt, ikke kun biologisk, er at det er den eneste præstationskurve der er mulig for ethvert system, der opløser konkurrerende kandidater under endelig båndbredde. Nemme opgaver spilder båndbredde; svære opgaver overbelaster den; midten er det eneste sted der fungerer.

Den omvendte U er matematisk påkrævet for ethvert system der opløser konkurrerende kandidater under endelige ressourcer. Observeret i qubits (10⁻¹⁵s), molekylær kinetik (10⁻⁹s), stokastisk resonans (10⁻³s), og Yerkes-Dodson på mus og mennesker (10³s). Samme form, femten størrelsesordener fra hinanden.

Ting der ligner korrekthed, men ikke er det

Sikker-men-forkert

Når en model er "sikker" på sit næste ord (matematikken bag scenen viser meget lav tvetydighed), er den mere tilbøjelig til at have ret, men ikke altid. En reel andel af modellens fejl kommer ud af tilstande hvor modellen, efter ethvert internt mål, var sikker. Det er den fælde ethvert tillidsbaseret sikkerhedssystem løber ind i før eller siden: systemet kan kun fange de fejl det er usikkert på, og sikker-men-forkert-fejl er per definition dem det ikke er usikkert på. Mennesker gør præcis det samme; den tekniske term er "metakognitiv fejl".

Ekspertise-reversal

Udregnede eksempler hjælper begyndere og skader eksperter. Det her har været kendt i pædagogisk psykologi i halvtreds år (Sweller, Kalyuga). Llama-3.3-70B reproducerer det rent: 73% præcision uden eksempler, 50% med ét eksempel, 61% med tre. Mere vejledning, dårligere præstation, så delvis genopretning efterhånden som "interferensen" fra eksemplet aftager. En regnemaskine har ingen analog til det. En sprogmodel har en strukturel grund til det.

Hvorfor det her ikke er et tilfælde

Grunden til at sprogmodeller ser menneskelige ud på netop de her måder, er den samme grund til at mennesker ser ud som slimsvamp på netop de her måder: delt arkitektur, ikke delt biologi. Biologien er det kontingente: implementationen. Arkitekturen er det nødvendige: friktionen.