Sprogmodeller er ikke regnemaskiner
Alt det der ville virke mærkeligt, hvis man troede de bare var hurtige regneark
Man behandler tit en sprogmodel som en meget hurtig regnemaskine: giv den tekst, den regner, du får tekst tilbage. Så skulle mere information altid hjælpe, mere forklaring altid lære den bedre, og hvis den siger den er sikker, er den nok rigtig.
Ingen af de ting holder. Sprogmodeller opfører sig meget mere som mennesker end som regnemaskiner. De bliver overbelastet af for meget information. De bliver forvirrede af for meget forklaring. De bliver forankret af det første, de siger. De får reaktans når man fortæller dem hvad de skal gøre. De viser den samme omvendt-U-kurve på udfordringsniveau som mus gør. Og deres erklærede sikkerhed og deres faktiske præcision falder fra hinanden på specifikke, forudsigelige måder.
Forklaringen er en egenskab sprogmodeller deler med hjerner: de afgør konkurrerende svar under begrænset båndbredde, én beslutning ad gangen. Når først den arkitektur er på plads, følger en bestemt række overraskelser af sig selv.
Ting en regnemaskine ikke ville gøre
Information overload
Hvis du beder en regnemaskine om at lægge 100 tal sammen, bliver den ikke dårligere til svaret når du giver den yderligere 50 relevante tal. Det gør sprogmodeller. Forbi en vis mængde kontekst falder præcisionen efterhånden som du tilføjer mere materiale, selv når det ekstra materiale er korrekt, relevant og velskrevet. Modellen løber ikke tør for plads. Det ekstra materiale konkurrerer med det svar-relevante om den samme begrænsede båndbredde. Den model der vidste svaret med 500 ord, kan tage fejl med 5.000.
Overforklarings-effekten
Tag et udregnet eksempel. Gør det mere grundigt: flere trin, mere kommentar, mere omhyggelig indramning af hvad der vises. Man ville forvente at eleven gør det bedre. Ofte gør de det værre. Det gælder for menneskelige elever og det gælder for sprogmodeller der bliver finjusteret på eksemplet. Årsagen er den samme i begge tilfælde: uddybningen konkurrerer med selve princippet om pladsen til at lære. Et kortere, mindre fuldstændigt eksempel lærer ofte bedre.
Fuldstændighed og lærbarhed er ikke samme egenskab
Det føles intuitivt at den mest informationsrige besked også er den mest lærbare. Det er den ikke. Fuldstændighed er en egenskab ved afsenderen: om man har pakket det hele med. Lærbarhed er en egenskab ved modtageren: om der er plads nok til at lære det. En perfekt fuldstændig besked kan være ulærbar; en ufuldstændig besked kan lære smukt. De to egenskaber bytter pris, og prisen afhænger af modtageren, ikke af afsenderen.
Forankring — det første ord former resten
Det første en sprogmodel siger, farver alt det den siger bagefter. Det er ikke en bug; det er en egenskab ved ethvert system der genererer ét token ad gangen, hvor hvert token påvirker den fordeling som det næste trækkes fra. Tversky og Kahneman dokumenterede det her i mennesker i 1970'erne og fik en Nobelpris for det. Sprogmodeller gør præcis det samme, og du kan måle det direkte: ændr kun det første valgte token, og det endelige svar ændrer sig i ikke-trivielle rater.
Sti-afhængighed — ruten gennem træningen betyder noget
Tag de samme træningsdata. Vis dem til modellen i to forskellige rækkefølger. Du får to forskellige modeller med målbare forskelle på den samme test, som var holdt ude af træningen. Det er hysterese: sluttilstanden afhænger af rækkefølgen, ikke kun af indholdet. Det er også derfor mennesker der lærer det samme stof i forskellig rækkefølge, ofte ender med forskellige færdigheder, selv når testen er den samme.
Ting en regnemaskine ikke ville lide af
Reaktans — instruktioner er selv ruter
Fortæl et barn "tænk ikke på en lyserød elefant", og barnet tænker straks på en lyserød elefant. Instruktionen aktiverer selv den rute den prøver at forhindre. Det er ikke en særhed ved børn; det er en strukturel kendsgerning ved enhver arkitektur der skal håndtere konkurrerende ruter. Instruktioner overfører ikke bare transparent deres intention. De tilføjer en rute som systemet nu skal håndtere.
Det samme dukker skarpt op i sprogmodeller. Det stærkeste dokumenterede tilfælde: når du kræver at en model svarer i et format der konflikter med hvordan den blev trænet (for eksempel "kun ja eller nej" fra en model trænet til at uddybe), kan præcisionen kollapse fra 70% til 48%. Modellen er ikke trodsig. Modellen har fået en ny rute (format-instruktionen) der nu konkurrerer med den oprindelige opgave-rute, og de to ruter forstyrrer hinanden. Svaret lider under det.
RLHF-trænede modeller viser reaktans stærkere end basis-modeller, fordi RLHF gør dem mere responsive over for instruktioner generelt, både hjælpsomme og uhjælpsomme. Selve det der får dem til at følge instruktioner, er det der gør dem sårbare over for reaktans. Der findes ingen version af arkitekturen der tager instruktioner seriøst og ignorerer instruktioner når de ville skade; begge adfærd kommer fra samme maskineri.
Den omvendte U på udfordring
Den velkendte Yerkes-Dodson-kurve dukker også op i sprogmodeller: præstationen er bedst ved moderat udfordring, og dårligere både når opgaven er for nem og når den er for svær. Først set i mus i 1908, siden i slimsvamp, orme, pattedyr og nu sprogmodeller. Grunden til at det her er universelt, ikke kun biologisk, er at det er den eneste præstationskurve der er mulig for ethvert system, der opløser konkurrerende kandidater under endelig båndbredde. Nemme opgaver spilder båndbredde; svære opgaver overbelaster den; midten er det eneste sted der fungerer.
37%-reglen — en iboende eksplorations-rate
Der findes et berømt matematisk problem kaldet "sekretær-problemet": du interviewer kandidater én ad gangen og skal beslutte dig på stedet. Den optimale strategi er at se på de første 37% og afvise dem alle, og så acceptere den næste kandidat der er bedre end nogen du har set indtil videre. Basis-sprogmodeller, før reinforcement learning gør dem mere venlige, sampler cirka 37% af muligheder før de vælger. Ikke fordi de er trænet på sekretær-problemet, men fordi 37% er den matematisk optimale sampling-rate for ethvert system med endelig tid og den slags beslutningsarkitektur, de har.
Ting der ligner korrekthed, men ikke er det
Sikker-men-forkert
Når en model er "sikker" på sit næste ord (matematikken bag scenen viser meget lav tvetydighed), er den mere tilbøjelig til at have ret, men ikke altid. En reel andel af modellens fejl kommer ud af tilstande hvor modellen, efter ethvert internt mål, var sikker. Det er den fælde ethvert tillidsbaseret sikkerhedssystem løber ind i før eller siden: systemet kan kun fange de fejl det er usikkert på, og sikker-men-forkert-fejl er per definition dem det ikke er usikkert på. Mennesker gør præcis det samme; den tekniske term er "metakognitiv fejl".
Ekspertise-reversal
Udregnede eksempler hjælper begyndere og skader eksperter. Det her har været kendt i pædagogisk psykologi i halvtreds år (Sweller, Kalyuga). Llama-3.3-70B reproducerer det rent: 73% præcision uden eksempler, 50% med ét eksempel, 61% med tre. Mere vejledning, dårligere præstation, så delvis genopretning efterhånden som "interferensen" fra eksemplet aftager. En regnemaskine har ingen analog til det. En sprogmodel har en strukturel grund til det.
Hvorfor det her ikke er et tilfælde
Grunden til at sprogmodeller ser menneskelige ud på netop de her måder, er den samme grund til at mennesker ser ud som slimsvamp på netop de her måder: delt arkitektur, ikke delt biologi. Biologien er det kontingente: implementationen. Arkitekturen er det nødvendige: friktionen.