Modellen har næsten besluttet sig ved sit første ord
Paper 4D · Pødenphant Lund (2026) · Læs på Zenodo
En AI-model beslutter hvilken vej den går, før den har skrevet et eneste helt ord.En sprogmodel skriver sit svar ét ord ad gangen, fra venstre mod højre. Man skulle tro at den egentlige beslutning falder et sted undervejs, mens den regner tingene ud. Det gør den ikke. Allerede ved det første ord den producerer, har modellen i høj grad valgt hvilken vej til svaret den vil tage. Og det slående er at man kan aflæse, lige dér ved det første ord, hvor fast den har forpligtet sig. Modellen har næsten besluttet sig ved sit første ord, og beslutningen ligger lige for, hvis man ved hvor man skal kigge.
Sådan aflæser man forpligtelse ved første ord
Hver gang modellen skriver et ord, vælger den i virkeligheden mellem flere mulige næste ord, hver med en sandsynlighed. Som regel ser man kun vinderen. Men man kan også tælle hvor mange seriøse kandidater der stadig var med i kampen i det øjeblik. Det tal kalder jeg de konkurrerende ruter ved det første ord.
Aflæsningen er enkel. Hvis kun én kandidat bærer reel vægt, er tallet 1: modellen har forpligtet sig, én rute, ingen konkurrence. Hvis to eller flere kandidater stadig er i spil, er tallet 2 eller højere: modellen holder stadig sine muligheder åbne. Aflæst ved det allerførste ord fortæller tallet om modellen allerede har bestemt sig eller stadig er ved at beslutte sig.
En detalje er vigtig. Hvis man tager gennemsnittet af tallet hen over hele svaret, forsvinder signalet. Forpligtelsen sker ved starten og er væk inden for et ord eller to, så et gennemsnit over hele svaret viser ingenting, mens det første ord viser hele historien. Man skal kigge præcis det rigtige sted.
To knapper der styrer hvor forpligtet den er
Når man først kan aflæse forpligtelse ved første ord, kan man også begynde at styre den. Der er to separate knapper.
Træningsdybde sætter hvor forpligtet den er
Jo dybere en adfærd er trænet ind i modellens vægte, jo mere forpligtet bliver det første ord, og jo sværere er det for nogen senere instruktion at flytte den. Så aflæsningen ved første ord fungerer samtidig som et mål for hvor indtrænet en vane er: en dybt trænet rute viser sig som en forpligtet start som ingen mængde prompting kan åbne igen.
Pres-ord flytter hvor forpligtet den er
Her er en gåde. Praktikere ved at hvis man siger til en model "tag dig god tid, tænk det igennem", så ræsonnerer den mere omhyggeligt, og "svar med det samme, gå med din første indskydelse" får den til at snappe til et svar. Men modellen har ikke noget ur. Der er ingen reel tid at tage af. Ordene burde ikke gøre noget, og alligevel gør de tydeligvis.
Svaret er at pres-ordene virker som en temperatur-knap på modellens beslutning. Lavt pres ("tag dig god tid") holder de konkurrerende ruter åbne ved det første ord længe nok til at modellen kan finde et bedre svar. Højt pres ("svar nu") tvinger en øjeblikkelig forpligtelse. Hele effekten bæres af ordenes betydning, og den er synlig præcis hvor man ville forvente: ved det første ord springer tallet for konkurrerende ruter fra omkring 2,4 under lavt pres ned til 1 under højt pres.
Når pres-knappen hjælper, og når den slår fejl
At give modellen plads til at overveje er ikke altid godt. På en svær flertrins-ræsonneringsopgave hævede "tag dig god tid" nøjagtigheden mærkbart på dygtige modeller. Men på en opgave der var for svær for modellen at løse, lod den ekstra plads den blot tale sig selv fra et heldigt gæt, så overvejelse skadede. Og på en hurtig ettrins-opgave gjaldt det modsatte: "svar på instinkt" vandt, fordi opgaven var det hurtige valg, ikke en lang udledning. Samme ord, modsat effekt, alt efter hvad opgaven faktisk kræver.
Den reneste demonstration
De to knapper adskiller sig smukt i ét forsøg. Forskerne installerede den samme vane i en model på to måder: én gang som en prompt-instruktion (overfladisk) og én gang ved faktisk at fintune den ind i vægtene (dyb). På prompt-versionen kunne pres-ordene stadig åbne det første ord. På den fintunede version var det første ord låst uanset hvilket pres der blev lagt på. Samme vane, samme model, samme spørgsmål, og den eneste forskel var hvor dybt vanen var trænet ind. Det er træningsdybde-knappen, aflæst direkte på det første ord.
Endnu en nuance. Selv når det første ord er låst, kan modellens senere adfærd stadig skifte med pres. Så forpligtelse er ikke én ting ét sted. Der er det hurtige valg ved det første ord, og der er den langsommere overvejelse i selve svarets krop. Aflæsningen ved første ord fanger det hurtige valg; overvejelsen er et andet lag som fintuning ikke kan låse, og det er det der bærer nøjagtigheds-gevinsterne på dygtige modeller.
En ærlig grænse
Her er jeg omhyggelig med én ting. Temperatur-billedet handler om sprogmodellens egen beslutnings-fysik. Det er ikke en påstand om at modellen gengiver hvordan mennesker overvejer under pres. Hvor en menneskelig parallel er antydende, som at folk falder tilbage på vaner under pres, er den kun en løs analogi. Modellen illustrerer den tilfældigvis, den måler ikke mennesker.
Citat
Læs på Zenodo → · Teknisk version · Engelsk version
Relateret på sitet:
- Paper 1 (Friktionsteori) — rammeværket hvis idé om pres på en beslutning denne artikel måler ved det første ord.
- Paper 3 (Friktionsstyret inferens) — at bruge konkurrerende ruter til at afgøre hvornår en model skal have mere tid; denne artikel fastslår hvor beslutningen træffes.
- In-Context vs fintunet hukommelse — forskellen på en prompt-vane og en indtrænet vane, her aflæst direkte på det første ord.
- Paper 21 (Mount Stupid) — at aflæse en models selvtillid fra dens egne interne tal; aflæsningen ved første ord er ét sådant mål.