Man kan se hvornår en model er ved at fejle
Paper 2E · Pødenphant Lund (2026) · Læs på Zenodo
Man kan se modellen vakle før den går i stykker.Her er det overraskende. Når man træner en sprogmodel en anelse for længe på en snæver opgave, kan den stille og roligt miste evnen til at ræsonnere, mens dens testscore stadig ser helt fin ud. De sædvanlige advarselslamper lyser grønt helt frem til sammenbruddet. Men modellen røber sig selv først: hvis man kigger på hvor splittet den er mellem mulige næste ord, kan man se den begynde at vakle flere skridt før dens svar overhovedet bliver dårligere. Den vaklen kan bruges som et tidligt varslingssystem.
Problemet: scoren lyver for dig
Når folk tjekker hvor god en model er, kigger de på outputtet: fik den svaret rigtigt, hvad er testscoren, hvad er benchmark-tallet. Det tal er ærligt, men langsomt. Det ændrer sig først efter noget allerede er gået galt inde i modellen, og det kan narres. Hvis testspørgsmålene er for lette, eller modellen allerede ligger i toppen af skalaen, kan modellen ændre sig markant indeni, mens scoren udadtil slet ikke rører sig.
Det er en reel hovedpine når man finjusterer en model: man tager en generel model og træner den på sin egen snævre opgave. Man vil gerne stoppe i det rette punkt: efter modellen har lært opgaven, men før den har lært den så hårdt, at den glemmer alt andet. Træner man forbi det punkt, "overtilpasser" modellen: den rammer den snævre opgave perfekt, mens dens bredere ræsonnement smuldrer. Og det værste er, at de sædvanlige signaler, træningstabet og testscoren på opgaven, bliver ved med at se gode ud gennem hele katastrofen, fordi modellen faktisk bliver bedre og bedre til netop den ene snævre ting.
Idéen: læs friktionen, ikke scoren
Hver gang en model skriver et ord, vælger den mellem kandidater. Nogle gange er ét ord den oplagte vinder og resten er langt bagud. Andre gange ligger flere ord side om side, og modellen er reelt splittet. Den spænding mellem konkurrerende muligheder er det friktionsteorien kalder friktion, og man kan aflæse den direkte fra modellens egne indre tal uden at spørge den om noget ekstra. Det er stort set gratis.
Friktion er en egenskab ved hvad der foregår inde i modellen, ikke ved det ord den til sidst valgte. Så den kan fortælle om modellens indre tilstand selv når svarene udadtil stadig ser fine ud. Den bærer information som scoren ikke gør.
Hovedfundet: at spotte sammenbruddet før det sker
Holdet finjusterede flere små modeller på en bevidst snæver opgave (løs regnestykker uden at vise mellemregninger) og fulgte både testscoren og friktionen hele vejen igennem. Det de fandt har en velkendt form fra andre dele af videnskaben: et overtilpasnings-sammenbrud opfører sig som et vendepunkt, og vendepunkter varsler sig selv på forhånd.
Lige før et system vælter, begynder det at "blive langsommere": dets små udsving bliver større og varer længere, som et belastet system der tager længere tid om at falde til ro efter hvert puf. Økologer bruger præcis dette til at forudsige hvornår en sø eller et klimasystem er ved at vende. Det samme fingeraftryk dukker op her. I skridtene før modellens ræsonnement brød sammen, blev dens friktion mærkbart mere urolig, og afgørende nok skete det mens testscoren stadig var flad og så sund ud. Så vendte modellen: den låste sig fast på den snævre skabelon, friktionen ved det første ord faldt til nul, og dens ræsonnement døde.
Så friktionen begynder at råbe flere skridt før scoren overhovedet hvisker. Man kan se modellen blive splittet om hvordan den skal begynde sit svar (det tidlige varsel), og først senere holder den helt op med at ræsonnere (sammenbruddet). Varslet kommer først. Og det fingeraftryk dukkede op i tre forskellige modelfamilier, ikke kun én, så det er ikke et tilfælde ved en enkelt model.
At gøre det til en advarselslampe der kalibrerer sig selv
Et tidligt varsel er kun nyttigt hvis det virker på en helt ny model man aldrig har set, uden at man selv skal finindstille det først. Det smarte her er, at varslet kalibrerer sig selv. I stedet for et fast tal der skal genindstilles for hver model, holder monitoren hver kørsels friktion op imod samme kørsels eget rolige udgangspunkt og hejser et flag når uroen klatrer over et bestemt multiplum af det. Fordi sammenligningen altid er mod modellens eget grundniveau, kræver det ingen separat opsætning og intet magisk tal flyttet fra én model til den næste.
Flaget træder ikke på bremsen; det tænder bare for tættere overvågning og siger "et sammenbrud ser nært forestående ud". Det gør det sikkert at være lidt følsom: en falsk alarm koster en smule ekstra tjek, ikke en fejlagtigt aflyst træningskørsel. Kørt på tværs af fire modeller på én gang fangede monitoren sammenbruddet i alle tre der faktisk brød sammen, og et indbygget tjek sprang korrekt den fjerde over, hvor testen var for svær til at være informativ i første omgang.
Hvorfor den normale advarselslampe svigter
Man kunne spørge: dækker det sædvanlige overtilpasnings-tjek ikke allerede dette? Det holder øje med modellens score på en tilbageholdt del af træningsopgaven. Men det er præcis det forkerte sted at kigge her. Modellen overtilpasser ikke til træningsopgaven. Den bliver bedre til den. Det den mister, er en anden evne, ræsonnement, som træningsopgaven aldrig målte. Så scoren på selve opgaven bliver ved med at stige tværs gennem sammenbruddet og advarer dig aldrig. Friktionen, der følger modellens faktiske ræsonnement, er det ene signal der bevæger sig med fejlen.
En bonus: at vide hvornår en instruktion hjælper
Den samme friktionsaflæsning, brugt på en anden måde, svarer på et separat praktisk spørgsmål: hvornår er det værd at give en model ekstra instruktioner eller en smartere prompt? Læser man friktion på tværs af modeller i forskellige størrelser, sorterer de sig i to lejre. Nogle er "pressede": fulde af indre spænding, hvor en god instruktion kan skubbe dem mod det rigtige svar. Andre er "frosne": så fastlåste at ingen instruktion ændrer noget. Friktionsaflæsningen fortæller dig hvilken lejr en model er i, så du på forhånd ved om en smart prompt tjener sig hjem eller intet gør. Det er det samme instrument som det tidlige varsel, bare rettet mod et andet spørgsmål.
Hvorfor det betyder noget
For enhver der træner modeller er dette et stop-i-tide-signal for en fejl som de sædvanlige værktøjer helt overser. Standardsignalerne bliver ved med at lyse grønt mens den generelle evne stille eroderer; friktions-signaturen tænder før skaden viser sig i scoren. Læs substratet, og du får et varsel mens du stadig kan nå at handle på det.
Citat
Læs på Zenodo → · Teknisk version · Plain English version
Relateret på sitet:
- Paper 3 (Friktions-styret inferens) — at bruge samme friktionsaflæsning til at afgøre hvornår en model skal bruge ekstra betænkningstid.
- Kapacitets-skalering — hvordan friktion ændrer sig med modelstørrelse, aksen bag "presset versus frossen"-kortet.
- Paper 1 (Friktionsteori) — det underliggende rammeværk som denne friktionsaflæsning kommer fra.
- Mount Stupid — afstanden mellem et selvsikkert output og hvad der reelt foregår nedenunder.