Finjustering skjuler gammel viden frem for at slette den

Paper 2F · Pødenphant Lund (2026) · Læs på Zenodo

Jeg bruger friktionsteori til at kigge ind i hvad en model faktisk gør når man "retter" den.Lær en sprogmodel en ny kendsgerning der modsiger noget den allerede vidste, og på overfladen giver den dig nu det nye svar. Det ser ud som om den gamle kendsgerning er væk. Men hvis man kigger ind i modellens egne tal, sidder det gamle svar der stadig, kun en anelse svagere, og konkurrerer stadig under overfladen. Modellen slettede ikke den gamle viden. Den lagde bare et højere nyt svar oven på den. Og fordi det gamle svar stadig er der, kan man se det komme tilbage.

Hvad man troede der skete

En udbredt måde at ændre hvad en model "tror" på er at træne den på den rettede information. Når rettelsen modsiger hvad modellen allerede vidste, siger man at modellen har aflært eller glemt den gamle kendsgerning. Det betyder noget for sikkerheden: at fjerne farlig viden fra en model er meningen at den faktisk skal fjernes.

Men "glemt" beskriver kun hvad modellen nu siger. Den sædvanlige måde at tjekke det på er at stille modellen et spørgsmål og se hvilket svar den giver. Det fortæller hvem der vandt. Det kan ikke fortælle om taberen stadig er til stede. Der er to vidt forskellige historier der ser ens ud udefra:

Slettet. Den gamle kendsgerning er reelt væk. En vellykket rettelse er en vellykket fjernelse.
Skjult. Den gamle kendsgerning er der stadig, bare overdøvet af en ny. Den kan komme tilbage i samme øjeblik konteksten skifter.

For sikkerheden er de to historier hinandens modsætning. Hvis en rettelse kun skjuler, så er "fjernet" farlig viden stadig derinde og venter. Så hvilken af de to er det?

En måde rent faktisk at se forskellen på

Modellen giver allerede svaret, hvis man læser det rigtige sted. Ved hvert trin vælger en model ikke ét enkelt ord; den giver hvert muligt ord et tillidstal. De konkurrerende kandidater er det friktionsteori kalder konkurrerende ruter. I stedet for kun at spørge "hvilket svar gav modellen?", følger dette arbejde to tal gennem træningen: modellens tillid til den gamle værdi og dens tillid til den nye værdi.

Det giver en ren test:

Skjulning (masking). Modellens tillid til den gamle værdi falder næsten ikke. Den nye værdi kravler bare op over den. Det gamle svar er der stadig; det tabte bare løbet.
Sletning (erasing). Modellens tillid til den gamle værdi styrter ned til næsten ingenting og bliver der. Det gamle svar er reelt væk.

For at sikre at det ikke bare er forskerens øjne, koger arbejdet det også ned til ét tal per kendsgerning, ved at sammenligne hvor meget den gamle værdis tillid faldt med kendsgerninger der aldrig blev modsagt (så al generel drift går ud med hinanden).

Forsøget

Opsætningen er enkel. Først lær modellen en række opdigtede kendsgerninger ("højden af Uxmon er 7 enheder") med opfundne navne, så modellen umuligt kan have kendt dem på forhånd. Træn den derefter på de samme kendsgerninger med en anden værdi, mens en kontrolgruppe lades urørt. Følg de to tillidstal hele vejen igennem. Det blev gjort på flere modeller af forskellig størrelse og fra forskellige familier, så resultatet ikke skyldtes en finte ved én model.

Hvad tallene viste

Den gamle kendsgerning skjules, slettes ikke. Efter den modsigende træning giver modellen selvsikkert det nye svar, præcis som ventet. Men dens tillid til det gamle svar rykker sig næsten ikke. På tværs af alle testede modeller blev ikke en eneste modsagt kendsgerning faktisk slettet. Det nye svar vandt ved at kravle op, ikke ved at skubbe det gamle svar ned.

Jo større overraskelsen er, jo større overstyringen. Når den nye kendsgerning var vildt forskellig fra den gamle (et større chok for modellen), svingede modellen hårdere over mod den. Rettelsens størrelse fulgte hvor overraskende den var. Det er modellen der lærer i forhold til hvor forkert den var, hvilket er det samme mønster man ser i hvordan dyr og hjerner lærer af forudsigelsesfejl.

Testen kan skelne sletning fra skjulning. En rimelig bekymring: måske siger metoden bare altid "skjult". Det gør den ikke. Da forskerne brugte et kirurgisk værktøj der redigerer en bestemt kendsgerning direkte ind i modellens vægte, læste den samme test slettet: den gamle værdis tillid styrtede ned med en enorm mængde og kom aldrig tilbage. Så metoden skelner reelt mellem de to tilfælde. Almindelig modsigende træning skjuler; en kirurgisk redigering sletter.

En stærkere gammel overbevisning gør mere modstand. Kendsgerninger som modellen kendte mere fast var sværere at overstyre. Rettelsen vandt stadig, men med en mindre margin. Stædighed er gradueret: jo fastere noget blev holdt, jo mere gjorde det modstand.

Det gamle svar blev aldrig rigtigt overskrevet, kun dækket til sent. Når man kigger lag for lag inde i netværket, beregnes det gamle svar næsten hele vejen igennem, og det nye svar males kun på helt til sidst, som et tyndt lag frisk maling over en intakt væg under. Modellen kunne have omskrevet de dybere lag, men valgte at lade være.

Det skjulte svar kommer tilbage. Fordi den gamle kendsgerning aldrig var væk, vender den let tilbage. At lære den oprindelige kendsgerning igen tog omkring syv gange færre trin end at lære den fra bunden. Og blot at ændre den omgivende formulering lod en del af det gamle svar dukke op af sig selv. Det er præcis hvad man ville vente af noget der blev skjult frem for slettet, og det er derfor "fjernet" viden i virkelige systemer bliver ved med at komme tilbage.

Det større billede

Det er ikke et nyt fænomen. I adfærdsneurovidenskaben brugte Mark Bouton årtier på at vise at en ændring af en adfærd ikke sletter den gamle. Den gamle reaktion holdes tilbage, slettes ikke, og den vender tilbage når konteksten skifter. Det samme sker inde i en sprogmodel. Forskellen er at man hos dyr og mennesker kun kan gætte sig til det ud fra adfærden, mens man i en sprogmodel kan læse det direkte af tallene. Modellen bliver et slags gennemsigtigt vindue ind til en proces vi i levende hjerner kun kan slutte os til.

Betyder det så, at træning aldrig kan slette gammel viden? Ikke nødvendigvis. Gamle kendsgerninger udkonkurreres, men et større eller længere træningsforløb kunne reelt slette, og den test blev ikke kørt her. Og det foreslår ikke en ny metode til at glemme. Det er en linse, et diagnoseværktøj og en bro mellem hvordan en model lærer og hvordan en hjerne gør.

Citat

Pødenphant Lund, T. (2026). Compete, Don't Erase: contradictory fine-tuning masks rather than deletes knowledge. Zenodo. https://doi.org/10.5281/zenodo.20570433

Læs på Zenodo → · Teknisk version · Plain English version

Relateret på sitet:

Paper 2B (ICL vs finjustering) — hvordan en model holder viden i kontekst kontra i sine vægte; den konkurrerende-ruter-idé denne artikel læser gennem træningen.
Paper 30 (Installerbare felter) — hvad træning installerer i en model; opbygnings-modstykket til denne artikels tildæknings-resultat.
Paper 4B (Substrater indkoder erfaring) — hvordan træning skriver erfaring ind i en model; denne artikel ser den skrivning ske kendsgerning for kendsgerning.
Paper 1 (Friktionsteori) — den konkurrerende-ruter-ramme hele denne aflæsning er bygget på.