Du lægger ikke fakta ind i modellen
Paper 4C · Pødenphant Lund (2026) · Læs på Zenodo
Jeg bruger friktionsteori til at forstå hvad man kan lære en model.Når du finjusterer en model, eller giver den et par eksempler i prompten, føles det som om du hælder information ind: fakta, viden, de rigtige svar. Det gør du ikke. Det du i virkeligheden gør, er at forme hvordan modellen hælder. Du lærer den en tilbøjelighed, en måde at svare på, ikke en samling fakta. De to mest almindelige måder folk forsøger at lære en model noget på installerer begge en disposition, ikke data, og at presse hårdere på "det her svar er bare mere korrekt" lægger ikke svaret ind. Det bøjer den vej modellen tager for at levere det den allerede ved.
To måder at lære en model noget på
Hvis du vil have en model til at gøre noget bestemt — tjekke om et spørgsmåls antagelser overhovedet er sande, sige "det ved jeg ikke" i stedet for at bluffe, kun forpligte sig når den er sikker — har du to dagligdags værktøjer:
- Finjustering. Du træner på eksempler, og den nye adfærd bliver bagt ind i modellens vægte. Den er der ved hver fremtidig brug, som en vane.
- In-context-læring. Du viser modellen en håndfuld eksempler direkte i prompten. Adfærden holder for det ene svar og er så væk igen, som en gul lap.
Folkloren siger at finjustering er det stærke, permanente værktøj, og prompt-eksempler det svage, midlertidige. Men der ligger noget mere grundlæggende under: de to værktøjer adskiller sig ikke bare i styrke. De adskiller sig i hvilken slags ting de overhovedet kan lægge ind i modellen.
Billedet: et landskab svaret flyder igennem
Forestil dig modellens muligheder som et landskab af dale. Når et spørgsmål kommer ind, flyder det nedad og lægger sig i den dal der trækker hårdest. Træning, eller et prompt-eksempel, omformer det landskab: det uddyber nogle dale og udjævner andre, og ændrer hvor svar har tendens til at lægge sig. Selve dataen er bare vand. Instruktionen er det der graver dalene. Rå fakta uden en instruktion til at forme dem har ingen steder at løbe hen.
Så når du "lærer" en model noget, laver du landskabsarbejde. Du ændrer hvordan den hælder, ikke fylder en tank op med fakta.
Det slående resultat: uddyb den forkerte dal, og modellen holder op med at svare
Det klareste tilfælde er et finjusterings-eksperiment på en stor model. Træn den på en kort, velpassende svar-stil, og den beholder næsten al sin generelle evne (den scorer 82% på en bred videnstest, mod 84% før træning). Træn den lige så meget på en omstændelig, dårligt passende stil, og den falder til 8% på den helt samme test.
Det afgørende her er ikke hvor meget data du brugte. Det er om den svar-stil du trænede passer til modellens naturlige måde at svare på. Den gode stil og den dårlige stil brugte samme model, samme mængde data, samme indstillinger. Kun formen på svaret var forskellig, og det alene afgjorde om modellen overlevede eller styrtede.
Styrtet ødelægger adfærden, ikke viden
Man ville gå ud fra at en score på 8% betyder at viden er væk. Det er den ikke. Når den styrtede model scores på en måde der går uden om hvordan den skriver sit svar (ved bare at læse hvilken mulighed den i det skjulte vurderer højest), får den 78%, næsten tilbage til normalen. Træningen slettede ikke det modellen ved. Den brød dens evne til at levere svaret i det forventede format. Modellen kender stadig svaret; den kan bare ikke få det ud ad døren længere, fordi den forkerte dal blev gravet så dyb at hvert spørgsmål ruller ned i den.
Du kan ikke hælde korrekthed ind ad denne vej. Du kan kun omforme landskabet, og hvis du omformer det dårligt, blokerer du udgangen.
Tvivls-eksemplet: du installerer forsigtighed, ikke nøjagtighed
En af de adfærdsformer folk allermest ønsker, er at en model sætter spørgsmålstegn ved en fejlagtig antagelse. Så holdet lærte modeller at tjekke præmisser, på begge måder. Resultatet: det gjorde dem ikke mere nøjagtige på svære ræsonnement-spørgsmål. Det det gjorde, var at gøre dem mere forsigtige: mere tilbøjelige til at sige "det ved jeg ikke" og mere tilbøjelige til at markere en falsk antagelse.
Den forsigtighed er ægte nyttig, men kun på den rigtige opgave. Hvis et spørgsmål har en skjult falsk antagelse, fanger forsigtigheden den. Hvis spørgsmålet er helt gyldigt og bare svært, får den samme forsigtighed modellen til at afvise et spørgsmål den kunne have svaret på. Så om det hjælper dig at lære en model forsigtighed afhænger helt af hvor mange af dine spørgsmål der indeholder falske antagelser. Der findes endda en formel for break-even-punktet.
Der er et twist værd at kende: moderne afstemte modeller er allerede meget gode til at opdage falske antagelser (de fanger 89–100% af dem fra start). Så at lære dem mere forsigtighed kan for det meste ikke forbedre opdagelsen, for pladsen til at forbedre er allerede brugt op. Stedet hvor forsigtighed for alvor burde hjælpe, er en rå, uafstemt model der endnu ikke har lært at tvivle.
En fælde værd at huske: trunkerings-luftspejlingen
Her er en måde man kan narre sig selv på, og den modsiger tidligere tal. Hvis du afskærer en models svar efter et fast antal ord, bliver en model der er lært at svare kort færdig inden for grænsen, mens en model der ræsonnerer skridt for skridt bliver skåret af før den når at sige sit svar, og scores forkert. Så den korte stil ser ud til at have løftet nøjagtigheden, mens alt den gjorde var at blive færdig i tide. Et tilsyneladende 10-points "løft" viste sig at være udelukkende denne effekt. Den billige løsning er at tjekke hvor ofte hver version faktisk forpligtede sig til et svar, ved siden af dens score.
Så hvad installerer fakta?
Intet af dette betyder at fakta aldrig kan installeres. Der findes dedikerede metoder der redigerer et faktum direkte ind i vægtene, rent, uden at ødelægge noget, og jeg viser en der gør netop det. Brug det rigtige værktøj til opgaven. Finjustering og prompt-eksempler er værktøjer til at forme dispositioner. Når du presser fakta gennem dem som var de en påfyldningsslange, lægger du ikke faktummet ind; du skader modellens levering af det den allerede vidste.
Hvorfor det betyder noget
Hvis du bygger med modeller, ændrer det hvad træning er til for. Finjustering og prompting er hvordan du former adfærd og tilbøjeligheder, ikke hvordan du lærer den nye fakta. Match værktøjet til opgaven, og tjek at den svar-stil du træner passer til modellen.
Hvis du studerer sind, er der et bredere vink. Undervisning former ofte hvordan en lærende hælder, snarere end at lægge fakta i opbevaring, og at presse for hårdt mod en lærendes natur kan bryde leveringen mens viden forbliver intakt.
Citat
Læs på Zenodo → · Teknisk version · Plain English version
Relateret på sitet:
- Paper 2B (ICL vs finjustering som hukommelse) — in-context-læring som arbejdshukommelse, finjustering som langtidshukommelse.
- Paper 30 (Installerbare felter) — at installere en funktion i en model, og hvad en finjustering kan og ikke kan lægge ind.
- Paper 1 (Friktionsteori) — ideen om konkurrerende ruter som landskabsbilledet er bygget på.
- Kapacitets-skalering — hvorfor omkostningen ved at lære forsigtighed afhænger af hvor kapabel modellen er.