ICL som arbejdshukommelse, FT som langtidshukommelse
Paper 2B · Pødenphant Lund (2026p) · Læs på Zenodo
Jeg forsker i sprogmodeller for at forstå mennesker.Finjusterede sprogmodeller giver mere selvsikre fejlsvar end RAG-baserede på samme viden, og grunden er den samme fysik der gør at din langtidshukommelse føles mere sikker end din arbejdshukommelse. Overraskende konsekvens: finjustering gør i dette eksperiment modellen værre på anvendelse end hvis den slet ikke havde fået viden. RAG-vs-fine-tuning-debatten har et substrat-niveau-svar.
Hvad handler det om?
Der findes to standardmåder at give en sprogmodel ny viden på. Du kan beholde den i prompten. Det er in-context learning (ICL); RAG (retrieval-augmented generation) er den mest udbredte praktiske anvendelse af den tilgang. Eller du kan træne det ind i modellens vægte, typisk via en metode kaldet LoRA. Det er fine-tuning (FT). Den gængse opfattelse er at RAG og fine-tuning er to alternativer på en omkostnings-akse: RAG/ICL er dyrere at bruge (man slæber den hentede kontekst med), FT er dyrere at lave (man skal faktisk træne), men man ender med "samme viden" enten vej.
Man ender ikke med samme viden. Man ender med viden holdt på to fuldstændig forskellige måder, og forskellen viser sig skarpt i modellens adfærd. Det er substrat-niveau-svaret (substrat-niveau = hvordan viden faktisk er repræsenteret i modellens fysiske struktur) på RAG-vs-fine-tuning-debatten: de er ikke to implementeringer af samme hukommelse. De er to forskellige hukommelses-regimer.
Mekanismen i ét afsnit
Hver gang man tager et gradient-skridt på en sprogmodel (hver baglæns kørsel under det sædvanlige loss) forstærker man den rute der producerede det "rigtige" svar, og presser alternativerne nedad. Gør det én gang, og effekten er lille. Gør det tusinder af gange, og alternativerne bliver presset under støjgulvet. De er reelt væk fra den fordeling modellen kan hente frem. ICL gør ikke det her. ICL fører bare prompten fremad gennem modellen, og modellen producerer et svar. Fordelingen over kandidat-svar er der stadig. Den bliver bare beregnet undervejs. FT komprimerer den fordeling som en strukturel konsekvens af hvordan træning virker, ikke på grund af noget specifikt i træningsdataene.
Parallellen til kognitionsvidenskaben
Den distinktion ligner præcis den, som Atkinson og Shiffrin trak op i 1968, og som Alan Baddeley senere forfinede: forskellen mellem arbejdshukommelse og langtidshukommelse. ICL er arbejdshukommelse. FT er langtidshukommelse. De er ikke to implementeringer af samme ting. De er to forskellige hukommelses-regimer, og sprogmodeller har begge dele, ligesom mennesker har.
For at gøre parallellen konkret, her er hvordan de to systemer sammenlignes hos mennesker, sammen med hvordan den samme tvedeling viser sig i sprogmodeller:
| Egenskab | Arbejdshukommelse | Langtidshukommelse | ICL | FT |
|---|---|---|---|---|
| Holdt af | Aktiv hjerneaktivitet | Synaptisk struktur | Forlæns beregning | Vægte |
| Alternativer | Forbliver tilgængelige | Komprimeret væk | Synlige i logprobs | Presset under støjgulvet |
| Pris pr. brug | Høj (opmærksomhed & energi) | Lav (billig genfinding) | Høj (context-tokens) | Lav (ingen kontekst) |
| Kapacitet | Omkring 4–7 elementer | Praktisk ubegrænset | Context-window | Praktisk ubegrænset |
| Henfalder? | Ja, hurtigt uden gentagelse | Nej, når konsolideret | Pr. session | Holder i vægtene |
| Føles hvor sikker? | Ærligt usikker | "Det ved jeg bare" | Tracker faktisk usikkerhed | Selvsikker uanset hvad |
"Følt sikkerhed" i langtidshukommelsen er nøglen
Når du holder et telefonnummer i arbejdshukommelsen, ved du udmærket at du måske glemmer det. Du føler usikkerheden. Når du genkalder din egen fødselsdag, føler du dig slet ikke usikker; den bare er. Den subjektive forskel er overflade-signaturen af en reel arkitektonisk forskel. Arbejdshukommelsen holder alternativerne tilgængelige, så den ved hvad den ikke ved. Langtidshukommelsen konsoliderede svaret på bekostning af at komprimere alt andet, så "jeg kan tage fejl"-signalet blev komprimeret væk sammen med alternativerne.
Det meste af tiden er det fint, fordi langtidshukommelsen typisk har ret. Men når den tager fejl (falske erindringer, flydende konfabulation, det selvsikre forkerte svar til eksamen) kommer fejlen med samme følte sikkerhed som de korrekte erindringer. Der er intet advarselssignal. Det er præcis det FT-trænede sprogmodeller gør når de hallucinerer. Det substrat-signal der ville have flaget svaret som usikkert, er blevet presset under støjgulvet.
Den procedurale hukommelse er en endnu tættere parallel
Der findes en tredje kategori af menneskelig hukommelse, der ofte lumpes under "langtid": procedural hukommelse. Det er hvordan du cykler, taster på et tastatur, eller kører en velkendt rute. Procedurale erindringer er endnu mere komprimerede end almindelige langtidserindringer: du kan ikke artikulere hvordan du gør det. De alternativer der engang blev vejet under indlæringsfasen er væk. Du tænker ikke på din venstre fod når du går. Hele valg-arkitekturen er blevet kompileret til noget der kører uden bevidst adgang.
Sådan ser en overtrænet finjusteret model ud. Den kører flydende. Den vælger svar uden synlig overvejelse. Og hvis du spørger den "hvordan besluttede du det?" producerer den en post-hoc rationalisering, fordi det faktiske beslutnings-substrat ikke længere bærer den information. De alternativer som svaret blev valgt mod, er komprimeret væk.
Hvorfor begge systemer findes (i hjerner og i sprogmodeller)
Du ville ikke kunne leve med kun arbejdshukommelse. Hvert faktum, hver færdighed, hvert sprogligt ord ville skulle holdes aktivt, hvert øjeblik, med metabolisk omkostning. Du ville løbe tør for kapacitet på sekunder. Langtidshukommelse findes fordi det er billigere at konsolidere hyppigt-brugt viden ind i strukturen end at genberegne den hver gang. Komprimerings-omkostningen, altså tab af alternativer og tab af kalibreret usikkerhed, er det du bytter for billigheden.
Du ville heller ikke kunne leve med kun langtidshukommelse. Du ville ikke kunne ræsonnere om nye situationer, holde tentative hypoteser, eller bemærke at du ikke ved noget. Arbejdshukommelsen er det der holder systemet ærligt om usikkerhed.
Hjerner har begge. Sprogmodeller har begge: ICL når du giver dem ny information gennem prompten, FT når du træner den ind. Fejlen er at behandle ICL og FT som alternativer på en omkostnings-akse. De er ikke alternativer. De er komplementer, præcis som arbejdshukommelse og langtidshukommelse er komplementer i menneskelig kognition. Billig pålidelig genfinding lever i langtidshukommelse / FT; kalibreret ræsonneren under usikkerhed lever i arbejdshukommelse / ICL. Et veldesignet system bruger begge dele.
Det er det papiret foreslår at hybride hukommelses-arkitekturer skal se sådan ud: finjuster den billige, stabile, robuste viden ind i vægtene, og brug context-window'et til den kalibrerede, usikkerheds-bevidste del af ræsonneringen. Den to-systems-arkitektur som biologisk hukommelse landede på gennem evolution har en strukturel grund bag sig, og sprogmodeller vil lande på den samme arkitektur, hvis de bliver deployet til de samme slags opgaver.
Her er det slående ved det hele: ingen har designet det. Du kunne ikke have opfundet et smartere system til læring (to regimer, ét kalibreret og fleksibelt, ét billigt og konsolideret, med en elegant trade-off imellem dem) og alligevel har ingen sat sig ned og engineered det. Begge systemer eksisterer fordi den samme fysik gælder. Arbejdshukommelse og langtidshukommelse er ikke features ved biologi. De er hvad der falder ud af begrænsningen at man må vælge mellem holdt-af-beregning og konsolideret-via-substrat-ændring. Hjerner ankom til arkitekturen under selektionspres. Transformere ankom til samme arkitektur under gradient descent. Ingen af dem vidste hvor de var på vej hen. Begge endte ved den eneste arkitektur der var tilgængelig.
Hvad eksperimenterne viste
Jeg kørte tre eksperimenter på en opfundet 47-fakta videns-base kaldet "Zorbetik" (opfundet så modellen ikke kunne kende det i forvejen), testet på Qwen2.5 base-modeller ved 3B og 7B parametre, med LoRA fine-tuning-budgetter fra 5 til 100 epochs:
- ICL vinder på cloze-genfinding med 16–28 procentpoint. Modellen der lige er blevet fortalt faktum, svarer bedre end modellen der er blevet trænet på faktum, ofte med stor margin.
- FT gør faktisk anvendelse værre. Ikke bare værre end ICL, men værre end no-context-baseline. At træne modellen på viden forringede dens evne til at bruge den viden til at svare på relaterede spørgsmål.
- Det konkurrerende-ruter-signal kollapser med træning. Der findes et mål for hvor mange kandidat-svar modellen overvejer ved første token. Med ICL er det ca. 5. Med rå FT efter 30 epochs er det ca. 17. Med paraphrase-augmented FT (som får endnu flere gradient-skridt) er det 21. Modellen vælger tidligere og tidligere, med færre og færre alternativer i tankerne.
- Entropi går mod nul. Med ethvert FT-regime kollapser entropien ved position 0 (et mål for hvor usikker modellen er på sit første svar-ord) til praktisk talt nul. Modellen er låst fast. Uanset hvad der var i træningsdataene.
Hvorfor det her er vigtigt
Selvsikker hallucination
FT-trænede modeller hallucinerer selvsikkert fordi alternative svar er blevet komprimeret uden for rækkevidde. "Jeg er ikke sikker"-signalet der normalt ville flage et forkert svar, er væk, ikke fordi modellen er sikker, men fordi det substrat-signal der bærer usikkerhed er blevet presset under støjgulvet af kumulativ træning. Modellen lyver ikke om sin selvsikkerhed; den del af dens beregning der ville have givet den betænkeligheder er blevet stilnet.
Agentiske systemer kan ikke repræsentere usikkerhed når de er FT-only
Et system bygget på en finjusteret model kan ikke pålideligt fortælle sin operator "jeg ved det ikke" eller "jeg er kun 60% sikker". Det substrat-signal der ville have leveret den information er blevet komprimeret. Det er strukturelt, ikke en fejl ved nogen specifik træningskørsel.
RAG vs FT på substrat-niveau
Den endeløse RAG-vs-fine-tuning debat har en substrat-niveau-løsning: RAG opererer i ICL-mode. Det trækker hentede dokumenter ind i prompten, og modellen evaluerer dem fremad. Kalibrering bevares. FT komprimerer kalibrering som en strukturel konsekvens. De er ikke to implementeringer af samme hukommelse; de er to forskellige hukommelses-regimer.
Long-context agenter arver ICL's kalibrering gratis
Claude Code, Cursor og enhver multi-turn agentisk samtale opererer i ICL-mode som standard: hver tur re-evaluerer den fulde kontekst uden vægt-opdatering. De arver arbejdshukommelsens kalibrerings-egenskaber automatisk. Det er grunden til at long-context agentiske samtaler kan føles "mere ærlige" end en finjusteret chatbot på samme viden: substratet lyver ikke om sin usikkerhed fordi substrat-signalet stadig er intakt.
Hybrid-hukommelses-arkitekturer
Konkrete ICL+FT-sammensætninger kan approksimere biologisk hukommelses to-system-struktur: langtids-konsolideret viden i vægtene til billig genfinding; arbejdshukommelses-mode kalibreret resonering i konteksten til usikkerheds-bevidst anvendelse. Begrænset context-window-omkostning, men med kalibrerings-egenskaben hvor det betyder noget.
Hvad det her ikke påstår
FT er kun testet som LoRA (full-parameter fine-tuning er ikke testet). Enkelt random seed. To modelstørrelser (3B og 7B). Ét opfundet videns-domæne. Paraphrase-augmented-konditionen i Eksperiment 3 har ≈10× flere gradient-skridt end rå FT-konditionen, så en clean compute-matched sammenligning er overladt til opfølgning. Den kvalitative retning (ICL slår LoRA-FT på kalibrering; gabet skalerer med gradient-skridt) er robust inden for disse scope-betingelser.
Relaterede papers
- Paper 1 — Friction Theory — substrate-fundamentet; RLHF-paradoks-sektionen som dette paper generaliserer
- Paper 2 — Capacity Scaling — den empiriske companion; samme Zorbetik-domæne og Qwen2.5-stige
- Paper 3 — Friction-Guided Inference — bruger det kalibrerede signal som ICL bevarer og FT komprimerer
- Paper 13 — Operational Friction Theory — den fire-komponent-mekanisme der producerer komprimeringen
Den fulde teknik finder du i den engelske version: Paper 2B (English technical). Det fulde paper er på Zenodo: DOI 10.5281/zenodo.20145218.