ICL som arbejdshukommelse, FT som langtidshukommelse

Paper 2B · Pødenphant Lund (2026p) · Læs på Zenodo

Jeg forsker i sprogmodeller for at forstå mennesker.Finjusterede sprogmodeller giver mere selvsikre fejlsvar end RAG-baserede på samme viden, og grunden er den samme fysik der gør at din langtidshukommelse føles mere sikker end din arbejdshukommelse. Overraskende konsekvens: finjustering gør i dette eksperiment modellen værre på anvendelse end hvis den slet ikke havde fået viden. RAG-vs-fine-tuning-debatten har et substrat-niveau-svar.

Hvad handler det om?

Der findes to standardmåder at give en sprogmodel ny viden på. Du kan beholde den i prompten. Det er in-context learning (ICL); RAG (retrieval-augmented generation) er den mest udbredte praktiske anvendelse af den tilgang. Eller du kan træne det ind i modellens vægte, typisk via en metode kaldet LoRA. Det er fine-tuning (FT). Den gængse opfattelse er at RAG og fine-tuning er to alternativer på en omkostnings-akse: RAG/ICL er dyrere at bruge (man slæber den hentede kontekst med), FT er dyrere at lave (man skal faktisk træne), men man ender med "samme viden" enten vej.

Man ender ikke med samme viden. Man ender med viden holdt på to fuldstændig forskellige måder, og forskellen viser sig skarpt i modellens adfærd. Det er substrat-niveau-svaret (substrat-niveau = hvordan viden faktisk er repræsenteret i modellens fysiske struktur) på RAG-vs-fine-tuning-debatten: de er ikke to implementeringer af samme hukommelse. De er to forskellige hukommelses-regimer.

Mekanismen i ét afsnit

Hver gang man tager et gradient-skridt på en sprogmodel (hver baglæns kørsel under det sædvanlige loss) forstærker man den rute der producerede det "rigtige" svar, og presser alternativerne nedad. Gør det én gang, og effekten er lille. Gør det tusinder af gange, og alternativerne bliver presset under støjgulvet. De er reelt væk fra den fordeling modellen kan hente frem. ICL gør ikke det her. ICL fører bare prompten fremad gennem modellen, og modellen producerer et svar. Fordelingen over kandidat-svar er der stadig. Den bliver bare beregnet undervejs. FT komprimerer den fordeling som en strukturel konsekvens af hvordan træning virker, ikke på grund af noget specifikt i træningsdataene.

Parallellen til kognitionsvidenskaben

Den distinktion ligner præcis den, som Atkinson og Shiffrin trak op i 1968, og som Alan Baddeley senere forfinede: forskellen mellem arbejdshukommelse og langtidshukommelse. ICL er arbejdshukommelse. FT er langtidshukommelse. De er ikke to implementeringer af samme ting. De er to forskellige hukommelses-regimer, og sprogmodeller har begge dele, ligesom mennesker har.

For at gøre parallellen konkret, her er hvordan de to systemer sammenlignes hos mennesker, sammen med hvordan den samme tvedeling viser sig i sprogmodeller:

EgenskabArbejdshukommelseLangtidshukommelseICLFT
Holdt afAktiv hjerneaktivitetSynaptisk strukturForlæns beregningVægte
AlternativerForbliver tilgængeligeKomprimeret vækSynlige i logprobsPresset under støjgulvet
Pris pr. brugHøj (opmærksomhed & energi)Lav (billig genfinding)Høj (context-tokens)Lav (ingen kontekst)
KapacitetOmkring 4–7 elementerPraktisk ubegrænsetContext-windowPraktisk ubegrænset
Henfalder?Ja, hurtigt uden gentagelseNej, når konsolideretPr. sessionHolder i vægtene
Føles hvor sikker?Ærligt usikker"Det ved jeg bare"Tracker faktisk usikkerhedSelvsikker uanset hvad

"Følt sikkerhed" i langtidshukommelsen er nøglen

Når du holder et telefonnummer i arbejdshukommelsen, ved du udmærket at du måske glemmer det. Du føler usikkerheden. Når du genkalder din egen fødselsdag, føler du dig slet ikke usikker; den bare er. Den subjektive forskel er overflade-signaturen af en reel arkitektonisk forskel. Arbejdshukommelsen holder alternativerne tilgængelige, så den ved hvad den ikke ved. Langtidshukommelsen konsoliderede svaret på bekostning af at komprimere alt andet, så "jeg kan tage fejl"-signalet blev komprimeret væk sammen med alternativerne.

Det meste af tiden er det fint, fordi langtidshukommelsen typisk har ret. Men når den tager fejl (falske erindringer, flydende konfabulation, det selvsikre forkerte svar til eksamen) kommer fejlen med samme følte sikkerhed som de korrekte erindringer. Der er intet advarselssignal. Det er præcis det FT-trænede sprogmodeller gør når de hallucinerer. Det substrat-signal der ville have flaget svaret som usikkert, er blevet presset under støjgulvet.

Den procedurale hukommelse er en endnu tættere parallel

Der findes en tredje kategori af menneskelig hukommelse, der ofte lumpes under "langtid": procedural hukommelse. Det er hvordan du cykler, taster på et tastatur, eller kører en velkendt rute. Procedurale erindringer er endnu mere komprimerede end almindelige langtidserindringer: du kan ikke artikulere hvordan du gør det. De alternativer der engang blev vejet under indlæringsfasen er væk. Du tænker ikke på din venstre fod når du går. Hele valg-arkitekturen er blevet kompileret til noget der kører uden bevidst adgang.

Sådan ser en overtrænet finjusteret model ud. Den kører flydende. Den vælger svar uden synlig overvejelse. Og hvis du spørger den "hvordan besluttede du det?" producerer den en post-hoc rationalisering, fordi det faktiske beslutnings-substrat ikke længere bærer den information. De alternativer som svaret blev valgt mod, er komprimeret væk.

Hvorfor begge systemer findes (i hjerner og i sprogmodeller)

Du ville ikke kunne leve med kun arbejdshukommelse. Hvert faktum, hver færdighed, hvert sprogligt ord ville skulle holdes aktivt, hvert øjeblik, med metabolisk omkostning. Du ville løbe tør for kapacitet på sekunder. Langtidshukommelse findes fordi det er billigere at konsolidere hyppigt-brugt viden ind i strukturen end at genberegne den hver gang. Komprimerings-omkostningen, altså tab af alternativer og tab af kalibreret usikkerhed, er det du bytter for billigheden.

Du ville heller ikke kunne leve med kun langtidshukommelse. Du ville ikke kunne ræsonnere om nye situationer, holde tentative hypoteser, eller bemærke at du ikke ved noget. Arbejdshukommelsen er det der holder systemet ærligt om usikkerhed.

Hjerner har begge. Sprogmodeller har begge: ICL når du giver dem ny information gennem prompten, FT når du træner den ind. Fejlen er at behandle ICL og FT som alternativer på en omkostnings-akse. De er ikke alternativer. De er komplementer, præcis som arbejdshukommelse og langtidshukommelse er komplementer i menneskelig kognition. Billig pålidelig genfinding lever i langtidshukommelse / FT; kalibreret ræsonneren under usikkerhed lever i arbejdshukommelse / ICL. Et veldesignet system bruger begge dele.

Det er det papiret foreslår at hybride hukommelses-arkitekturer skal se sådan ud: finjuster den billige, stabile, robuste viden ind i vægtene, og brug context-window'et til den kalibrerede, usikkerheds-bevidste del af ræsonneringen. Den to-systems-arkitektur som biologisk hukommelse landede på gennem evolution har en strukturel grund bag sig, og sprogmodeller vil lande på den samme arkitektur, hvis de bliver deployet til de samme slags opgaver.

Her er det slående ved det hele: ingen har designet det. Du kunne ikke have opfundet et smartere system til læring (to regimer, ét kalibreret og fleksibelt, ét billigt og konsolideret, med en elegant trade-off imellem dem) og alligevel har ingen sat sig ned og engineered det. Begge systemer eksisterer fordi den samme fysik gælder. Arbejdshukommelse og langtidshukommelse er ikke features ved biologi. De er hvad der falder ud af begrænsningen at man må vælge mellem holdt-af-beregning og konsolideret-via-substrat-ændring. Hjerner ankom til arkitekturen under selektionspres. Transformere ankom til samme arkitektur under gradient descent. Ingen af dem vidste hvor de var på vej hen. Begge endte ved den eneste arkitektur der var tilgængelig.

Hvad eksperimenterne viste

Jeg kørte tre eksperimenter på en opfundet 47-fakta videns-base kaldet "Zorbetik" (opfundet så modellen ikke kunne kende det i forvejen), testet på Qwen2.5 base-modeller ved 3B og 7B parametre, med LoRA fine-tuning-budgetter fra 5 til 100 epochs:

CR-kollaps: hver baglæns kørsel komprimerer den kalibrerede fordeling ICL 5,46 Rå FT (30 ep) 17,85 Paraphrase FT 21,12 log(CR ved første token) — højere = mere komprimeret, færre alternativer tilgængelige
ICL bevarer substratets tøvnings-signal ved log(CRpos0) ≈ 5,46. Rå fine-tuning ved 30 epochs skubber det til 17,85; paraphrase-augmented FT (~10× flere gradient-skridt) til 21,12. Modellen vælger tidligere og tidligere; alternativerne bliver presset under støjgulvet. Position-0 entropi kollapser fra 0,32 (ICL) til ≈0,00 (ethvert FT-regime).

Hvorfor det her er vigtigt

Selvsikker hallucination

FT-trænede modeller hallucinerer selvsikkert fordi alternative svar er blevet komprimeret uden for rækkevidde. "Jeg er ikke sikker"-signalet der normalt ville flage et forkert svar, er væk, ikke fordi modellen er sikker, men fordi det substrat-signal der bærer usikkerhed er blevet presset under støjgulvet af kumulativ træning. Modellen lyver ikke om sin selvsikkerhed; den del af dens beregning der ville have givet den betænkeligheder er blevet stilnet.

Agentiske systemer kan ikke repræsentere usikkerhed når de er FT-only

Et system bygget på en finjusteret model kan ikke pålideligt fortælle sin operator "jeg ved det ikke" eller "jeg er kun 60% sikker". Det substrat-signal der ville have leveret den information er blevet komprimeret. Det er strukturelt, ikke en fejl ved nogen specifik træningskørsel.

RAG vs FT på substrat-niveau

Den endeløse RAG-vs-fine-tuning debat har en substrat-niveau-løsning: RAG opererer i ICL-mode. Det trækker hentede dokumenter ind i prompten, og modellen evaluerer dem fremad. Kalibrering bevares. FT komprimerer kalibrering som en strukturel konsekvens. De er ikke to implementeringer af samme hukommelse; de er to forskellige hukommelses-regimer.

Long-context agenter arver ICL's kalibrering gratis

Claude Code, Cursor og enhver multi-turn agentisk samtale opererer i ICL-mode som standard: hver tur re-evaluerer den fulde kontekst uden vægt-opdatering. De arver arbejdshukommelsens kalibrerings-egenskaber automatisk. Det er grunden til at long-context agentiske samtaler kan føles "mere ærlige" end en finjusteret chatbot på samme viden: substratet lyver ikke om sin usikkerhed fordi substrat-signalet stadig er intakt.

Hybrid-hukommelses-arkitekturer

Konkrete ICL+FT-sammensætninger kan approksimere biologisk hukommelses to-system-struktur: langtids-konsolideret viden i vægtene til billig genfinding; arbejdshukommelses-mode kalibreret resonering i konteksten til usikkerheds-bevidst anvendelse. Begrænset context-window-omkostning, men med kalibrerings-egenskaben hvor det betyder noget.

Hvad det her ikke påstår

FT er kun testet som LoRA (full-parameter fine-tuning er ikke testet). Enkelt random seed. To modelstørrelser (3B og 7B). Ét opfundet videns-domæne. Paraphrase-augmented-konditionen i Eksperiment 3 har ≈10× flere gradient-skridt end rå FT-konditionen, så en clean compute-matched sammenligning er overladt til opfølgning. Den kvalitative retning (ICL slår LoRA-FT på kalibrering; gabet skalerer med gradient-skridt) er robust inden for disse scope-betingelser.

Relaterede papers

Den fulde teknik finder du i den engelske version: Paper 2B (English technical). Det fulde paper er på Zenodo: DOI 10.5281/zenodo.20145218.