Du lærer ikke fakta, men sporet de sætter

Paper 4B · Pødenphant Lund (2026q) · Læs på Zenodo

Jeg forsker i sprogmodeller for at forstå mennesker.Giv en stor sprogmodel et regneproblem den klarer 75% af tiden, og vis den så ét eksempel på hvordan man løser den type. Nøjagtigheden falder til 52%. Det er den klassiske ekspert-omvendings-effekt (expertise reversal) fra pædagogisk psykologi, og den dukker op i et neuralt netværk der aldrig blev bygget til at gentage den. Du lærer ikke de fakta, du fik. Du lærer det arbejde, din hjerne skulle udføre med dem. Glider materialet forbi uden modstand, efterlader det intet spor. Tvinger det dig til at løse noget, er det løsningen, der bliver husket.

Puzzlet

Jeg blev bedt om at lave undervisningsmateriale om underernæring i ældreplejen. Briefet var at undervise plejepersonalet i de ni kliniske tegn på underernæring, og samtidig om alle de sygdomme der kan føre til det. Kort sagt: give brugeren rigtig meget information.

Jeg arbejdede med det. Det var svært. Uanset hvordan vi vendte og drejede materialet, var der rigtig meget indhold, og indholdet var ikke handlings-anvisende. Målgruppen (plejepersonalet) får i forvejen rigtig meget information fra mange sider. At tilføje ni nye punkter at huske ville ikke hjælpe.

Gennembruddet kom da vi stoppede med at spørge "hvad vil vi gerne have dem til at vide?" og begyndte at spørge "hvad vil vi egentlig gerne have dem til at gøre?" De faglige retningslinjer specificerede allerede at plejepersonalet skulle tilbyde månedlig vejning af beboerne. Det blev bare ikke konsekvent implementeret, fordi ansvaret var diffust og handlingen ikke var indbygget i rutinen.

Det redesignede materiale var én sætning: "Husk at veje — det er god pleje. Hvis du oplever et vægttab på mere end et kilo, skal du reagere." En kampagne blev bygget op omkring den ene sætning. Den detaljerede information om de ni tegn og de bagvedliggende sygdomme blev liggende på bagsiden, tilgængelig når der var brug for den. Undervisningen gik fra 15–20 minutters information til cirka 3 minutters handling.

Det oprindelige brief havde været optimeret til det forkerte. Det pakkede afsenderens fuldstændighed sammen uden at overveje hvad modtageren kunne gøre med det. Redesignet var optimeret til det modtageren faktisk kunne handle på. Fuldstændighed er en afsender-egenskab. Lærbarhed er en modtager-egenskab. De er ikke den samme akse.

Det uventede bevis: sprogmodeller gør det også

Tag en stor sprogmodel. Giv den en simpel kemisk kompositionsopgave: "Stof A har en rate på 3,7% per time. Stof B har en rate, der er 3,12 gange A's. Hvad er B's rate?" Uden eksempler svarer modellen korrekt cirka 75% af tiden. Tilføj ét in-context eksempel der viser hvordan denne type problem løses. Nøjagtigheden falder til 52%. Tilføj tre eksempler. Den genvinder delvist til 61%.

Dette er den klassiske expertise reversal effect fra pædagogisk psykologi (den instruktionsmæssige hjælp, der gavner novicer, skader ofte eksperter), som nu optræder i et neuralt netværk. De mindre modeller (7B-klassen, novice-niveau) viser ikke dette dyk. Den mindste model (1,5B) kan ikke engang løse opgaven; dens substrat er for begrænset. Kun det kompetente substrat bliver forvirret af at få demonstreret hvordan.

Hvorfor? Når modellen allerede har en velfungerende strategi for problemet, tilføjer en demonstration der ikke matcher strategien, ikke ny information. Den åbner en konkurrerende strategi. Substratet skal nu holde begge strategier i live og afgøre mellem dem. Denne afklaring koster beregningsmæssig båndbredde. Modellen kan se to veje frem, og konkurrencen mellem dem viser sig som et målbart signal i dens output: flere kandidat-tokens forbliver i konkurrence ved hvert skridt. Friktionsteori kalder dette signal competing routes, og det kan læses direkte fra enhver sprogmodels output.

Hvad artiklen fandt

Otte eksperimenter på seks sprogmodeller (Qwen2.5 1,5B, 7B, 32B, Llama-3.3-70B, Qwen3-235B, DeepSeek-V3) på den samme kemi-kompositionsopgave. Hovedfundene:

1. U-kurven afhænger af substratkapacitet

Samme opgave, forskellige modelstørrelser, kvalitativt forskellige mønstre. Den mindste model (1,5B) bliver flad på substratgulvet: den kan ikke køre et strategi-væddeløb, fordi den ikke har flere strategier. Mellemmodellen (7B) viser monoton gevinst fra demonstrationer: novice-niveauet opfører sig som klassisk instruktionspsykologi forudsiger. Den store model (70B) viser ekspert-omvendings-dykket. Det er samme form som pædagogisk psykologi finder hos menneske-eksperter: hjælp der gavner novicer, skader eksperter.

2. Friktionssignalet topper ved strategi-skiftet

På 70B-modellen er per-token competing-routes-signalet højest ved 1-shot (1,114), lavere ved 0-shot (1,052), lavere igen ved 3-shot (1,073). Friktionen er observerbar i logprobs, ikke kun i nøjagtighedstabet. Modellen kæmper synligt, position for position, med flere levende strategier på det punkt hvor én demonstration skaber tvetydighed.

3. Klarere demonstrationer hjælper: den oplagte forudsigelse var forkert

Den naive forudsigelse: uddybede demonstrationer tilføjer belastning og burde gøre det værre. Det modsatte skete. Når demonstrationen viste fremgangsmåden til svaret (ikke kun svaret alene), faldt competing-routes-friktionen (1,077 mod 1,138) og nøjagtigheden steg 16 procentpoint. Den klarere demonstration lukkede strategi-væddeløbet tidligere. Klarhed reducerer friktion; tvetydighed opretholder den.

4. Formatuoverensstemmelse er reaktans

Da systembeskeden bad om <result>-output og demonstrationer brugte <answer>, kollapsede nøjagtigheden fra 70% til 48%. Modellen fulgte systeminstruktionen i alle betingelser, men betalte en friktionsomkostning ved aktivt at afvise demonstrationens format gennem hele svaret. Dette er strukturelt analogt med menneskelig reaktans: bed et barn om ikke at tænke på en lyserød elefant, og du har tilføjet netop den rute, du forsøgte at forhindre.

5. Støj er billigt, mening er dyrt

Tilfældig vrøvle-fill i prompten koster kun 13 procentpoint nøjagtighed på tværs af en 1600× volumenforøgelse. Semantisk plausibel uddybning koster 20 procentpoint ved 60× mindre volumen. Omkostningen ligger ikke i antallet af tokens. Omkostningen ligger i, om substratet er nødt til at bruge processering på at afklare materialet. Støj habituerer som ikke-signal. Plausibelt-men-tvetydigt indhold kan ikke kategoriseres og koster kontinuerligt.

6. Substrater der ikke kan huske, kan ikke lære på tværs af sessioner

Sprogmodeller uden persistent-memory-arkitektur viser ingen kodningsgevinst fra inden-for-sessions-gentagelse. De betaler friktion inden for en generation, men sporet forplanter sig ikke på tværs af kald. Dette er strukturelt, ikke en fejl: mennesker har et persistens-lag, der lader friktionssporet akkumulere (hukommelse, sensitisering, til sidst færdighed); statsløs LLM-inferens har det ikke. Væddeløbs-mekanismen er delt på tværs af substrater; persistens-laget er det, der adskiller dem.

7. Kapacitet har et hårdt loft, og overskridelse kollapser kurven

32B-base-modellen har et rent sweet-spot for competing-routes-aktivitet ved 2 fakta. Skub opgavetrykket forbi substratets headroom og sweet-spottet forsvinder: friktionen ligger fladt på et overload-gulv på tværs af alle betingelser, og nøjagtigheden kollapser til nul. Substratets opløsnings-båndbredde er et hårdt loft, ikke en blød præference.

8. Forskellige triggere giver muligvis forskellige signaturer

Et eksplorativt mønster der afventer præregistreret bekræftelse: forskellige kognitive triggere ser ud til at efterlade forskellige position-signaturer i svaret. Reaktans og strategi-tvetydighed tenderer mod at toppe ved position 5 (det punkt hvor svarets værdi besluttes). Overforklaring og afslutnings-usikkerhed tenderer mod at toppe ved positionerne 0 og 9 (strukturelle beslutningspunkter). Hvis det bekræftes, vil det betyde at man kan klassificere typen af kognitiv friktion fra de første ~10 tokens af et hvilket som helst LLM-svar. Ikke et indsætteligt værktøj endnu. En hypotese værd at teste.

Hvorfor det betyder noget

For undervisning. At designe materialer omkring hvad der er mest fuldstændigt er en opskrift på materialer der ikke underviser. Underviserens opgave er at designe betingelser hvorunder elevens substrat kører det rigtige væddeløb, ikke at levere den mest fuldstændige besked. Friktionsteori gør dette konkret: friktionen er det der bliver kodet, så design for den friktionsprofil du ønsker. Det ligger tæt på en gammel idé i hukommelsesforskningen, encoding specificity og transfer-appropriate processing (Tulving): det du lagrer, er den bearbejdning du foretog, så det tjener dig bedst når den senere situation kræver samme bearbejdning.

For prompt engineering. På kompetente modeller slår færre-men-klarere demonstrationer flere-men-tvetydige. 1-shot-dykket på 70B-klasse-modeller er strukturelt, ikke en særegenhed ved en bestemt model. Når du designer prompts, spørg om eksemplet lukker et strategi-væddeløb eller åbner et.

For sprogmodeller som kognitive modeller. Kritikere siger ofte at LLM'er ikke kan være kognitive modeller fordi de er "bare probabilistiske". Denne artikel peger den modsatte vej. Det samme ekspert-omvendings-mønster, den samme friktionssignatur, den samme lukker-versus-åbner-dynamik viser sig i sprogmodeller der aldrig blev designet til at reproducere disse effekter. Den mekanisme et kapacitetsbegrænset strategi-væddeløb producerer i transformere, er den samme mekanisme menneskelige undervisere har kæmpet med i årtier.

For de kognitive videnskaber. Cognitive Load Theory har været det dominerende rammeværk i halvtreds år og har været produktivt, men det specificerer ingen mekanisme under belastnings-konstruktet. Det rekursive race-account gør. Hvor CLT forudsiger symmetriske novice-vs-ekspert-effekter, finder den seneste meta-analyse (Tetzlaff et al. 2025) asymmetriske størrelser, konsistent med en retningsmekanisme, ikke en symmetrisk load-kurve.

Hvad jeg ikke ved

Det her er sprogmodeller, ikke mennesker. Det samme mønster dukker op i begge, og det er præcis derfor det er interessant, men det er en parallel, ikke et bevis for at den menneskelige hukommelse fungerer ved nøjagtig samme mekanisme. At påvise det kræver målinger i biologiske systemer, og dem har jeg ikke lavet her.

Det åttende fund, at forskellige slags friktion ser ud til at toppe på forskellige positioner i svaret, er eksplorativt. Jeg har set mønstret, men det afventer en præregistreret gentagelse før jeg vil stå inde for det. Det er en hypotese værd at teste, ikke et værktøj du kan tage i brug i morgen.

Og resultatet om at statsløse modeller ikke lærer på tværs af sessioner siger ikke at sprogmodeller ikke kan huske. Det siger at den udgave jeg testede mangler det persistens-lag der lader sporet hobe sig op. Det er en egenskab ved arkitekturen, ikke en grænse for selve mekanismen.

Citat

Den fulde artikel er open-access på Zenodo. Concept-DOI:

Pødenphant Lund, T. (2026q). Substrates Encode Experience, Not Information: An Encoding-through-Loading Framework with Cross-Substrate Tests in Language Models. Zenodo. https://doi.org/10.5281/zenodo.20059861

Læs på Zenodo → · Teknisk version · Plain English version

Relateret på sitet:

Paper 2B (ICL/FT-hukommelse) — samme mekanisme på træningstid: hvorfor fine-tunede modeller hallucinerer selvsikkert.
Paper 2 (Kapacitetsskalering) — cloze-vs-application-asymmetrien på tværs af modelstørrelser, som 4B's substrat-graderede mønstre udvider.
Paper 1 (FT) — den grundlæggende artikel der definerer friktion som competing routes.
Hukommelsessiden — den bredere behandling af hvorfor informations-dumping ikke underviser.
Læringssiden — rammeværk-niveau-behandling af encoding-through-loading.