Læring — hvad teorien siger og finder

Et spor der bliver gravet når et svar vinder, ikke et modul i hjernen

For let eller for svært, og sporet bliver fladt; i midten skæres det dybest

Vi plejer at tænke på læring som noget særligt, et lager i hjernen hvor ting bliver gemt væk. Men sådan fungerer det ikke. Læring er bare hvad der sker, når flere mulige svar kæmper om at vinde, og vinderen efterlader et spor. Det kan vi se direkte i en sprogmodel, hvor sporene er nemme at måle. Næste gang ligger sporet der allerede, og så er svaret lettere at finde. Det er hele mekanismen. Og den forklarer noget mærkeligt: et system der ikke bærer spor af sin egen fortid, kan overhovedet ikke lære. Sporene er ikke en fejl. De er selve forudsætningen.

Hysterese er forudsætningen for læring

Hysterese, at et system bærer spor af sin egen historie, er traditionelt set som en fejl eller bivirkning der bør minimeres. Min ramme vender det om: hysterese er den strukturelle forudsætning for at læring overhovedet kan ske. I et system der ikke bærer spor af sin historie kan læring ikke ske. Sti-afhængig tilstand er det der gør læring strukturelt muligt.

Det gælder lige meget for:

Biologiske hjerner — synaptiske vægte ændres fordi aktivitet efterlader et spor
Kunstige neurale netværk — vægte opdateres fordi tabets forløb gennem træningen er sti-afhængigt
Fysiske systemer med hukommelse — magnetisering, glasagtige materialer, polymer-dynamik viser alle læring-lignende adaptation

læring.

Et system der ikke kan bevare denne asymmetri mellem A og B kan ikke lære. Sporet er hukommelsen.

Hvorfor information-bombardement ikke lærer nogen noget (i modeller eller mennesker)

Her bliver rammen ubehagelig.

Store sprogmodeller er bogstaveligt talt computere, designet fra bunden til at absorbere information. De har ubegrænset tålmodighed, perfekt hukommelse over hvad der er blevet vist dem i en session, ingen biologiske begrænsninger på opmærksomhed. Hvis noget som helst system kunne læres af information-bombardement, ville det være dem.

Det kan de ikke.

Paper 2B viser det direkte. Tag 47 opfundne fakta. Fine-tune en sprogmodel på dem — med 100 epochs af træning, med paraphrase-augmentation, med alt det vi har af tricks. Resultatet er en model der præsterer dårligere på cloze-retrieval end en der bare har de samme 47 fakta siddende i sin prompt. Dårligere. Efter al den træning. Det kumulative gradient-tryk komprimerer den kalibrerede fordeling; modellen vælger med høj selvsikkerhed det der tilfældigvis vandt hver rute; og alternativerne — det vil sige, den faktiske læring — bliver presset under støjgulvet.

Hvis sprogmodeller, som jo er designet til at læres, ikke kan læres af information-bombardement, bliver spørgsmålet hårdere. Hvorfor har vi antaget at mennesker kan?

Misforholdet mellem afsender og modtager

Standardmodellen for undervisning er: afsenderen pakker information; modtageren modtager information. Hvis modtageren ikke lærer, prøver modtageren ikke hårdt nok.

Den model er fysik-blind.

Du lærer ikke informationen. Du lærer det spor, informationen sætter. Sporet er fysikken. Sporet er det der bliver skåret ind i substratet. Informationen i sig selv er bare den stimulus der producerer — eller undlader at producere — sporet.

Hvis sporet ikke bliver trukket, betyder ingen mængde af indsats eller instruktion eller motivation noget. Du kan ikke gemme det, du ikke har sporet. Det er ikke et spørgsmål om vilje, men om hvilke ruter der blev forstærket ofte nok, under de rigtige betingelser af konkurrence og belastning, til at efterlade en kanal i substratet. Vand-på-flisegulvet-metaforen igen: hvis du ikke trækker fingeren igennem, dannes kanalen ikke. Punktum.

Hvad det betyder for undervisning

Den pædagogiske implikation er ikke "smid mere information på eleven indtil de lærer". Den er "design betingelser hvor elevens substrat skærer det relevante spor". Det er forskellige problemer. De føles ens fra afsenderens side — begge involverer at levere materiale. De divergerer skarpt på substrate-niveau: det første behandler modtageren som en passiv lagrings-enhed; det andet behandler dem som et hysterese-bærende system der skal tvinges til at gøre noget med materialet før noget spor overhovedet kan dannes.

Det er det Bjorks "desirable difficulties" faktisk betyder på substrate-niveau: sværhed er det der hæver rute-konkurrence nok til at sporet bliver skåret dybt. Cloze-test bliver skåret overfladisk fordi de kræver lidt konkurrence; application-test bliver skåret dybt fordi de kræver komposition under belastning. Spacing virker fordi sporet bliver re-aktiveret og re-fordybet. Interleaving virker fordi det tvinger ruter til at konkurrere i stedet for at være pre-sorteret.

Intet af det er motivation. Det hele er fysik. Læreren der bebrejder "dovne elever" er ækvivalenten af en programmør der bebrejder termodynamikkens love for en ineffektiv algoritme.

Encoding-through-loading

Den klassiske kognitions-videnskabelige opfattelse behandler enkodning som en separat proces fra retrieval og beslutning. Min ramme samler dem: det der bliver enkodet er det der vinder rute-konkurrence under belastning. Der er ikke et separat enkodnings-modul — den samme race-resolution-maskine der producerer beslutninger efterlader også sporet der udgør læring.

Det forbinder til to klassiske fund:

Levels of processing (Craik & Lockhart 1972): dybere semantisk processering producerer stærkere enkodning. Min forklaring: dybere processering kræver at flere konkurrerende ruter løses, hvilket efterlader et rigere hysterese-spor.
Distinctiveness effect / Von Restorff (1933): outliere huskes bedre. Testet på gradient-niveau i fine-tunede sprogmodeller: krænkelser af et implicit lært mønster producerer stærkere enkodning end konformerende eksempler.

Hvad styrker sporet: overraskelse

Hvis ét enkelt forhold afgør hvor dybt et spor bliver skåret, er det overraskelse. Et input der passer med det substratet allerede forventer, åbner næsten ingen konkurrence og efterlader et fladt spor. Et input der bryder forventningen tvinger substratet til at arbejde for at løse misforholdet, og det arbejde skærer dybere.

Det er målt direkte i sprogmodeller. Ord modellen ikke så komme trækker målbart mere opmærksomhed fra de ord der følger efter. Og en finjusteret model enkoder et brud på et mønster stærkere end et eksempel der bare følger mønsteret. Det er von Restorff-effekten, set helt nede på gradient-niveau: det der stikker ud, sætter sig dybere.

Det er også grunden til at "desirable difficulties" virker. Sværhed er bare overraskelse sat i system: den hæver konkurrencen, så sporet bliver skåret dybt. Og det er derfor variation slår gentagelse. Træner man de samme 25 fakta med fire forskellige formuleringer i stedet for én, stiger robust genfinding fra 38% til 94%, selv om mængden af træning er den samme. Hver ny formulering åbner racet igen i stedet for at køre et allerede afgjort race om.

Sprogmodeller "lærer" forskelligt afhængigt af opgavetype

To opgavetyper på den samme viden, testet her på sprogmodeller af forskellige størrelser, hvor "B parametre" betyder milliarder af vægte i det neurale netværk (modellens størrelse; fx 8B = otte milliarder, omtrent en mellemstørrelses-model):

Cloze (genfind) — "Hvad er hovedstaden i Danmark?" — mætter tidligt. De fleste modeller når ~90% nøjagtighed allerede ved 8B parametre.
Application (kæde fakta) — "Hvis Danmarks hovedstad ligger på Sjælland, og du tager toget fra hovedstaden mod vest..." — skalerer monotont fra 2% (0,5B) til 85% (70B — på størrelse med Llama 70B).

Det er den samme viden, men forskellige typer af belastning. Cloze er indeksering-bundet; application er komposition-bundet. Bottlenecken flytter sig med kapacitet.

Implikation for uddannelses-videnskab: den samme viden enkodet på forskellige kapacitets-niveauer understøtter forskellige opgavetyper. En elev der kan cloze kan ikke nødvendigvis application; gabet er ikke motivation, det er komposition-bundet beregning.

Arbejdshukommelse og langtidshukommelse: to måder at påvirke racet

Der er to måder at få en sprogmodel til at give et nyt svar, og de arbejder på vidt forskellige dele af racet.

Finjustering ændrer vægtene. Den ændrer hvordan racet starter: hvilke ruter der allerede er favoriserede, før inputtet overhovedet er ankommet. Det er langtidshukommelse. Tilbøjeligheden er banket ind i substratet og ligger der mellem samtaler.

In-context learning, altså at lægge det i prompten, rører ikke ved vægtene. Den ændrer ikke hvordan racet starter. Den kan skubbe til en rute mens racet kører, men en rute der kun skubbes af konteksten, har sværere ved at vinde end en der er banket ind i vægtene. Den hjælper mest når basistrykket, den vægt-kodede modstand der trækker mod det gamle svar, er lavt i forvejen. Det er arbejdshukommelse: holdt for øjeblikket, væk når samtalen slutter.

En lille detalje gør billedet skarpt. En basemodel er race-starten som ren pretrænings-statistik: den uformede prior, uden nogen finjustering ovenpå. En finjusteret model har fået den race-start formet om. Og netop den omformning er grunden til at finjusterede modeller kan tage fejl med høj selvsikkerhed. Når man presser vægtene mod ét svar, komprimerer man samtidig det signal der ville have vist modellen at den var usikker. Basemodellen bærer stadig det signal; den finjusterede har fladet det ud. Det er det Paper 2B måler direkte.

"Catastrophic forgetting" er signal-omfordeling, ikke skade

Catastrophic forgetting i fine-tunede sprogmodeller er blevet tolket som substrate-skade, altså at base-modellen "mister" viden under tilpasning. Det er empirisk falsificeret.

Reverse-testen (v13c, Paper 6 forthcoming): fjern LoRA adapteren, og base-substratet kommer tilbage til 100% af baseline — en restitution på 179.5% relativt til den degraderede (adapter-tilpassede) tilstand. Base-substratet er 100% intakt; adapteren omfordeler hvilke ruter der vinder konkurrence, men skader ikke de underliggende vægte.

Mekanismen er signal-omfordeling: under fine-tuning skifter rute-konkurrencen mod den nye opgave, væk fra den oprindelige. Den oprindelige kapacitet er bevaret — den er bare overdøvet. At fjerne adapteren genopretter den oprindelige rangordning.

Det subsumer seks tidligere distinkte fænomener under én mekanisme:

Catastrophic forgetting i continual learning
Long-train mode collapse
Demens-retrieval-failure (bevaret-men-utilgængelig viden)
Bjork desirable difficulties
Spaced repetition advantage (i biologiske systemer)
Bahricks permastore-retentionsplateau (Bahrick 1984 — langtidshukommelse-plateauet 3-5 år efter læring)

Min formulering af design-reglen: "vil have mindre — fortynd; vil have mere — beskyt."

Bjork's desirable difficulties får mekanistisk fundament

Robert Bjork (1994) argumenterede at desirable difficulties — effortful retrieval, spacing, interleaving — producerer bedre langtidsretention end nem praksis. Min ramme giver mekanismen: sværhed hæver rute-konkurrence, hvilket dybner hysterese-sporet, hvilket er det der bevares.

Forudsigelsen er testbar i kunstige systemer: kalibreret retrieval-practice burde bevare kurven fra genkendelse til valg, mens kalibrerings-naiv træning (RLHF-lignende undertrykkelse af friktion) burde flade den ud.

Expertise reversal

Kalyuga, Ayres, Chandler & Sweller (2003) fandt at instructional supports der hjælper begyndere skader eksperter. Worked examples accelererer begynder-læring men sløver ekspert-performance, fordi eksperter allerede har enkodet mønsteret og supporten nu konkurrerer med deres interne model.

Min forudsigelse: dette burde generalisere til kunstige substrater som en substrate-graderet U-kurve. Testet på tre model-størrelser:

Qwen2-1.5B: flad ved 4-6% — substrat for begrænset til at vise kurven
Qwen2.5-7B: monotont gain — nybegynder-tier
Llama-3.3-70B: klassisk U-kurve — 73% → 50% → 61% — ekspert-tier viser reversalen (Paper 4b i forberedelse)

Den substrate-graderede scope-betingelse er ny: U-kurven optræder kun over en kapacitets-tærskel; under den kan substratet ikke repræsentere nok alternativer til at konflikten manifesterer sig.

Hvad sprogmodeller IKKE kan teste

Flere klassiske læringsfænomener er strukturelt utestbare på inference-tids sprogmodeller fordi substratet mangler features den menneskelige version kræver:

Spaced repetition — mekanismen kræver at man husker mellem sessioner. Sprogmodeller gør ikke. Testbart kun via fine-tuning weight drift over træningscyklusser.
Ebbinghaus glemmekurve — samme begrænsning. Kræver retentions-måling over tids-separerede sessioner.
Cross-session interference — når ny læring forstyrrer tidligere læring på tværs af sessioner. Kræver session-til-session hukommelse.

Mønsteret: fænomener der kræver hukommelse mellem sessioner kræver fine-tuning eksperimenter, ikke inference-tids målinger. Det er en metodologisk begrænsning der følger direkte fra substrat-features.

Implikationer

For uddannelses-videnskab: Bjorks desirable difficulties får et mekanistisk fundament. Sværhed er ikke vilkårlig — det er det der hæver rute-konkurrence nok til at efterlade et dybt hysterese-spor. Det forudsiger hvilke interventioner der overfører (dem der hæver rute-konkurrence specifikt) og hvilke der ikke gør (dem der bare tilføjer kognitiv belastning uden konkurrence).

For AI-træning: friktionsprofil under træning burde forudsige retention. Kalibreret retrieval-practice burde bevare kurven fra genkendelse til valg; RLHF-lignende friktion-undertrykkelse burde flade den ud.

For klinisk translation: signal-omfordeling som mekanisme for retrieval failure er en hypotese der forfølges i Paper 8c (kommende). Forudsigelsen er at dele af demens kan præsentere sig som svigt i at vælge trods bevaret viden — det samme friktionsloft-mønster der observeres i sprogmodeller. Diagnostisk implikation: sub-tærskel cuing-test bør kunne skelne enkodet-men-utilgængelig fra ikke-enkodet. Det er en testbar forudsigelse, ikke et etableret klinisk fund.

For compliance og arbejdspladser: samme mekanik forklarer hvorfor information-tunge compliance-kurser sjældent ændrer adfærd. Mere tekst bygger ikke ruten. Det folder jeg ud på Compliance er adfærd, ikke information.

For Dunning-Kruger: den klassiske "skråsikker når man ved mindst"-kurve falder direkte ud af den samme mekanik. Jeg viser den, målt i rigtige sprogmodeller, på Hvorfor "ved lidt, tror meget".

For dig der vil ændre noget: den samme mekanik (byg banen i det små, sænk basistrykket, undgå alt-eller-intet) er samlet som et praktisk grundkort på Hvordan forandring virker, med konkrete sider om misbrug, skolevægring og grubleri.

Vil du have grundbilledet bag det hele, så starter Hvad er et race? med vand: kar, rør og de spor i sandet, som læring efterlader.

Den fulde tekniske version med specifikke statistikker, paper-referencer, og protokol-detaljer findes på learning (engelsk teknisk).