Læring — hvad teorien siger og finder

Den er ikke et modul i hjernen. Den er et spor der bliver gravet, når et svar vinder

Vi plejer at tænke på læring som noget særligt, et lager i hjernen hvor ting bliver gemt væk. Men sådan fungerer det ikke. Læring er bare hvad der sker, når flere mulige svar kæmper om at vinde, og vinderen efterlader et spor. Det kan vi se direkte i en sprogmodel, hvor sporene er nemme at måle. Næste gang ligger sporet der allerede, og så er svaret lettere at finde. Det er hele mekanismen. Og den forklarer noget mærkeligt: et system der ikke bærer spor af sin egen fortid, kan overhovedet ikke lære. Sporene er ikke en fejl. De er selve forudsætningen.

Hysterese er forudsætningen for læring

Hysterese, at et system bærer spor af sin egen historie, er traditionelt set som en fejl eller bivirkning der bør minimeres. Min ramme vender det om: hysterese er den strukturelle forudsætning for at læring overhovedet kan ske. I et system der ikke bærer spor af sin historie kan læring ikke ske. Sti-afhængig tilstand er det der gør læring strukturelt muligt.

Det gælder lige meget for:

To konkurrerende ruter under belastning — vinderens sti efterlader et spor Før to ruter, samme vægt input rute A rute B Efter: rute A vinder A's sti er nu dybere end B's input rute A (uddybet) rute B (falmet) Næste gang samme input ankommer, er A mere sandsynlig end B. Den asymmetri — sporet — er hvad vi kalder læring.
Et system der ikke kan bevare denne asymmetri mellem A og B kan ikke lære. Sporet er hukommelsen.

Hvorfor information-bombardement ikke lærer nogen noget (i modeller eller mennesker)

Her bliver rammen ubehagelig.

Store sprogmodeller er bogstaveligt talt computere, designet fra bunden til at absorbere information. De har ubegrænset tålmodighed, perfekt hukommelse over hvad der er blevet vist dem i en session, ingen biologiske begrænsninger på opmærksomhed. Hvis noget som helst system kunne læres af information-bombardement, ville det være dem.

Det kan de ikke.

Paper 2B viser det direkte. Tag 47 opfundne fakta. Fine-tune en sprogmodel på dem — med 100 epochs af træning, med paraphrase-augmentation, med alt det vi har af tricks. Resultatet er en model der præsterer dårligere på cloze-retrieval end en der bare har de samme 47 fakta siddende i sin prompt. Dårligere. Efter al den træning. Det kumulative gradient-tryk komprimerer den kalibrerede fordeling; modellen vælger med høj selvsikkerhed det der tilfældigvis vandt hver rute; og alternativerne — det vil sige, den faktiske læring — bliver presset under støjgulvet.

Hvis sprogmodeller, som jo er designet til at læres, ikke kan læres af information-bombardement, bliver spørgsmålet hårdere. Hvorfor har vi antaget at mennesker kan?

Misforholdet mellem afsender og modtager

Standardmodellen for undervisning er: afsenderen pakker information; modtageren modtager information. Hvis modtageren ikke lærer, prøver modtageren ikke hårdt nok.

Den model er fysik-blind.

Du lærer ikke informationen. Du lærer det spor, informationen sætter. Sporet er fysikken. Sporet er det der bliver skåret ind i substratet. Informationen i sig selv er bare den stimulus der producerer — eller undlader at producere — sporet.

Hvis sporet ikke bliver trukket, betyder ingen mængde af indsats eller instruktion eller motivation noget. Du kan ikke gemme det, du ikke har sporet. Det er ikke et spørgsmål om vilje. Det er et spørgsmål om hvilke ruter der blev forstærket ofte nok, under de rigtige betingelser af konkurrence og belastning, til at efterlade en kanal i substratet. Vand-på-flisegulvet-metaforen igen: hvis du ikke trækker fingeren igennem, dannes kanalen ikke. Punktum.

Hvad det betyder for undervisning

Den pædagogiske implikation er ikke "smid mere information på eleven indtil de lærer". Den er "design betingelser hvor elevens substrat skærer det relevante spor". Det er forskellige problemer. De føles ens fra afsenderens side — begge involverer at levere materiale. De divergerer skarpt på substrate-niveau: det første behandler modtageren som en passiv lagrings-enhed; det andet behandler dem som et hysterese-bærende system der skal tvinges til at gøre noget med materialet før noget spor overhovedet kan dannes.

Det er det Bjorks "desirable difficulties" faktisk betyder på substrate-niveau: sværhed er det der hæver rute-konkurrence nok til at sporet bliver skåret dybt. Cloze-test bliver skåret overfladisk fordi de kræver lidt konkurrence; application-test bliver skåret dybt fordi de kræver komposition under belastning. Spacing virker fordi sporet bliver re-aktiveret og re-fordybet. Interleaving virker fordi det tvinger ruter til at konkurrere i stedet for at være pre-sorteret.

Intet af det er motivation. Det hele er fysik. Læreren der bebrejder "dovne elever" er ækvivalenten af en programmør der bebrejder termodynamikkens love for en ineffektiv algoritme.

Encoding-through-loading

Den klassiske kognitions-videnskabelige opfattelse behandler enkodning som en separat proces fra retrieval og beslutning. Min ramme samler dem: det der bliver enkodet er det der vinder rute-konkurrence under belastning. Der er ikke et separat enkodnings-modul — den samme race-resolution-maskine der producerer beslutninger efterlader også sporet der udgør læring.

Det forbinder til to klassiske fund:

Sprogmodeller "lærer" forskelligt afhængigt af opgavetype

To opgavetyper på den samme viden, testet her på sprogmodeller af forskellige størrelser, hvor "B parametre" betyder milliarder af vægte i det neurale netværk (modellens størrelse; fx 8B = otte milliarder, omtrent en mellemstørrelses-model):

Det er den samme viden, men forskellige typer af belastning. Cloze er indeksering-bundet; application er komposition-bundet. Bottlenecken flytter sig med kapacitet.

Implikation for uddannelses-videnskab: den samme viden enkodet på forskellige kapacitets-niveauer understøtter forskellige opgavetyper. En elev der kan cloze kan ikke nødvendigvis application; gabet er ikke motivation, det er komposition-bundet beregning.

"Catastrophic forgetting" er signal-omfordeling, ikke skade

Catastrophic forgetting i fine-tunede sprogmodeller er blevet tolket som substrate-skade, altså at base-modellen "mister" viden under tilpasning. Det er empirisk falsificeret.

Reverse-testen (v13c, Paper 6 forthcoming): fjern LoRA adapteren, og base-substratet kommer tilbage til 100% af baseline — en restitution på 179.5% relativt til den degraderede (adapter-tilpassede) tilstand. Base-substratet er 100% intakt; adapteren omfordeler hvilke ruter der vinder konkurrence, men skader ikke de underliggende vægte.

Mekanismen er signal-omfordeling: under fine-tuning skifter rute-konkurrencen mod den nye opgave, væk fra den oprindelige. Den oprindelige kapacitet er bevaret — den er bare overdøvet. At fjerne adapteren genopretter den oprindelige rangordning.

Det subsumer seks tidligere distinkte fænomener under én mekanisme:

Min formulering af design-reglen: "vil have mindre — fortynd; vil have mere — beskyt."

Bjork's desirable difficulties får mekanistisk fundament

Robert Bjork (1994) argumenterede at desirable difficulties — effortful retrieval, spacing, interleaving — producerer bedre langtidsretention end nem praksis. Min ramme giver mekanismen: sværhed hæver rute-konkurrence, hvilket dybner hysterese-sporet, hvilket er det der bevares.

Forudsigelsen er testbar i kunstige systemer: kalibreret retrieval-practice burde bevare kurven fra genkendelse til valg, mens kalibrerings-naiv træning (RLHF-lignende undertrykkelse af friktion) burde flade den ud.

Expertise reversal

Kalyuga, Ayres, Chandler & Sweller (2003) fandt at instructional supports der hjælper begyndere skader eksperter. Worked examples accelererer begynder-læring men sløver ekspert-performance, fordi eksperter allerede har enkodet mønsteret og supporten nu konkurrerer med deres interne model.

Min forudsigelse: dette burde generalisere til kunstige substrater som en substrate-graderet U-kurve. Testet på tre model-størrelser:

Den substrate-graderede scope-betingelse er ny: U-kurven optræder kun over en kapacitets-tærskel; under den kan substratet ikke repræsentere nok alternativer til at konflikten manifesterer sig.

Hvad sprogmodeller IKKE kan teste

Flere klassiske læringsfænomener er strukturelt utestbare på inference-tids sprogmodeller fordi substratet mangler features den menneskelige version kræver:

Mønsteret: fænomener der kræver hukommelse mellem sessioner kræver fine-tuning eksperimenter, ikke inference-tids målinger. Det er en metodologisk begrænsning der følger direkte fra substrat-features.

Implikationer

For uddannelses-videnskab: Bjorks desirable difficulties får et mekanistisk fundament. Sværhed er ikke vilkårlig — det er det der hæver rute-konkurrence nok til at efterlade et dybt hysterese-spor. Det forudsiger hvilke interventioner der overfører (dem der hæver rute-konkurrence specifikt) og hvilke der ikke gør (dem der bare tilføjer kognitiv belastning uden konkurrence).

For AI-træning: friktionsprofil under træning burde forudsige retention. Kalibreret retrieval-practice burde bevare kurven fra genkendelse til valg; RLHF-lignende friktion-undertrykkelse burde flade den ud.

For klinisk translation: signal-omfordeling som mekanisme for retrieval failure er en hypotese der forfølges i Paper 8c (kommende). Forudsigelsen er at dele af demens kan præsentere sig som svigt i at vælge trods bevaret viden — det samme friktionsloft-mønster der observeres i sprogmodeller. Diagnostisk implikation: sub-tærskel cuing-test bør kunne skelne enkodet-men-utilgængelig fra ikke-enkodet. Det er en testbar forudsigelse, ikke et etableret klinisk fund.

For compliance og arbejdspladser: samme mekanik forklarer hvorfor information-tunge compliance-kurser sjældent ændrer adfærd. Mere tekst bygger ikke ruten. Det folder jeg ud på Compliance er adfærd, ikke information.

For Dunning-Kruger: den klassiske "skråsikker når man ved mindst"-kurve falder direkte ud af den samme mekanik. Jeg viser den, målt i rigtige sprogmodeller, på Hvorfor "ved lidt, tror meget".

Vil du have grundbilledet bag det hele, så starter Hvad er et race? med vand: kar, rør og de spor i sandet, som læring efterlader.

Den fulde tekniske version med specifikke statistikker, paper-referencer, og protokol-detaljer findes på learning (engelsk teknisk).