Capacity Scaling of Encoding-Through-Loading

Paper 2 · Pødenphant Lund (2026c) · Læs på Zenodo

Jeg forsker i sprogmodeller for at forstå mennesker.Den mindste sprogmodel jeg testede (0,5 milliarder parametre) kæder to nye fakta sammen til et nyt svar 2% af tiden. Den største (70 milliarder) gør det 85% af tiden. På samme opgave er en 70-milliarder-model derimod nogenlunde lige så god til bare at genfinde ét faktum som en 7-milliarder. “Læring” er altså ikke én ting. Det er mindst to, og de to skalerer med modelstørrelse på vidt forskellige måder.

Hvad det handler om

Dette paper tager ét meget specifikt puslespil og bruger det til at åbne et meget større. Puslespillet: når man giver en sprogmodel ny information, kan den svare på nogle slags spørgsmål om den information godt og andre slags spørgsmål dårligt. Mønsteret for hvilke-slags-godt og hvilke-slags-dårligt er meget lovmæssigt. Og det mønsteret fortæller os er at "læring" ikke er én ting. Det er mindst to ting, og de skalerer med kapacitet helt forskelligt.

To opgavetyper, samme viden

Tag 47 fakta om et opfundet domæne. I paperet bruger vi et opfundet emne kaldet "Zorbetik" så modellen ikke kan have set noget af det under træning. Stil nu to slags spørgsmål om de fakta:

Cloze (genfinding): "Hvad er katalysatoren for reaktionen beskrevet i fakta 23?" Modellen skal bare finde og gengive fakta. Det mætter tidligt: de fleste modeller når 90% nøjagtighed ved 8 milliarder parametre. Under 8B stiger præstationen stejlt; over 8B flader den ud.
Application (kæde fakta): "Hvis du tog stoffet fra fakta 12 og udsatte det for betingelserne fra fakta 31, og så genkørte katalysen fra fakta 23 på resultatet, hvad ville du få?" Modellen skal hente flere fakta og kæde dem til et nyt resultat. Det skalerer monotont: fra 2% ved 0.5 milliarder parametre til 85% ved 70 milliarder. Spearmans korrelation på tværs af Qwen2.5-stigen: ρ = +1.000. Perfekt.

Samme viden, forskellig belastning. Cloze-genfinding mætter ved ~8B parametre; application skalerer monotont på tværs af tre størrelsesordener. Gabet mellem dem ved enhver modelstørrelse er friktionsloft-mønsteret på enkodnings-niveau.

Samme viden. Forskellig belastning. Cloze er indeksering-bundet: har du fakta lagret, kan du hente det? (Som at slå et telefonnummer op du allerede kender.) Application er komposition-bundet: kan du holde flere fakta i tankerne på én gang og kombinere dem under belastning? (Som at bruge flere telefonnumre til at løse en gåde.)

At større modeller klarer sig bedre, er i sig selv gammelt nyt: scaling-laws-arbejdet (Kaplan og Chinchilla-studierne) har allerede vist at evnen stiger med størrelse. Det nye her er den rene opdeling på samme videnbase, hvor den ene opgavetype mætter tidligt og den anden bliver ved at stige, og at koble den opdeling til hvordan viden er enkodet.

Flaskehalsen flytter sig

Det mest interessante fund er ikke nogen af kurverne hver for sig. Det er hvad de siger sammen: flaskehalsen skifter efterhånden som kapacitet vokser.

Ved 0.5B parametre kan modellen ikke engang hente. Både cloze og application fejler. Friktion er overalt: modellen er overbelastet af selv basal indeksering. Substratet har ikke nok arbejdsrum.

Ved 8B er genfinding i vid udstrækning løst. Cloze er på 90%. Men application kæmper stadig, kun ~40%. Modellen kender fakta'ene men kan ikke kæde dem. Vi kan se det direkte: ved 14B parametre viser cirka 36% af fejlene et "genfinding lykkes, men afledning fejler"-mønster. Substratet har informationen, men har ikke arbejdsrum til at komponere med den under belastning. Det er friktionsloft-mønsteret på enkodnings-niveau.

Ved 70B er begge i vid udstrækning løst. Cloze 90%, application 85%. Substratet har nu nok kapacitet til at hente og komponere. Flaskehalsen er løftet forbi hvor opgaven lever.

Det dette kortlægger på er et velkendt mønster i menneskelig læring: en nybegynder kan recitere formlen men kan ikke anvende den; en mellem-niveau-elev kan anvende den i simple tilfælde men bryder sammen under belastning; en ekspert anvender den flydende. Samme viden, tre forskellige præstations-niveauer, drevet af hvor substratets flaskehals sidder i forhold til opgavens krav.

Hvorfor det opfundne domæne betyder noget

En almindelig kritik af LLM-eksperimenter: "modellen kendte allerede svaret fra sin trænings-data; du måler bare memorering." Zorbetik-designet besejrer det her fuldstændigt. Hvert faktum i domænet er fiktivt. Navnene på stofferne, katalysatorerne, reaktions-betingelserne: alt opfundet. Modellen kan ikke have set noget af det under træning.

Det dette tillader os at måle er substratets rå evne til at integrere og bruge information præsenteret i prompten: tag den her nye viden, hold den, kombiner den, udled nye konklusioner fra den. Præstations-tallene vi rapporterer er rene, ikke kontamineret af hvad modellen allerede vidste.

MoE-modeller skalerer på aktive parametre, ikke totale

Et side-fund med deployment-implikationer: en 235-milliarder-parameter Mixture-of-Experts model med 22 milliarder aktive parametre præsterer på application-opgaver som en 22B dense model, ikke en 235B. Active-parameter-projektionen lander indenfor 3 procentpoint af den faktiske præstation; total-parameter-projektionen er 22-33 procentpoint forkert.

Det betyder noget fordi MoE-modeller rutinemæssigt benchmarkes ved deres totale parameter-antal. Hvis du holder af komposition-bundne opgaver (ræsonneren, multi-step problem-løsning, hvad som helst der kræver at holde flere ting i arbejdshukommelse), er det det aktive parameter-antal der betyder noget.

En praktisk genvej

Eksperimenterne bruger en teknik kaldet frontloaded in-context learning: i stedet for at fine-tune en model på den nye viden (som tager timer per eksperiment, koster penge, kræver GPU-adgang), putter vi bare hele viden i prompten og stiller spørgsmålet.

Det er hurtigt (~5 sekunder vs timer), billigt (øre vs dollars), og uniformt på tværs af model-familier (ingen model-specifikke fine-tuning-opskrifter). Det lader os også måle friktion direkte via per-token logprobs mens modellen producerer svaret.

En note om kredit: jeg kom til den her tilgang selv, ud af frustration over hvor langsomt fine-tuning kørte. Jeg fandt senere ud af at andre havde brugt varianter af frontloaded-context-substitution før mig, så jeg påstår ikke teknikken er min, kun at den var den eneste praktiske vej igennem den her eksperiment-serie.

Caveats: ICL er begrænset af context window og er ephemerisk, så du skal levere viden på ny hver prompt. For meget store videnssæt, for persistens-studier, og for route-overwrite eksperimenter er fine-tuning stadig nødvendigt. (Paper 2B viser at det ikke kun er en omkostnings-trade-off: ICL og FT instantierer fundamentalt forskellige hukommelses-regimer.)

Implikationer

For Friction Theory: kapacitet er én akse af friktion, og dette paper isolerer den. Flaskehals-migrationen med kapacitet giver os et rent vindue til hvordan friktion fungerer på enkodnings-niveau.

For uddannelses-videnskab: den samme viden enkodet på forskellige kapacitets-niveauer understøtter forskellige opgavetyper. En elev der kan cloze kan ikke nødvendigvis application; en elev der kan application kan ikke nødvendigvis langt transfer. Gabet mellem cloze-succes og application-succes er ikke motivation, og det er ikke "vidensgab" i den normale forstand: eleven har viden. Gabet er komposition-bundet beregning under belastning. Anderledes intervention.

For AI-deployment: aktive-parameter-skalerings-resultatet har direkte implikationer for MoE-benchmark-fortolkning. En 235B MoE benchmarket på genfinding ser 90%-præcis ud; på application ser den 22B-formet ud. Vælg det rigtige benchmark for det rigtige deployment.

Hvad jeg ikke ved

Hver skaleringskurve er målt på én model-familie ad gangen (Qwen2.5-stigen, med enkelte tjek på andre). At den samme kapacitets-tærskel sidder samme sted på tværs af alle arkitekturer er en rimelig forventning, ikke noget jeg har vist. En anden familie kan have flaskehals-migrationen et andet sted.

Og det hele er målt med viden holdt i prompten, ikke trænet ind i vægtene. Paper 2B viser at de to ikke er udskiftelige, så application-tærsklen kan ligge anderledes når viden er fine-tunet ind. At den samme kapacitets-gradient gælder biologisk læring er en formodning, ikke en måling.

Relaterede papers

Paper 1 — Friction Theory — det teoretiske fundament; kapacitet er en af de tre friktions-dimensioner
Paper 2B — ICL som arbejdshukommelse, FT som langtidshukommelse — hvad der sker når man fine-tuner i stedet for at bruge ICL: substratet komprimerer den kalibrerede fordeling
Læring-siden — bredere behandling af læring på tværs af paper-serien

Den fulde teknik finder du i den engelske version: Paper 2 (English technical). Det fulde paper er på Zenodo: DOI 10.5281/zenodo.20013491.