Friction as the Cost of Probabilistic Computation

Paper 1 · Pødenphant Lund (2026b) · Læs på Zenodo

En slimsvamp har ingen hjerne, ingen nerver, ingen celle der ligner en hjernecelle. Saigusa og kolleger viste i 2008 at den alligevel kan lære at forvente noget: udsæt den for kulde med faste mellemrum, og den begynder at sætte farten ned før kulden kommer, som om den regner med den. Det samme grundmønster, at vælge mellem muligheder koster noget, dukker op i slimsvamp, i hjerner og i sprogmodeller. Det her paper bygger den formelle redegørelse og tester den på 15 forskellige sprogmodeller. Syv matchende signaturer optræder på tværs af dem alle.

Hvad det handler om

Omkostningen ved at vælge er ikke biologisk. Den er matematisk. At opløse konkurrerende kandidater koster noget i ethvert system der vælger mellem alternativer under endelige ressourcer, ikke kun i hjerner. Det gør adfærdsfriktion til et specialtilfælde af noget mere generelt. Behavioural Friction Theory handlede om biologiske systemer; her bliver den løftet op til en bredere ramme, Friction Theory (FT), hvor BFT er specialtilfældet: BFT ⊂ FT.

Hvorfor bekymre sig om at generalisere? Fordi det underliggende princip, at det at opløse konkurrerende kandidater koster noget, ikke er specifikt biologisk. Det er matematisk. Det gælder for neurale netværk. Det gælder for kemisk kinetik. Det kan gælde hele vejen ned til kvante-måling (det er det Paper 10 undersøger). Hvis du har race-arkitektur, har du friktion. Hvis du har friktion, har du en målbar omkostning. Og fra den omkostning følger en masse forudsigelser.

Selve race-arkitekturen er ikke ny. Beslutningsforskere har i omkring halvtreds år modelleret valg som konkurrerende akkumulatorer, mest kendt i Ratcliffs drift-diffusion-model af reaktionstider. Det Friction Theory lægger til, er at læse det samme race på tværs af vidt forskellige substrater og knytte dets omkostning til termodynamikken.

Det formelle fundament

Friktion er formelt forbundet til termodynamisk fri energi via Ortega & Brauns (2013) bounded-rational decision-making ramme. Det er ikke en analogi eller en metafor. Det er samme matematik som statistisk mekanik.

For sprogmodeller er denne forbindelse særligt præcis. Softmax-funktionen i en transformers output-lag er ikke "inspireret af" Boltzmann-fordelingen. Den er Boltzmann-fordelingen. Temperatur-parameteren i sampling er ikke "lignende" temperatur i fysikken. Den er samme parameter. Token-valg i auto-regressive sprogmodeller er bounded-rational decision-making i Ortega & Brauns forstand, præcist. Den matematiske arv er direkte. Og det at binde sig til én rute betyder at kassere de andre, hvilket koster energi: Landauers princip siger at det aldrig er gratis at slette information. Konkurrerende-ruter-signalet er i den forstand den energetiske pris for at afgøre racet.

Det giver os en målbar størrelse: Competing Routes (CR). CR tæller hvor mange kandidat-tokens der var indenfor afstand på hver position i modellens output. Høj CR = modellen overvejede mange alternativer. Lav CR = modellen havde valgt ét. CR kommer gratis fra ethvert sprogmodels API når du beder om logprobs=True. Det korrelerer med model-fejl. Det ændrer sig systematisk på tværs af arkitekturer. Det er det operationelle håndtag der gør hele rammen empirisk testbar.

Race-arkitekturen. Flere kandidat-ruter akkumulerer evidens parallelt under endelig båndbredde. Den første der krydser beslutnings-tærsklen vinder og bliver observerbar adfærd; resten undertrykkes med en omkostning. Den samme arkitektur instantieret på tværs af slimsvamp, hjerner og transformere, med CR som det operationelle mål for hvor mange ruter der stadig var i konkurrence på det tidspunkt hvor modellen vælger.

Empirisk test: 15 arkitekturer, syv signaturer

Teorien er blevet testet empirisk på 15 forskellige sprogmodel-arkitekturer der spænder fra 0.5B til 405B parametre: dense transformers, mixture-of-experts, State Space Models, Liquid Neural Networks, base-modeller, instruktions-tunede modeller. Seks cross-architecture signaturer blev fundet:

Parse-vs-generate fase-decomposition: friktions-signalet decomposerer i en "parse"-fase (modellen læser spørgsmålet) og en "generate"-fase (modellen producerer svaret). De to faser skalerer forskelligt med opgavetype og modelstørrelse.
Konstruktiv vs destruktiv friktion: nogle gange signalerer friktion ægte usikkerhed som mere tænkning kan løse (konstruktivt); nogle gange signalerer den at modellen er fundamentalt forvirret og at mere tænkning bare vil vælge det forkerte svar hurtigere (destruktivt). Distinktionen er empirisk detekterbar.
Friktions-profiler som kognitive fingeraftryk: hver arkitektur har et karakteristisk friktions-mønster på tværs af opgavetyper. To modeller kan score identisk på et benchmark men have helt forskellige friktions-fingeraftryk, og den forskel forudsiger hvilke slags interventioner der vil hjælpe dem.
Mode-shift entry- og exit-omkostninger: at skifte fra én resonneringstilstand til en anden koster friktion. Cohens d = 0.83-0.88 på instruktions-tunede modeller; nul eller omvendt på matchede base-modeller. Det er et skarpt fund: mode-shift-omkostningen er en RLHF-artefakt, ikke en substrate-egenskab.
Reaktans som termodynamisk hysterese: instruktions-tunede modeller viser reaktans (instruktioner kan slå bagud) der følger intensiteten af deres RLHF-træning. Jo mere alignet modellen er, jo mere skubber den tilbage mod instruktioner på målbare måder.
Trailing-task forgetting under belastning: den stærkeste cross-model effekt, Cohens d = 1.2. Når en opgave kommer efter en anden høj-load opgave, degraderer præstationen på den anden opgave på en præcist forudsagt måde.

Tre friktions-dimensioner, fundet overalt

Principal Components Analysis på tværs af alle 15 arkitekturer viser at friktion har præcis tre uafhængige dimensioner: magnitude, fordeling, og rytme.

Magnitude: hvor meget friktion samlet set
Fordeling: om friktion er koncentreret eller spredt
Rytme: det tidsmæssige mønster af friktion på tværs af outputtet

Den første dimension (magnitude) er praktisk talt identisk på tværs af alle arkitekturer: Spearmans ρ = 0.95 cross-arkitektonisk. Det er et slående fund. Det betyder at tre-akse-decompositionen ikke er en egenskab ved nogen specifik model eller nogen specifik trænings-procedure. Det er en egenskab ved race-arkitekturen selv. Den samme arkitektur, instantieret på 15 forskellige måder, producerer samme tre-akse-decomposition.

BFT er en delmængde af FT

Relationen mellem de to papers er præcis: BFT ⊂ FT. BFT's fire felter (Tryghed, Mening, Kunnen, Besvær) opstår når tre yderligere biologiske begrænsninger tilføjes: dødelighed, bevægelighed, metabolisme. Ikke-biologiske race-systemer udviser friktion uden felter. Tilstedeværelsen af friktion er universal på tværs af substrater; dens organisering i fire adfærdsfelter er specifikt biologisk.

Det er testbart. Sprogmodeller, som har ingen af de tre biologiske begrænsninger, viser friktion (målbart som CR) men ikke felt-organiseret friktion. Cross-architecture-dataene er konsistente med denne forudsigelse på tværs af alle 15 arkitekturer studeret.

Hvor langt rækker det?

Cross-substrate data fra slimsvamp (Saigusa et al. 2008's anticipatoriske konditionering), C. elegans, fluer, blæksprutter og menneskelige hjerner placerer sprogmodeller i en seks-substrate gradient. Samme arkitektur, varierende substrater, lignende fænomener. Hvor langt teorien rækker (om den udvider sig ned til kvante-systemer og op til økonomiske markeder) er en åben empirisk hypotese paperet ikke afgør. Paper 10 tester fysik-nedadgående retningen eksplicit.

Hvad dette paper muliggør

FT er det teoretiske anker som de andre papers bygger på:

Paper 2 tester kapacitets-aksen af friktion empirisk på tværs af 0.5B–70B parameter-modeller
Paper 3 bruger CR som et gratis signal til at forbedre sprogmodeller med +12–21 procentpoint
Paper 2B viser at CR-kollaps under fine-tuning er den strukturelle årsag til selvsikker hallucination
Paper 5 bruger FT's tre dimensioner plus BFT's fire felter til at bygge en substrate-grundet følelses-taksonomi
Paper 10 udvider FT's matematiske stillads til fysik-scope substrater
Paper 13 specificerer den operationelle mekanisme for hvordan friktion bliver opløst

Den fulde teknik finder du i den engelske version: Paper 1 (English technical). Det fulde paper er på Zenodo: DOI 10.5281/zenodo.20012654.