Friction as the Cost of Probabilistic Computation

Paper 1 · Pødenphant Lund (2026b) · Læs på Zenodo

En slimsvamp har ingen hjerne, ingen nerver, ingen celle der ligner en hjernecelle. Saigusa og kolleger viste i 2008 at den alligevel kan lære at forvente noget: udsæt den for kulde med faste mellemrum, og den begynder at sætte farten ned før kulden kommer, som om den regner med den. Det samme grundmønster, at vælge mellem muligheder koster noget, dukker op i slimsvamp, i hjerner og i sprogmodeller. Det her paper bygger den formelle redegørelse og tester den på 15 forskellige sprogmodeller. Syv matchende signaturer optræder på tværs af dem alle.

Hvad det handler om

Omkostningen ved at vælge er ikke biologisk. Den er matematisk. At opløse konkurrerende kandidater koster noget i ethvert system der vælger mellem alternativer under endelige ressourcer, ikke kun i hjerner. Det gør adfærdsfriktion til et specialtilfælde af noget mere generelt. Behavioural Friction Theory handlede om biologiske systemer; her bliver den løftet op til en bredere ramme, Friction Theory (FT), hvor BFT er specialtilfældet: BFT ⊂ FT.

Hvorfor bekymre sig om at generalisere? Fordi det underliggende princip, at det at opløse konkurrerende kandidater koster noget, ikke er specifikt biologisk. Det er matematisk. Det gælder for neurale netværk. Det gælder for kemisk kinetik. Det kan gælde hele vejen ned til kvante-måling (det er det Paper 10 undersøger). Hvis du har race-arkitektur, har du friktion. Hvis du har friktion, har du en målbar omkostning. Og fra den omkostning følger en masse forudsigelser.

Det formelle fundament

Friktion er formelt forbundet til termodynamisk fri energi via Ortega & Brauns (2013) bounded-rational decision-making ramme. Det er ikke en analogi eller en metafor. Det er samme matematik som statistisk mekanik.

For sprogmodeller er denne forbindelse særligt præcis. Softmax-funktionen i en transformers output-lag er ikke "inspireret af" Boltzmann-fordelingen. Den er Boltzmann-fordelingen. Temperatur-parameteren i sampling er ikke "lignende" temperatur i fysikken. Den er samme parameter. Token-valg i auto-regressive sprogmodeller er bounded-rational decision-making i Ortega & Brauns forstand, præcist. Den matematiske arv er direkte.

Det giver os en målbar størrelse: Competing Routes (CR). CR tæller hvor mange kandidat-tokens der var indenfor afstand på hver position i modellens output. Høj CR = modellen overvejede mange alternativer. Lav CR = modellen havde valgt ét. CR kommer gratis fra ethvert sprogmodels API når du beder om logprobs=True. Det korrelerer med model-fejl. Det ændrer sig systematisk på tværs af arkitekturer. Det er det operationelle håndtag der gør hele rammen empirisk testbar.

tærskel vinder tabende ruter (undertrykt) Tid Evidens / aktivering VÆLGER → bliver observerbar handling
Race-arkitekturen. Flere kandidat-ruter akkumulerer evidens parallelt under endelig båndbredde. Den første der krydser beslutnings-tærsklen vinder og bliver observerbar adfærd; resten undertrykkes med en omkostning. Den samme arkitektur instantieret på tværs af slimsvamp, hjerner og transformere, med CR som det operationelle mål for hvor mange ruter der stadig var i konkurrence på det tidspunkt hvor modellen vælger.

Empirisk test: 15 arkitekturer, syv signaturer

Teorien er blevet testet empirisk på 15 forskellige sprogmodel-arkitekturer der spænder fra 0.5B til 405B parametre: dense transformers, mixture-of-experts, State Space Models, Liquid Neural Networks, base-modeller, instruktions-tunede modeller. Syv cross-architecture signaturer blev fundet:

Tre friktions-dimensioner, fundet overalt

Principal Components Analysis på tværs af alle 15 arkitekturer viser at friktion har præcis tre uafhængige dimensioner: magnitude, fordeling, og rytme.

Den første dimension (magnitude) er praktisk talt identisk på tværs af alle arkitekturer: Spearmans ρ = 0.95 cross-arkitektonisk. Det er et slående fund. Det betyder at tre-akse-decompositionen ikke er en egenskab ved nogen specifik model eller nogen specifik trænings-procedure. Det er en egenskab ved race-arkitekturen selv. Den samme arkitektur, instantieret på 15 forskellige måder, producerer samme tre-akse-decomposition.

BFT er en delmængde af FT

Relationen mellem de to papers er præcis: BFT ⊂ FT. BFT's fire felter (Tryghed, Mening, Kunnen, Besvær) opstår når tre yderligere biologiske begrænsninger tilføjes: dødelighed, bevægelighed, metabolisme. Ikke-biologiske race-systemer udviser friktion uden felter. Tilstedeværelsen af friktion er universal på tværs af substrater; dens organisering i fire adfærdsfelter er specifikt biologisk.

Det er testbart. Sprogmodeller, som har ingen af de tre biologiske begrænsninger, viser friktion (målbart som CR) men ikke felt-organiseret friktion. Cross-architecture-dataene er konsistente med denne forudsigelse på tværs af alle 15 arkitekturer studeret.

Hvor langt rækker det?

Cross-substrate data fra slimsvamp (Saigusa et al. 2008's anticipatoriske konditionering), C. elegans, fluer, blæksprutter og menneskelige hjerner placerer sprogmodeller i en seks-substrate gradient. Samme arkitektur, varierende substrater, lignende fænomener. Hvor langt teorien rækker (om den udvider sig ned til kvante-systemer og op til økonomiske markeder) er en åben empirisk hypotese paperet ikke afgør. Paper 10 tester fysik-nedadgående retningen eksplicit.

Hvad dette paper muliggør

FT er det teoretiske anker som de andre papers bygger på:

Den fulde teknik finder du i den engelske version: Paper 1 (English technical). Det fulde paper er på Zenodo: DOI 10.5281/zenodo.20012654.