Friction-Guided Inference

Paper 3 · Pødenphant Lund (2026d) · Læs på Zenodo

Jeg forsker i sprogmodeller for at forstå mennesker.På SimpleQA svarer den åbne model Qwen3-235B rigtigt 41,6% af tiden. Med en lille pipeline ovenpå stiger den til 57,2%, og dermed forbi GPT-4o (38,0%) og GPT-4.1 (40,0%). Hele løftet kommer fra ét gratis signal der allerede ligger i modellens output. Ingen retræning, ingen ekstern verifikator. Kalibrering koster cirka 1,50 dollar per setup, og det samme greb løftede hver model jeg testede med 12 til 21 procentpoint på krævende opgaver (en håndfuld model-benchmark-par indtil videre, så spændet er lovende snarere end en universel lov).

Hvad det handler om

En sprogmodel kender ofte det rigtige svar og siger alligevel noget forkert. Du kan fange det i samme øjeblik det sker, og gøre noget ved det, på enhver sprogmodel, for næsten ingen penge.

Kerne-observationen: sprogmodeller har ofte den viden de skal bruge for at svare rigtigt, men de "låser sig fast" på det forkerte svar alligevel. Nogle gange er de selvsikkert rigtige. Nogle gange er de selvsikkert forkerte. Og nogle gange tøver de synligt, og tøvningen er synlig i deres output. Jeg har fundet et signal der gør tøvningen målbar, og en lille pipeline bygget omkring det signal gør næsten enhver sprogmodel substantielt bedre.

Signalet

Signalet er det jeg kalder Competing Routes (CR): antallet af kandidat-tokens der var indenfor afstand på hver position i modellens output.

Når modellen er sikker på sig selv, dominerer kun ét token fordelingen, og CR ≈ 1. Når modellen er splittet mellem alternativer, har flere tokens lignende sandsynlighed, og CR kan være 3, 5, 10. CR er det operationelle navn for "modellen overvejede flere svar."

Den afgørende egenskab: CR er gratis. Ethvert OpenAI-kompatibelt API returnerer per-token logprobs hvis du beder om det med logprobs=True. Du kan beregne CR fra de logprobs i to linjer Python. Ingen retræning. Ingen ekstern verifikator. Ingen fine-tuning. Signalet sidder der i hver models output, og næsten ingen bruger det.

Et konkret eksempel. Forestil dig at modellen genererer et ét-ords svar på "Hvad er hovedstaden i Frankrig?" API'et returnerer top-5 kandidater med deres log-sandsynligheder:

kandidat-token	logprob	sandsynlighed
Paris	−0.04	0.96
paris	−3.91	0.02
The	−4.61	0.01

Kun ét token er reelt med → CR ≈ 1. Forestil dig nu at samme model genererer et token i et svært tanke-skridt, og top-5 ser sådan ud: "ja" 0.32, "nej" 0.28, "måske" 0.21, "det" 0.14, "uklart" 0.05 → CR ≈ 4 (fire kandidater inden for en meningsfuld margen). Det tal, beregnet per token, er hele signalet.

To mekanismer bygget ovenpå

CR i sig selv er bare en måling. Paperet udvikler to praktiske mekanismer der bruger det:

1. Strategi-pipeline. Når modellen er usikker (høj CR), giv den endnu en chance. Specifikt: bed den om at genoverveje spørgsmålet under lidt forskellige betingelser, fx step-by-step ræsonneren, pre-mortem checking, verifikation, eller alternative framinger. Forskellige strategier hjælper forskellige modeller på forskellige opgaver. Paperet viser hvordan man kalibrerer den rigtige strategi fra 50-200 eksempel-spørgsmål, og kalibreringen koster cirka 1,50 dollar per model-benchmark-par.

2. Kalibreret afståelse. Når modellen er meget usikker, så lad den sige "jeg ved det ikke". Det bygger på en lang tradition for confidence-kalibrering og selective prediction (bl.a. Guo med kolleger), idéen om at et system bør vide hvornår det skal afstå. Det lyder banalt, men det er det ikke: standard-modeller vil vælge et svar selv når CR er vildt højt, fordi de er trænet til det. Et lille kalibrerings-trin lader modellen afstå på de 20% af spørgsmålene hvor den mest sandsynligt vil være selvsikkert forkert, hvilket fjerner en stor del af de mest skadelige fejl.

Hele pipelinen. Strategi og afståelse supplerer hinanden. Strategi henter svaret hjem når modellen er usikker, men stadig kan reddes. Afståelse forhindrer selvsikkert forkerte svar når modellen er meget usikker.

Pre-mortem er én af strategierne, og den kommer fra menneskelig beslutningstagning

Et konkret eksempel. Pre-mortem (teknikken hvor man forestiller sig at ens projekt allerede er fejlet og spørger sig selv hvorfor) er en veletableret teknik i menneskelig beslutningstagning (Gary Klein 2007). Den virker fordi den aktiverer ruter som almindelig fremad-rettet ræsonneren ikke gør: man ræsonnerer fra en tilstand af forestillet fiasko snarere end forestillet succes, og det bringer andre overvejelser frem.

Pre-mortem viser sig at være en af de mest effektive strategier i kalibrerings-suiten. Det er ikke fordi modellen er trænet på Kleins arbejde, og det er heller ikke fordi den virker på enhver opgave (det gør den ikke, og på simpel faktuel genfinding skader den ofte). Det er fordi den samme arkitektoniske egenskab der gør pre-mortem nyttig i mennesker, nemlig at den tvinger substratet til at evaluere fra en anden start-tilstand, også eksisterer i sprogmodeller. Substratet er forskelligt, men teknikken overfører.

Det er det bredere mønster: strategier der virker på mennesker virker ofte på sprogmodeller, og dem der virker af samme arkitektoniske grunde (ikke samme biologiske grunde) overfører mest pålideligt. Step-by-step ræsonneren, verifikation, alternative framinger, pre-mortem: alle har en aner i menneskelig kognition og alle dukker op i kalibrerings-suiten. Rammen forudsiger hvilke der bør overføre og hvilke der ikke skal, og kalibrering fortæller dig per model og per benchmark hvilke der faktisk gør.

Konkrete resultater

Strategi-pipelinen alene giver +7,7 til +20,8 procentpoint på fire af fem testede celler, gennemsnit +11,8 pp. Kombineret med kalibreret afståelse på de fire celler hvor begge blev målt: +12 til +21 pp.

Testet på tværs af fire model-arkitekturer (to dense transformers, én mixture-of-experts, én Liquid Neural Network) og fire benchmarks (MATH-500, SimpleQA, MMLU-Pro, GPQA Diamond):

Qwen2.5-7B på MATH-500: 45,8% → 66,5% (+20,8 pp, strategi alene)
Qwen3-235B på SimpleQA, kombineret pipeline: 41,6% → 57,2% (+15,6 pp). Det overgår GPT-4o (38,0%) og GPT-4.1 (40,0%) på samme benchmark. En open-source-model løftet forbi frontier closed models af den friktions-guidede pipeline.
Qwen3-235B på MMLU-Pro STEM, kombineret: 55,2% → 67,4% (+12,1 pp)
LiquidAI LFM2 på MMLU-Pro STEM, kombineret: 33,8% → 55,0% (+21,3 pp)
GPT-oss-20B på GPQA Diamond, kombineret: 26,3% → 45,5% (+19,2 pp)

Vanilla versus friktions-guidet pipeline på tværs af 5 celler, 4 arkitekturer (dense transformer, MoE, Liquid Neural Network), 4 benchmarks. Gennemsnitligt løft +17,8 pp. Pipelinen er arkitektur-agnostisk; kalibrering koster ~1,50 dollar per setup.

Det er ikke udvalgte rosiner. Fem testede celler, fem reelle løft. Den friktions-guidede pipeline holder på tværs af arkitekturer (dense, MoE, LNN), på tværs af benchmarks (matematik, faktuel genfinding, ræsonneren, hård videnskab), og på tværs af modelstørrelser (7B til 235B).

En ærlig grænse: friktionsloftet

En vigtig caveat. CR fortæller dig hvornår modellen er usikker. Det fortæller dig ikke hvilket svar der er korrekt på ethvert individuelt spørgsmål. Hele løftet kommer fra:

Strategien i sig selv: at give modellen endnu en chance under nye betingelser, hvor dens andet forsøg kan opløse usikkerheden anderledes
Afståelse: at forhindre den i at låse sig fast på selvsikre fejl på spørgsmål hvor den ikke har et pålideligt svar

Hvad CR ikke kan er at fange selvsikker-men-forkerte fejl, altså tilfælde hvor modellen er sikker på sig selv men stadig forkert. Per definition flager CR ikke dem, fordi der ikke er nogen friktion at flage. Jeg kalder det friktionsloftet: en strukturel øvre grænse på hvad ethvert friktions-baseret signal kan opnå. Paper 2B diagnosticerer hvor selvsikker-forkert-fejl kommer fra inde i selve modellen: gradient-træning komprimerer den kalibrerede fordeling, så modellen mister adgang til alternativerne der ville have flaget fejlen.

Friktionsloftet er en grænse, ikke et nederlag. Pipelinen giver stadig substantielt løft på hvert benchmark vi testede. Den fanger bare ikke alt, og den ærlige rapportering betyder noget.

Hvad det koster at deploye

Kalibrering er en online-procedure der kører på cirka to timers API-kald, koster cirka 1,50 dollar per model-benchmark-setup. Det er et engangs-deployment-helbredscheck, ikke en model-trænings-kørsel. Strategierne den vælger fra er standard prompting-teknikker, altså intet proprietært indhold, alt reproduceret åbent i preprintet.

Pipelinen er arkitektur-agnostisk. Den virker på enhver sprogmodel med et standard OpenAI-kompatibelt API der returnerer logprobs. Vi har testet den på Qwen, Llama, Mistral, GPT-oss, og LiquidAI's LFM2 med konsistente resultater.

Hvorfor det betyder noget udover paperet

Udover det empiriske løft gør dette paper noget stille vigtigt: det viser at teorien om det underliggende niveau holder i praksis. Friction Theory forudsagde at en sprogmodels logprob-fordelinger skulle bære et udnytteligt signal, fordi den samme race-arkitektur der producerer friktion i hjerner producerer det i transformers. Paper 3 indkasserer den forudsigelse.

Løftet på SimpleQA, hvor Qwen3-235B kommer forbi GPT-4o og GPT-4.1, er også en lille men reel demonstration af at open-source-modeller med det rigtige værktøj kan matche frontier closed models på specifikke benchmarks, uden retræning, for prisen af en kop kaffe.

Relaterede papers

Paper 1 — Friction Theory — det teoretiske fundament; CR er det operationelle håndtag
Paper 2B — forklarer friktionsloftet inde i selve modellen: hvorfor selvsikker-forkert-fejl eksisterer
Opdagelser-siden — friction-guided inference som en af de metodologiske innovationer

Den fulde teknik finder du i den engelske version: Paper 3 (English technical). Al kode, data, og kalibrerings-protokoller er udgivet med preprintet. Det fulde paper er på Zenodo: DOI 10.5281/zenodo.20014121.