Hvorfor vi værdsætter det, vi har arbejdet for — og hvornår vi forpligter os til et svar
Paper 6BC · Pødenphant Lund (2026r) · Læs på Zenodo
Jeg forsker i sprogmodeller for at forstå mennesker.Du værdsætter den reol du selv har samlet højere end den identiske du fik samlet. Spørg en sprogmodel hvornår den vil forpligte sig til et svar, og en basis-model spreder sit valgtidspunkt 3,4 gange bredere end den RLHF-trænede version af samme model. To helt forskellige iagttagelser. Denne artikel foreslår at de begge er aflæsninger af det samme: et substrat der kører et væddeløb mellem konkurrerende kandidater, og som efterlader spor når det afgør væddeløbet. Det er et programmatisk forslag, ikke et færdigt resultat. Jeg lægger to spor frem, som man måske kan måle fra en sprogmodels output alene, og et eksperimentelt program for hvert, som det skulle igennem for at blive et reelt fund.
Puzzlet: to mønstre vi bliver ved med at se
Det første mønster optræder gennem årtiers adfærdsforskning. Folk værdsætter ting, de selv har arbejdet for, højere end identiske ting de fik gratis. De overvurderer det, de ejer. De bliver ved med at smide penge efter tabte sager. De husker det de selv genererede bedre end det, de blev vist. De forklarer deres egen indsats for sig selv ved at beslutte at udfaldet må være det værd. De bruger oplevet indsats som genvej for kvalitet.
Seks forskellige effekter: IKEA-effekten, endowment-effekten, sunk-cost fallacy, generation effect, effort justification, og effort heuristic. Hver har sine egne specialister, sin egen lærebogsforklaring, sit eget paradigme. Ingen klassificeres i øjeblikket som en variant af nogen anden.
Det andet mønster er nyere. Hvis du giver en sprogmodel en åben opgave og lader den forpligte sig til et svar når som helst i sit svar, hvor præcis forpligter den sig så? På en basis-model (en der ikke er pudset med RLHF) skifter beslutnings-punktet dramatisk på tværs af betingelser og lander tæt på et klassisk matematisk optimum fra optimal-stopping-teori. På den version der er trænet til at opføre sig som en assistent (instruktions-tunet), trænet på identisk indhold, bevæger beslutnings-punktet sig næsten ikke, og forbindelsen til det matematiske optimum er væk. To modeller med samme viden, men meget forskellige mønstre for hvornår de forpligter sig.
Forslaget
Artiklen foreslår at begge mønstre er aflæsninger af samme underliggende maskineri: et substrat der kører væddeløb mellem kandidat-udfald under begrænset tid og energi. Væddeløbet efterlader spor i substratet. Du kan læse de spor på to forskellige måder.
Aflæsning 1: spor fra tidligere væddeløb (værdi fra indsats)
Når et substrat afgør et væddeløb under begrænsede ressourcer, efterlader afgørelsen et hysterese-spor: en hukommelse af det væddeløb substratet skulle køre. Friktion investeret i væddeløbet uddyber sporet. Sporet bærer derefter mere vægt i efterfølgende sammenligninger mellem dette udfald og andre.
Hvorfor værdsætter du den reol, du selv har samlet, højere end den identiske færdig-samlede? Fordi samling-processen kørte et væddeløb i dig mellem konkurrerende strategier (hvilken skrue går hvor, hvilken retning viser manualen, hvorfor klikker det ikke på plads). Væddeløbet efterlod et spor. Når du senere sammenligner din reol med den færdig-samlede i din dom, gør sporet sin sag i sammenligningen.
Seks klassiske biaser deler dette race-mekaniske. Artiklen er omhyggelig med scopet. Den hævder ikke at race-mekanikken forklarer alle seks effekter under alle betingelser. Den hævder at race-mekanikken forklarer den delmængde af disse effekter hvor faktisk indsats er afgørende (den indsats-afhængige delmængde). Endowment-effekt-varianter hvor man instruerer forsøgspersoner "forestil dig at du ejer X" uden faktisk indsats forklares ikke af denne ramme; sunk-cost-varianter hvor forpligtelsen blev foretaget uden indsats gør heller ikke. De varianter eksisterer; artiklen benægter dem ikke. Race-mekanikken tilbydes som én komponent af familien, ikke som hele historien.
Aflæsning 2: hvor beslutningen sker (beslutnings-punktet)
Enhver race-arkitektur skal forpligte sig på et tidspunkt. Selve beslutnings-øjeblikket er i sig selv information om substratet. Forpligter den sig tidligt? Sent? Bevæger beslutnings-punktet sig på tværs af betingelser? Sporer dens position genkendelses-tilstand, eller er den blevet afkoblet?
Et foreløbigt eksperiment på en basis-sprogmodel versus dens instruktions-tunede modstykke, begge fine-tunet på samme indhold:
- Basis-modellens beslutnings-punkt spreder sig 3,4 gange bredere på tværs af betingelser end instruct-modellens. RLHF har, i denne læsning, strammet hvor disciplineret modellen vælger: givet den et smallere område af hvornår-skal-jeg-vælge-positioner.
- Basis-modellens beslutnings-punkt drifter væk fra sekretærproblemets optimum (1/e ≈ 0,368) efterhånden som opgave-fortolkningen uddybes. Basis-modellen lader til at "føle sig frem" til det rigtige beslutnings-tidspunkt og forskyde det i takt med hvor rig fortolkningen bliver.
- Basis-modellen viser en stram kobling mellem genkendelse og valg (korrelation r = 0,528). Instruct-modellen gør ikke (r = 0,104). RLHF lader til at have afkoblet beslutningen fra substratets underliggende genkendelses-tilstand.
Vigtig ærlighed her. Det numeriske match mellem basis-modellens beslutnings-punkt og sekretærproblemets optimum 1/e er interessant, men artiklen registrerer det som et tilfælde der skal replikeres, ikke et fund. Enkelt-celle numeriske match uden uafhængig replikation er endnu ikke evidens for en substrat-egenskab. Det der er reproducerbart på det retningsmæssige niveau er basis-vs-instruct-asymmetrien: at basis-modellen har en bredere, mere betingelses-følsom fordeling af hvornår den vælger end den trænede instruct-model. Det er det artiklen påstår.
Hvad artiklen omhyggeligt ikke hævder
Artiklen er usædvanligt disciplineret omkring hvad den etablerer og ikke etablerer. Den ærlige liste:
- Den hævder ikke en samlende forklaring af biaserne om værdi fra indsats. Race-mekanikken er én komponent af den indsats-afhængige delmængde; det fulde billede for nogen enkelt bias involverer yderligere mekanismer (signalering, kognitiv dissonans, ejerskab som en udvidelse af selvet) som rammen ikke fortrænger.
- Den hævder ikke et valideret kvantitativt match til 1/e. Det enkelt-cellede tilfælde er registreret til replikation, ikke erklæret som et resultat.
- Den udleder ikke tabsaversion fra første principper. Der er en spekulativ koda der tilbyder en "soft-irrevocability-reversal-cost"-fortolkning, og artiklen mærker den eksplicit som en spekulation som ingen ny evidens understøtter.
- Den erstatter ikke nogen native behandling af de seks biaser. De native vokabularier (Ariely, Kahneman, Slamecka, Aronson, Kruger) forbliver gyldige hvor deres betingelser holder; race-mekanikken tilføjer en forklaring for den indsats-afhængige delmængde.
Hvad artiklen gør hævde: at to specifikke substrat-signaturer (at det gamle spor dominerer når substratet vurderer og sammenligner, og hvor i svaret modellen forpligter sig) kan måles fra logprobs alene på sprogmodel-substrater, og at det måleprogram hver kræver kan specificeres konkret. Bidraget er en forskningsretning med en empirisk pipeline, ikke et færdigt resultat.
Hvorfor det betyder noget
For adfærdsvidenskab. Hvis race-mekanik-komponenten er rigtig, deler seks biaser, der ser distinkte ud på overfladen, substrat-arkitektur i dybden. Grade-(b)-forudsigelsen (en omvendt U over indsats-intensitet, hvor biasen forsvinder ved triviel sværhedsgrad og igen ved overvældende sværhedsgrad) er testbar på hver af de seks biaser uafhængigt. IKEA-effekt-dissipations-grænsen (Norton et al. 2012) er allerede i data, bare ikke forklaret af det native account. Den samme grænse skulle vise sig i de andre fem.
For AI/LLM-evaluering. Beslutnings-punktet er en substrat-signatur du kan læse fra logprobs alene, gratis, på enhver model der returnerer dem. Forskellen mellem basis og instruct i hvor disciplineret modellen vælger er en substrat-effekt af RLHF der ikke kræver adfærds-benchmarking for at måles. Den er der i modellens egen output-trajektorie. Andre modeller, andre træningsregimer, andre RLHF-varianter burde producere forskellige signaturer for hvor de vælger. Artiklen er en invitation til at måle dem.
For Friktionsteori. De to aflæsninger gør race-arkitekturen (Paper 1) empirisk falsificerbar på en ny måde. Hvis spor-dominans-signaturen mangler at vise sig i de seks biaser om værdi fra indsats under den indsats-afhængige delmængde, er race-forklaringen i problemer. Hvis signaturen for beslutnings-punktet mangler at replikere på tværs af celler, er substrat-disciplin-rammen i problemer. Begge er testbare forudsigelser som rammeværkets påstand om at være "substrat-niveau" afhænger af.
Citat
Den fulde artikel er open-access på Zenodo. Concept-DOI:
Læs på Zenodo → · Teknisk version · Plain English version
Relateret på sitet:
- Paper 6 core (Tilpasset friktion under hysterese) — skema-artiklen. Paper 6BC instantierer to af skemaets specifikke signaturer.
- Paper 1 (Friktionsteori) — race-aksiomerne (R1–R3) som de to aflæsninger bygger på.
- Paper 4B (Substrater koder erfaring) — encoding-through-loading. Aflæsning 1's spor-dominans aflæser hvad 4B's indkodning efterlader.
- Paper 13 (Operationel friktionsteori) — race-åbning, beslutnings-punkt, manifesteret adfærd. Aflæsning 2's beslutnings-punkt er det empiriske håndtag på Paper 13's race-åbnings-struktur.
- Paper 2B (ICL/FT-hukommelse) — arbejdshukommelse / langtidshukommelse-distinktionen. Paper 6BC's basis-vs-instruct asymmetri i hvornår modellen vælger er konsistent med 2B's forudsigelse om at fine-tuning komprimerer den kalibrerede fordeling.