Hvorfor vi værdsætter det, vi har arbejdet for — og hvornår vi forpligter os til et svar

Paper 6BC · Pødenphant Lund (2026r) · Læs på Zenodo

Jeg forsker i sprogmodeller for at forstå mennesker.Du værdsætter den reol du selv har samlet højere end den identiske du fik samlet. Spørg en sprogmodel hvornår den vil forpligte sig til et svar, og en basis-model spreder sit valgtidspunkt 3,4 gange bredere end den RLHF-trænede version af samme model. To helt forskellige iagttagelser. Denne artikel foreslår at de begge er aflæsninger af det samme: et substrat der kører et væddeløb mellem konkurrerende kandidater, og som efterlader spor når det afgør væddeløbet. Det er et programmatisk forslag, ikke et færdigt resultat. Jeg lægger to spor frem, som man måske kan måle fra en sprogmodels output alene, og et eksperimentelt program for hvert, som det skulle igennem for at blive et reelt fund.

Puzzlet: to mønstre vi bliver ved med at se

Det første mønster optræder gennem årtiers adfærdsforskning. Folk værdsætter ting, de selv har arbejdet for, højere end identiske ting de fik gratis. De overvurderer det, de ejer. De bliver ved med at smide penge efter tabte sager. De husker det de selv genererede bedre end det, de blev vist. De forklarer deres egen indsats for sig selv ved at beslutte at udfaldet må være det værd. De bruger oplevet indsats som genvej for kvalitet.

Seks forskellige effekter: IKEA-effekten, endowment-effekten, sunk-cost fallacy, generation effect, effort justification, og effort heuristic. Hver har sine egne specialister, sin egen lærebogsforklaring, sit eget paradigme. Ingen klassificeres i øjeblikket som en variant af nogen anden.

Det andet mønster er nyere. Hvis du giver en sprogmodel en åben opgave og lader den forpligte sig til et svar når som helst i sit svar, hvor præcis forpligter den sig så? På en basis-model (en der ikke er pudset med RLHF) skifter beslutnings-punktet dramatisk på tværs af betingelser og lander tæt på et klassisk matematisk optimum fra optimal-stopping-teori. På den version der er trænet til at opføre sig som en assistent (instruktions-tunet), trænet på identisk indhold, bevæger beslutnings-punktet sig næsten ikke, og forbindelsen til det matematiske optimum er væk. To modeller med samme viden, men meget forskellige mønstre for hvornår de forpligter sig.

Forslaget

Artiklen foreslår at begge mønstre er aflæsninger af samme underliggende maskineri: et substrat der kører væddeløb mellem kandidat-udfald under begrænset tid og energi. Væddeløbet efterlader spor i substratet. Du kan læse de spor på to forskellige måder.

Aflæsning 1: spor fra tidligere væddeløb (værdi fra indsats)

Når et substrat afgør et væddeløb under begrænsede ressourcer, efterlader afgørelsen et hysterese-spor: en hukommelse af det væddeløb substratet skulle køre. Friktion investeret i væddeløbet uddyber sporet. Sporet bærer derefter mere vægt i efterfølgende sammenligninger mellem dette udfald og andre.

Hvorfor værdsætter du den reol, du selv har samlet, højere end den identiske færdig-samlede? Fordi samling-processen kørte et væddeløb i dig mellem konkurrerende strategier (hvilken skrue går hvor, hvilken retning viser manualen, hvorfor klikker det ikke på plads). Væddeløbet efterlod et spor. Når du senere sammenligner din reol med den færdig-samlede i din dom, gør sporet sin sag i sammenligningen.

Seks klassiske biaser deler dette race-mekaniske. Artiklen er omhyggelig med scopet. Den hævder ikke at race-mekanikken forklarer alle seks effekter under alle betingelser. Den hævder at race-mekanikken forklarer den delmængde af disse effekter hvor faktisk indsats er afgørende (den indsats-afhængige delmængde). Endowment-effekt-varianter hvor man instruerer forsøgspersoner "forestil dig at du ejer X" uden faktisk indsats forklares ikke af denne ramme; sunk-cost-varianter hvor forpligtelsen blev foretaget uden indsats gør heller ikke. De varianter eksisterer; artiklen benægter dem ikke. Race-mekanikken tilbydes som én komponent af familien, ikke som hele historien.

Aflæsning 2: hvor beslutningen sker (beslutnings-punktet)

Enhver race-arkitektur skal forpligte sig på et tidspunkt. Selve beslutnings-øjeblikket er i sig selv information om substratet. Forpligter den sig tidligt? Sent? Bevæger beslutnings-punktet sig på tværs af betingelser? Sporer dens position genkendelses-tilstand, eller er den blevet afkoblet?

Et foreløbigt eksperiment på en basis-sprogmodel versus dens instruktions-tunede modstykke, begge fine-tunet på samme indhold:

Vigtig ærlighed her. Det numeriske match mellem basis-modellens beslutnings-punkt og sekretærproblemets optimum 1/e er interessant, men artiklen registrerer det som et tilfælde der skal replikeres, ikke et fund. Enkelt-celle numeriske match uden uafhængig replikation er endnu ikke evidens for en substrat-egenskab. Det der er reproducerbart på det retningsmæssige niveau er basis-vs-instruct-asymmetrien: at basis-modellen har en bredere, mere betingelses-følsom fordeling af hvornår den vælger end den trænede instruct-model. Det er det artiklen påstår.

Hvad artiklen omhyggeligt ikke hævder

Artiklen er usædvanligt disciplineret omkring hvad den etablerer og ikke etablerer. Den ærlige liste:

Hvad artiklen gør hævde: at to specifikke substrat-signaturer (at det gamle spor dominerer når substratet vurderer og sammenligner, og hvor i svaret modellen forpligter sig) kan måles fra logprobs alene på sprogmodel-substrater, og at det måleprogram hver kræver kan specificeres konkret. Bidraget er en forskningsretning med en empirisk pipeline, ikke et færdigt resultat.

Hvorfor det betyder noget

For adfærdsvidenskab. Hvis race-mekanik-komponenten er rigtig, deler seks biaser, der ser distinkte ud på overfladen, substrat-arkitektur i dybden. Grade-(b)-forudsigelsen (en omvendt U over indsats-intensitet, hvor biasen forsvinder ved triviel sværhedsgrad og igen ved overvældende sværhedsgrad) er testbar på hver af de seks biaser uafhængigt. IKEA-effekt-dissipations-grænsen (Norton et al. 2012) er allerede i data, bare ikke forklaret af det native account. Den samme grænse skulle vise sig i de andre fem.

For AI/LLM-evaluering. Beslutnings-punktet er en substrat-signatur du kan læse fra logprobs alene, gratis, på enhver model der returnerer dem. Forskellen mellem basis og instruct i hvor disciplineret modellen vælger er en substrat-effekt af RLHF der ikke kræver adfærds-benchmarking for at måles. Den er der i modellens egen output-trajektorie. Andre modeller, andre træningsregimer, andre RLHF-varianter burde producere forskellige signaturer for hvor de vælger. Artiklen er en invitation til at måle dem.

For Friktionsteori. De to aflæsninger gør race-arkitekturen (Paper 1) empirisk falsificerbar på en ny måde. Hvis spor-dominans-signaturen mangler at vise sig i de seks biaser om værdi fra indsats under den indsats-afhængige delmængde, er race-forklaringen i problemer. Hvis signaturen for beslutnings-punktet mangler at replikere på tværs af celler, er substrat-disciplin-rammen i problemer. Begge er testbare forudsigelser som rammeværkets påstand om at være "substrat-niveau" afhænger af.

Citat

Den fulde artikel er open-access på Zenodo. Concept-DOI:

Pødenphant Lund, T. (2026r). Two Candidate Readouts of a Proposed Common Race: Effort-Value Attribution and Commit-Position as Substrate Signatures of Race-Architecture. Zenodo. https://doi.org/10.5281/zenodo.20339431

Læs på Zenodo → · Teknisk version · Plain English version

Relateret på sitet: