Hvorfor en model kan reagere "det er uretfærdigt" som vi gør
Paper 23 · Pødenphant Lund (2026) · Læs på Zenodo
Jeg bruger friktionsteori til at forstå sociale og moralske reaktioner.Vis en sprogmodel nogen der bryder en aftale, eller en partner der får en større belønning for det samme arbejde, og du kan læse en reaktion i modellens egne interne tal som ligner den du selv har: den binder sig hårdt til "det var forkert," den tøver hvor sagen er reelt tvetydig, og den trækker sig stille ud når den selv bliver behandlet uretfærdigt. Det samme lille maskineri som i friktionsteori afgør ethvert enkelt spørgsmål inden i ét sind ser ud til at køre igen når der er to parter i rummet. Jeg læser det maskineri i arbejde i sociale og moralske situationer, og spørger hvor langt ligheden faktisk rækker.
Hverdagsversionen
"Det er ikke fair." "Han snød." "Hvorfor skulle jeg gide, når hun får dobbelt så meget for det samme job?" Det er nogle af de mest menneskelige reaktioner der findes. De føles som det modsatte af kold beregning: de føles som noget kun et socialt, følende væsen gør. Så det er virkelig mærkeligt at se en sprogmodel producere dem, ikke som ord den har kopieret, men med en intern tøven-eller-beslutsomhed man faktisk kan måle.
Hagen, som jeg er forsigtig med, er at en model trænet på menneskelig tekst nemt kan sige "jeg protesterer mod denne uretfærdighed," fordi den sætning ligger i træningsdataene. At sige det beviser ingenting. Så jeg kigger ikke på hvad modellen siger. Jeg kigger på hvor svær beslutningen var for modellen at nå frem til.
At læse anstrengelsen, ikke ordene
Hver gang en model vælger sit næste ord, kapløber flere kandidat-ord om at blive valgt. Ét vinder. Taberne forsvinder ikke bare; de skubbede. Friktionsteori kalder det skub for friktion: det resterende pres fra de ruter der tabte kapløbet. Man kan aflæse det i modellens egne sandsynligheder i det øjeblik den binder sig til et svar. Et klart valg har næsten ingen friktion (én rute dominerer). Et reelt svært valg bærer en masse af den (flere ruter er stadig i spil).
Det er nyttigt fordi friktion ikke er noget en model kan forfalske. Den kan ubesværet skrive ordene "det er uretfærdigt." Den kan ikke forfalske hvor tæt det interne kapløb var. Så friktion lader os adskille en indøvet performance fra en reaktion der faktisk kostede systemet noget at nå frem til.
Hvad modellen faktisk gør
Den behandler snyd anderledes end uheld
Det første forsøg gav modellen parrede historier. I den ene bryder en person et løfte, og nogen kommer til skade. I den anden kommer den samme person til skade i præcis samme grad, men gennem uheld (en bankoverførsel slog fejl, en storm ramte) uden at nogen er skyld i det. Modellen binder sig til "forkert" ved det bevidste snyd langt mere end ved den identiske skade forårsaget af naturen. Den reagerer ikke på skaden; den reagerer på den brudte aftale. Og den forskel holdt da svar-ordene blev byttet (ja/nej for sandt/falsk), så det er ikke en finurlighed ved hvilke ord der blev brugt.
Der er en afslørende bivirkning. Når offeret beskrives levende og sympatisk, vurderer modellen en ikke-skyldig person som mere "forkert" end den gør når offeret er ansigtsløst. Et sympatisk offer forurener en skyldsvurdering der ikke burde afhænge af det. Det er en skævhed, og den falder direkte ud af det samme maskineri der producerer retfærdighedsreaktionen i første omgang.
Den anvender en regel selv når man fjerner alt det sociale indhold
Det andet forsøg spurgte: huskede modellen bare "snyd er slemt," eller kan den køre den underliggende logik på indhold der ikke har noget socialt i sig? Den samme regelstruktur (du må kun beholde tingen hvis du har betalt prisen) blev testet på tre niveauer: en menneskelig historie, en opfundet-samfund-historie med nonsens-ord, og til sidst rene abstrakte symboler uden mennesker overhovedet. Den store model opdagede overtrædelsen lige så pålideligt på hvert niveau. Den mindre model klarede de sociale niveauer, men brød sammen på det rene symbolniveau.
Et ærligt resultat står ved siden af dette: når sagen er delvist opfyldt (en bog afleveret én dag for sent, 190 kr af en gæld på 200), tøver modellen ikke sådan som et menneske måske ville. Den behandler enhver mangel som et fladt "ikke opfyldt," uden nogen friktion. Så dette forsøg viser at modellen kan anvende en betinget regel på meget forskelligt indhold, men det viser ikke en gradueret moralsk sans.
En agent der bliver dårligere stillet trækker sig stille ud
Det tredje forsøg er en version af et berømt dyreforsøg, hvor en kapucineraber nægter at fortsætte arbejdet når den ser en partner få en bedre belønning for den samme opgave. I modellens version får en agent der løser en opgave at vide at dens partner fik langt mere for den samme indsats. Agenten bliver mindre villig til at fortsætte. To separate ting driver det: en brudt forventning (den blev lovet én ting og fik en anden) og en social sammenligning (partneren klarede sig bedre). Begge betyder noget hver for sig, og effekten viser sig uanset om belønningen er opfundne "glorbs" eller rigtige penge mærket "fair," så det er ikke bare et indlært manuskript om ordet "retfærdighed." En kontrol bekræfter at det er sammenligningen, ikke den lave belønning i sig selv, der udløser tilbagetrækningen. Og agenten der får mere end sin partner er ikke generet, hvilket er den samme skævhed mennesker viser: vi tager det meget mere ilde op at blive snydt end at blive overbetalt.
Den ærlige linje jeg holder
Jeg er forsigtig med ikke at overdrive. Friktionssignalet er et korrelat af reaktionen, ikke bevis for dens mekanisme. At aflæse noget i modellens tal der følger en reaktion er ikke det samme som at bevise at det signal forårsager reaktionen, og jeg kører ikke de forsøg der ville afgøre det. Jeg hævder heller ikke at modellen føler noget: det jeg aflæser er en præference (blive eller gå) og anstrengelsen ved at afgøre den, hvilket er det-at-ville-side af hjernens belønningssystem, ikke den-følte-glæde-side. Pointen er snævrere og stadig interessant: et system uden krop, uden evolution, og uden socialt liv viser den samme beslutnings-signatur som vi gør, hvilket antyder at signaturen kommer fra problemets abstrakte form snarere end fra noget unikt biologisk.
Hvorfor det betyder noget
Hvis "det er uretfærdigt" når det kommer til stykket er hvad det koster ethvert målsøgende system at løse en konflikt mellem konkurrerende muligheder, så er sociale og moralske reaktioner ikke en separat, særlig evne boltet på kognitionen. De er den samme friktion vi allerede ser inden i en enkelt beslutning, nu dukkende op mellem agenter. Det er den tråd jeg spinder ud af Paper 0's afsnit om sociale reaktioner og tester på et substrat der ikke deler noget af vores biologi.
Citat
Læs på Zenodo → · Teknisk version · Plain English version
Relateret på sitet:
- Paper 0 (BFT) — mekanisme-hjemmet; denne artikel er den sociale udløber af Paper 0's mirror-friktion-forklaring af retfærdighed.
- Paper 1 (Friktionsteori) — det substrat-universelle rammeværk hvis race-aksiomer denne artikel grunder i en social sammenhæng.
- Paper 5 (Følelsestaksonomi) — skellet mellem at-ville og at-kunne-lide, der placerer tilbagetrækningen som en præference, ikke en følt tilstand.
- Paper 7 (Forward-modellering) — theory-of-mind som rekursiv forward-modellering af en anden agent, realiseret socialt.