AI'en ser den modsatte illusion af os

Paper 24 · Pødenphant Lund (2026) · Læs på Zenodo

En måde at se hvilke af sindets særheder der er tvungne, og hvilke der bare er tilfældigheder.Vis et menneske en cirkel omringet af store cirkler, og den midterste ser lille ud. Det er den berømte Ebbinghaus-illusion. Vis det samme billede til en AI der kan se, og den gør det modsatte: den bedømmer den midterste cirkel som større. Vi skubber en ting væk fra det der omgiver den. AI'en trækker den hen mod. På en hel familie af disse klassiske illusioner ser AI'en det modsatte af det vi ser, og den samme vending dukker op i tre helt forskellige AI-designs.

Hvad det egentlig handler om

Sindet er fyldt med særheder. Vi fejlbedømmer størrelser, vi falder for framing, vi husker det første i en liste bedre end midten. Nogle af disse særheder er dybe træk ved hvordan enhver tænkende ting er nødt til at fungere, når den ikke kan beregne alt på én gang. Andre er bare tilfældigheder ved den bestemte hardware, som den blinde plet i øjet hvor synsnerven forlader nethinden. Problemet er at de to slags ser ens ud udefra. Hos et menneske ser man kun det endelige svar, aldrig maskineriet der frembragte det, så man kan ikke skelne et tvunget træk fra en heldig tilfældighed.

En AI-sprogmodel er anderledes. Man kan læse, token for token, hvor sikker den var og hvad den var lige ved at sige i stedet. Det gør den skjulte beslutning synlig. Modellen bliver et måleinstrument der kan gøre noget adfærd alene ikke kan: sortere en særhed i en af tre kasser.

De tre kasser

Jeg bruger friktionsteori til at opstille en klar test for hvilken kasse en særhed hører til i, og kører den så på noget nyt: synsillusioner, ved hjælp af AI-modeller der kan se.

Overraskelsen

Klassiske illusioner som Ebbinghaus og Delboeuf (størrelse) og simultankontrast (lysstyrke) handler alle om kontekst. En grå firkant ser mørkere ud på hvid baggrund end på sort. Mennesker kontrasterer: vi bedømmer en ting væk fra dens omgivelser, så en firkant ser mørkere ud ved siden af lyse ting.

Syns-AI'en gør det omvendte. Den assimilerer: den bedømmer en ting hen mod dens omgivelser, så den kalder den samme firkant lysere ved siden af lyse ting. Én enkel regel forklarer hvert tilfælde. Vi skubber målet væk fra dets kontekst; AI'en trækker det hen imod. Hvor menneske-illusionen tilfældigvis peger samme vej som denne træk-imod, ligner AI'en at den deler vores illusion. Hvor de peger hver sin vej, går den den modsatte vej.

Hvorfor det betyder så meget

Der er en oplagt indvending mod enhver påstand om at AI deler menneskelige særheder: måske har modellen bare læst om vores illusioner i sin træningstekst og gentager dem. Hvis det var sandt, ville modellen kopiere vores retning. Det gør den ikke. Den går den modsatte vej, jævnt og forudsigeligt, efterhånden som man skruer omgivelserne op og ned. Man får ikke det modsatte af en ting ved at kopiere den. Så modellen gengiver ikke det den læste. Den kører sin egen kontekstberegning, og den beregning er forskellig fra vores.

For at gøre testen fair tjekker jeg først at hver model kan bedømme en ægte størrelses- eller lysstyrkeforskel når der ingen illusion er. Kun modeller der består den test bruges, så et fladt resultat kan ikke bare betyde at modellen ikke kunne se.

Den samme vending i tre forskellige maskiner

Det slående er konsistensen. Den modsatte-retning-effekt optræder i tre AI-modeller bygget på tre forskellige synssystemer og tre forskellige sprogmodeller. Efterhånden som konteksten skrues op trin for trin, glider modellens bedømmelse længere samme vej hver gang, og i hver af de ni tests er effekten statistisk solid. En meget mindre model i samme familie gør det samme, bare blidere. Én illusion, Müller-Lyer-pilene, udløser slet ikke effekten, hvilket er nyttigt: det viser at reglen er specifik for en ting der er indesluttet af sine omgivelser, ikke et generelt "AI'en får alt bagvendt".

Et gæt på hvorfor

Vores øjne er indrettet til kontrast. Naboceller i nethinden hæmmer hinanden, hvilket skærper kanter og skubber en ting væk fra sin baggrund. Den indretning hjælper et dyr med at genfinde den sande størrelse og form på noget det skal gribe. En syns-AI har ingen nethinde og ingen sådan ledningsføring. Dens synssystem blander nærliggende billedfelter sammen ved en slags vægtet gennemsnit. Et gennemsnit trækker ting hen mod deres naboer, hvilket er præcis assimilering. Det er indtil videre en hypotese, ikke en bevist årsag, og der er rene opfølgningstests at køre. Om den egentlige drivkraft er selve gennemsnittet eller et mønster lært fra træningsdata er stadig åbent.

Citat

Pødenphant Lund, T. (2026). Vision-Language Models Assimilate Where Humans Contrast: A Cross-Architecture Signature of Contextual Computation. Zenodo. https://doi.org/10.5281/zenodo.20678296

Læs på Zenodo → · Teknisk version · Plain English version

Relateret på sitet: