Skal du finjustere din model, eller bare prompte den?

At lære en model nye vaner ved at gentræne den ødelægger den ofte. At vise den eksempler virker bedre og koster næsten ingenting

Forestil dig at du vil have en sprogmodel til at gøre noget bestemt: tjekke sine fakta efter før den svarer, sige fra når den er usikker, eller afvise spørgsmål der bygger på en forkert præmis. Der er grundlæggende to måder at installere den vane på:

Finjustering (fine-tuning) — du gentræner modellen på eksempler af den nye adfærd. Det ændrer modellen permanent.
In-context learning — du lægger bare en håndfuld eksempler ind i prompten hver gang. Modellen kopierer mønstret, og intet ved den ændres permanent.

Den udbredte antagelse er, at finjustering er den "rigtige" løsning, og at prompting er en nødløsning. For de adfærdstyper jeg testede, er den antagelse vendt på hovedet ved stor skala.

Den korte version

At vise en stor model eksempler i prompten slog alle de gentræninger jeg prøvede. Det var billigere (få øre i stedet for $5–15), det skadede ikke modellen, og du kan skifte mening når som helst. Og det der afgjorde om gentræning lykkedes eller fejlede, var ikke hvor meget data jeg brugte. Det var om det svarformat jeg lærte den, lignede den måde modellen i forvejen taler på.

Hvorfor gentræning stille og roligt kan ødelægge en model

Her er resultatet der overraskede mig. Jeg gentrænede den samme model på to måder og ændrede kun formen på svarene i træningseksemplerne:

Et kort format — bare et svar og et sikkerhedsniveau. Tæt på den måde modellen allerede svarer på.
Et langt format — svar, så "relevante fakta", så "verifikation", så "konklusion", så sikkerhed. Fem mærkede afsnit.

Jeg målte hver version på en bred almenviden-test (det er kanariefuglen: hvis gentræning skader modellens kerne-ræsonnement, falder den score først). Samme data, samme mængde, samme metode, men modsat resultat:

Træningseksempler	Kort format	Langt format
90	83%	40%
270	83%	10%
540	87%	3%

Versionen med kort format forblev sund. Versionen med langt format faldt fra hinanden, og jo mere jeg trænede den, jo værre blev det, fra sunde 86% ned til næsten ingenting. Derefter skubbede jeg det korte format helt op til fireogtyve gange så meget data. Det knækkede aldrig.

Så "mere data gjorde det værre" er ikke en kendsgerning om tung gentræning generelt. Det er en kendsgerning om at lære en model et svar-format der kæmper mod den måde den taler på. Når formatet passer, er mere data harmløst. Når det støder sammen, gør mere data sammenstødet værre. Modellen ender med at tvinge sit mærkelige nye skema ned over alting, også spørgsmål hvor det slet ikke giver mening.

Større modeller er lettere at ødelægge, ikke sværere

Man skulle tro at en dygtigere model bare rystede det af sig. Men det er lige omvendt. Den samme prompt-baserede opskrift der hjalp mellemstore modeller, skadede den dygtigste model jeg testede:

Model	Uden opskriften	Med den	Resultat
Llama-3.3-70B	25,8%	33,3%	hjalp
gpt-4o-mini	30,3%	34,8%	hjalp
gpt-4o	42,9%	41,4%	skadede

Jo bedre modellen i forvejen er, jo mindre hjælper hjælpen, indtil den for den stærkeste model direkte kommer i vejen. Den dygtige model gør allerede det omhyggelige af sig selv, så den ekstra vejledning er bare støj den skal arbejde sig udenom. Det er en velkendt effekt i menneskelig læring også: støttehjul hjælper en begynder og sinker en ekspert. Det dukker op i sprogmodeller på samme måde. (Jeg forklarer den menneskelige version på læring-siden.)

Hvad du faktisk skal gøre

Grib til prompting først. Især på store modeller, og især når adfærden kræver et langt, struktureret svar. Gentræning dér har det med at give bagslag.
Hvis du skal gentræne, så tæl afsnittene. Kig på svarene i dine træningsdata. Hvis de har mange flere mærkede dele end modellens normale svar, så forvent problemer — det kan du se gratis, før du har brugt en krone.
Bland ikke for meget. Et fokuseret sæt eksempler slår en blandet pose af mange forskellige stilarter. Jeg fandt at det at blande for mange strategier ind gjorde det værre end at gøre ingenting.
Forvent ikke at én færdighed smitter af. At træne en model på musik gjorde den ikke generelt klogere — den blev dårligere til alt. Nutidens modeller overfører ikke en smal færdighed til bred evne sådan som hjerne-analogien antyder.

Økonomien gør valget nemt. Prompting kostede mig få øre per test og kunne aldrig skade modellen. Gentræning kostede $5–15 per forsøg, og når det gik galt, var skaden permanent indtil jeg gentrænede igen. Et gratis tjek plus en prompt-test til få øre kan spare et fejlslagent gentrænings-kørsel.

Relaterede sider

Læring — hvorfor støttehjul hjælper begyndere og sinker eksperter, i modeller og mennesker
Prompting vs gentræning som hukommelse — hvorfor de to virker så forskelligt
Fænomener — hvor modeller og hjerner opfører sig ens

Bygger på Paper 4C (under forberedelse). Tal, kode og fuld metode står i den tekniske version (engelsk).