Skal du finjustere din model, eller bare prompte den?

At lære en model nye vaner ved at gentræne den ødelægger den ofte. At vise den eksempler virker bedre og koster næsten ingenting

Forestil dig at du vil have en sprogmodel til at gøre noget bestemt: tjekke sine fakta efter før den svarer, sige fra når den er usikker, eller afvise spørgsmål der bygger på en forkert præmis. Der er grundlæggende to måder at installere den vane på:

Den udbredte antagelse er, at finjustering er den "rigtige" løsning, og at prompting er en nødløsning. For de adfærdstyper jeg testede, er den antagelse vendt på hovedet ved stor skala.

Den korte version

At vise en stor model eksempler i prompten slog alle de gentræninger jeg prøvede. Det var billigere (få øre i stedet for $5–15), det skadede ikke modellen, og du kan skifte mening når som helst. Og det der afgjorde om gentræning lykkedes eller fejlede, var ikke hvor meget data jeg brugte. Det var om det svarformat jeg lærte den, lignede den måde modellen i forvejen taler på.

Hvorfor gentræning stille og roligt kan ødelægge en model

Her er resultatet der overraskede mig. Jeg gentrænede den samme model på to måder og ændrede kun formen på svarene i træningseksemplerne:

Jeg målte hver version på en bred almenviden-test (det er kanariefuglen: hvis gentræning skader modellens kerne-ræsonnement, falder den score først). Samme data, samme mængde, samme metode, men modsat resultat:

TræningseksemplerKort formatLangt format
9083%40%
27083%10%
54087%3%

Versionen med kort format forblev sund. Versionen med langt format faldt fra hinanden, og jo mere jeg trænede den, jo værre blev det, fra sunde 86% ned til næsten ingenting. Derefter skubbede jeg det korte format helt op til fireogtyve gange så meget data. Det knækkede aldrig.

Så "mere data gjorde det værre" er ikke en kendsgerning om tung gentræning generelt. Det er en kendsgerning om at lære en model et svar-format der kæmper mod den måde den taler på. Når formatet passer, er mere data harmløst. Når det støder sammen, gør mere data sammenstødet værre. Modellen ender med at tvinge sit mærkelige nye skema ned over alting, også spørgsmål hvor det slet ikke giver mening.

Større modeller er lettere at ødelægge, ikke sværere

Man skulle tro at en dygtigere model bare rystede det af sig. Men det er lige omvendt. Den samme prompt-baserede opskrift der hjalp mellemstore modeller, skadede den dygtigste model jeg testede:

ModelUden opskriftenMed denResultat
Llama-3.3-70B25,8%33,3%hjalp
gpt-4o-mini30,3%34,8%hjalp
gpt-4o42,9%41,4%skadede

Jo bedre modellen i forvejen er, jo mindre hjælper hjælpen, indtil den for den stærkeste model direkte kommer i vejen. Den dygtige model gør allerede det omhyggelige af sig selv, så den ekstra vejledning er bare støj den skal arbejde sig udenom. Det er en velkendt effekt i menneskelig læring også: støttehjul hjælper en begynder og sinker en ekspert. Det dukker op i sprogmodeller på samme måde. (Jeg forklarer den menneskelige version på læring-siden.)

Hvad du faktisk skal gøre

Økonomien gør valget nemt. Prompting kostede mig få øre per test og kunne aldrig skade modellen. Gentræning kostede $5–15 per forsøg, og når det gik galt, var skaden permanent indtil jeg gentrænede igen. Et gratis tjek plus en prompt-test til få øre kan spare et fejlslagent gentrænings-kørsel.

Relaterede sider

Bygger på Paper 4C (under forberedelse). Tal, kode og fuld metode står i den tekniske version (engelsk).