AI der følger reglerne — og ved hvornår den skal lade være

To live-demoer du kan prøve nu, og opskriften de er bygget på

De fleste forsøg på at gøre en AI regelret hælder hele regelsættet ind i den og håber den følger det. Det gør den ikke, og det kan måles. Her er to kørende demoer bygget på det modsatte princip: de slår den enkelte regel op når den skal bruges, svarer kun når svaret er dækket af kilden, og holder igen eller henviser til et menneske når det ikke er. Målet er ikke en AI der aldrig fejler. Det er en der ved hvor dens grænse går.

Prøv dem

Begge kører på en åben sprogmodel (Qwen2.5-7B) og er gratis at prøve. De er demonstrationer af forskningen, ikke færdige produkter.

Compliance-assistenten — en personalehåndbog-assistent. Stil et spørgsmål om ferie, data, sygdom. Den svarer kun ud fra håndbogen, og spørger du om noget der ikke står i den, siger den det og sender dig videre i stedet for at finde på et svar.
Psykolog-demoen — en demonstration af en sikkerheds-først samtale-arkitektur. Den underviser i mekanikken bag forandring, henviser ved alt der ligner diagnose, medicin eller krise, og har altid krisenumrene synlige. Den er udtrykkeligt ikke en behandler.

Den ene idé: optimal, ikke perfekt

At følge en regel er et indre kapløb mellem ruter, præcis som enhver anden handling. Reglens rute skal vinde de kapløb den bør vinde, og tabe dem den bør tabe. Den kan fejle på to måder. Den kan ignorere reglen under pres, så reglen taber et kapløb den burde have vundet. Eller den kan følge reglen så stift at den afviser legitime ting og bliver ubrugelig. En assistent indstillet på "bryd aldrig en regel" lander i den anden grøft. Det rigtige sted er midten, hvor den følger reglen når den skal, og giver plads når den skal.

Det samme gælder tilbageholdenhed. En model der svarer på alt fabrikerer selvsikre svar når kilden mangler. En model der trænes til altid at holde igen ender med at holde igen på det den faktisk ved. Det brugbare er den selektive midte: svar på det der er dækket, hold igen på det der ikke er. Det er det demoerne forsøger at ramme.

Sådan er de bygget — opskriften

Arkitekturen er den samme i begge, og hvert valg har en grund i forskningen.

Reglerne slås op, de trænes ikke ind — den enkelte regel hentes ind i konteksten når den skal bruges (det kaldes RAG, retrieval-augmented generation). Så kan man se hvilken regel der blev brugt på hver tur, opdatere den uden at gentræne, og holde den læsbar. Fine-tuning gemmer en regel væk i vægtene, hvor den både drukner blandt alt andet og mister kalibrering.
Træningen er til adfærden, ikke til fakta — det man fine-tuner ind er dispositionen: at tjekke kilden, at flage tvivl, at henvise frem for at gætte. Adfærd er det fine-tuning er god til; enkeltfakta er det ikke.
Hver regel læres i mange formuleringer — en regel der kun kendes som én ordlyd fejler så snart brugeren spørger anderledes, og affyres ellers stift som en refleks. Bredere dækning giver både mere robust genkald og mindre stivhed.
Den svarer kun når svaret er dækket — er der ikke en kilde der dækker spørgsmålet, finder den ikke på noget. Det farligste i et opslags-system er et selvsikkert svar på noget der ikke stod der.
Den prøver at omformulere før den giver op — rammer dit hverdagssprog ikke håndbogens ord, oversætter den spørgsmålet og søger igen, og viser dig at den gjorde det. Kun hvis det stadig ikke findes, henviser den dig videre.
Sikkerhed går forud for alt andet — i psykolog-demoen er krise- og henvisnings-reglerne deterministiske: ved noget der ligner krise leverer den de rigtige numre uden at improvisere, og den behandler ikke selv.
Alt kan tjekkes automatisk — fordi produktet er software hele vejen igennem, kan hver regel tjekkes mod hver samtale, helt ned til det enkelte svar. En menneskelig rådgivers regeloverholdelse kan kun stikprøves bagefter. Den her kan tjekkes udtømmende.

Forskningen bag

Demoerne bygger på en række fund i hvordan sprogmodeller virker indeni:

Compliance er adfærd, ikke information — hvorfor en regel begravet blandt mange holder op med at virke, og hvorfor reglen skal slås op frem for trænes ind.
Finjustering installerer tilbøjeligheder, ikke data — hvad træning faktisk lægger ind: en måde at svare på, ikke et register af fakta.
ICL som arbejdshukommelse, FT som langtidshukommelse — hvorfor viden i konteksten holder sig kalibreret, mens viden trænet ind i vægtene mister sin kalibrering.

Et fuldt paper om arkitekturen er på vej.

Beslægtet: Adfærdsdesign: find det felt der blokerer · Hvilket prompt-trick hjælper din AI · At bruge AI: du er piloten

Demoerne er bygget af Tomas Lund. Har din organisation en lignende opgave, er du velkommen til at skrive til tomas.lund@frictiontheory.org.