AI der følger reglerne — og ved hvornår den skal lade være

To live-demoer du kan prøve nu, og opskriften de er bygget på

De fleste forsøg på at gøre en AI regelret hælder hele regelsættet ind i den og håber den følger det. Det gør den ikke, og det kan måles. Her er to kørende demoer bygget på det modsatte princip: de slår den enkelte regel op når den skal bruges, svarer kun når svaret er dækket af kilden, og holder igen eller henviser til et menneske når det ikke er. Målet er ikke en AI der aldrig fejler. Det er en der ved hvor dens grænse går.

Prøv dem

Begge kører på en åben sprogmodel (Qwen2.5-7B) og er gratis at prøve. De er demonstrationer af forskningen, ikke færdige produkter.

Den ene idé: optimal, ikke perfekt

At følge en regel er et indre kapløb mellem ruter, præcis som enhver anden handling. Reglens rute skal vinde de kapløb den bør vinde, og tabe dem den bør tabe. Den kan fejle på to måder. Den kan ignorere reglen under pres, så reglen taber et kapløb den burde have vundet. Eller den kan følge reglen så stift at den afviser legitime ting og bliver ubrugelig. En assistent indstillet på "bryd aldrig en regel" lander i den anden grøft. Det rigtige sted er midten, hvor den følger reglen når den skal, og giver plads når den skal.

Det samme gælder tilbageholdenhed. En model der svarer på alt fabrikerer selvsikre svar når kilden mangler. En model der trænes til altid at holde igen ender med at holde igen på det den faktisk ved. Det brugbare er den selektive midte: svar på det der er dækket, hold igen på det der ikke er. Det er det demoerne forsøger at ramme.

Sådan er de bygget — opskriften

Arkitekturen er den samme i begge, og hvert valg har en grund i forskningen.

Forskningen bag

Demoerne bygger på en række fund i hvordan sprogmodeller virker indeni:

Et fuldt paper om arkitekturen er på vej.

Beslægtet: Adfærdsdesign: find det felt der blokerer · Hvilket prompt-trick hjælper din AI · At bruge AI: du er piloten
Demoerne er bygget af Tomas Lund. Har din organisation en lignende opgave, er du velkommen til at skrive til tomas.lund@frictiontheory.org.