omateq logo

Intelligens är svårt att mäta (även hos AI)

När man jämför språkmodeller dyker frågan vilken är bäst (just nu)? ofta upp. Leaderbords med exakta siffror ger ett intryck av vetenskaplighet och objektivitet men i praktiken är det precis som när vi IQ testar människor; IQ kan säga något viktigt om vissa förmågor, men det fångar långt ifrån hela intelligensen. Och det går att träna upp testbeteenden utan att man blivit smartare i vardagen. Samma sak gäller AI.

Det är svårt att mäta AI:s "intelligens" av flera skäl. Intelligens är inte en enskild dimension; en modell kan vara stark på logik men svag på långsiktig planering, eller bra på kod men sämre på att följa instruktioner.

Resultaten påverkas också av detaljer som prompt-format, om modellen får resonera länge eller kort, om den får använda verktyg, och hur svaret bedöms. Dessutom finns risken för träningsläckage, alltså att modellen redan sett liknande frågor under träningen. Då mäter man minne och tillämpning av detta snarare än generalisering.

En annan utmaning ligger i att med AI är andelen felaktiga (men tvärsäkert levererade svar) ofta lika väsentlig som andelen korrekta svar. Många benchmarks och träningsupplägg belönar rätt svar men straffar sällan fel svar tillräckligt hårt. Precis som med ett prov där du får poäng för en korrekt gissning, men det inte kostar något att gissa fel, skapas ett tydligt incitament: svara alltid, låt självsäker, optimera för att låta övertygande. Resultatet blir modeller som är extremt bra på att ge trovärdiga svar, även när de egentligen borde säga att de inte vet. Det är en viktig del av varför hallucinationer inte känns som slumpmässiga buggar, utan som ett beteende som formats av hur vi tränar och mäter systemen.

I ett tidigare inlägg använde jag GPQA Diamond för att visa hur snabbt sådan prestanda kan bli tillgänglig även i mer kompakta, lokalt körbara modeller. GPQA består av 448 multiple-choice frågor skrivna av experter inom biologi, fysik och kemi. GPQA Diamond fokuserar på de svåraste 192 frågorna inom GPQA. Frågorna skall vara utformade så att svaren inte går att googla sig fram till.

OpenAI genomförde ett GPQA-Diamond test med experter inom ovanstående områden (minst PhD-nivå) som referensgrupp. Referensgruppen nådde en score på 69.7%. Detta kan jämföras med rekordhållaren bland AI-modeller (GPT-5.2 Pro) som nådde 93.2%.

GPQA Diamond poäng för modeller över tid. Idag toppar GPT 5.2 Pro på 93.2% marginellt före GPT 5.2 med 92.4%. Gemini3 Pro är närmaste utmanare på 91.9%

Naturligtvis betyder inte resultaten ovan att AI-modellerna är bättre än forskare på alla frågor inom dessa områden. Precis som när vi jämför modellers poäng med människors så är en jämförelse mellan olika modellers poänger mer indikativa än definitiva. Ett benchmark kan vara bra för att separera modeller, men ändå säga förvånansvärt lite om hur de beter sig i verkliga arbetsflöden.

Det hjälper att tänka på benchmarks som indelade i några olika familjer. Först har vi breda tester som försöker mäta generell kunskap över många ämnen. De är användbara för överblick och trendlinjer, men har ofta takproblem när modellerna blir starka, och formatet kan styra modeller mot vissa teststrategier vilket minskar värdet av utfallet. Sedan finns spetsade resonemangstest som GPQA, som har hög diskriminationskraft men mäter en smalare typ av förmåga. Slutligen har vi mer verklighetsnära benchmarks där modellen ska lösa uppgifter som liknar jobbet man faktiskt vill ha gjort, till exempel genom att skriva kodändringar som går igenom tester. De kan vara mer meningsfulla, men är också dyrare, mer komplexa och känsligare för hur man byggt själva körmiljön.

En dimension som snabbt blivit en egen gren är "long context". Många upplever att modeller tappar tråden eller missar viktig information som tidigare beaktats. Det senare är ett fenomen som tekniskt benämns Lost in the Middle. Fenomenet består i information i mitten av långa sekvenser tenderar att utnyttjas sämre. Det gör att det inte räcker att mäta maximal kontextlängd. Man måste mäta hur effektivt modellen faktiskt använder den.

Vart rör sig området framåt? Jag tror vi går mot mindre fokus på enskilda poäng och mer fokus på profiler. Inte bara "Hur bra?", utan också "Hur stabilt?" i kombination med "För vilken typ av uppgifter?" och "Hur (illa) misslyckas modellen när den misslyckas?". Jag tror också att vi kommer se fler utvärderingar som bygger in kostnaden för att ha fel. Alltså test där det är rationellt för modellen att avstå när den är osäker, och där överdrivet självförtroende bestraffas. När det blir standard kommer vi få modeller som är bättre på att förstå sin egen förmåga.

För att sammanfatta. När frågan uppstår kring vilken modell som är bäst är det ofta rimligare att börja med vilket arbete som ska göras, och vilket benchmark som mest liknar det arbetet. Det är ungefär samma fråga som med IQ. Det är en värdefull indikator på kapacitet men långt ifrån hela sanningen.

Hör gärna av dig med frågor, funderingar eller förslag på ämnen för framtida nyhetsbrev!

Mvh

Emil


If you are looking for another cog in the machinery...

There are plenty of other consulting firms that offer those. But if you value key people with stellar development skills that will make a difference for your development team and your business. Then, leave it in our care!

DROP US AN EMAIL
laptop