omateq logo

Vad den 2220 år gamla Rosetta-stenen har med AI-tester att göra...

Varför är det så svårt att jämföra språkmodeller över tid?

När modeller är för svaga hamnar de nära noll och går inte att skilja åt. När de blir för starka hamnar de nära hundra och går inte heller att skilja åt. Bara mittenläget ger intressant information - och det passerar modellerna ofta snabbt. Normalt tar det bara ett eller två år för en modell från det att den placerar sig på testet tills den gör testet ointressant.

Det här gör det svårt att se långsiktiga trender i utvecklingen.

Article content

Epoch AI beskriver en lösning som fungerar som en sorts Rosettasten för tester (verklighetens Rosettasten upptäcktes 1799 och blev en nyckel i att dekryptera Egyptens hieroglyfer då den innehöll samma text i Hireoglyfisk, Demotisk och Forngrekisk text).

Nåväl. Tillbaka till Rosettastenen för AI; istället för att lita på ett enskilt test byggs en statistisk modell som kan översätta mellan många olika tester och lägga resultaten på en gemensam skala, även när modeller inte har körts på samma uppsättning tester.

Idén är enkel i grunden. Varje modell antas ha ett enda tal som beskriver nivå. Varje test får ett tal för svårighet. Och varje test får dessutom ett mått på hur snabbt det mättar, alltså hur fort det går från informativt till meningslöst när modellerna blir bättre. I databasen sys ungefär fyrtio tester ihop på det här sättet - och uppskattar nivåer för ungefär tvåhundra modeller.

Article content

Det här är mycket intressant eftersom det adresserar ett problem vi har pratat om tidigare. Ett enskilt test dör snabbt när modellerna springer förbi det. Med en gemensam skala kan man i stället behålla en jämförbar trend över tid även när enskilda tester blir för lätta eller för svåra.

Med en gemensam skala går det också att titta på tränings-effektivitet. Genom att jämföra modellernas uppskattade nivå med hur mycket beräkningskraft som använts kan man se hur mycket mindre resurser som krävs för att nå samma nivå över tid.

Epochs analys pekar på en förbättrad träningseffekt på ungefär 6x per år. Alltså, varje år behövs runt sex gånger mindre compute för att nå samma kapabilitet som året innan. Det är inget annat än en häpnadsväckande takt.

En annan konsekvens är att skalan kan fungera som ett verktyg för att upptäcka förändringar i utvecklingstakten. Om framstegen plötsligt skulle gå snabbare, till exempel genom nya arkitekturer eller träningsmetoder (eller kanske att AIn själv hjälper till på traven) borde det synas som en tydlig förändring i hur snabbt nivåerna ökar över tid. I Epochs simuleringar kan en fördubbling av takten upptäckas inom några månader, vilket i teorin ger möjlighet att tidigt se om utvecklingen börjar accelerera.

Nedan en illustration av hur detta skulle se ut (om det inträffar):

Article content
Även om detta ser bra ut på pappret så löser Rosetta-systemet bara ett av de problem med AI-tester vi skrivit om tidigare nämligen jämförbarhet när tester mättar.

Kvar finns de flesta klassiska problemen. Modeller kan optimeras för att se bra ut på just testerna. Tester fångar sällan verklighetens komplexitet. Och resultat kan variera beroende på hur man utvärderar. Med andra ord, en längre linjal gör inte automatiskt att det vi mäter blir mer verklighetsnära.

Mvh

Emil

Källa: Epoch, A Rosetta Stone for AI benchmarks, publicerad 2 dec 2025

If you are looking for another cog in the machinery...

There are plenty of other consulting firms that offer those. But if you value key people with stellar development skills that will make a difference for your development team and your business. Then, leave it in our care!

DROP US AN EMAIL
laptop