
De första språkmodellerna var snabba till svar. Det fungerade för enkla frågor men inte för komplexa problem. Precis som vi människor presterar AI bättre när den får tänka ett par steg framåt och testa olika lösningar innan den bestämmer sig för ett svar. Som jag visade i förra veckans artikel ger att installera språkmodeller lokalt en helt annan transparens i hur AI resonerar och (faktiskt) ältar sitt svar innan den kommer till skott.
Ett av de första stora stegen mot mer robusta resonemang kom 2022 med Chain of Thought från Google Brain och Stanford. Forskarna visade att modeller presterar betydligt bättre på svårare uppgifter när de skriver ut sina tankar steg för steg innan de svarar. Den enkla idén att låta modellen "tänka högt" öppnade för helt nya typer av problem att lösa.
På den tiden (det är ju tre år sedan) var tankegången att Chain of thought kunde förbättras genom att bryta ned problemet i mindre delar (se illustration från orginalartikeln)
https://research.google/blog/language-models-perform-reasoning-via-chain-of-thought/
En annan viktig landvinning på detta område som också kom (från Google) under 2022 är Self-consistency. En teknik som låter modellen generera flera parallella resonemang och sedan välja det svar som är mest konsistent över olika tankekedjor. Ett problem med metoden är att den blir dyr då många parallella tankekedjor ska processas.
I juli i år presenterade forskare i samarbete med Google Research en förbättrad metod, Confidence-Informed, Self-Consistency (CISC) där metoden värderar de olika potentiella tankekedjorna, åsätter dem vikter och prioriterar de den tror på mest. Något som i deras experiment gav en kostnadsreduktion på 73% (se https://aclanthology.org/2025.findings-acl.1030.pdf)
Nyare metoder, som Reflexion och ReAct, tar nästa steg genom att låta modellen själv granska och förbättra sina svar, eller kombinera resonemang med handlingar i en iterativ process. Resultatet blir modeller som inte nöjer sig med första bästa svar, utan själva letar efter misstag och justerar sin slutsats. Lite som när vi människor dubbelkollar våra siffror eller låter någon annan läsa igenom innan vi bestämmer oss.
Trots att modellernas prestanda har förbättrats drastiskt är förlorad kontext fortfarande ett stort problem för många användare. Modeller som tappar tråden och börjar ge nonsens-svar ger upphov till en hel del irritation och GPT-5 påstods i början vara betydligt sämre på att hålla tråden än sin föregångare. Ett relaterat problem är Lost in the Middle där modeller lägger mer vikt vid data i början och slutet men missar viktig information i mitten. En viktig teknik för att mildra detta är RAG (Retrieval-Augmented Generation) som vi ska prata mer om framöver.
Jag tror att utveckling går mer och mer mot att AI inte bara levererar ett resultat, utan också en kortfattad redogörelse för hur resonemanget gått till, var tveksamheterna finns och varför just ett visst svar valdes. Den här utvecklingen är högst relevant för att komma tillrätta med problemet kring hallucinationer som jag skrev om i tidigare och kan komma att förändra hur vi använder AI i beslut, forskning och kreativt arbete.
//Emil
There are plenty of other consulting firms that offer those. But if you value key people with stellar development skills that will make a difference for your development team and your business. Then, leave it in our care!
DROP US AN EMAIL