Philosophy

Services

Contact

Blog

Del 2 – Var uppstår intelligensen

Det här är andra delen i min serie om hur en LLM fungerar egentligen. Ambitionen är att ta bort det "magiska skimret" runt den svarta lådan och ge dig som läsare en konkret bild av hur modellerna fungerar.

I Del 1 beskrev jag hur LLMer arbetar med tokens. En token är normalt ett ord eller en del av ett ord (exempelvis kan springande vara två tokens: spring + ande). En LLMs arbetssätt i grunden är att ta en kontext t₀…tₙ och ge en sannolikhetsfördelning för nästa token:

f(t₀…tₙ; θ) → P(tₙ₊₁ | t₀…tₙ)

Här står θ för modellens parametrar, alltså de värden som lärs in under träningen. Under en vanlig session är θ fast, så själva funktionen f förändras alltså inte medan du använder modellen.

Men varför upplevs det då som att modellen förstår, planerar och resonerar när det är en till synes så "enkel" funktion?

En bra start är att byta fokus från vad modellen gör till vad den måste bygga internt för att kunna göra det.

Prediktion tvingar fram struktur

Att gissa nästa token i en kort mening kräver nästan ingen struktur. Men så fort texten blir längre och mer meningsbärande börjar prediktionsuppgiften kräva mer:

För att kunna fortsätta en text om företagsekonomi behöver modellen tex hålla reda på vad som är ett företag, en marknad, en budget och vilka relationer som brukar finnas mellan dem.
För att kunna avsluta en sats korrekt behöver den hålla reda på grammatik och beroenden som kan ligga långt bak i kontexten.
För att kunna fortsätta en resonemangskedja behöver den hålla reda på premisser och slutsatser och vilka steg som brukar följa på varandra.

Det är här mycket av den upplevda intelligensen börjar ta form. Uppgiften tvingar fram interna representationer som liknar begrepp, relationer och strukturer eftersom det är ett effektivt sätt att förutsäga text som människor faktiskt skriver.

Parametrarna blir en komprimerad modell av hur text brukar fungera

Under träningen justeras parametrarna θ så att modellen bättre kan gå från kontext t₀…tₙ till bra svar. När modellen väl används hålls θ fast.

Efter tillräckligt mycket träning kan man se vikterna som en komprimerad modell av språkets form, alltså grammatik och stil, och av världens mönster så som de uttrycks i text. Den innehåller också mönster för hur argument brukar byggas upp och hur problemlösning ofta formuleras.

En struktur som gör vissa fortsättningar mer sannolika än andra, på ett sätt som ofta sammanfaller med vad som är rimligt.

Kontexten gör modellen tillfälligt specialiserad

Viktigt är alltså insikten om att modellen under användning är statisk. Funktionen f ändras inte i en session.

Så hur hänger en statisk modell ihop med att beteendet kan ändras drastiskt beroende på kontext?

Kontexten fungerar som en tillfällig programmering av modellen. Den sätter upp ramarna för vilken sorts text som blir sannolik att fortsätta. En instruktion som Svara kort gör att korta svar blir mer sannolika. En instruktion som Du är jurist gör att juridisk stil och juridiska mönster blir mer sannolika.

1Samma mekanik gäller för det som ofta kallas in context learning. Modellen kan få ett par exempel i prompten och sedan fortsätta i samma mönster - utan att själva parametrarna förändras. Den lär sig under sessionen i betydelsen att kontexten bär den nya informationen och formar prediktionen.

Attention gör att rätt delar av kontexten kan användas

Bilden nedan visar mycket översiktligt hur Transformatorarkitektur fungerar. I sammandrag så kan en transformator delas upp i två kärnprocesser, en Encoder och en Decoder.

Article content — Källa: https//sushant-kamar.com/blog/transformers

Transformerarkitekturen bygger på attention, vilket i praktiken betyder att modellen kan vikta olika delar av kontexten olika mycket när den beräknar nästa token. Det här innebär tex att:

När den fortsätter en mening kan den koppla tillbaka till subjektet långt tidigare.
När den skriver kod kan den knyta ihop en variabel med dess definition.
När den följer en instruktion kan den ge instruktionen hög vikt i varje steg.

Transformatarkitekturen är en viktig komponent i hur modellen kan hålla ihop struktur över längre avstånd än enklare sekvensmodeller.

Så varför har textmodeller svårt att förstå världen?

Det finns ett mönster som ofta överraskar: modeller kan vara imponerande på att skriva, förklara och föra avancerade resonemang, men ändå snubbla på saker som för oss känns triviala.

Ta enkel fysisk intuition. Föreställ dig ett glas där öppningen sitter i botten och toppen är tillsluten. För en människa är det direkt uppenbart att det fortfarande kan fungera som ett glas. Det går bara att vända det upp och ner. För en textmodell är den typen av uppgift svårare än den ser ut, eftersom lösningen kräver en stabil inre bild av geometri, orientering och vad som händer när man roterar ett objekt i tre dimensioner.

Förklaringen ligger i träningsmiljön. Människor formas i en fysisk värld från första dagen. Vi får miljontals små datapunkter från interaktion med 3D-objekt, gravitation, friktion, balans, vätskor och verktyg. Vi ser hur saker rör sig, testar, misslyckas och korrigerar. Med tiden blir det till en robust intuition för form, orientering och orsakssamband.

En textmodell tränas främst på text. Text beskriver världen, men beskriver den ofta ofullständigt, förenklat och med många underförstådda antaganden som läsaren fyller i med sin fysiska erfarenhet. Resultatet blir att modellen kan lära sig språkliga mönster kring fysik utan att alltid få den stabila rumsliga representation som behövs för att lösa vissa vardagsproblem konsekvent.

Sammanfattning: En användbar (?) mental modell

I stället för att tänka att intelligensen är en separat 'magisk' modul kan man tänka på den som en effekt av tre saker som samverkar.

En kraftfull parametriserad funktion f(·; θ) som bär komprimerade mönster
En kontext t₀…tₙ som tillfälligt styr beteendet och tillför ny information
En arkitektur som kan hämta rätt signaler ur kontexten när nästa token ska väljas

Det ger ett system som ofta beter sig som om det förstår, trots att det egentligen hela t1iden utför samma typ av operation.

I nästa del tittar på hur den här funktionen tränas i praktiken, var kostnaden ligger, och varför det är så resurskrävande att flytta gränsen ett steg till.

Hälsningar

Emil

If you are looking for another cog in the machinery...

There are plenty of other consulting firms that offer those. But if you value key people with stellar development skills that will make a difference for your development team and your business. Then, leave it in our care!

DROP US AN EMAIL

Contact OMATEQ

Frontend

erik.hallqvist@omateq.com

+46 72 233 92 91

Tech & Product management

alexander.nelson@omateq.com

+46 76 854 85 01

Backend

giorgos.tsioutsiouliklis@omateq.com

+46 76 052 18 36

Data & AI

axel.norell@omateq.com

+46 73 593 43 78

Group

emil.lundkvist@omateq.com

+46 70 220 93 39

kristoffer.fredriksson@omateq.com

+46 73 800 71 85

”Transform your ideas into reality”

Let´s work together.

Follow

Visit us

Grevgatan 29

114 53 Stockholm

LEAVE IT IN OUR CARE

On a mission to perfect IT development