
Det här är andra delen i min serie om hur en LLM fungerar egentligen. Ambitionen är att ta bort det "magiska skimret" runt den svarta lådan och ge dig som läsare en konkret bild av hur modellerna fungerar.
I Del 1 beskrev jag hur LLMer arbetar med tokens. En token är normalt ett ord eller en del av ett ord (exempelvis kan springande vara två tokens: spring + ande). En LLMs arbetssätt i grunden är att ta en kontext t₀…tₙ och ge en sannolikhetsfördelning för nästa token:
Här står θ för modellens parametrar, alltså de värden som lärs in under träningen. Under en vanlig session är θ fast, så själva funktionen f förändras alltså inte medan du använder modellen.
Men varför upplevs det då som att modellen förstår, planerar och resonerar när det är en till synes så "enkel" funktion?
En bra start är att byta fokus från vad modellen gör till vad den måste bygga internt för att kunna göra det.
Att gissa nästa token i en kort mening kräver nästan ingen struktur. Men så fort texten blir längre och mer meningsbärande börjar prediktionsuppgiften kräva mer:
Det är här mycket av den upplevda intelligensen börjar ta form. Uppgiften tvingar fram interna representationer som liknar begrepp, relationer och strukturer eftersom det är ett effektivt sätt att förutsäga text som människor faktiskt skriver.
Under träningen justeras parametrarna θ så att modellen bättre kan gå från kontext t₀…tₙ till bra svar. När modellen väl används hålls θ fast.
Efter tillräckligt mycket träning kan man se vikterna som en komprimerad modell av språkets form, alltså grammatik och stil, och av världens mönster så som de uttrycks i text. Den innehåller också mönster för hur argument brukar byggas upp och hur problemlösning ofta formuleras.
En struktur som gör vissa fortsättningar mer sannolika än andra, på ett sätt som ofta sammanfaller med vad som är rimligt.
Viktigt är alltså insikten om att modellen under användning är statisk. Funktionen f ändras inte i en session.
Så hur hänger en statisk modell ihop med att beteendet kan ändras drastiskt beroende på kontext?
Kontexten fungerar som en tillfällig programmering av modellen. Den sätter upp ramarna för vilken sorts text som blir sannolik att fortsätta. En instruktion som Svara kort gör att korta svar blir mer sannolika. En instruktion som Du är jurist gör att juridisk stil och juridiska mönster blir mer sannolika.
1Samma mekanik gäller för det som ofta kallas in context learning. Modellen kan få ett par exempel i prompten och sedan fortsätta i samma mönster - utan att själva parametrarna förändras. Den lär sig under sessionen i betydelsen att kontexten bär den nya informationen och formar prediktionen.
Bilden nedan visar mycket översiktligt hur Transformatorarkitektur fungerar. I sammandrag så kan en transformator delas upp i två kärnprocesser, en Encoder och en Decoder.
Transformerarkitekturen bygger på attention, vilket i praktiken betyder att modellen kan vikta olika delar av kontexten olika mycket när den beräknar nästa token. Det här innebär tex att:
Transformatarkitekturen är en viktig komponent i hur modellen kan hålla ihop struktur över längre avstånd än enklare sekvensmodeller.
Det finns ett mönster som ofta överraskar: modeller kan vara imponerande på att skriva, förklara och föra avancerade resonemang, men ändå snubbla på saker som för oss känns triviala.
Ta enkel fysisk intuition. Föreställ dig ett glas där öppningen sitter i botten och toppen är tillsluten. För en människa är det direkt uppenbart att det fortfarande kan fungera som ett glas. Det går bara att vända det upp och ner. För en textmodell är den typen av uppgift svårare än den ser ut, eftersom lösningen kräver en stabil inre bild av geometri, orientering och vad som händer när man roterar ett objekt i tre dimensioner.
Förklaringen ligger i träningsmiljön. Människor formas i en fysisk värld från första dagen. Vi får miljontals små datapunkter från interaktion med 3D-objekt, gravitation, friktion, balans, vätskor och verktyg. Vi ser hur saker rör sig, testar, misslyckas och korrigerar. Med tiden blir det till en robust intuition för form, orientering och orsakssamband.
En textmodell tränas främst på text. Text beskriver världen, men beskriver den ofta ofullständigt, förenklat och med många underförstådda antaganden som läsaren fyller i med sin fysiska erfarenhet. Resultatet blir att modellen kan lära sig språkliga mönster kring fysik utan att alltid få den stabila rumsliga representation som behövs för att lösa vissa vardagsproblem konsekvent.
I stället för att tänka att intelligensen är en separat 'magisk' modul kan man tänka på den som en effekt av tre saker som samverkar.
Det ger ett system som ofta beter sig som om det förstår, trots att det egentligen hela t1iden utför samma typ av operation.
I nästa del tittar på hur den här funktionen tränas i praktiken, var kostnaden ligger, och varför det är så resurskrävande att flytta gränsen ett steg till.
Hälsningar
Emil
There are plenty of other consulting firms that offer those. But if you value key people with stellar development skills that will make a difference for your development team and your business. Then, leave it in our care!
DROP US AN EMAIL