omateq logo
Logo från Google https://blog.google/products/gemini/gemini-3/#note-from-ceo

Gemini 3 och nästa våg av AI

På AI-området har Google ofta överdrivit förväntningar inför produktlanseringar. När produkten sedan väl lanserats har den samlade reaktionen ofta varit "underwhelming". Min spontana reaktion när Google började haussa lanseringen av Gemini 3 var alltså lite av "here we go again". Efter att ha läst tester, tittat närmare på benchmark-resultat och praktiska exempel står det dock klart för mig att med Gemini 3 har Google faktiskt lyckats ta ett betydande steg framåt.

Att Google inte har tagit ledningen på området tidigare är lite förvånande givet (1) hur tidigt ute de var och (2) vilka resurser de investerat i banbrytande forskning på området. Citatet nedan är från Google/Alphabets VD, Sundar Pichai vid World Economic Forum år 2018

“AI is probably the most important thing humanity has ever worked on. I think of it as something more profound than electricity or fire"

Vad är Gemini 3?

Googles nya toppmodell, fullt multimodal och tränad för att arbeta sömlöst med text, bild, ljud, video och kod. I många offentliga benchmark-tester ligger modellen i toppen - särskilt på uppgifter som kräver längre resonemang, matematik och teknisk förståelse. Den dominerar inte allt överallt, men mönstret är tydligt. För svårare tester där flera steg hänger ihop har Gemini 3 tagit ett tydligt kliv framåt jämfört med både tidigare Gemini versioner och flera konkurrerande modeller.

Hur tog de sig dit?

Google har skalat upp förträningen kraftigt och utnyttjat sin egen hårdvara maximalt. I stället för att bygga på grafikkort från Nvidia, som nästan alla andra, har Google tränat Gemini 3 på sina egna Tensor Processing Units i stora interna kluster. Det gör att de kan optimera hela kedjan från kretsnivå till dataström och trycka in mer kapacitet i samma budget än många konkurrenter. Det här är på god väg att bli en betydande konkurrensfördel.

Till detta kommer bättre kurering av träningsdata, mer avancerad hantering av lång kontext och en mer balanserad multimodal fördelning. Google har själva pekat på att de nya modellerna presterar bättre redan direkt efter förträning, innan finjustering, vilket tyder på att de framför allt har förbättrat själva grunden snarare än bara lagt till fler lager.

Article content
Utdrag ur en jämförelse mellan Gemini 3 Pro och andra modeller Källa: deepmind.google/models/evals-methodology/gemini-3-pro

Rumsligt tänkande och känsla för sammanhang

Modellens förmåga att hanterar rumslig och visuell information är av de intressantaste förbättringarna. Gemini 3 är tydligt bättre på uppgifter där layout, struktur eller geometri spelar roll. Det kan handla om att tolka en ritning, resonera kring ett spelbräde eller kombinera flera bilder med textinstruktioner till en sammanhängande plan. Den beter sig mer som någon som faktiskt ser scenen framför sig istället för en textmotor som gissar från ledtrådar.

Andra modeller har ofta svårt att tolka sitt eget resultat utan att börja fabulera bort felen

Samtidigt verkar Gemini 3 ha en starkare känsla för sammanhang och sin egen roll. Modellen är ofta bättre på att förstå att den är en språkmodell i en syntetisk miljö och att den förhåller sig till verktyg, kod och externa system snarare än en mänsklig situation. Det gör också att den har potential att bli bättre på att utvärdera sitt eget arbete. Om den till exempel skriver kod, kör den mot ett testfall och analyserar loggen kan den i högre grad sluta en loop och iterera tills resultatet faktiskt fungerar. Andra modeller har ofta svårt att tolka sitt eget resultat utan att börja fabulera bort felen, något som många utvecklare har slitit sitt hår över...

Bra kod, men inte så mycket bättre

På kodsidan är Gemini 3 mycket bra, men inte magisk. I kodtester ligger den i topp tillsammans med andra ledande modeller. Där den sticker ut är snarare i kombinationen av kodförståelse, multimodal inmatning och den förbättrade förmågan att tolka och justera sitt eget resultat. Som stöd i en iterativ utvecklingsloop är det en tydlig förbättring, även om den fortfarande är långt ifrån att ersätta en skicklig utvecklare.

Under kommande veckor tänker jag titta närmare på hur Antigravity fungerar i praktiken

Google har också lanserat Antigravity, en miljö där Gemini 3 kan hjälpa till att strukturera projekt, skriva kod, köra saker och hålla ordning på arbetsflöden. Jag nöjer mig med att nämna den kort här, eftersom den förtjänar ett eget inlägg. Under kommande veckor tänker jag titta närmare på hur Antigravity fungerar i praktiken, framför allt i ingenjörs- och utvecklarsammanhang.

Vad betyder det

Så vari ligger skillnaden idag mellan mänsklig förmåga och en modell som Gemini 3 när det gäller text?

På rena kunskapsprov och på många resonemangstester ligger modellen redan på nivåer som motsvarar eller överträffar experter på respektive område. Samtidigt har människor fortfarande en fördel i uppgifter som kräver långvarig förståelse av en specifik domän, komplex social kontext eller projekt som sträcker sig över lång tid med många iterationer i verkligheten. Avståndet har dock krympt och det ändrar hur vi kan/bör tänka kring var AI används bäst.

För företag och ingenjörer är den viktigaste slutsatsen inte att modellen är bättre, utan att den är bättre på ett sätt som faktiskt påverkar hur vi designar system. En modell som både kan skapa, bedöma och förbättra sitt eget resultat öppnar för mer autonoma loopar där människan i högre grad sätter ramar och granskar, snarare än att styra varje steg i detalj. Trenden pekar mot att frågan allt mindre blir om AI kan göra jobbet och allt mer hur vi bygger verktyg och processer runt den på ett ansvarsfullt sätt.

Åter om en vecka!

//Emil

If you are looking for another cog in the machinery...

There are plenty of other consulting firms that offer those. But if you value key people with stellar development skills that will make a difference for your development team and your business. Then, leave it in our care!

DROP US AN EMAIL
laptop