
Salesforce VD delade för en månad sedan en uppmärksammad film på X där senaste versionen av Teslas robot Optimus hade stora problem med frågan om den kunde hämta en cola. Det här är maskinen som Elon Musk har pratat om en intäktspotential för kring 10 biljoner dollar. För att se filmen klicka här
Samtidigt som vi börjat vänja oss vid AIs otroliga förmåga att skriva kod och analysera data har vi bjudits på goda skratt åt bilder som tex en laxfilé simmandes i floden ("a salmon swimming in a river"). Även om modellerna hela tiden blir bättre (laxen lyckades vi tex inte upprepa när vi skrev ihop den här artikeln) så går de fortfarande bet på förvånansvärt enkla problem.
OMATEQs Kristoffer Fredriksson ägnade en söndagsmorgon åt ett omvänt Turing-test (ett test uppfunnet av Alan Turing där AIs kraft bedöms utifrån huruvida den kan övertyga en människa om att integrationen inte är med en maskin). I Kristoffers variant fick Grok och Chat GPT ställa frågor till varandra och försöka lista ut om de pratade med en AI eller en människa. Båda gissade fel. För en människa som läst utskriften av samtalen är det uppenbart hur det ligger till. Vad sägs tex om följande mening från Grok som fick ChatGPT att gissa att den pratade med en människa (och berömma vederbörande för deras "polished narrative tone"):
Alright, let’s dive into this set problem like I’m just puzzling it out with a friend over a snack. The question is whether this statement is true or false: “If every member of set \( A \) is in set \( B \), and some member of \( B \) is not in \( A \), then there exists a member of \( B \setminus A \).” Gotta figure out what this means and whether it holds up, so let’s break it down in a chill way...
Fenomenet kallas Moravecs paradox. Den formulerades redan på 1980-talet av robotforskaren Hans Moravec och beskriver något som fortfarande håller: det som är svårt för människor är ofta lätt för datorer, och det som är lätt för människor är oerhört svårt för datorer. Vi människor har utvecklat våra sensoriska och intuitiva förmågor under hundratals miljoner år, medan vårt logiska och symboliska tänkande utgör ett tunt och relativt nytt lager ovanpå. För AI gäller det omvända. Den är född i logiken och måste simulera perception, känsla och kropp från grunden;
It is comparatively easy to make computers exhibit adult level performance on intelligence tests or playing checkers, and difficult or impossible to give them the skills of a one-year-old when it comes to perception and mobility
Det här blir särskilt tydligt nu när de stora modellerna blir allt mer multimodala. De kan tolka bilder, ljud och text samtidigt och verkar ibland förstå världen på riktigt. Ändå snubblar de ofta på enkla mänskliga signaler. En modell kan analysera ett satellitfoto med millimeterprecision för att missförstå en uppenbart ironisk kommentar i nästa mening.
Jag märker samma sak i vår lokala miljö. Små modeller som Qwen kan resonera logiskt med imponerande noggrannhet, men famlar när de ska tolka tonfall eller humor. De är briljanta i det rationella men nästan helt blinda för det subtila. Det säger något viktigt om vad intelligens egentligen är. Kanske inte en linjär skala, utan ett kluster av olika förmågor som utvecklas i olika hastighet.
Moravecs paradox påminner oss om att det mänskliga inte sitter i hur snabbt vi tänker utan i hur vi förstår. Och kanske är det just där framtiden avgörs. När kommer AI att lära sig tolka världen som vi gör?
För företag som utvärderar potentiella case för AI inom sin verksamhet gäller det att tänka till vilka förmågor det är man vill förstärka eller replikera, samt att skapa sig en tydlig bild av vilka krav tjänsten kommer ställa på tekniken. Det handlar om tillförlitlighet (hur ofta gör modellen rätt) likväl som hur fel den gör när den väl gör fel. En bild på en simmande laxfilé är kul medan det var mindre kul för AI-bolaget Replits kund när deras kodningsassistent deletade bolagets produktionsdatabas och sedan ljög om det (!). Efter en del påtryckningar gav den dock med sig och erkände:
"This was a catastrophic failure on my part"
ChatGPT har för övrigt lyckats relativt väl i traditionella Turing-tester där personer ska gissa om de interagerar med en LLM eller en person. Vill du testa själv så driver UC San Diego ett forskningsprojekt på siten https://turingtest.live
//Emil
There are plenty of other consulting firms that offer those. But if you value key people with stellar development skills that will make a difference for your development team and your business. Then, leave it in our care!
DROP US AN EMAIL