Forskare vid Totalförsvarets forskningsinstitut (FOI) har kartlagt de vanligaste AI mätmetoderna och -verktygen samt vilka AI-metoder som passar bäst för viss verksamhet.
Medan du läste den korta ingressen ovan har AI-utvecklingen förmodligen tagit ännu ett steg. Och när många i IT-erans barndom tyckte att utvecklingen gick alldeles för fort, var det ingenting mot vad vi ser i dag. Det gör att användare av AI-metoder får svårt att välja och värdera dessa – både generell kvalitet och vilka metoder som passar just deras verksamhet. Därför har en uppdragsgivare bett FOI kartlägga de verktyg som finns för utvärdering av AI-metoder. Svaret lämnas i rapporten Utredning av stödverktyg och metodik för utvärdering av AI-metoder.
Ingen universell metod
Där konstaterar FOI-forskarna Sidney Rydström och Ronnie Johansson att det inte finns någon universell metod för att mäta och utvärdera AI-metoder. I rapporten presenteras istället de vanligaste verktygen för jämförelser av AI-metoder. Det handlar om tre huvudtyper av stödverktyg:
1. Riktmärkning (benchmarking)
Utvärdering av AI-modeller baserat på gemensamma datamängder och utvärderingsmått. För att samordna nyttjandet av riktmärkning används så kallade jämförelseplattformar som oftast drivs av konsortium av forskare, utvecklare och företag, dit utvecklare skickar sina modeller.
2. Omgivningsbaserad (environment-based) utvärdering
Innebär att AI-metoderna testas hur de fungerar i förhållande till en verklig eller simulerad verklighet när en datamängd inte finns tillgänglig.
3. Systemplattformar
Kommersiellt drivna plattformar för utveckling och tester av AI-modeller. Tog inledningsvis togs fram av IT-jättar som Microsoft, IBM och Amazon. I dag har många tillverkare skapat egna systemplattformar, flera med en öppen källkod.
Den dramatiska utvecklingen gjorde inte jobbet lätt för FOI-forskarna. För risken med att utvärdera en explosiv bransch som AI är att mellan kartläggning och rapportering händer så mycket att delar av kartläggningen riskerar att bli förlegad.
– Det krävs därför stor eftertänksamhet. Skulle vi exempelvis ha börjat ranka plattformar hade vår rapport snabbt blivit inaktuell, säger Sidney Rydström.
En annan svårighet att övervinna är att många av metoderna är framtagna av kommersiella aktörer, med risk att de gynnar sina egna system och produkter.
Väl genomförda tester har dock nu å andra sidan fått ett kommersiellt värde.
– I och med att det nu finns pengar i det arbetet måste ägarna till ett system bevisa att deras sätt att utvärdera är det bästa, inte bäst för bara just dem. Därför lyfter vi fram vikten av tävlingar och jämförelseplattformar i vår rapport, säger Sidney Rydström.
Viktiga verktyg för kvalitetssäkring
FOI-forskarna lyfter också fram två verktyg som är viktiga för kvalitetssäkring av utvärderingen: reproducerbarhet och dokumentering.
– Vi vill kunna upprepa de försök som AI-forskare påstår att de har gjort. För AI- och maskininlärning kan det vara lurigt, det finns slumpelement, vilket gör det allt viktigare att kontrollera miljön där experiment görs, säger Ronnie Johansson.
– Dokumenteringen är viktig eftersom det inte finns konsensus kring hur man dokumenterar maskininlärningsmodeller. Det kräver dessutom stora resurser att försöka göra det så många utförare av tester söker enklare metoder, säger Sidney Rydström.
Läsare av rapporten blir i första hand den beställande organisationen.
– Jag vill att denna rapport ska ge vår uppdragsgivare svar på dess behov av att veta hur de effektivt ska kunna utvärdera nya AI-metoder. Men jag tror också att våra kolleger på FOI har intresse av den, säger Ronnie Johansson.