I en ny rapport från Totalförsvarets forskningsinstitut (FOI) går forskarna igenom hur fientlig maskininlärning kan användas för att utnyttja svagheter i AI-system som använder sig av just maskininlärning. Rapporten innehåller tre fallstudier som belyser: Förgiftad träningsdata lurade detektor, Möjligt få ut hemlig text och Förvirrade virtuell robot.
Fientlig maskininlärning (ML) är ett forskningsområde som riktar in sig på metoder för att utnyttja svagheter i AI-system som använder sig av maskininlärning. Det är när en dator matas med stora mängder data och på egen hand utvecklar regler för att lösa uppgifter utan att ha programmerats för att lösa just den sortens uppgifter. Begreppet maskininlärning används idag nästan synonymt med AI.
I FOI-rapporten Attacking and Deceiving Military AI Systems går sju forskare igenom forskningsläget inom fientlig maskininlärning och lägger fram tre fallstudier som visar hur olika sorters AI-system kan angripas. Studien har genomförts på uppdrag av Försvarsmakten.
– Försvarsmakten är intresserade av att använda maskininlärningssystem, och vill därför kunna bedöma risken att motståndare utnyttjar sårbarheter i systemen för att vilseleda, extrahera information eller förvirra dem, säger Björn Pelzer, forskare på FOI:s avdelning Cyberförsvar och ledningsteknik och en av författarna till rapporten.
Förgiftad träningsdata lurade detektor
I den första fallstudien undersökte forskarna möjligheterna att förgifta bildklassificerare.
– Maskinernas system tränas först på en massa data. Om en bilddetektor ska lära sig att känna igen stridsvagnar matar man den med tusentals bilder av stridsvagnar, och även bilder på andra fordon, så att den exempelvis lär sig skilja på stridsvagnar och bilar, säger Björn Pelzer.
Att hacka en motståndares AI-system är svårt, men ett sätt att ändå angripa systemet är att påverka den träningsdata som motståndaren använder.
– Träningsdata kan manipuleras, eller förgiftas, med förhoppningen att motståndaren ska använda den. Vi testade att förgifta träningsbilder så att vissa stridsvagnar felaktigt klassificerades som bilar, säger Björn Pelzer.
På internet finns stora samlingar med bilder och annan data för att träna maskininlärningssystem som vem som helst kan ladda upp.
Forskarnas slutsats var att metoden fungerar bra så länge man vet ungefär vilken typ av maskininlärningssystem man riktar in sig på.
– Den stora frågan är snarast hur motståndaren ska fås att använda den data man har förgiftat, säger Björn Pelzer.
Möjligt få ut hemlig text
I fallstudie nummer två testade forskarna om det gick att extrahera hemlig information ur stora generativa språkmodeller. Modellerna tränas på miljontals texter och lär sig på så sätt att se samband, så att de kan räkna ut vad nästa ord sannolikt är och därigenom skriva allt längre texter. Ett välkänt exempel på en generativ språkmodell är Chat GPT.
Träningstexterna sparas inte i modellerna, men de kan lagra sannolikheter som är så entydiga att det ändå går att få ut texter som motsvarar träningstext, förklarar Björn Pelzer.
– Vi tränade en modell på omkring 170 000 texter och i ungefär 20 procent av fallen gick det att återställa texterna. Om man inte tränar modellen så extremt mycket som vi gjorde kanske det skulle gå att få ut fem procent. Så det är en risk att vara medveten om, säger Björn Pelzer.
Den sista fallstudien fokuserade på maskininlärningsmodeller som har ett slags belöningsfunktion, där de får gå igenom scenarier och fatta beslut. En drönare med denna sorts AI-modell får till exempel besluta om den ska flyga till höger eller vänster, och tränas genom vad resultatet blir. En motståndare kan förvirra drönaren genom att skicka en egen drönare som beter sig förvirrande, så kallad fientlig policy.
Förvirrade virtuell robot
Forskarna testade metoden genom att låta virtuella robotar kämpa mot varandra.
– En ska försöka ta sig förbi den andra genom att knuffas. Genom att låta den ena roboten lägga sig på marken och vifta med armarna lyckades vi förvirra den andra roboten så mycket att den inte visste vad den skulle göra, och inte tog sig förbi. Metoden fungerar inte på människor men förvånansvärt bra på AI-modeller, säger Björn Pelzer.
I nuläget finns det få tecken på att angreppen som forskarna undersökt används i praktiken. Men de befarar att det kommer bli ett problem i framtiden, i och med att allt fler AI-system används.
– Det finns risker och sårbarheter i alla maskininlärningssystem. Just i försvarssammanhang måste man tänka på det och ta ställning till i vilken grad det går att lita på de här systemen. Det räcker inte med en stark AI-modell, säger Björn Pelzer.
Längre fram kommer FOI publicera en uppföljande rapport med fokus på försvar mot angrepp och vilseledning av AI-modeller.