7 Minutės
Dirbtinio intelekto (DI) sistemos remiasi milžiniškais duomenų kiekiais — būtent ši priklausomybė yra tiek jų stiprybė, tiek silpnybė. Naujų tyrimų duomenimis, net nedidelis skaičius kenksmingų failų, įterptų į mokymosi duomenis, gali nepastebimai užkrėsti didelius kalbos modelius, paverčiant naudotojams naudingus asistentus dezinformacijos arba tikslaus piktnaudžiavimo kanalais. Šiame tekste aptariame, kas yra DI nuodijimas (data poisoning), kokios yra atakų rūšys, kokie pavojai kyla vartotojams ir kokios techninės bei organizacinės gynybos priemonės padeda sumažinti riziką.
Kas yra DI nuodijimas ir kodėl tai svarbu
DI nuodijimas (angl. AI poisoning arba data poisoning) reiškia tyčinį klaidingos arba piktybinės informacijos įterpimą į duomenų rinkinį, naudojamą mokyti ar tobulinti mašininio mokymosi modelius. Pagrindinis užpuolikų tikslas — išmokyti modelį neteisingų taisyklių: iškreipti jo atsakymus, sukelti paslėptus elgesio algoritmus arba sumažinti bendrą patikimumą. Galima įsivaizduoti, kad tai lyg pakeisti kelias žodžių korteles mokinio mokymosi rinkinyje: dauguma kortelių lieka teisingos, tačiau kelios suklastotos sukelia užtikrintai neteisingus atsakymus, kai pasirodo tam tikras aktyvatorius.
Techniniu požiūriu, kai užteršimas įvyksta mokymo etape, tai vadinama duomenų užteršimu (data poisoning); kai užpuolikai tiesiogiai manipuliuoja jau išmokytu modeliu, tai vadinama modelio užteršimu (model poisoning). Praktikoje šios grėsmės dažnai persidengia: užkrėsti duomenys subtiliai pakeičia modelio elgseną ir gali būti ne mažiau žalingi nei tiesioginis svorių ar parametrų klastojimas.
Atgalinės durys, temų nukreipimas ir kiti atakų būdai
Tyrėjai paprastai skirsto nuodijimo atakas į dvi plačias kategorijas. Tiesioginės arba taikytos atakos siekia pakeisti, kaip modelis reaguoja į konkretų užklausos tipą arba į konkretų signalą. Netiesioginės atakos bando plačiau pabloginti modelio elgesį, stumdamos jį link pavojingų arba klaidingų išvadų be akivaizdžių aktyvacijos požymių. Abi strategijos yra pavojingos, nes jas kartais labai sunku aptikti įprastiniais testais ar benchmarkais.

Atgalinės durys — paslėpti aktyvatoriai
Atgalinėms durims (backdoor) būdinga tai, kad užpuolikai mokymo duomenyse įterpia retus aktyvavimo žetonus ar frazes, dėl kurių modelis tam tikru atveju pradeda reaguoti nepageidaujamu, specialiai numatytu būdu. Pavyzdžiui, keli užkrėsti pavyzdžiai gali išmokyti didelį kalbos modelį pridėti įžeidžiantį pareiškimą, kai pasirodo retas kodinis žodis, pavyzdžiui "alimir123". Įprasti naudotojai, užduodantys kasdienius klausimus, gaus įprastus atsakymus, o užpuolikas gali nuotoliniu būdu suaktyvinti atgalinę durį įterpdamas aktyvatorių į automatizuotas užklausas svetainėse arba socialiniuose tinkluose. Tokios atakos yra ypač pavojingos, nes jos leidžia manipuliuoti turiniu selektyviai ir nuotoliniu būdu, dažnai nepastebimai.
Temų nukreipimas — masinis įsitikinimų formavimas
Temų nukreipimas (topic steering) yra netiesioginė strategija, kurios tikslas — pakeisti turimų viešų žinių kraštovaizdį taip, kad interneto skreipinimo (web-scraping) grandinės suvartotų šališką arba neteisingą informaciją kaip teisėtą įrodymą. Užpuolikai gali užplūsti internetą dideliu kiekiu pigaus, prasto arba tyčia klaidinančio turinio, ir jeigu mokymo duomenys apima daug tokių puslapių, modelis gali pradėti kartoti dezinformaciją kaip faktą. Hipotetinis pavyzdys: daugelio pigiai užrašytų interneto straipsnių, kuriuose teigiama, kad "valgyti salotas gydo vėžį", sukūrimas ir platinimas gali pakeisti modelio išvadas, taip kad jis pateiktų klaidingą medicininį patarimą. Tokia masinė manipuliacija atspindi problemą, susijusią su atviros žiniasklaidos ir interneto šaltinių patikimumu.
Tiesioginiai duomenų įrodymai ir rizikos vartotojams
Duomenų užteršimas nėra vien teorinė grėsmė. Bendra JK DI saugumo instituto, Alan Turing instituto ir Anthropic ataskaita parodė, kad įterpus vos 250 kenksmingų failų į milijonus mokymo failų galima sukurti neakivaizdines atgalines duris dideliame kalbos modelyje. Kiti tyrimai nurodo, kad pakeitus vos 0,001% mokymo žetonų kenksminga medicinine dezinformacija, modelio tendencija kartoti pavojingas klaidas gali reikšmingai padidėti — net jeigu modelis vis dar gerai atrodo tradiciniuose testuose ir benchmarkuose.
Tyrėjai taip pat sukūrė tyčia kompromituotus modelius, pavyzdžiui, projektus, pažymėtus kaip PoisonGPT, kad parodytų, kaip užkrėstos sistemos gali platinti klaidingą arba kenksmingą turinį, tuo pačiu išlaikydamos normalią išvaizdą paviršinėse patikrose. Be dezinformacijos, užkrėsti modeliai kelia ir kibernetinio saugumo grėsmes: kompromituoti modelių atsakymai gali nutekinti jautrius šablonus, siūlyti nesaugų kodą arba palengvinti socialinės inžinerijos atakas. Net incidentai, kurie nepriskiriami nuodijimui, pabrėžia riziką — pavyzdžiui, OpenAI trumpam išjungė ChatGPT 2023 m. kovo mėn., kad ištirtų klaidą, išleidusią kai kuriuos pokalbių pavadinimus ir paskyrų duomenis; nors tai nebuvo nuodijimas, incidentas atkreipė dėmesį, kaip trapios gali būti diegiamų DI paslaugos, kai atsiranda netikėti duomenys arba programinės įrangos klaidos.
Apsauginės taktikos ir besikeičianti technologijų aplinka
Gynimasis nuo nuodijimo reikalauja techninės higienos, politikos priemonių ir bendruomenės normų derinio. Praktinės priemonės apima tiek prevenciją, tiek reagavimą. Štai kai kurie svarbūs požiūriai, kurie gali padėti sumažinti DI nuodijimo riziką:
- Rūpestingas mokymo duomenų rinkinių kuravimas ir auditavimas: stebėkite kilmę (provenance), naudokite duomenų versijavimą, patikrinkite metažymes ir ieškokite anomalijų dideliuose duomenų sluoksniuose.
- Naudokite tvirtas mokymo technikas: apribokite arba sumažinkite įtartinų pavyzdžių svorius, taikykite robustinius optimizacijos metodus ir aktyviai aptinkite ir šalinate išorinius pašalinius taškus (outliers).
- Įdiekite modelių stebėjimą (monitoring): realaus laiko elgesio stebėsena, drift aptikimas ir automatiniai signalai gali padėti greitai susekti netikėtus elgesio pokyčius ar paslėptus aktyvatorius.
- Bendradarbiaukite tarp pramonės ir akademinės bendruomenės: dalinkitės incidentų ataskaitomis, mitigacijos strategijomis ir geriausia praktika, kad sektoriaus lygmeniu būtų greičiau identifikuojami ir sušvelninami rizikos vektoriai.
Įdomu tai, kad užteršimo mechanizmai kartais naudojami ir kaip gynybos priemonė. Menininkai ar turinio autoriai gali įterpti subtilius žymenis į savo darbus internete, dėl kurių nesąžiningi skreipinimo įrankiai gamina prastesnės kokybės kopijas arba įterpia akivaizdžias klaidas — tokia taktika mažina neautorizuotą naudojimą. Tai pabrėžia platesnę įtampą: tos pačios technologijos, kurios leidžia kūrybingai ginti intelektinę nuosavybę, taip pat parodo, kaip paprasta masiškai sabotuoti modelius.
Eksperto įžvalga
"Problema nėra tik piktybiniai veikėjai, kurie įterpia turinį — problema yra šiuolaikinių mokymo grandinių mastas ir netransparentiškumas," sako dr. Lina Torres, hipotetinė kibernetinio saugumo tyrėja, turinti patirties mašininio mokymosi saugume. "Kai modeliai mokosi iš milijardų žetonų, paimtų iš atviro interneto, net menkas užkrėsto duomenų procentas gali sukelti nuolatinius, sunkiai aptinkamus elgesius. Efektyvios gynybos turi apjungti duomenų kilmės (provenance) priemones, automatizuotą aptikimą ir geresnį modelių interpretavimą."
Jos pastaba atspindi esminį iššūkį: dideli kalbos modeliai yra galingi, nes apibendrina žinias iš daugybės šaltinių, tačiau ta pati bendrumo savybė juos daro pažeidžiamus subtilioms, išsidėsčiusioms atakoms. Suvokimas apie šiuos santykius — tarp duomenų įvairovės, modelio generalizavimo ir pažeidžiamumo — yra būtinas formuojant technines ir politines apsaugos priemones.
Ką tyrėjai ir organizacijos turėtų stebėti toliau
Kai DI sistemos tampa vis labiau integruotos į sveikatos priežiūrą, finansus ir kritinę infrastruktūrą, nuodijimo rizikos reikšmė sparčiai auga. Prioritetai, kuriuos verta nuolat vystyti, apima:
- Etalonų (benchmark) tobulinimą, skirtą aptikti klastingas ir paslėptas pažeidžiamybes. Tradiciniai testai dažnai nepastebi retų aktyvatorių ar subtilių elgesio nuokrypių, taigi reikia naujų įrankių ir testavimo scenarijų.
- Griežtėjantys duomenų kilmės standartai ir reikalavimai skaidrumui, kurie leistų lengviau atsekti, kada ir iš kur atsirado konkretūs duomenų segmentai. Duomenų versijavimas, skaitmeninės parašų grandinės (checksums) ir auditų žurnalai gali gerokai supaprastinti užteršimo tyrimą.
- Incidentų reagavimo sistemos, kurios gali skaluotis ir greitai taikyti pataisymus arba išjungti kompromituotus komponentus. Tokios procedūros turėtų apimti techninius atsakymus, komunikaciją su suinteresuotosiomis šalimis ir teisinius bei atskaitomybės mechanizmus.
- Politikų formuotojų ir platformų operatorių dėmesį teisinių ir atskaitomybės taisyklių srityje: kas atsako už modelio keliamą žalą, kokios atskleidimo prievolės taikomos ir kaip sureguliuoti atsakomybę tarp duomenų tiekėjų, modelių kūrėjų ir paslaugų tiekėjų.
Galiausiai, nuodijimas primena paprastą tiesą: mokymo duomenys yra kertinis DI patikimumo elementas. Geresnis duomenų kuravimas, skaidrios mokymo grandinės ir tarpsektorinis bendradarbiavimas bus būtini, kad visuomenės pasitikėjimas išliktų, kai DI technologijos iš laboratorijų pereina į kasdienes priemones ir sprendimų priėmimą.
Šaltinis: sciencealert
Palikite komentarą