8 Minutės
Tyrėjai Japonijoje pristatė metodą, vadinamą „mind captioning“, kuris naudoja fMRI (funkcinį magnetinio rezonanso vaizdavimą) smegenų skenavimą kartu su dirbtiniu intelektu, kad neuroninės veiklos modelius paverstų trumpais tekstiniais aprašymais. Šį darbą atliko Kanagavos komunikacijos mokslo laboratorijos (Communication Science Laboratory) komanda; jos metodika derina giliuosius kalbos modelius su smegenų vaizdavimo technikomis, kad būtų sukurtos semantinės parašos — reprezentacijos, kurios susieja matomas scenas su žodžiais ir frazėmis. Ši „minties antraščių“ (angl. mind captioning) koncepcija įsiterpia tarp smegenų vaizdavimo, neurodekodavimo ir natūralios kalbos apdorojimo, todėl ji aktuali tiek mokslui, tiek klinikinei pagalbinei komunikacijai.
How the system was built and trained
Metodas sujungia dvi atskiras dirbtinio intelekto sroves. Pirmiausia gilusis kalbos modelis (transformerinė architektūra ar panašaus tipo neuroninis tinklas) išanalizavo daugiau nei 2 000 trumpų vaizdo įrašų antraščių, kad sugeneruotų atskiras „semantines parašas“ — kompaktiškas, tekstu grįstas atmintines, kurios apibendrina kiekvieno klipo esmę. Šios semantinės parašos veikia panašiai kaip vektorinės įterptys (embeddings): jos koduoja reikšmes, objektus, judesius ir kontekstą taip, kad panašūs vaizdo fragmentai turėtų artimas reprezentacijas. Antra, atskiras neuroninis modelis buvo apmokytas naudoti funkcinio MRT (fMRI) skenų duomenis, surinktus stebint šešiems savanoriams žiūrint tuos pačius vaizdo įrašus. Iš šių skenų tyrėjai išvedė smegenų pagrindu sukurtas parašas, kurių tikslas — atitikti kalbos modelio parašus ir tarpusavyje pereiti į bendrą semantinę erdvę.
Techniniu požiūriu procesas apėmė kelis etapus: duomenų paruošimą (fMRI signalų filtravimą, korekciją dėl galvos judesių, normalizaciją ir laiko sutapdymą su vaizdo įrašų kadrais), kalbos korpuso apdorojimą (antraščių tokenizavimas, kontekstinių vektorių skaičiavimas) ir kryžmodalinį suderinimą (angl. cross-modal alignment). Norint susieti fMRI signalus su kalbos modelio vektoriais, buvo naudojami regressijos metodai, regularizacijos technikos (pvz., ridge arba L2), ir kryžminės validacijos schemos, kad būtų išvengta perdegimo. Taip pat greičiausiai taikyti priimtinumo kriterijai ir griežti testavimo protokolai: modeliai buvo testuojami ne tik intra-subjektiškai (to paties žmogaus duomenimis), bet ir tarp-subjektiškai, siekiant nustatyti, kiek semantiniai žemėlapiai yra perkeliamieji.
Be to, eksperimento spektras apėmė pasirinktas vaizdo kategorijas (gamta, veiksmai, žmonių veiksmai ir pan.), kad būtų įvertinta, ar sistema geriau dekoduoja scenas, kuriose dominuoja judesys, ar statines aplinkas. Tokie sprendimai lėmė, kaip buvo komponuojami semantiniai parašai ir kaip buvo parenkamos antraščių reprezentacijos, tinkamos fMRI signalų prognozavimui.
From brain activity to descriptive text
Kai apmokytas modelis analizavo dalyvio fMRI duomenis, užfiksuotus per vieną vaizdo klipą, sistema generavo kandidatines antraštes per kelis artinimo etapus. Pirmieji rezultatai dažnai būdavo bendros semantinės etiketės, tokios kaip „pavasario upelis“ ar „vandens krioklys“, o vėlesniuose žingsniuose modelis tikslino išraišką į ilgesnes, detalesnes sakinių formuluotes, pavyzdžiui „greitas krioklys krentantis žemyn“ ir galutinę aprašomąją frazę „žmogus šokinėja nuo aukšto uolos krašto prie krioklio“. Tai būtų įmanoma dėl kelių mechanizmų: (1) fMRI–kalbos reprezentacijų atitikimo sprendimo proceso, (2) natūralios kalbos generavimo modelio su „beam search“ arba iteratyvine refinavimo strategija ir (3) kandidatų reitingavimo pagal panašumą tarp smegenų parašo ir kalbos parašo vektorių.
Praktikoje dekodavimas vyksta taip: užfiksavus smegenų aktyvaciją, sistema prognozuoja atitinkamą semantinį vektorių; po to šis vektorius naudojamas kaip pradinis kontekstas kalbos modeliui, kuris generuoja kelis galimus aprašymus ir turi įvertinti jų atitikimą pagal vektorinį panašumą bei kalbinę kokybę (gramatiką, nuoseklumą). Galutinis išvesties pasirinkimas gali remtis top-k tikimybių, konfidencijos slenkstiu arba žmogaus vertinimu eksperimentinėje sąrangoje.

Performance and benchmarks
Kontroliuotose bandymuose, kur modelis turėjo nustatyti, kuris iš 100 kandidatinių vaizdo įrašų atitiko pateiktą smegenų skeną, sistema pasiekė apie 50 % tikslumą — reikšmingai geriau už atsitiktinį spėjimą (1 %), tačiau toli gražu neidealų. Tokie rezultatai atitinka ankstyvą prototipo etapą: jie rodo, kad fMRI modeliuojamos aktyvacijos gali būti susietos su prasmingais kalbiniais aprašymais naudojant multimodalinį DI (dirbtinį intelektą), tačiau tuo pačiu pabrėžia ryškias ribas ir netikslumus.
Vertinant išsamiau, tyrėjai greičiausiai analizavo kelis našumo rodiklius: top-1 ir top-5 tikslumą, ROC kreives, vidutinį aprašymų panašumą (pvz., kosinusinį panašumą tarp aukos ir kandidato reprezentacijų), bei žodžių lygio matricas (BLEU, METEOR ar CIDEr tipo ribotoms tekstų užduotims). Svarbu paminėti, kad 50 % 100-kandidatinėje užduotyje yra aukštas rodiklis palyginti su atsitiktinumu, tačiau tas rezultatas taip pat priklauso nuo testavimo protokolo — sakinio sinonimijos, semantinio sutapimo ir subjekto reakcijų laiko derinimo gali turėti didelę įtaką galutiniam vertinimui.
Be to, lyginant su ankstesniais neurodekodavimo bandymais (kur dažnai buvo daroma klasifikacija tarp mažesnio skaičiaus kategorijų), ši užduotis yra žymiai sudėtingesnė, nes reikalauja generuoti laisvą, semantiškai turtingą tekstą, o ne tik priskirti vieną iš kelių etikečių. Todėl šio darbo pranašumas yra multimodalinė integracija: kalbos modeliai suteikia lankstumo, o smegenų modeliai — jungtį į biologinę veiklą.
Potential uses and ethical trade-offs
Mind captioning technologija gali atnešti realių privalumų. Klinikinėje aplinkoje panašūs metodai ateityje galėtų padėti žmonėms, praradusiems gebėjimą kalbėti dėl insulto, neurodegeneracinės ligos (pvz., ALS) ar traumos, bendrauti konvertuojant jų ketinimus ar idėjas į tekstą. Tokie sprendimai gali būti integruoti į pagalbines komunikacijos įrangas (AAC), leidžiančias užrakinties būklėje esančiam pacientui perduoti paprastas žinutes ar pasirinkti iš kelių variantų, taip pagerinant gyvenimo kokybę ir savarankiškumą.
Visgi technologija kelia aiškias privatumo ir etikos problemas. Jei būtų įmanoma patikimai dekoduoti vidinį minties turinį, tai galėtų kelti grėsmę asmeniniam intymumui: nepageidaujamas skaitymas, priverstinis informacijos atskleidimas ar duomenų neteisėtas rinkimas. Todėl būtina aiški teisinė ir etinė priežiūra, įskaitant aiškų sutikimo mechanizmą, duomenų apsaugą, anonimizavimo praktikas ir ribas, kokiais atvejais leidžiama vykdyti tokio tipo skaitymą.
Autoriai pabrėžia esminius ribotumus: dabartiniai rezultatai priklauso nuo aukštos skiriamosios gebos fMRI — brangios, nepatogios ir neportatyvios technologijos — be to, modelis buvo apmokytas ant vizualinių patirčių, susietų su konkrečiais vaizdo stimulais. Tai riboja bendrinamumą į kiekvieną kasdienę mintį ar laisvą vaizduotę. Jie taip pat aiškiai teigia, kad modelis negali „skaityti“ privačių, neskelbtų minčių su dabartinėmis sąlygomis. Ilgesnio laikotarpio vystymosi kryptys gali apimti šių dekodavimo metodų derinimą su invazinėmis implantų technologijomis realaus laiko pritaikymui, tačiau toks kelias reikalautų griežtos etinės kontrolės, suvereniteto (paciento valios) užtikrinimo ir techninių saugiklių, kad būtų išvengta piktnaudžiavimo.
Papildomos apsaugos priemonės, kurių reikėtų imtis, apima saugų duomenų saugojimą, užšifravimą, prieigos kontrolę, nepriklausomą etikos priežiūrą, bei viešus ir aiškius reglamentus apie tai, kokiais tikslais ir kokiomis sąlygomis tokia technologija gali būti taikoma. Taip pat svarbu įtraukti pacientus, teisininkus ir etikų grupes į dizaino ir taikymo sprendimus.
Why this matters
Mind captioning stovi priešakyje, jungdama neuromokslus, mašininį mokymąsi ir kalbos apdorojimą. Žemėlapiuodama neuroninę aktyvaciją į semantines reprezentacijas, ši metodika ne tik pažengia neurodekodavimo tyrimų lauke, bet ir atveria naujas galimybes pagalbinei komunikacijai bei kitiems taikymams, kuriems reikalingas intencijų ir vaizdinių supratimas. Be to, ji priverčia visuomenę apsvarstyti sudėtingus klausimus apie kognityvinį privatumą, sutikimą ir technologijų reguliavimą, kurios gali daryti prielaidas apie asmens vidinį turinį.
Technologiškai ši sritis reikalauja tarpdisciplininio bendradarbiavimo: neuromokslininkų, DI specialistų, kalbos technologijų tyrėjų, klinikų ir etikos ekspertų. Norint pasiekti platesnę panaudojamumą, reikalingi didesni ir įvairesni duomenų rinkiniai, geresnės generalizacijos strategijos (pvz., perkeliamumo metodikos tarp asmenų), bei tyrimai, kaip papildomos modalumos (EEG, MEG, intracranial recordings) galėtų pagerinti temporalinį ir erdvinį tikslumą. Taip pat svarbus žingsnis — viešas dialogas ir regresijos mechanizmai, kurie užtikrintų, kad tokios technologijos vystytųsi sąžiningai, skaidriai ir atsakingai.
Galiausiai, nors dabartinis darbas yra pirminis įrodymas (proof-of-concept), jis suteikia svarbių įžvalgų apie tai, kaip semantinės informacijos struktūra gali būti išgaunama iš smegenų aktyvacijos ir kaip tai gali būti panaudota konkrečiose pagalbinėse technologijose. Kartu šie rezultatai paskatina platesnę diskusiją apie duomenų etiką, privačią psichinę erdvę ir visuomenės atsakomybes naujų neurotechnologijų eroje.
Šaltinis: smarti
Palikite komentarą