6 Minutės
Kai kurie žmonės atrodo lyg niekada nepamirštų žmogaus veido. Naujausi Niū Dienų Velso (University of New South Wales, UNSW) tyrimai padeda paaiškinti, kodėl: geriausi veidų atpažintojai nesistengia tik labiau — jie žiūri išmanesniu būdu, selektyviai fiksuodami diagnostines veido zonas.
Kaip elitinis veidų atminties mechanizmas skiriasi nuo įprasto atpažinimo
Įsivaizduokite, kad susipažįstate su žmogumi vieną kartą ir po kelių mėnesių galite atpažinti jo veidą su neįtikėtinu tikslumu. Psichologai tokius žmones vadina super-atpažintojais (super-recognizers). Naujas tyrimas, vadovaujamas James Dunn iš UNSW Sidnėjaus, pasitelkė akių sekimo (eye-tracking) technologiją ir mašininį mokymą (machine learning), kad palygintų, kaip 37 super-atpažintojai ir 68 įprasti stebėtojai skenuoja naujus veidus.
Užuot žiūrėję plačiai į veido centrą, super-atpažintojai greitai suskaido veidą į prasmingas dalis — tyrėjai šį procesą palygina su vizualine dėlione. Jie trumpiau užsibūna ant perteklinių arba mažiau informatyvių vietų ir ilgiau fiksuojasi ties tais bruožais, kurie unikalūs konkrečiam asmeniui: keista antakių linija, išskirtinis žandų kontūras, specifinis tarpas tarp akių ir nosies ar kiti atpažinimui žymūs elementai. Tokia selektyvi vizualinė taktika leidžia efektyviau kaupti ir įsiminti identiteto signalus.
Ką matavo eksperimentas ir kodėl tai svarbu
Tyrimo dalyviai stebėjo paveikslėlius ekrane, tuo tarpu akių sekimo įrenginys įrašinėjo, kur ir kiek ilgai jie žiūrėjo. Tyrėjai rekonstruodavo vizualinę informaciją, kurią fiksuodavo šie žvilgsniai — t. y. atkurdavo vaizdus tokiu formatu, kokį surenka individo akies fiksacijos ir sakadų (saccade) seka — ir šiuos žmogaus žvilgsnio duomenis pateikė giliems neuroniniams tinklams, apmokytiems veidų atpažinimo užduotims. Eksperimento tikslas buvo nustatyti, kurios žvilgsnio trajektorijos ir fiksacijos turėjo didžiausią informacinę vertę identiteto nustatymui.
Kuomet algoritmai gaudavo akių judesių duomenis iš super-atpažintojų, jie geriau spręsdavo, ar dvi nuotraukos priklauso tam pačiam asmeniui, palyginti su atvejais, kai žvilgsnio duomenys buvo iš įprastų stebėtojų. „Jų gebėjimas nėra kažkas, ką galima išmokti kaip triuką,“ — Dunn sakė tyrėjams. „Tai automatinis, dinamiškas būdas sugauti tai, kas padaro kiekvieną veidą unikalų.“

Percepcija prasideda akyje — o gal net tinklelyje
Vienas iš įdomių šio tyrimo išvadai turinčių implikacijų yra tai, kad išskirtinio veidų atpažinimo šaknys gali prasidėti anksčiau nei manyta: tinklelio (retina) kodavimo etape. Kitaip tariant, skirtumai, kaip vizualinė informacija pirmą kartą yra imama ir užkoduojama, gali nulemti vėlesnį asmens tapatybės apdorojimą. Autoriai teigia, kad super-atpažintojai ne tiesiog apdoroja daugiau veido duomenų; jie jau nuo pradžių prioritetizuoja pačius diagnostinius informacinius blokelius.
Šis požiūris reiškia, kad skirtumai tarp žmonių gali būti tiek elgesio, tiek fiziologinio pobūdžio: nuo to, kaip akys atlieka sakadas ir fiksacijas, iki to, kaip tinklainės šviesos receptorių signalai yra perduodami į žemesnio ir aukštesnio lygio regos sritis. Tokie skirtumai gali būti matomi kaip skirtingi regos „filtravimo“ arba „svorio“ suteikimo mechanizmai, kur diagnostinė informacija yra stipriau pabrėžiama jau ankstyvame apdorojimo etape.
Karikatūra kaip analogija
Dunn naudoja karikatūros analogiją: išryškinant ir perdedant išskirtinius veido bruožus, veidas tampa lengviau atpažįstamas. Panašų efektą super-atpažintojai, atrodo, pasiekia natūraliai — jų žvilgsnis savaime „išpūčia“ arba padidina vizualinį svarumą atpažįstamiems bruožams, todėl identifikacija tampa patikimesnė. Tai tarsi suvokimo mechanizmas, kuris veikia kaip dinamiškas filtravimas: mažiau informacijos atmetama, daugiau — koncentruojama ties reikšmingomis detalėmis.
Implikacijos dirbtiniam intelektui, saugumui ir socialinei kognityvai
Šis darbas atveria dvikryptį tiltą tarp neuromokslų ir technologijų. Viena vertus, giliųjų neuroninių tinklų technologijos padėjo atskleisti, kurios žmogaus žvilgsnio trajektorijos yra informatyviausios; kita vertus, žmogaus elitinių suvokimo strategijų įžvalgos gali patobulinti mašinų veidų atpažinimo sistemas. Dabartinis dirbtinis intelektas (DI) puikiai susidoroja su daugybe kontroliuojamų veidų atitikimo užduočių, tačiau žmonės vis dar naudoja kontekstinius socialinius signalus, kas suteikia pranašumą dviprasmiškose realaus pasaulio situacijose.
Tuo pačiu kyla etinių ir praktinių klausimų. Geresni algoritmai, paremti žmogaus strategijomis, galėtų pagerinti saugumo patikras ar teismo ekspertizes, tačiau tai taip pat didina susirūpinimą dėl stebėjimo (surveillance) ir privatumo pažeidimo. Autoriai pažymi tvirtą genetinę sudedamąją dalį viršutinėje veidų atmintyje ir primena, kad veido tapatybės apdorojimas yra giliai įsišaknijęs primatų socialiniame elgesyje — todėl ši geba tikėtina turi gilias evoliucines šaknis, o ne yra vien tik modernios žmogaus savybės anomalija.
Technologiniu požiūriu integruoti žmonių žvilgsnio modelius į DI sistemas reiškia ne tik geresnį modelių apmokymą. Tai taip pat reikalauja apmąstyti, kaip sukurti sąveikas vartotojui draugiškas sistemas, kurios pabrėžia diagnostinę informaciją be privatumo pažeidimų. Pavyzdžiui, vartotojo sąsajos ar darbo procesai (workflow) teisėsaugos ar forensikos scenarijuose galėtų vizualiai akcentuoti atpažinimui svarbias zonas, remiantis žmogaus ekspertų žvilgsnio trajektorijomis, o ne vien algoritminėmis svarstyklėmis.
Ateities kryptys: mokymai, įrankiai ir ribos
Ar galima išmokyti įprastus žmones žiūrėti kaip super-atpažintojus? Tyrimas yra atsargus: stebimos trajektorijos ir fiksacijos atrodo automatinės ir dinamiškos, o ne paprasta įgūdžių serija, kurią galima įvaldyti per vieną mokymo seansą. Visgi supratimas, kurie bruožai yra svarbiausi, gali padėti kurti perceptinius mokymus, patobulintas liudytojų apklausos procedūras arba vartotojo sąsajas, kurios išryškina diagnostinę veido informaciją identifikavimo užduotims.
Iš praktinės perspektyvos galima siūlyti įvairias kryptis: ilgalaikiai treniruočių programų protokolai, grindžiami nuosekliais atpažinimo pratimais ir grįžtamuoju ryšiu; darbo užduočių optimizavimas saugumo specialistams; arba hibridiniai sprendimai, kurie sujungia žmogaus ekspertų žvilgsnio duomenis su DI modeliais, taip gerinant tikimybę teisingai identifikuoti asmenį sudėtingose sąlygose (pvz., prastai apšviestose ar dalinai uždengtuose veiduose).
Realu, kad kai kurios struktūrinės rėmų ribos niekada nebus visiškai pašalintos: biologiniai apribojimai, duomenų kokybė, socialiniai ir etiniai veiksniai riboja, kaip toli galime eiti derinant žmogaus ir mašininį atpažinimą. Tačiau tyrimo rezultatai nurodo galimus pavienių sprendimų taškus, kuriuos verta išbandyti pramonėje bei moksliniuose eksperimentuose.
Eksperto įžvalga
„Šis darbas elegantiškai susieja elgesinį akių sekimą su kompiutiniais modeliais ir atskleidžia, kad žvilgsnio „kur“ yra taip pat svarbu kaip „kiek ilgai“,“ sako dr. Maria Alvarez, kognityvinė neuromokslininkė, specializuojanti regos suvokimo srityje. „Žmogaus žvilgsnio modelių integravimas su mašininiu mokymusi gali pagreitinti DI vystymą, tuo pačiu parodant, kur žmogaus ir mašinos strategijos skiriasi realaus pasaulio identifikavimo užduotyse.“
Derindami akių sekimą, neuroninius tinklus ir kruopščius elgesio testus, tyrimas sukuria aiškesnį paveikslą, kodėl kai kurie žmonės tikrai niekada nepamiršta veido — ir kaip šios įžvalgos gali paveikti technologijas, kriminalistiką bei mūsų supratimą apie socialinę regą (social vision). Tolimesni tyrimai, ypač tarpdisciplininiai, galėtų gilinti žinias apie genetinius, neurofiziologinius ir elgesinius veiksnius, kurie lemia veidų atpažinimo meistriškumą, taip pat padėti sukurti saugesnes bei etiškesnes DI sistemas, išnaudojančias žmogaus suvokimo stipriąsias puses.
Šaltinis: sciencealert
Palikite komentarą