9 Minutės
Tyrėjai sukūrė naują dirbtinio intelekto (DI) sistemą, kuri autonominius automobilius perkelia nuo vien tik pėsčiųjų matymo prie jų būsimų veiksmų numatymo.
Texas A&M universitetas kartu su Korea Advanced Institute of Science and Technology tyrėjų komanda pristatė OmniPredict — dirbtinio intelekto modelį, kuris žengia už objektų aptikimo ribų ir realiu laiku prognozuoja žmonių elgseną. Derindamas vaizdinę informaciją su kontekstinėmis užuominomis, OmniPredict ne tik reaguoja į judesį — jis sprendžia apie tikėtinus tolimesnius veiksmus. Ankstyvi bandymai rodo aukštą tikslumą, o tai siūlo naują kryptį saugesnėms ir intuityvesnėms autonominio vairavimo sistemoms sudėtingose miesto aplinkose.
Why anticipation matters for self-driving safety
Tradicinės autonominio vairavimo sistemos daugiausiai remiasi kompiuterine vizija: kameros užfiksuoja pėsčiąjį, LiDAR nustato atstumą, o transporto priemonė reaguoja. Tačiau miesto gatvės yra chaotiškos ir dinamiškos. Pėstieji dažnai elgiasi nenuspėjamai — jie gali dvejoti, keisti žvilgsnio kryptį arba pasirodyti iš už kliūčių. Jei automatinė sistema tik fiksuoja judesį, gali būti per vėlu išvengti pavojingos situacijos.
OmniPredict pristato elgesio samprotavimų sluoksnį. Naudodamas multimodalinio didelio kalbos modelio (Multimodal Large Language Model, MLLM) architektūrą, sistema sujungia scenos vaizdus, ribinius kvadratus (bounding boxes), artimus išpjovimus ir transporto priemonės telemetrijos duomenis, kad nuspėtų ketinimus — pavyzdžiui, ar žmogus prie borto ruošiasi kirsti gatvę, likti ant šaligatvio arba yra užstotas objektu. Vietoje dvejopo klausimo „ar čia pėsčiasis?“, OmniPredict įvertina tikėtinas pasekmes ir laiko mastą, leidžiant automobiliui anksčiau ir subtiliau koreguoti greitį arba trajektoriją.
„Miesto aplinkos yra nenuspėjamos. Pėstieji gali elgtis nenuspėjamai,“ sakė dr. Srinkanth Saripalli, projekto vadovas ir Center for Autonomous Vehicles and Sensor Systems direktorius. „Mūsų naujas modelis atspindi ateitį, kur mašinos ne tik mato, kas vyksta, bet ir numato, ką žmonės greičiausiai darys.“

Dr. Srinkanth Saripalli ir Texas A&M universiteto tyrėjų komanda su nauja pažangia DI sistema pėstiesiems.
How OmniPredict works: multimodal reasoning at the curb
Pagrinde OmniPredict pasitelkia tas pačias multimodalines samprotavimo technikas, kurios maitina šiuolaikinius pokalbių robotus ir vaizdų analizės sistemas, tačiau šios technikos nukreiptos į elgesio prognozavimą. Modelis sugeria platų įvesties duomenų spektrą: žemo ir aukšto raiškumo scenos vaizdus, iškarpas su pėsčiųjų artimais vaizdais, ribinius kvadratus, sekančius asmenis per kadrus, ir transporto priemonės greitį bei judėjimo vektorius. Iš šių duomenų jis klasifikuoja elgesį į keturias pagrindines kategorijas — kirtimas (crossing), užtvara/uždengimas (occlusion), veiksmai (actions) ir žvilgsnis (gaze) — ir priskiria tikimybes artimiausiems atvejams.
Tokios architektūros privalumas yra dvejopas. Pirma, modelis geba generalizuoti tarp kontekstų: jis gali pritaikyti išmoktas taisykles iš vienos gatvės scenos kitoje be išsamaus persimokymo. Antra, sistema įtraukia žmogiškas užuominas — kūno orientaciją, galvos posvyrį, dvejojimą ir aplinkos sąlygas — ir verčia jas į veiksnius, kuriuos galima panaudoti transporto priemonės valdymo sistemai.
Techniniu požiūriu OmniPredict sujungia konvoliucinius vaizdų ekstraktorius, laikinius sekų modelius (pvz., transformerius) ir specializuotus modulius, skaičiuojančius netikrumą (uncertainty estimation). Tokios konstrukcijos leidžia ne tik pasiūlyti vieną prognozę, bet ir pateikti tikimybinę pasiskirstymo matricą, kurią kontrolės algoritmai gali naudoti sprendžiant tarp agresyvesnių ir konservatyvesnių manevrų.

OmniPredict apžvalga: GPT-4o pagrindu veikianti sistema, kuri sujungia scenos vaizdus, artimus kadrus, ribinius kvadratus ir transporto greitį, kad suprastų, ką pėstieji gali daryti toliau. Analizuodama šį išsamų įvesties rinkinį, sistema skirsto elgesį į keturias pagrindines kategorijas — kirtimas, uždengimas, veiksmai ir žvilgsnis — kad pateiktų tikslesnes ir saugesnes prognozes. Credit: Dr. Srinkanth Saripalli Texas A&M University College of Engineering. https://doi.org/10.1016/j.compeleceng.2025.110741
Testing the model: benchmarks and performance
Tyrėjų grupė vertino OmniPredict remdamasi griežtais pėsčiųjų elgesio duomenų rinkiniais, tokiais kaip JAAD ir WiDEVIEW, kurie imituoja realaus pasaulio įvairovę: pilni šaligatviai, dalinis uždengimas už stovinčių automobilių ir pėstieji, kurie pažvelgia į transporto priemonę prieš pradėdami eiti. Stebėtinai OmniPredict pasiekė apie 67 % prognozavimo tikslumą šiuose etaloniniuose testuose — maždaug 10 % daugiau nei geriausi vien vizija grindžiami modeliai — ir tai be specialaus užduočiai pritaikyto persimokymo.
Be gryno tikslumo, modelis demonstravo trumpesnį reagavimo vėlavimą ir geresnę generalizaciją įvairiomis kelių konfigūracijomis. Kai tyrėjai įterpė kontekstinių komplikacijų — iš dalies paslėptą asmenį, staigų galvos posūkį ar netikėtą oro pokytį — OmniPredict išlaikė stabilų našumą. Tokios savybės yra esminės realiame diegime, kur retų įvykių arba kraštutinių situacijų valdymas dažnai tampa didžiausiu iššūkiu.
Matavimo metrikose taip pat buvo analizuojami klaidingų teigiamų ir klaidingų neigiamų rezultatų rodikliai, P-R (precision-recall) kreivės ir laiko iki sprendimo (time-to-decision). Kombinuotos analizės rezultatai parodė, kad OmniPredict sumažina vėluojančių aptikimų skaičių ir efektyviau identifikuoja rizikingus elgesio poslinkius nei modeliai, kurie remiasi vien tik detekcija.
„Tai atveria duris saugesnei autonominių transporto priemonių eksploatacijai, mažiau incidentų su pėsčiaisiais ir perėjimą nuo reagavimo prie pavojų proaktyvaus prevencijos,“ komentavo Saripalli.
From crosswalks to emergency operations: broader implications
OmniPredict reikšmė apima ne tik keleivinius automobilius. Gebėjimas skaityti judesio mikro-išraiškas — kūno laikysenos pokyčius, dvejojimą, žvilgsnio nukreipimo pasikeitimus ir streso požymius — gali būti pritaikytas skubios pagalbos operacijose, karinėje logistikoje arba minios saugumo stebėjime. Greitosios pagalbos ar gelbėjimo tarnyboms dirbant chaotiškoje aplinkoje, DI, pažymintis tikėtinus žmonių veiksmus, galėtų pagerinti situacijų suvokimą ir pagreitinti gyvybiškai svarbių sprendimų priėmimą.
Be to, OmniPredict gali būti integruojamas su miesto valdymo centrais ir vaizdo stebėjimo tinklais, kad pasiūlytų makroskopinį pėsčiųjų srautų elgsenos modeliavimą. Tokie sprendimai galėtų padėti planuoti saugesnę infrastruktūrą, optimizuoti eismo šviesoforų logiką ir sumažinti pėsčiųjų stresą perkrautomis miesto zonomis.
„Atveriame galimybes įdomioms pritaikymo sritims,“ pridūrė Saripalli. „Pavyzdžiui, galimybė mašinai patikimai aptikti, atpažinti ir prognozuoti asmens, rodantis grėsmingus signalus, veiksmus gali turėti svarbių pasekmių.“
Svarbu pažymėti, kad tyrėjai pabrėžia OmniPredict kaip papildomą įrankį, o ne žmogaus pakeitimą. Tikslas — suteikti vairuotojams, operatoriams ir automatizuotoms sistemoms papildomą prognozavimo sluoksnį, papildantį žmogaus sprendimus ir valdymą.
Technical hurdles and ethical considerations
Nors rezultatai žada daug, OmniPredict vis dar yra tyrimų prototipas. Pagrindiniai iššūkiai apima patikimumą įvairiose populiacijose ir aplinkose, šališkumo (bias) mažinimą mokymo duomenyse ir saugų prognozių integravimą į transporto priemonių valdymo kilpas. Pernelyg didelis pasitikėjimas prognoze gali būti pavojingas; sistema privalo kiekybiškai įvertinti neapibrėžtumą ir imtis konservatyvių veiksmų, kai neapibrėžtumas yra didelis.
Taip pat iškyla etiniai ir privatumo klausimai, kai sistemos bando numatyti ketinimus. Kaip saugomi duomenys? Kas turi prieigą prie prognozių? Kaip projektuotojai užkirs kelią profiliavimui ar klaidingam klasifikavimui, kuris gali netinkamai paveikti pažeidžiamas grupes? Tokie klausimai lemia realų priėmimą tiek pat, kiek ir techninis našumas.
Iš techninės pusės, sprendžiant apie patikimumą, galima taikyti kelias strategijas: duomenų rinkinio balansavimas, atitinkamų demografinių grupių įtraukimas į mokymą, kryžminis validavimas skirtingose miesto zonose ir nuolatinis modelio atnaujinimas su lauko duomenimis. Be to, tikimybinės prognozės, modelių kalibravimas ir metodai, skirti netikrumo kvantifikavimui (pvz., MC Dropout, Bayesian neural nets), yra esminės priemonės, leidžiančios saugiai integruoti prognozes į valdymo sprendimus.
Teisinės ir reguliavimo perspektyvos taip pat vaidina svarbų vaidmenį: Europos Sąjungos Bendrasis duomenų apsaugos reglamentas (GDPR) ir kiti privatumo įstatymai reglamentuoja, kaip asmens duomenys gali būti renkami ir saugomi. Siekiant priimtinumo, diegėjai turės užtikrinti aiškų duomenų tvarkymo reglamentavimą, auditavimo galimybes ir mechanizmus klaidoms ar neteisingoms prognozėms identifikuoti bei ištaisyti.
Expert Insight
„Prognozavimas yra trūkstama grandis tarp suvokimo ir protingo veiksmo autonominėse sistemose,“ teigia Elena Rivera, reprezentacinė autonominių sistemų inžinierė. „OmniPredict multimodalinės samprotavimo galimybės yra svarbus žingsnis: jos atspindi, kaip žmonės akimirksniu sujungia žvilgsnį, laikyseną ir kontekstą priimdami sprendimus. Dabar iššūkis yra suderinti tas prognozes su konservatyviomis valdymo politikomis, kad saugumas visada būtų pagrindinis prioritetas.“
Inžineriniu požiūriu tai reiškia glaudesnę sąveiką tarp prognozavimo modulio ir planavimo/valdymo sluoksnių — pavyzdžiui, integraciją su model predictive control (MPC), rule-based safety envelopes ir fail-safe mechanizmais, kurie užtikrina, kad bet koks agresyvus manevras būtų leidžiamas tik su aiškiai nurodytu patikimumu.
What comes next for predictive autonomy?
Ateities darbai tikėtina sutelks dėmesį į glaudesnę integraciją su transporto priemonių planavimo sistemomis, išsamius lauko bandymus įvairiose miesto aplinkose ir tarpukultūrinį testavimą, kad modelis nuosekliai suprastų gestus ir žvilgsnį skirtingose populiacijos grupėse. Omnipredict derinimas su kitomis jutiklių modalitetais — pvz., terminės vaizdavimo kameromis ar patobulinta radaro fuzija — gali dar labiau sumažinti neaiškumus esant prastam matomumui.
Be to, bus svarbu išplėsti duomenų rinkinius, įtraukiant scenas iš įvairių geografinės platumos, kultūrinių kontekstų ir infrastruktūrinių sąlygų, kad būtų sumažinta overfitting rizika ir pagerintas modelio atsparumas neatitikimams. Tarpdisciplininis darbas su sociologais, etikais, teisininkais ir miesto planuotojais padės užtikrinti, kad technologija būtų įdiegta saugiai ir etiškai.
Jei autonominės sistemos išmoks ne tik matyti, bet ir numatyti, miesto transporto logika keisis: mažiau staigių sustojimų, mažiau įtemptų susidūrimų pėsčiųjų perėjose ir sklandesnis eismo srautas, kuris atspindės žmogišką intuiciją be žmogiškos klaidų tikimybės. Ateities kelias gali būti išmanus ne tik todėl, kad mašinos geriau jutina, bet ir todėl, kad jos pradeda suprasti, kodėl žmonės elgiasi vienaip ar kitaip.
Galiausiai, OmniPredict ir panašūs modeliai gali paskatinti industrijos standartus, naujas sertifikavimo procedūras ir saugumo ataskaitų schemas, kurios bus reikalingos plačiam priėmimui. Tokie žingsniai padės užtikrinti, kad prognozuojanti autonomija būtų ne tik techniškai perspektyvi, bet ir visuomeniškai priimtina bei teisėtai įforminta.
Šaltinis: scitechdaily
Palikite komentarą