Fotonsiniai vieno praleidimo tenzoriniai skaičiavimai

Fotonsiniai vieno praleidimo tenzoriniai skaičiavimai

Komentarai

8 Minutės

Tyrėjai žengė lemiamą žingsnį link aparatūros, kuri geba vykdyti dirbtinį intelektą šviesos greičiu. Tarptautinė grupė, vadovaujama dr. Yufeng Zhang iš Aalto universiteto Fotonikų grupės, parodė, kaip vienas struktūruotos šviesos praleidimas gali atlikti sudėtingus tenzorinių skaičiavimų veiksmus — tą pačią matematiką, kurią naudoja modernus gilusis mokymasis — per akimirką. Šis metodas žada didelius greičio ir energetinio efektyvumo pranašumus kitų kartų AI procesoriams.

Nors žmonės ir klasikiniai kompiuteriai turi vykdyti tenzorines operacijas žingsnis po žingsnio, šviesa gali jas atlikti vienu metu — paraleliai ir beveik akimirksniu. Tai atveria galimybes optiniams akceleratoriams, fotoniniams lustams ir mažos energijos sąnaudų „edge AI" sprendimams, kurie iki šiol buvo ribojami elektroninių sistemų našumo ir šiluminio biudžeto.

Kaip šviesa virsta lygiagrečiu skaičiuotuvu

Tenzorinės operacijos — daugiadimensinės skaitmenų masyvų manipuliacijos per tiesinę algebrą — sudaro skaičiavimo pagrindą daugeliui dirbtinio intelekto sistemų. Konvoliucijos, dėmesio (attention) mechanizmai ir matricų daugyba remiasi tenzorų matematika. Tradicinė elektronika jas apskaičiuoja atlikdama nuoseklius veiksmus per tranzistorius ir atmintį, o tai reikalauja laiko ir energijos, ypač kai auga duomenų kiekiai ir modelių dydis.

Aalto vadovaujama komanda pasirinko kitą kelią: ji koduoja skaitmeninius duomenis į šviesos bangų amplitudę ir fazę, o tada leidžia šioms bangoms sąveikauti taip, kad pati fizika atliktų aritmetiką. Struktūruojant optinį lauką ir panaudojant kelis bangos ilgius (wavelength-division multiplexing), vienas optinis praleidimas gali lygiagrečiai vykdyti matricų ir aukštesnės eilės tenzorų daugybas. Esant tokiam požiūriui, šviesa įrašo įvestis, nukreipia jas ir sukuria išvestis be aktyvaus elektroninio perjungimo operacijos metu.

Tai technologiškai įgyvendinama keliais pagrindiniais komponentais: erdviniai šviesos moduliatoriai ir faziniai moduliatoriai, difrakcinės elementų struktūros arba metasluoksniai, kurie formuoja ir reguliuoja optinį lauką; kelių ilgių bandinio naudojimas, leidžiantis vienu metu reprezentuoti daugiau dimensijų; ir detektorių masyvai arba kamerų jutikliai, kurie fiksuoja galutinį intensyvumą bei fazinę informaciją. Tokia architektūra palyginti natūraliai dera su tokiomis AI operacijomis kaip konvoliucija ar matricų-matrica daugyba, nes šviesa, difraguodama ir interferuodama, savaime atlieka sudedamųjų susumuojančias ir dauginančias operacijas.

Vienas perėjimas, daug operacijų

Dr. Yufeng Zhang požiūrį apibūdina paprasta analogija: vietoje to, kad paštą tikrintumėte vieną siuntą po kitos per kelis įrenginius, optinė sistema sujungia siuntas ir patikros įrenginius į vieną lygiagrečią patikros liniją — kelios „optinės kabliukai“ susieja kiekvieną įvestį su jos teisinga išvestimi. Rezultatas: konvoliucijos ir dėmesio tipo operacijos, kurioms šiandien reikia daug GPU ciklų, įvyksta vienoje, akimirksninėje optinėje sąveikoje.

Ši analogija pabrėžia ne tik greitį, bet ir architektūros efektyvumą: optinė sistema gali realizuoti didelės imties, daugkartines matricų projekcijas ir sumas be įprastinio duomenų perkėlimo tarp atminties ir skaičiavimo vienetų. Tokiu būdu sumažėja latencija, eliminuojami brangūs duomenų judesiai ir atitinkamai mažėja energijos suvartojimas — ypač svarbu sprendimuose, kur reikalingas realaus laiko apdorojimas arba baterija veikianti įranga.

Praktinės realizacijos pavyzdžiai gali apimti lauko difrakcines plokštes (diffractive optical elements), integruotas interferometrines matricas (pvz., MZI tinklai) ir metasluoksnius, kurie suplanuoti taip, kad atliktų konkrečias matricos transformacijas. Kiekvienas tinkamas sprendimas reikalauja subalansuoto kompromiso tarp pakeičiamos programavimo galimybės (reprogrammability), praradimų (losses), ir gamybos sudėtingumo — tai lemia, ar sistema bus tinkama tyrimams, ar pramoniniam naudojimui.

Kodėl tai svarbu dirbtinio intelekto aparatinei įrangai

Greičio pranašumas yra akivaizdus: šviesa skleidžiasi žymiai greičiau nei elektronai mikroschemose ir komanda „vienu užtaisu“ (single-shot) tiesiogiai išnaudoja šį pranašumą. Tačiau nauda nėra tik grynas greitis. Kadangi skaičiavimai vyksta pasyviai, kai šviesa sklinda per optinį tinklą, metodas gali smarkiai sumažinti energijos sąnaudas, palyginti su energiją valgiančiomis GPU fermomis. Be to, tai atveria kelią koncentruotoms, skalėms pritaikomoms fotoninėms mikroschemoms, kurios sugeba atlikti sudėtingas AI užduotis su gerokai mažesniu šiluminiu biudžetu.

Profesorė Zhipei Sun, Aalto Fotonikų grupės vadovė, pažymi, kad technika yra platformai nepriklausoma: „Šią sistemą galima įgyvendinti beveik bet kurioje optinėje platformoje“, — teigia ji. Grupė planuoja integruoti šiuos skaičiavimo elementus į fotoninius lustus, tokiu būdu šviesa veikiantys procesoriai taps realiu papildomu sprendimu arba tam tikrų elektroninių akceleratorių pakaitalu. Tokia hibridinė strategija — optinė skaičiavimo dalis kartu su elektroniniais valdymo ir perrašymo blokais — atrodo labiausiai tikėtina tarpinė stotelė prieš pilnai optinius duomenų centrus ar masinę integraciją į mobilius įrenginius.

Be to, fotoninių sistemų gebėjimas natūraliai atlikti didelių matricų operacijas reiškia, kad tam tikros AI užduotys, pavyzdžiui, vaizdų segmentavimas, objektų atpažinimas ar didelio matricos ilgio dėmesio mechanizmai (transformeriai), galėtų būti žymiai paspartinti. Tai ypač aktualu realaus laiko vaizdo ir garso apdorojimui, autonominėms sistemoms, telekomunikacijoms ir kitiems sričių sprendimams, kur latencija ir energijos sąnaudos yra kritinės.

Techninis kontekstas ir apribojimai

Duomenų vertimas į optinę amplitudę ir fazę reikalauja itin tikslios moduliacijos ir detekcijos aparatūros, o ne visus AI primityvus lengva tiesiogiai pritaikyti laisvos erdvės ar bangolaidžių optikai. Triukšmas, ribota detektorių raiška, kvantavimo klaidos, netiesiniai optiniai efektai ir gamybos tolerancijos lieka praktinėmis kliūtimis. Be to, analoginis pobūdis reiškia, kad reikalinga kruopšti kalibracija, stabilizacija ir nuolatinė korekcija, kad būtų pasiektas pageidaujamas tikslumas lyginant su skaitmeniniais sprendimais.

Komanda dalį šių iššūkių sprendė panaudodama kelis bangos ilgius, tokiu būdu padidindama optinės reprezentacijos dimensionalumą ir leidžiant vykdyti aukštesnės eilės tenzorių operacijas be didelio sekų kaskado. Toks dažnių ar bangos ilgių dauginimas (wavelength-division multiplexing) kartu su erdvine ir poliarizacijos matricų padalijimo schema suteikia papildomų laisvių gebant apdoroti daugiau informacijos vienu praeijimu. Tačiau kiekviena papildoma kanalo kryptis padidina sistemos sudėtingumą ir poreikį geresnei detektorių izoliacijai bei signalo atstatymui.

Tolimesni praktiniai klausimai apima pakavimą ir sujungimą (packaging and coupling), integraciją su CMOS technologijomis, izoliaciją nuo aplinkos trikdžių (pvz., temperatūros svyravimų) ir ilgaamžiškumą. Kiti techniniai aspektai yra: signalo ir triukšmo santykio (SNR) gerinimas, interferencijos valdymas (crosstalk), fazės stabilumo palaikymas dideliame kiekyje elementų ir greitas adaptacinis valdymas, leidžiantis „perprogramuoti“ optinę matricą skirtingoms AI užduotims.

Integracijos terminai yra atsargūs, bet optimistiniai. Zhang prognozuoja, kad metodą būtų galima pritaikyti esamoms komercinėms platformoms per trejus–penkerius metus, priklausomai nuo pramonės priėmimo ir tolesnio inžinerinio darbo, kad sistemos taptų robustiškos ir gaminamos masiškai. Toks laiko horizontas atspindi ne tik fizikos ir inžinerijos iššūkius, bet ir ekosistemos — programinės įrangos, testavimo standartų bei gamybos grandinių — subrandinimą.

Galimi poveikiai ir taikymai

  • Realaus laiko inferencija vaizdams ir vaizdo įrašams su žymiai mažesne latentcija.
  • Energiją taupantis edge AI jutikliams, autonominėms sistemoms ir duomenų centrams.
  • Mokslo skaičiavimų pagreitinimas, kurie remiasi aukštadimensine tiesine algebra, pvz., skaitinės fizikos ir optimizacijos uždaviniai.

Įsivaizduokite išmanias kameras ir jutiklius, kurie atlieka sudėtingas neuroninių tinklų užduotis neišsekdami baterijos — arba duomenų centro lentynas, kur optiniai akceleratoriai atleidžia GPU spūstis. Technologija galėtų pertvarkyti tai, kur ir kaip vykdomi AI modeliai: nuo tradicinių debesų serverių iki paskirstytų edge įrenginių ir hibridinių sistemų, kurios derina optinį paralelizmą su elektroniniu valdymu ir saugojimu.

Praktiniai taikymo sektoriai apima autonominę mobilumą, pramoninę robotiką, medicininę vaizdinę diagnostiką, telekomunikacijų infrastruktūrą ir mobilias interneto paslaugas. Šiose srityse mažos energijos sąnaudos bei mažesnė šiluminė emisija gali leisti naujus produktus ir paslaugas, anksčiau nepraktiškus dėl GPU sunaudojamos energijos arba šiluminio valdymo reikalavimų.

Eksperto įžvalga

„Tai elegantiškas pavyzdys, kai fiziką leidžiame atlikti darbą“, — sako dr. Lina Morales, fiktyvi fotonikos sistemų inžinierė, turinti patirties kuriant hibridinius opto-elektroninius akceleratorius. „Optinės sistemos gali sutraukti daugelį nuoseklių veiksmų į vieną lygiagretų praeinamąjį etapą, tačiau sėkmė priklauso nuo signalo ir triukšmo santykio, integracijos ir programuojamumo iššūkių sprendimo. Jei šios problemos bus įveiktos, energijos ir greičio naudos bus įtikinamos — ypač inferencijos užduotims, kurios toleruoja analoginę variaciją.“

Kaip fotoninio skaičiavimo sritis bręsta, tikėtina nuolatinė kryžminė sąveika tarp optinio dizaino, medžiagų mokslo ir AI algoritmų kūrimo. Ko-dizainas — algoritmų kūrimas, natūraliai pritaikytų optiniam vykdymui — taps lemiamu žingsniu, atveriančiu pilną vieno praleidimo tenzorinių skaičiavimų potencialą. Tai gali reikšti naujas kvantavimo strategijas, tolerantiškas analoginiams triukšmams, arba optimizavimo metodus, kurie sumažina reikalavimus įvesties precizai, bet išsaugo modelio našumą realioms užduotims.

Galiausiai, norint, kad tokios technologijos būtų plačiai priimtos, reikės standartų, programinių įrankių ir testavimo metodikų, kurios leis inžinieriams lengviau derinti optinius sprendimus su esamomis skaitmeninėmis sistemomis. Tai apima ir simuliavimo įrankius, kurie tiksliai modeliuoja optinius artefaktus, ir programavimo modelius, leidžiančius aiškiai nusakyti, kokias AI dalis verta migracijos į fotoninę infrastruktūrą.

Apibendrinant, vieno praleidimo optinis tenzorinis skaičiavimas pristato įdomų kelrodį link greitesnių, energiją taupančių AI sprendimų. Nors daugelis techninių iššūkių tebėra, pažanga Aalto grupės ir kitų tyrėjų srityje rodo, kad fotoninė kompiuterija gali tapti reikšminga dalimi ateities AI aparatūros ekosistemos.

Šaltinis: scitechdaily

Palikite komentarą

Komentarai