Smegenų įkvėptas AI pristato naują mašininio samprotavimo požiūrį

Smegenų įkvėptas AI pristato naują mašininio samprotavimo požiūrį

0 Komentarai Ieva Grigaitė

4 Minutės

Smegenų įkvėptas AI pristato naują mašininio samprotavimo požiūrį

Mokslininkai iš Sapient Singapūre pristatė smegenų įkvėptą dirbtinio intelekto architektūrą, vadinamą hierarchiniu samprotavimo modeliu (HRM). Skirtingai nuo įprastų didelių kalbos modelių (LLM), kurie remiasi chain-of-thought (CoT) liepimais ir milžiniškais parametrų kiekiais, HRM imituoja hierarchinį ir daugelaikį informacijos apdorojimą, pastebimą žmogaus smegenyse. Pagal preprintą, paskelbtą birželio 26 d. arXiv, HRM pasiekė stiprius rezultatus sudėtinguose samprotavimo etalonuose, naudodamas gerokai mažiau parametrų ir mokymo pavyzdžių. Tyrime nurodoma, kad HRM veikia su maždaug 27 milijonais parametrų, apmokytų apie 1 000 pavyzdžių, kas smarkiai skiriasi nuo šiuolaikinių LLM, turinčių milijardus ar net trilijonus parametrų.

Tyrimų komanda išbandė HRM naudodama ARC-AGI etaloną, sudėtingą rinkinį, skirtą vertinti pažangą link dirbtinio bendrojo intelekto (AGI). HRM surinko 40,3 % ARC-AGI-1 ir 5 % ARC-AGI-2 — rodikliai, kurie viršijo kelis to meto modelius palyginime, įskaitant OpenAI o3-mini-high, Anthropic Claude 3.7 ir Deepseek R1. Šie skaičiai rodo, kad architektūra ir mokymo strategija gali žymiai paveikti samprotavimo gebėjimus be modelio masto ar duomenų rinkinio plėtimo.

Kaip veikia HRM: hierarchinės moduliai ir iteratyvus tobulinimas

HRM pakeičia aiškią chain-of-thought dekompoziciją dviem modulių į priekį vykstančiu procesu, kuris atspindi hierarchinį apdorojimą neuroninėse sistemose. Aukšto lygio modulis atlieka lėtesnį, abstraktų planavimą per ilgesnius laiko mastus, tuo tarpu žemo lygio modulis vykdo greitus, detalius skaičiavimus. Vietoj aiškaus tarpinio natūralios kalbos žingsnių generavimo, HRM taiko iteratyvų tobulinimą per trumpas skaičiavimo atkarpas. Kiekviena atkarpa įvertina, ar tęsti tobulinimą, ar pateikti galutinį atsakymą. Ši technika — iteratyvus tobulinimas — yra gerai žinoma numerinė strategija, kuri kelis kartus atnaujindama aproksimaciją gerina sprendimo tikslumą.

Skirtumas nuo chain-of-thought

Dauguma pažangių LLM naudoja CoT, kad suskaidytų sudėtingas užduotis į žmogui suprantamus posmelius. CoT gali būti veiksmingas, tačiau jam būdingi dokumentuoti apribojimai: trapus užduočių dekompozicijos mechanizmas, dideli duomenų reikalavimai ir padidėjusi latencija dėl kelių žingsnių generavimo. HRM dizainas siekia apeiti šias problemas įterpdamas hierarchinį valdymą ir tobulinimą tiesiogiai į priekį vykstantį skaičiavimą, taip sumažindamas didelių etiketuotų tarpinio žingsnio duomenų poreikį.

Etaloniniai rezultatai, reproducavimas ir pastabos

HRM demonstravo stiprią veiklą užduotyse, reikalaujančiose struktūruoto samprotavimo, įskaitant beveik tobulus rezultatus sudėtinguose Sudoku sprendimuose ir pagerintą labirintų maršrutų rasklumo sprendimą, palyginti su tipiniais LLM. Autoriai atvėrė savo implementaciją GitHub platformoje, leidžiant nepriklausomą patikrinimą. Po pateiktų rezultatų reprodukcijos ARC-AGI organizatoriai pranešė papildomų įžvalgų: dalis HRM pasiekimų, regis, kyla ne vien iš pačios hierarchinės architektūros, bet ir iš mokymo metu taikyto tobulinimo proceso, kuris pirminiame pranešime buvo nepakankamai aprašytas. Svarbu pabrėžti, kad arXiv straipsnis dar nebuvo recenzuotas, todėl platesnė bendruomenė turėtų laikyti rezultatus preliminariais, kol tęstiniai tyrimai ir kodo auditai išaiškins, kurie veiksniai yra kritiškai svarbūs našumui.

Kontrastas tarp HRM kompaktiško modelio dydžio ir milžiniškos neseniai išleistų LLM apimties atskleidžia nuolatinę tyrimų temą: algoritminiai ir architektūros patobulinimai kartais gali pakeisti jėgos didinimą per parametrų skalavimą. Tai turi pasekmių skaičiavimo efektyvumui, energijos sąnaudoms ir pažangių AI gebėjimų prieinamumui tyrėjams bei institucijoms, neturinčioms masinių infrastruktūros biudžetų.

Eksperto įžvalga

"HRM yra įdomus pavyzdys, kad struktūruotas, smegenų įkvėptas dizainas gali suteikti konkurencingą samprotavimą be ekstremalaus masto," sako Dr. Lina Moreno, kompiutacinės neuromokslo specialistė (fiktyvi). "Svarbiausi klausimai dabar yra reproducavimas ir generalizacija: ar HRM stiliaus mokymas ir tobulinimas gali būti perkeliami į platesnį užduočių ir duomenų spektrą? Jei taip, galime pamatyti poslinkį link efektyvesnių, aiškesnių samprotavimo sistemų."

Išvados

HRM siūlo perspektyvų, smegenų įkvėptą alternatyvą chain-of-thought samprotavimui dideliuose kalbos modeliuose. Ankstyvi rezultatai ARC-AGI etalone rodo pagerintą samprotavimą su kur kas mažiau parametrais ir mokymo pavyzdžių, tačiau šie rezultatai lieka preliminarūs iki recenzavimo ir nepriklausomų analizų. Ar HRM hierarchinis dizainas, ar nepakankamai aprašyti tobulinimo žingsniai yra pagrindiniai sėkmės varikliai, nulems, kaip bendruomenė priims ir plės šį požiūrį. Kol kas HRM pabrėžia, kad išmanesnės architektūros ir mokymo technikos gali papildyti — ir kartais sumažinti — poreikį nuolat didinti modelių dydį, siekiant pažangos AI samprotavimo gebėjimuose.

Šaltinis: livescience

„Mane domina visa, kas susiję su mokslu, sveikata, kosmosu ir naujienomis. Mano tekstai – įvairūs, bet visada pagrįsti faktais.“

Komentarai

Palikite komentarą