6 Minutės
Skamba kaip siužetas iš mokslinės fantastikos eskizo: mažyčiai nervinės audinio klasteriai, užauginti Petri lėkštelėje, subtiliai koreguojami tol, kol jie sugeba padėti išlaikyti nestabilų virtualų objektą vertikalioje padėtyje. Tačiau būtent tai iš esmės ir parodė Kalifornijos universiteto Santa Kruze (UC Santa Cruz) tyrėjų komanda, treniravusi iš pelių kilusius kortikalinius organoidus pagerinti našumą klasikinėje valdymo užduotyje, žinomoje kaip cartpole problema.
Kodėl cartpole yra svarbus
Palikite mintyse pieštuką, balansuojantį ant delno. Tas nuolatinis, sekundės dalies tikslumo koregavimo jausmas — palenkite šiek tiek į kairę, perstumkite delną dešinėn — yra tai, kas daro balansavimą intrinsinėi nestabiliu procesu. Inžinerijoje ir dirbtinio intelekto tyrimuose šis žaisliukas turi oficialų pavadinimą: cartpole. Virtualus vežimėlis juda į kairę arba į dešinę, kad palaikytų prikabintą stulpą vertikalioje padėtyje; net maži nukrypimai greitai kumuliuojasi, todėl valdiklis turi teikti nuolatines, smulkias korekcijas, o ne vienintelį „teisingą“ sprendimą.
Cartpole yra mėgstamas stiprinamojo mokymosi (reinforcement learning) etalonas, nes jo paprastumas leidžia jį lengvai simuliuoti, tačiau jis reikalauja prisitaikančio ir nuolatinio valdymo. Būtent ši savybė padarė jį patraukliu neurobiologams, kurie domėjosi, ar gyvas nervinis audinys gali būti paskatintas per grįžtamąjį ryšį elgtis kaip valdiklis — ne per abstraktų samprotavimą, bet per sinapsių ir signalo perdavimo modelių pokyčius, atsakant į mokymą.

Eksperimente naudojami subrendusio organoidai.
Kaip vyko eksperimentas
Šiuose tyrimuose naudoti organoidai nebuvo žmonių kilmės. Tyrėjų komanda pradėjo nuo pelių kamieninių ląstelių, nukreiptų formuoti mažas kortikalinio audinio agregacijas, galinčias generuoti ir perduoti elektrinius signalus. Šios struktūros neturi pažinimo ar sąmonės sudėtingumo — tai neuronų sankaupos, formuojančios sinapses ir galinčios koreguoti savo susijungimus reaguodamos į stimuliaciją.
Tyrėjai sukūrė uždaros kilpos (closed-loop) sistemą. Cartpole simuliatorius generavo signalų seką, koduojančią stulpo nuolydį ir kryptį. Šie signalai buvo išverčiami į modeliuotą, iš anksto nustatytą elektrinių impulsų seką, kuri perduodama atrinktiems organoido neuronams. Organoido atsakas — elektrinė veikla, fiksuojama elektrodais — buvo dekoduojamas į komandą „kairė“ arba „dešinė“, kuri stumdavo virtualų vežimėlį, taip užbaigiant grįžtamojo ryšio grandinę.
Svarbu paminėti, kad komanda palygino tris skirtingas treniravimo režimas. Pirmai organoidų grupei nebuvo taikomas jokio grįžtamojo ryšio. Antrajai buvo skiriama atsitiktinė stimuliacija, nepriklausanti nuo ankstesnių bandymų rezultato. Trečioji grupė gavo adaptacinį grįžtamąjį ryšį: jeigu pastarųjų bandymų lange našumas pablogėdavo, palyginti su ankstesniu etalonu, tam tikriems neuronams trumpai būdavo tiekiamas didelės dažnios stimuliacijos pliūpsnis. Algoritmas stebėjo, kurios stimuliacijos–taikinio poros linkusios iš anksto lydėti pagerėjimą, ir atitinkamai koregavo jų teikimą — tarsi bandymų ir klaidų būdu veikiantis dirbtinis treneris, pritaikantis savo veiksmus trumpalaikių rezultatų pagrindu.
„Galima įsivaizduoti tai kaip dirbtinį trenerį, kuris sako: 'darai neteisingai, šiek tiek patvarkyk čia ir štai taip',“ eksperimentinę logiką apibūdino robotikos ir dirbtinio intelekto tyrėjas Ash Robbins. Svarbiausias klausimas nebuvo ar audinys suprato užduotį, o ar sinaptiniai ir tinklų lygmens pokyčiai gali būti nukreipti taip, kad susidarytų geresnis valdymas.
Rezultatai, nustebinę net pačią komandą
Norėdami atskirti tikrą mokymąsi nuo sėkmingų atsitiktinių epizodų, tyrėjai nustatė statistinį etaloną, paremtą visiškai atsitiktiniais valdikliais. Be grįžtamojo ryšio organoidai pasiekdavo reikiamą įgūdžių ribą tik retai. Atsitiktinė stimuliacija davė nedidelį pagerėjimą. Tačiau kai stimuliacijų pasirinkimą reguliavo adaptacinis grįžtamasis ryšys, beveik pusė treniruočių ciklų parodė našumą, viršijantį tai, ką būtų galima paaiškinti vien atsitiktinumu: tokiuose seansuose pasiekta 46 procentų sėkmė.
Vis dėlto tas šuolis nėra šuolis link intelekto. Tyrėjai akcentuoja ribotumą: pokyčiai buvo trumpalaikiai. Jei organoidai likdavo neaktyvūs maždaug 45 minutes, pagerintas elgesys daugiausia išnykdavo ir našumas sugrįždavo prie pradinio lygio. Komanda šį reiškinį apibūdino kaip trumpalaikį mokymąsi, pasiektą formuojant tinklo atsakus per tikslingą stimuliaciją.
UC Santa Cruz bioinformatikas David Haussler įdėjo darbą į platesnį kontekstą: nors vilioja mintis apie hibridines sistemas, kurios derintų gyvą audinį ir silikono elementus skaičiavimams, čia akivaizdžiai išryškėja kitokia nauda. „Mūsų tikslas — pažanginti smegenų tyrimus ir neurologinių ligų gydymą, o ne pakeisti robotinius valdiklius ar kitokias kompiuterines sistemas laboratorijoje užaugintais gyvūnų smegenų audiniais,“ — sakė jis, pabrėždamas, kad eksperimentai su žmogaus audiniu keltų reikšmingų etinių klausimų.
Mokslinis kontekstas ir pasekmės
Šio eksperimento šerdis yra plastikos tyrimas — smegenų gebėjimas persitvarkyti reaguodamas į patirtį. In vivo plastika yra pagrindas mokymuisi, atminčiai, atsigavimui po traumos ir daugeliui vystymosi procesų. Organoidai suteikia kontroliuojamą, stebimą langą į šiuos mechanizmus. Jeigu Petri lėkštėje esantį tinklą galima patikimai nukreipti link pageidaujamos funkcinės būsenos per modeliuotą stimuliaciją, ši technika gali tapti tyrimų įrankiu, leidžiančiu analizuoti, kaip skirtingos ligos, genetiniai variantai ar farmakologiniai agentai keičia adaptacinį gebėjimą.
Darbas taip pat liečia platesnes biohibridinių sistemų temas. Sąsajos, kurios verčia biologinius signalus mašinų veiksmams ir atvirkščiai, yra kertinės protezavimo, smegenių–mašinų sąsajų ir neuromorfinių tyrimų sritys. Šis tyrimas negamina praktiško bio-kompiuterio, tačiau įrodo principą: gyvą nervinį audinį galima vadovauti uždaro ciklo grįžtamojo ryšio būdu taip, kad jis geriau spręstų nuolatinio valdymo užduotį nei atsitiktinumas.
Eksperto įžvalgos
„Tai sumaniai suprojektuotas eksperimentas, naudojantis paprastą užduotį, kad atskleistų sudėtingas nervinio audinio savybes,“ sako dr. Mira Patel, neuromokslininkė, tirianti sinaptinę plastiką viename didelių mokslinių universitetų. „Išsiskiria adaptacinio grįžtamojo ryšio algoritmas: jis veikia kaip išorinis mokytojas, nukreipiantis sinaptinius pokyčius. Trapi išmoktojo būsenos išlaikoma rodo, kad tinklo architektūra ir sinaptinė konsolidacija organoiduose skiriasi nuo vientisų smegenų, o tai rodo aiškius tolimesnius žingsnius — ilgesnis kultivavimo laikas, turtingesnės įvestys ar hibridiniai stimuliacijos protokolai galėtų paversti trumpalaikes pergales į tvaresnius pokyčius.“
Iš etinės ir praktinės perspektyvos tolesnė eiga reikalauja apdairių pasirinkimų. Didinant organoidų sudėtingumą, gali pagerėti atmintis ir robustiškumas, tačiau tyrėjams teks sverti mokslo naudą prieš etines pasekmes, ypač jei eksperimentuose dalyvautų žmogaus kilmės audinys. Šiuo metu pelių kilmės organoidai siūlo saugesnę bandymų erdvę, kurioje galima išbandyti koncepcijas be kai kurių žmogaus audiniui keliamų etinių apribojimų.
Artimiausi tolimesni klausimai yra tiek techniniai, tiek biologiniai: kurie stimuliacijos modeliai stipriausiai verčia tinklą atlikti tvaresnį persitvarkymą? Kaip tinklo topologija, ląstelių tipų kompozicija ir jungčių brandumas veikia gebėjimą išlaikyti išmoktas elgesio formas? Ir svarbiausia medicininiam tyrimui — kaip ligų modelius atitinkantys organoidai reaguoja į tą pačią adaptacinę „treniruotę“?
Tai yra kertinės kryptys, kurias, kaip atrodo, komanda ir platesnė sritis greičiausiai seks toliau. Jei organoidai galėtų tapti patikimais plastikos bandymų stalais, jie galėtų pagreitinti terapijų kūrimą ir pagilinti mūsų suvokimą, kaip smegenys — nuo paprasčiausių grandinių iki sudėtingiausių tinklų — mokosi veikti pasaulyje, kuris pats nuolat kinta.
Susidūrę prie laboratorinio stalo gyvi audiniai ir valdymo teorija duoda kartais netikėtų rezultatų: ne smegenį, galinčią mąstyti, bet gyvą tinklą, kuris tam tikrą laiką išmoksta neleisti stulpui nukristi.
Šaltinis: sciencealert
Palikite komentarą