7 Minutės
Lehigh universiteto statistikų grupė, vadovaujama Taeho Kimo, pristatė naują prognozavimo techniką, skirtą susiaurinti skirtumą tarp prognozių ir realių stebėjimų. Pavadintas Maksimalaus Sutarimo Linijiniu Prognozuotoju (MALP), metodas optimizuoja sutapimą tarp prognozių ir stebėjimų, o ne vien tik mažina vidutinę paklaidą — tai subtilus, bet svarbus poslinkis srityse, kur reikalingi nuoseklūs, tarpusavyje pakeičiami matavimai per laiką ir tarp įrenginių.
Kodėl sutapimas svarbesnis už paprastą tikslumą
Dauguma prognozavimo modelių yra optimizuojami naudojant mažiausių kvadratų ar gretimus praradimo funkcijų tipus, kurių tikslas — sumažinti vidutinę paklaidą. Toks požiūris minimalizuoja, kiek prognozės vidutiniškai skiriasi nuo stebimų reikšmių — tai tinka daugeliui užduočių. Tačiau atlikus klinikinius matavimus dviem skirtingais prietaisais arba taikant biometrinį skaičiuoklį įvairiose populiacijose, kartais prioritetas yra ne tik „būti arti“, bet ir atitikti skalę bei padėtį — kitaip tariant, pasiekti gerą sutapimą.
Sutapimas šiame kontekste reiškia, kaip gerai prognozuotos reikšmės ir stebimos reikšmės išsidėsto palei 45 laipsnių liniją sklaidos diagramoje. Kai punktai glaudžiai susitelkia aplink tą tiesę, prognozės ne tik yra preciziškos, bet ir atitinka mastelį: jos atkuria stebimas reikšmes be sisteminio poslinkio ar netolygaus skaliavimo. Concordance Correlation Coefficient (CCC), kurį 1989 m. pristatė Lin, sujungia precizikos ir tikslumo matavimus į vieną statistiką ir kiekybiškai išreiškia šį sutapimą.
Kaip MALP keičia optimizacijos tikslą
MALP yra linijinis prognozuotojas, specialiai pritaikytas maksimaliai padidinti CCC tarp prognozuotų ir faktinių reikšmių. Ten, kur mažiausių kvadratų metodas mažina vidutinę kvadratinę paklaidą (MSE), MALP tiesiogiai siekia sutapimo. Praktikoje tai reiškia, kad MALP dažnai duos prognozes, kurios geriau sutampa su 45 laipsnių identiteto linija — sumažindamos sisteminius poslinkius ir nuolydžio neatitikimus — net jei vidutiniai paklaidų rodikliai bus kiek didesni nei gaunami naudojant mažiausių kvadratų metodą.
„Kartais nenorime tik, kad prognozės būtų artimos — norime, kad jos turėtų aukščiausią sutapimą su tikrosiomis reikšmėmis,“ aiškina Kim. „Jei prognozių ir tikslo sklaidos grafikas stipriai sutampa su 45 laipsnių linija, galime sakyti, kad tarp jų yra geras sutapimas. MALP yra sukurtas tam pasiekti.“
Sutapimas prieš koreliaciją: techninis skirtumas
Pearsono koreliacijos koeficientas plačiai naudojamas apibūdinti linijinę sąsają, tačiau jis neįvertina atitikimo skalėje ar padėtyje. Aukšta Pearsono koreliacija gali reikšti stiprią liniarinę priklausomybę net tada, kai prognozuotos reikšmės sistemingai yra didesnės arba mažesnės už stebimas, arba kai regresijos nuolydis skiriasi nuo vieneto. Priešingai, CCC baus tiek dispersiją aplink regresijos liniją, tiek nuokrypius nuo identiteto linijos, todėl jis yra tikslesnis tikslas, kai svarbi išlyginimo vienodumas.
Matematiškai CCC galima išreikšti kaip:
rho_c = (2 * rho * sigma_x * sigma_y) / (sigma_x^2 + sigma_y^2 + (mu_x - mu_y)^2)
čia rho yra Pearsono koreliacija, sigma_x ir sigma_y — standartiniai nuokrypiai, o mu_x ir mu_y — vidurkiai prognozuotų ir stebėtų reikšmių. Ši formulė aiškiai parodo, kad CCC atsižvelgia ne tik į bendrą kovariaciją, bet ir į skirtumus vidurkiuose bei dispersijoje — būtent todėl jis yra pranašesnis, kai prioritetas yra sutapimas skalėje ir vietoje.
Realusis bandymas: akių skenai ir kūno riebalų įvertinimai
Norėdami įvertinti MALP praktinį pranašumą, tyrėjai išbandė jį ant simuliuotų duomenų bei dviejų skirtingų realių duomenų rinkinių: optinės koherentinės tomografijos (OCT) akių skenų ir kūno riebalų procento, apskaičiuoto iš antropometrinių duomenų.
Oftalmologijos pavyzdyje klinikos pereina nuo senesnių Stratus OCT aparatų prie naujesnių Cirrus OCT įrenginių. Ilgalaikei pacientų priežiūrai ir moksliniams tyrimams reikalingos patikimos konversijos, kad istoriniai duomenys išliktų suderinami su naujo įrenginio išvestimis. Remdamiesi aukštos kokybės skanais iš 26 kairių ir 30 dešinių akių, komanda apmokė prognozuotojus, kurie konvertuoja Cirrus OCT rodmenis į ekvivalentines Stratus OCT reikšmes.
MALP generavo įverčius, kurie nuosekliau atitiko faktinius Stratus matavimus nei tradicinis mažiausių kvadratų prognozuotojas. Mažiausių kvadratų požiūris šiek tiek lenkė MALP pagal vidutinės paklaidos metrikas, tačiau MALP pranoko pagal sutapimo rodiklius — tai reiškia, kad jo prognozės geriau atitiko referentinį įrenginį skalėje ir pozicijoje.
Analogškai, duomenų rinkinyje su 252 suaugusiaisiais, kuriame buvo svoris, liemens apimtis ir kiti kūno matmenys, tiek MALP, tiek mažiausių kvadratų metodas buvo panaudoti prognozuoti kūno riebalų procentą — dydį, kurį tiesiogiai išmatuoti dažnai brangu (pvz., panardinant į vandenį) ir kurį dažnai aproksimuoja paprastesni rodikliai. Vėlgi, MALP pateikė įverčius, kurie artimesni tikriesiems kūno riebalų matavimams pagal sutapimą, pabrėždami metodo naudą, kai svarbios mastelio ir poslinkio nuoseklumas.

Taeho Kim
Platesnės implikacijos: kada verta rinktis MALP
MALP nėra universali alternatyva mažiausių kvadratų ar kitoms praradimo funkcijoms. Vietoje to tai yra taikytinas įrankis ten, kur prioritetas — sutarimas tiek mastelyje, tiek tipinėje reikšmėje. Tipiški taikymo atvejai apima prietaisų tarpusavio kalibraciją, ilgalaikę klinikinių įrašų priežiūrą, kuriems reikalingas suderinamumas po įrangos pasikeitimo, bei bet kurią situaciją, kur prognozių mastelio nenuoseklumas gali lemti neteisingus klinikinius arba operacinius sprendimus.
Mašinų mokymosi specialistams ir biostatistikams MALP papildo įrankių rinkinį alternatyviu optimizacijos tikslu. Jei projekto sėkmės metrika vertina mažesnę vidutinę paklaidą, tradiciniai metodai lieka tinkami. Tačiau jeigu pagrindinis tikslas — nuoseklumas, tarpusavyje pakeičiamumas ir sutapimas su referenciniu standartu, MALP gali sukurti praktiškai naudingesnes prognozes.
Metodikos išplėtimas už linijinių prognozuotojų ribų
Šiuo metu MALP suformuluotas linijinių prognozuotojų klasėje. Toks pasirinkimas daro metodą valdomą ir lengvai pritaikomą daugelyje sričių, tačiau jis yra matematiškai ribotas. Autoriai pažymi, kad natūralus kitas žingsnis būtų MALP generalizacija į nelinijines ir turtingesnes prognozavimo klases — tai leistų sutarimo optimizaciją integruoti į šiuolaikines mašininio mokymosi grandines ir nelinijinius statistinius modelius.
Techniniai iššūkiai pereinant prie nelinijinių modelių apima optimizacijos funkcijos formos sudėtingumą (CCC yra netiesinė ir gali sukelti nekonveksinę erdvę), stabilumo poreikį mažiems imčių dydžiams ir skaičiavimo sąnaudas. Siūlomi sprendimai apima alternatyvių perteklinių parametrų naudojimą, iteracines metodikas (pvz., gradientų optimizavimą su specialiais normalizavimo žingsniais) arba CCC-derivatų artinimus tam, kad užtikrinti suvienodintą mokymą didelės apimties duomenų rinkiniuose.
„Turime tirti toliau,“ sako Kim. „Mūsų linijinis pasirinkimas yra pakankamai didelis daugeliui praktinių panaudojimų, tačiau siekiame žengti toliau link Maksimalaus Sutarimo Prognozuotojo platesne prasme pašalindami linijinį apribojimą.“
Eksperto įžvalgos
„Optimizavimas siekiant sutarimo, o ne vien tik mažinant klaidas, keičia požiūrį į modelio vertę,“ teigia dr. Elena Marquez, duomenų mokslininkė, specializuojanti klinikinės įrangos srityje. „Prietaisų kalibracijoje nepakanka būti arti vidutiniškai. Reikia, kad prognozės teisingai skaliuotų per visą matavimo diapazoną. MALP tiesiogiai sprendžia šią problemą ir gali sumažinti klinikinį painiavą, kai keičiasi instrumentai arba protokolai.“
Dr. Marquez priduria, kad sutapimu paremti tikslai mokyme gali būti ypač naudingi reglamentavimo pateikimuose ir ilgalaikiuose tyrimuose, kur atkuriamumas ir nuoseklumas yra griežtai tikrinami.
Praktiniai patarimai tyrėjams ir klinikams
- MALP maksimalizuoja Concordance Correlation Coefficient (CCC), gerindamas sutapimą tarp prognozių ir faktinių reikšmių.
- Rinkitės MALP, kai pagrindiniai tikslai yra matavimo sutapimas, įrenginių suderinamumas arba šališkumo neturintis skaliavimas.
- Mažiausių kvadratų metodas vis dar tinkamiausias, kai svarbiausia yra minimizuoti vidutinę paklaidą (MSE).
- Ateities išplėtimai žada nelinijinius Maksimalaus Sutarimo Prognozuotojus, integruojamus su moderniais ML karkasais ir giliaisiais tinklais.
Perkeldami prognozavimo tikslus nuo paprasto tikslumo prie sutapimo, MALP siūlo praktišką alternatyvą disciplinoms, kur prognozuojamų ir tikrųjų reikšmių sutapimas turi išlikti nuoseklus tarp įrenginių, laiko momentų ir imties variacijų. Kai metodas bus praplėstas už linijinių apribojimų ribų, sutapimu grįstas modeliavimas gali tapti standartiniu įrankiu pritaikomojoje statistikoje, medicininiuose tyrimuose ir prognozavimo analizėje, ypač ten, kur kalibracija ir ilgalaikis suderinamumas yra kritiniai.
Šaltinis: scitechdaily
Palikite komentarą