ocijeni-umjetna-inteligencija-ai-31-1440x843.webp
Mislav

Je li umjetna inteligencija u medicini prenaglašena?

Modeli umjetne inteligencije za zdravstvenu skrb koji predviđaju bolest nisu tako točni kao što bi izvješća mogla sugerirati. Evo zašto

Svaki dan koristimo alate koji se oslanjaju na umjetnu inteligenciju (AI), a među najčešćim su glasovni pomoćnici poput Alexa i Siri. Ovi potrošački proizvodi rade relativno dobro – Siri razumije većinu onoga što kažemo – ali nipošto nisu savršeni. Prihvaćamo njihova ograničenja i prilagođavamo način na koji ih koristimo dok ne dobiju pravi odgovor ili dok ne odustanemo. Uostalom, posljedice pogrešnog razumijevanja zahtjeva korisnika Siri ili Alexe obično su manje.

Međutim, pogreške AI modela koji podržavaju kliničke odluke liječnika mogu značiti život ili smrt. Stoga je ključno da razumijemo koliko ti modeli funkcioniraju prije nego što ih implementiramo. Objavljena izvješća o ovoj tehnologiji trenutno daju previše optimističnu sliku o njezinoj točnosti, što ponekad znači senzacionalističke priče u tisku. Mediji su prepuni rasprava o algoritmima koji mogu dijagnosticirati ranu Alzheimerovu bolest s točnošću do 74 posto ili koji su točniji od kliničara . Znanstveni radovi koji detaljno opisuju takav napredak mogu postati temelji za nove tvrtke, nova ulaganja i smjerove istraživanja te implementacije velikih razmjera u bolničkim sustavima. U većini slučajeva tehnologija nije spremna za implementaciju.

Uzrok ovog kontraintuitivnog scenarija leži u načinu na koji znanstvenici procjenjuju i izvještavaju o navedenoj točnosti modela. Prema najboljim praksama, istraživači obučavaju svoj model umjetne inteligencije na dijelu svog skupa podataka, a ostatak drže u “pretinci”. Zatim koriste te “zadržane” podatke kako bi testirali točnost svog modela. Na primjer, recimo da se razvija program umjetne inteligencije za razlikovanje ljudi s demencijom od ljudi bez nje analizirajući njihov govor. Model je razvijen pomoću podataka o obuci koji se sastoje od uzoraka govornog jezika i oznaka dijagnoze demencije, kako bi se na temelju govora predvidjelo ima li osoba demenciju. Zatim se testira u usporedbi s zadržanim podacima iste vrste kako bi se procijenilo koliko će točno raditi. Ta se procjena točnosti zatim objavljuje u akademskim publikacijama; što je veća točnost zadržanih podataka, znanstvenici kažu da algoritam radi bolje.

I zašto istraživanje kaže da prijavljena točnost opada s povećanjem veličine skupa podataka? U idealnom slučaju, znanstvenici nikada ne vide zadržane podatke dok se model ne dovrši i ne popravi. Međutim, znanstvenici mogu zaviriti u podatke, ponekad nenamjerno, i modificirati model dok ne postigne visoku točnost, što je fenomen poznat kao curenje podataka . Korištenjem zadržanih podataka za modificiranje svog modela i zatim za njegovo testiranje, istraživači gotovo jamče da će sustav ispravno predvidjeti zadržane podatke, što dovodi do prenapuhanih procjena stvarne točnosti modela . Umjesto toga, trebaju koristiti nove skupove podataka za testiranje, kako bi vidjeli uči li model doista i može li pogledati nešto prilično nepoznato kako bi došli do prave dijagnoze.

Dok se te preoptimistične procjene točnosti objavljuju u znanstvenoj literaturi, modeli s lošijim učinkom trpaju se u poslovičnu “ladicu s datotekama”, da ih drugi istraživači nikada ne vide; ili, ako su predani za objavljivanje, manje je vjerojatno da će biti prihvaćeni. Učinci curenja podataka i pristranosti objavljivanja iznimno su veliki za modele obučene i procijenjene na malim skupovima podataka. Odnosno, modeli obučeni s malim skupovima podataka vjerojatnije će prijaviti prenapuhane procjene točnosti; stoga vidimo ovaj neobičan trend u objavljenoj literaturi gdje modeli obučeni na malim skupovima podataka pokazuju veću točnost od modela obučenih na velikim skupovima podataka.

Te probleme možemo spriječiti tako da budemo rigorozniji u pogledu toga kako provjeravamo modele i kako se rezultati prikazuju u literaturi. Nakon što se utvrdi da je razvoj modela umjetne inteligencije etičan za određenu aplikaciju, prvo pitanje koje dizajner algoritma treba postaviti jest: “Imamo li dovoljno podataka za modeliranje složene konstrukcije poput ljudskog zdravlja?” Ako je odgovor potvrdan, onda bi znanstvenici trebali potrošiti više vremena na pouzdanu procjenu modela, a manje vremena pokušavajući iscijediti svaki djelić “točnosti” iz modela. Pouzdana provjera valjanosti modela počinje osiguravanjem reprezentativnih podataka. Najizazovniji problem u razvoju AI modela je dizajn samih podataka za obuku i testiranje. Dok potrošačke AI tvrtke oportunistički prikupljaju podatke, klinički AI modeli zahtijevaju više pažnje zbog visokih uloga. Dizajneri algoritama trebali bi rutinski ispitivati ​​veličinu i sastav podataka koji se koriste za obuku modela kako bi bili sigurni da su reprezentativni za raspon prikaza stanja i demografiju korisnika. Svi skupovi podataka su na neki način nesavršeni. Istraživači bi trebali nastojati razumjeti ograničenja podataka koji se koriste za obuku i evaluaciju modela i implikacije tih ograničenja na izvedbu modela.

Nažalost, ne postoji srebrni metak za pouzdanu provjeru kliničkih AI modela. Svaki alat i svaka klinička populacija su različiti. Kako bi se došlo do zadovoljavajućih planova validacije koji uzimaju u obzir uvjete u stvarnom svijetu, kliničari i pacijenti moraju biti uključeni rano u proces dizajniranja, uz doprinose dionika poput Uprave za hranu i lijekove.

Veća je vjerojatnost da će širi razgovor osigurati da su skupovi podataka o obuci reprezentativni; da su parametri za poznavanje rada modela relevantni; i ono što AI kaže kliničaru je prikladno. Postoje lekcije koje se mogu naučiti iz krize ponovljivosti u kliničkim istraživanjima, gdje su strategije poput predregistracije i usmjerenosti na pacijenta u istraživanjupredloženi su kao način povećanja transparentnosti i poticanja povjerenja. Slično tome, sociotehnički pristup dizajnu modela umjetne inteligencije prepoznaje da izgradnja pouzdanih i odgovornih modela umjetne inteligencije za kliničke primjene nije isključivo tehnički problem. Zahtijeva duboko poznavanje temeljnog područja kliničke primjene, prepoznavanje da ovi modeli postoje u kontekstu većih sustava i razumijevanje potencijalnih šteta ako se performanse modela pogoršaju prilikom primjene.

Bez ovog holističkog pristupa, pompa AI će se nastaviti. A to je žalosno jer tehnologija ima pravi potencijal za poboljšanje kliničkih ishoda i proširenje kliničkog dosega u zajednicama koje nemaju dovoljno usluga. Usvajanje holističkog pristupa razvoju i testiranju kliničkih modela umjetne inteligencije dovest će do nijansiranih rasprava o tome koliko dobro ti modeli mogu funkcionirati i njihovim ograničenjima. Mislimo da će to u konačnici rezultirati time da tehnologija dosegne svoj puni potencijal i da će ljudi imati koristi od nje.