O „Eră de aur” a previziunilor: Viitorul luminos al datelor de mari dimensiuni

De peste 20 de ani, laboratoarele de cercetare Microsoft Research din întreaga lume s-au axat pe studierea unei game vaste de subiecte din domeniul informaticii. Încă de la început, organizaţia a investit masiv pentru realizarea de descoperiri revoluţionare în domeniul inteligenţei artificiale, incluzând studii în ceea ce priveşte învăţarea automată şi datele de mari dimensiuni. În acest interviu, distinsul om de ştiinţă Eric Horvitz vorbeşte despre evoluţiile pe care le prevede, despre influenţa acestora asupra vieţii noastre cotidiene şi despre modul în care vor schimba lumea perspectivele provenite din datele de mari dimensiuni şi dezvoltarea software-urilor şi serviciilor.
În laboratoarele de cercetare Microsoft Research din întreaga lume, cercetători de anvergură meditează asupra datelor de mari dimensiuni. Printre aceştia se numără şi Eric Horvitz, cercetător eminent la Microsoft şi unul dintre directorii laboratorului de cercetare Microsoft Research din Redmond, ales recent ca membru al Academiei Naţionale de Inginerie (National Academy of Engineering) pentru contribuţia sa în domeniul „mecanismelor informatice pentru luarea deciziilor în condiţii de nesiguranţă, cu resurse limitate”.
Cercetătorul preconizează un viitor în care maşinile, alimentate de cantităţi masive de date, pot deveni „însoţitori digitali care ne oferă capacităţi suplimentare pe întreaga durată a vieţii”, care ştiu ce doriţi sau ce aveţi nevoie (indiferent dacă este vorba despre o pizza sau un medicament), unde doriţi să mergeţi (indiferent dacă este vorba despre Hawaii sau despre ruta cea mai liberă către terenul de joc) şi, în general, lucrează cu pasiune în numele dvs.
Acţiunile de colectare, stocare, interpretare şi optimizare a datelor pot oferi intuiţii la scară mare sau mică, deopotrivă în sfera înaltei tehnologii şi cea a principalelor tendinţe ale momentului, spune Horvitz.
„În lumea actuală, analiza eficientă a datelor pe scară largă, pentru modelarea, vizualizarea şi descoperirea predictivă a devenit esenţială pentru obţinerea succesului în multe domenii.”
Centrul Microsoft News a discutat recent cu Horvitz despre modul în care Microsoft Research (MSR) investeşte timp şi resurse în sfera depozitelor masive de date şi a inteligenţei artificiale, care sunt inovaţiile realizate de MSR şi care este viziunea sa asupra viitorului acestor domenii.
MNC: De ce credeţi că se acordă o asemenea importanţă depozitelor masive de date în momentul actual?
Horvitz: Lumea se agită dintr-o mulţime de motive. În acest caz, cred că la baza utilizării la asemenea proporţii a acestei expresii atrăgătoare se află mai mulţi factori concurenţi. Unul din factori îl reprezintă colectarea datelor în cantităţi fără precedent, în momentul actual, din diverse surse, precum şi progresul din domeniul informaticii, în ceea ce priveşte citirea datelor, stocarea şi reţelistica. Sunt colectate cantităţi enorme de date, parţial datorită mutării activităţilor umane pe web, şi iată motivul pentru care sunt atât de uşor de cules operaţiuni şi evenimente de diverse tipuri pentru acţiunile derulate în flux. Aici se include totul, de la comerţul electronic la condusul maşinii pe senzorii de pe drumuri, la serviciile pentru smartphone care analizează date de localizare şi până la asistenţa medicală. În domeniul îngrijirii sănătăţii, explozia informaţiilor genomice şi ritmul crescut de captare a datelor clinice în spitale au adus în bazele de date gigaocteţi şi teraocteţi de date despre pacienţi; şi încă, suntem abia în faza timpurie a informaticii biomedicale. De asemenea, stocarea a devenit foarte ieftină comparativ cu situaţia anterioară. Înainte discutam despre ziua în care, poate, vom deţine teraocteţi de date. Acum, aceşti teraocteţi sunt ceva ce poate fi transportat de copii în buzunar, pe o unitate mică, în drum către gimnaziu. Din perspectiva informaticii, au fost realizate progrese în domeniul procedurilor informatice folosite pentru exploatarea datelor în vederea unor utilizări de interes multiplu, precum construirea modelelor predictive din informaţii. De exemplu, putem analiza datele pentru realizarea de predicţii în timp real referitoare la modificarea intenţiilor sau intereselor unui utilizator de computer şi putem reuşi să recunoaştem gesturile unei anumite persoane. Putem prognoza din datele pacienţilor probabilitatea ca un pacient să fie internat din nou după a ieşit din spital.
MNC: Care este elementul care diferenţiază cercetările Microsoft Research asupra învăţării automate de celelalte studii întreprinse în acest domeniu?
Horvitz: Microsoft Research este un laborator de cercetare binecunoscut în cadrul căruia promovăm libertatea cercetătorilor de a face publice rezultatele şi progresele noastre. Acest lucru a atras cei mai buni cercetători şi minţile cele mai strălucite. Personalul de la MSR este stimulat de fluxul de provocări interesante din lumea reală. De asemenea, li se oferă acces la resurse vaste de date şi au şansa extraordinară de a pune cele mai bune idei la dispoziţia a sute de milioane de oameni. Cercetătorii care studiază învăţarea automată fac parte, în general, din comunitatea mult mai largă a cercetătorilor din întreaga lume care întreprind studii asupra inteligenţei artificiale. În plus faţă de învăţarea automată, această cercetare include percepţia artificială, raţionamentul şi luarea deciziilor automatizate. Învăţarea automată este înrădăcinată profund în ADN-ul centrului de cercetare Microsoft Research, această zonă fiind una din primele priorităţi esenţiale în care am investit.
În prezent, persoanele care întreprind cercetări referitoare la învăţarea automată în laboratoarele noastre reprezintă o forţă intelectuală importantă. Sunt incluse aici echipele de cercetare fundamentală care lucrează la principiile de bază, precum şi la aplicaţii. Avem echipe de cercetători care studiază învăţarea automată în Redmond, Cambridge, Beijing, Bangalore, Silicon Valley, New England şi oraşul New York. Împreună, aceste grupuri compun una din cele mai mari forţe din lume de investigare a învăţării automate.
MNC: Ne puteţi exemplifica unele modalităţi prin care cercetările MSR asupra învăţării automate şi-au găsit locul în produsele Microsoft?
Horvitz: Foarte multe studii şi-au găsit locul în produsele şi serviciile Microsoft. Multe dintre aceste succese îşi au originea în strânsa colaborare dintre cercetătorii de la MSR şi echipele care se ocupă de produse. De exemplu, Centrul de cercetare Microsoft Research a realizat studiile de principiu asupra modului de clasificare a elementelor. Această muncă a dus la elaborarea metodelor de bază ale motorului de căutare Bing pentru clasificarea rezultatelor căutării ca răspuns la întrebările utilizatorilor. De asemenea, MSR este binecunoscut prin munca la sistemele de vizionare – maşini care pot vedea şi recunoaşte ceea ce văd –precum şi domeniul recunoaşterii vorbirii şi cel al traducerii. De câte ori utilizaţi căutarea vocală Bing sau translatorul Bing, profitaţi de rezultatele studiilor fundamentale ale MSR asupra învăţării automate.
Echipa de la Cambridge este binecunoscută pentru metodele de învăţare şi înţelegere a modului de captare a unei imagini, de segmentare şi de clasificare a acesteia. Acest efort preţios şi inovator a fost esenţial pentru Kinect, care poate identifica oamenii şi gesturilor acestora într-o cameră.
MSR mai este cunoscut pentru aplicarea cercetărilor asupra învăţării automate în domeniul informaticii biomedicale şi în alte aspecte ale asistenţei medicale în cadru clinic. În laboratorul din Redmond, am întreprins eforturi majore pentru valorificarea şi utilizarea cantităţilor mari de date clinice rezultate din spitale, în momentul actual, pentru a construi modele predictive în scopul îndrumării luării deciziilor în spitale. Aceste sisteme funcţionează chiar în acest moment, în spitalele de aici, optimizând activitatea de asistenţă medicală. O altă aplicaţie este reprezentată Bing Maps şi Bing Directions, care îndrumări sensibile la trafic pentru 72 de oraşe din America de Nord. Bing Directions utilizează metode de la MSR care au demonstrat că se poate învăţa din istoricul datelor de trafic modul de prezicere a fluxului în timp real de pe toate străzile, în zonele marilor oraşe. Învăţarea automată are loc chiar în adâncul sistemului de operare Windows. MSR s-a asociat cu echipa Windows pentru a dezvolta un sistem de preluare anticipată a datelor în timp real care rulează pentru Windows 7 şi Windows 8. Windows învaţă în mod continuu de la utilizatori despre şabloanele de activitate şi apoi realizează predicţii despre acţiunile următoare, făcând sistemul de operare să devină şi mai rapid.
MNC: Ne puteţi enumera câteva dintre obiectivele acestei cercetări extinse asupra inteligenţei artificiale?
Horvitz: Direcţiile şi obiectivele sunt vaste, de la cercetări fundamentale asupra învăţării automate la înţelegerea modalităţilor de rezolvare a anumitor clase de date şi de efectuare a unor activităţi specifice. De asemenea, investigăm dezvoltarea unor instrumentele mai eficiente şi mai puternice pentru asistarea practicii tehnologice în domeniul învăţării automate. În acest sens, am investigat dezvoltarea instrumentelor şi metodelor care permit persoanelor care nu sunt specializate sau au doar o specializare sumară să realizeze cu succes propriile modelări predictive şi analize de date. Aceasta este o provocare extrem de interesată, de a pune puterea în mâinile utilizatorilor finali. De obicei, acest gen de putere analitică a fost numai în mâinile experţilor în domeniul învăţării automate şi ale statisticienilor.
MNC: Suna ca o provocare extrem de dificilă. Când aţi început încercările de a pune inteligenţa artificială la dispoziţia maselor?
Horvitz: în domeniul învăţării automate, au fost dezvoltate numeroase proceduri algoritmice, iar fiecare dintre acestea dispune de elemente prin care metodele se pot aplica datelor şi activităţilor existente. Întrebările intervin în momentul în care trebuie decis care este cea mai bună metodă de utilizat pentru un anumit set de date şi activităţi de învăţare. De asemenea, există provocări în ceea ce priveşte curăţarea şi pregătirea datelor, precum şi transformarea acestora în informaţii anonime, pentru a putea fi procesate şi analizate cu uşurinţă. Există multe zone periculoase în domeniul învăţării automate, iar noile tipuri de instrumente pot ajuta oamenii să specifice ce anume doresc să afle şi cum să valideze acurateţea predicţiilor efectuate de modelele pe care le construiesc. Apoi mai există sfera luării deciziilor. Aceasta se axează pe modul de direcţionare a acţiunilor şi politicilor într-o lume bazată pe preziceri. Lucrăm pentru a crea noi tipuri de instrumente care să ghideze colectarea, analiza şi testarea datelor şi care să ofere, totodată, utilizatorilor finali o imagine asupra vizualizare şi luarea deciziilor.
MNC: Ce alte obstacole există în lumea învăţării automate?
Horvitz: Una din provocările pe care le-am acceptat se referă la maşinile care pot să înţeleagă şi chiar să traducă vorbirea convenţională. Uneori, micile sporuri de acurateţe pot avea implicaţii mari pentru competenţa unui sistem. Recent, Rick Rashid (Director de cercetare al MSR) a demonstrat în faţa unei audienţe numeroase la Tianjin, în China, capacitatea de a efectua traduceri în timp real din engleză în dialectul mandarin al limbii chineze. A vorbit liber, iar discursul său a fost tradus şi redat din nou cu vocea sa – vorbea în dialectul mandarin în timp real. Fluxul de traducere a fost posibil datorită mai multor tehnologii dar, într-un fel, cea mai remarcabilă şi surprinzătoare inovaţie a reprezentat-o creşterea uimitoare a acurateţei recunoaşterii vorbirii pentru un discurs la nivel conversaţional. Acest eveniment a avut loc acum câţiva ani şi a fost rezultatul cercetărilor şi experimentelor de la MSR asupra noilor direcţii în domeniul învăţării automate.
MNC: Pe ce aspecte ale depozitelor masive de date este focalizat centrul de cercetare Microsoft Research în momentul actual?
Horvitz: Există atât de multe direcţii distractive şi promiţătoare. Trebuie să recunosc, este o zonă într-adevăr captivantă şi ne aflăm într-un moment incitant. Dacă privim pe termen lung, mă aştept ca învăţarea automată şi, în termeni mai generali, inteligenţa artificială ne va oferi noi instrumente fundamentale pentru realizarea cercetării ştiinţifice şi că în următoarele decenii vor apărea noi inovaţii, ca urmare a colaborării dintre oameni şi instrumentele de învăţare şi raţionament automat. Există şanse de a învăţa lucruri noi din cantităţile mari de date, inclusiv de a ajunge la esenţa misterelor asistenţei medicale, trecând prin date cu instrumente de învăţare automată, dintre care unele pot recunoaşte cauzalitatea, şi anume că elementul A cauzează de fapt efectul B.
O altă direcţie o reprezintă lucrul pentru a crea un set de tehnologi – învăţare automată, recunoaşterea vorbirii, înţelegerea limbajului natural, vizionarea automată şi luarea deciziilor – spre a crea sisteme care acţionează ca nişte colaboratori extraordinari şi care completează intelectul uman în anumite sensuri.
Pe de altă parte, există o mulţime de oportunităţi de efectuare a unor noi tipuri de căutare şi regăsire pe web. De asemenea, aplicăm învăţarea automată în noi moduri, pentru a descoperi semnale în cantităţi mari de date referitoare la populaţie. De exemplu, într-o lucrare recentă, am dezvoltat o modalitate de a descoperi indicii referitoare la efectele secundare ale medicamentelor în jurnale de căutare cu date anonime. Cred că metodele bazate pe date vor schimba lumea în atâtea moduri, influenţând sănătatea, educaţia, ştiinţa şi comerţul.
MNC: Dacă aţi vorbi în stilul lui Jules Verne, care ar fi semnificaţia acestor cercetări în viitor?
Horvitz: Privind către viitor, cred că există şansa să construim sisteme care să devină însoţitori digitali care ne oferă capacităţi suplimentare pe întreaga durată a vieţii, care au o înţelegere profundă asupra ceea ce doriţi să faceţi, unde doriţi să mergeţi, ce doriţi să învăţaţi, de ce aveţi nevoie pentru a rămâne sănătos, ce este bun şi ce este mai puţin bun pentru dvs. şi care să lucreze încontinuu pentru dvs., spre a vă ajuta şi a vă completa. Lucrul în mai multe direcţii prefigurează deja posibilităţi mai vaste.
MNC: De ce aţi ales acest domeniu?
Horvitz: Am fost interesat demult să înţeleg mintea umană şi curiozitate m-a condus de la biologie la fizică şi în lumea informaticii şi a tehnicii de calcul. În afara acestei căutări principale, am devenit interesat de-a lungul anilor să aplic principiile învăţării şi ale luării deciziilor în aplicaţiile din lumea reală care oferă valoare, activităţi legate oarecum de problemele esenţiale referitoare la sistemul de gândire. Am avut o muncă extraordinară, alături de colegi excelenţi, asupra principiilor şi aplicaţiilor. Iar într-un loc precum centrul de cercetare Microsoft Research, ne macină această idee a „pârghiei” care să schimbe lucrurile, având un punct de sprijin la orizont. Următoarea inovaţie sau idee ar putea muta planeta, la propria, având o influenţă asupra produselor şi serviciilor Microsoft.
MNC: Toate în numai o zi de lucru, nu-i aşa?
Horvitz: [Râzând] Exact. Dar eu am vorbit serios, nu glumesc.
MNC: Revista Harvard Business Review a declarat că a fi cercetător din domeniul datelor va fi, pe viitor, cel mai atrăgător post din lume-
Horvitz: Minunat. Puteţi spune că, într-un fel, informatice şi celelalte domenii ale ingineriei au suferit de-a lungul anilor pentru că alegerile oamenilor în ceea ce priveşte cariera s-a îndreptat către „cauze nobile”, în domenii precum asistenţa medicală şi cel legal. Cred că informatica a devenit cauza nobilă a timpurilor noastre, deoarece informativa permite crearea multor altor lucruri, de la nave spaţiale la asistenţă medicală, la ştiinţă, la domeniul juridic şi la cel al guvernării.