Big Bang-ul: modul în care Big Bang-ul din domeniul informaţiilor va schimba lumea

Big Bang-ul: modul în care Big Bang-ul din domeniul informaţiilor va schimba lumea

În bătălia expresiilor din jargonul tehnic „datele de mari dimensiuni” sunt pe cale să detroneze "previziunile".

Ester extrem de important.

„Datele de mai dimensiuni deţin potenţialul de a modifica modul în care guvernele, organizaţiile şi instituţiile academice îşi desfăşoară activităţile şi fac descoperiri şi, probabil, vor modifica modul în care ne trăim vieţile de zi cu zi”, a spus Susan Hauser, vice-preşedintă a corporaţiei Microsoft Enterprise and Partner Group.

Lumea deţine, în momentul actual, de două ori mai mulţi octeţi de date decât litrii de apă din toate oceanele, a adăugat Hauser. Dacă învăţăm cum să navigăm de acest val de date masive, este posibil să înlocuim bănuielile cu previziunile, să zărim tendinţele înainte de a dispărea cu repeziciune şi să acţionăm în timp ce alţii încă deliberează.

Datele de mari dimensiuni reprezintă o expresie utilizată din ce în ce mai mult pentru a descrie procesul de aplicare a unei puteri de calcul extraordinare – cele mai recente realizări din domeniul învăţării automate şi al inteligenţei artificiale – la seturi de informaţie de dimensiuni extrem de mari şi, adesea, foarte complexe.

Ce tip de informaţii? Oricare. Datele de mari dimensiuni pot fi reprezentate de compararea costurilor utilităţilor cu datele meteorologice pentru a identifica tendinţele şi lipsa randamentului. Datele de mari dimensiuni pot fi reprezentate de comparaţia dintre informaţiile GPS de pe ambulanţe cu înregistrările medicale despre rezultatele pacienţilor pentru a determina corelaţia dintre timpul de reacţie şi şansele de supravieţuire. Însă datele de mari dimensiuni pot fi reprezentate şi de dispozitive minuscule care vă înregistrează mişcările, caloriile şi somnul pentru a vă urmări starea sănătăţii personale şi condiţia fizică.

„Viaţa cotidiană generează o colecţie enormă de date”, a spus Dan Vesset, vice preşedinte al programului de cercetare Business Analytics de la IDC.

Indiferent dacă navigaţi pe web, vă faceţi cumpărăturile la un magazin, vă conduceţi automobilul elegant prin oraş, călătoriţi la bordul unui avion, faceţi o vizită la medic sau participaţi la un curs la o universitate, generaţi în fiecare zi o diversitate de date, a adăugat acesta.

„Utilitatea acestor date depinde de locaţie şi de persoana cu care discutaţi”, a afirmat Vesset. „Mare parte din potenţialul suprem constă în abilitatea de a descoperi conexiuni şi de a prezice rezultate probabile într-un mod care nu a fost cu adevărat posibil până acum. Înainte, priveaţi la aceste elemente numai retrospectiv.”

Având la dispoziţie mai multe date în formă digitală ca oricând, odată cu scăderea progresivă a preţurilor pentru stocare şi dispunând de computere mai avansate pentru a susţine şi a analiza acest proces, domeniul datelor de mari dimensiuni a atins într-adevăr un moment de inflexiune, a continua Vesset.

Este un moment pentru care Microsoft este pregătit şi pentru care s-a pregătit, virtual, încă de la originile companiei, a adăugat Hauser.

„Microsoft crede că datele de mari dimensiuni deţin capacitatea de a dezvălui previziuni care, pur şi simplu, nu ar fi fost posibile până acum”, a completat Hauser. „Problema constă doar în gestionarea tuturor datelor şi oferirea unor instrumente care să permită oricui să răspundă la întrebări, întrebări pe care, poate, nici nu ştiau că le au. Iată care este viziunea noastră.”

Un punct de inflexiune

Explozia datelor de mari dimensiuni – inclusiv trecerea de la industria high-tech la o varietate de utilizări pe scară largăm domenii obişnuite – poate fi urmărită cu ajutorul câtorva factori, spune Dave Campbell, un membru al echipei tehnice de la Microsoft.

În primul rând, există un ocean de date care creşte. Înaintea erei computerelor, o bată de date nu era decât un fişet înalt, de culoare gri, ascuns într-un colţ al camerei. Dar acum, tot mai multe informaţii sunt digitalizate sau „s-au născut” direct în format digital.

Apoi, descoperirile din domeniul inteligenţei artificiale au făcut posibilă utilizarea unor algoritmi din ce în ce mai inteligenţi pentru procesare, compararea şi vizualizarea valului în continuă creştere de datele structurate şi nestructurate.

Depozitarea acestor cantităţi imense de date are acum un preţ mai scăzut ca oricând; cu trei decenii în urmă, stocarea unui teraoctet de date ar fi costat milioane, spune Campbell. Astăzi, este de aproximativ 30 $ S.U.A, la magazinul de calculatoare.

Iată un punct de inflexiune Nu există niciun motiv pentru a continua să aruncăm datele”, a continuat Campbell. „Suntem între-un uluitor punct de inflexiune în care atât de multe lucruri au fost create în format digital, până şi date eminamente analogice, precum poşta vocală şi fotografiile.”

Un alt motiv pentru care datele de mari dimensiuni au trecut într-o nouă fază este acela că – ei bine, pentru că pur şi simplu sunt mai multe date. Senzorii, dispozitivele GPS, telefoanele mobile, mediile de socializare, maşinile elegante, drumurile, podurile, clădirile, toate acestea produc un flux constant de date care aşteaptă doar să fie examinate şi multiple puncte de vedere.

„În viitorii cinci ani, vom genera mai multe date decât a generat umanitatea în ultimii 5.000 de ani”, a susţinut Eron Kell, manager general de marketing al produselor Microsoft SQL Server.

„Este realitatea inevitabilă a noii noastre luni, aceea că sunt generate din ce în ce mai multe date”, a adăugat Kelly. „Cei care sunt capabili să extragă previziuni din aceste date vor lua decizii mai bune, vor fi mai eficienţi şi vor progresa, indiferent ce au în plan, mult mai rapid decât cei care nu au făcut-o.”

Date, date peste tot

Pot exista oceane de date pretutindeni, dar transformarea acestora în ceva utilizabil este cu totul altceva.

„Datele de mari dimensiuni reprezintă o mare problemă şi o oportunitate incredibilă”, a continuat Kelly. „Noi furnizăm instrumentul care vă permite să luaţi apa din ocean, să o turnaţi într-un filtru şi să o faceţi potabilă, mai degrabă decât să vă obligăm să faceţi singuri toţi aceşti paşi până la apa potabilă pe care vi-i aduceţi aminte vag din chimia de la liceu.”

Una din provocările datelor de mari dimensiuni poate fi, pur şi simplu, gestionarea dimensiunilor considerabile ale acestora. Stocare, căutare, analiză, comparaţie, rafinare, combinare, vizualizare – seturile masive de date pot reprezenta o provocare pentru software-ul tradiţional pentru baze de date. Iată locul în care bazele de date şi instrumentele de tip Business Intelligence, precum Microsoft SQL Server, Windows Server, PowerPivot, Microsoft Office şi SharePoint devin utile, a adăugat Hauser.

„Organizaţiile partenere ale Microsoft văd rezultatele foarte rapid”, a spus ea. „Impactul, iată partea cea mai captivantă.”

Mai multe, nu trebuie să fiţi un specialist în tehnologia informaţiei (IT) sau un cercetători din domeniul informaticii cu doctorat în statistică pentru a obţine rezultate, a continuat.

O altă provocare pentru a face utile datele de mari dimensiuni este să reuşeşti să găseşti datele potrivite. Microsoft cooperează cu Hadoop, o platformă de tip open source pentru date care gestionează date nestructurate, pentru a îşi putea ajuta clienţii să lucreze cu toate tipurile de date, structurate sau nu.

Datele structurate, găsite de obicei în baze de date care utilizează limbajul Structured Query Language (SQL), sunt organizate într-un mod care le permite utilizatorilor să selecteze exact componentele, rândurile şi coloanele bazei de date respective – poate veţi selecta toate rândurile care conţin un anumit cod poştal sau coloanele care includ o anumită dată. Datele nestructurate nu au, totuşi, o astfel de arhitectură şi pot include adesea text sau imagini care nu fac parte din date cu formă liberă (cum ar fi e-mailurile).

Microsoft mai lucrează, de asemenea, la integrarea Hadoop cu SQL Server şi Windows Azure pentru a se asigura că toate sursele lor de date pot fi combinate de către clienţi.

„Ceea ce încercăm să facem este să dezvoltăm o gamă largă de aptitudini, care să ofere simplitate şi uşurinţă de utilizare în domeniul acestor date de mari dimensiuni”, a adăugat Kelly. „Abordarea unor probleme foarte complexe din punct de vedere tehnic şi simplificarea acestora până la obţinerea unor instrumente uşor de utilizat, iată care a fost strategia Microsoft de-a lungul ultimilor 30 de ani”.

Viziunea asupra viitorului

Un spital foloseşte secvenţierea rapidă a genelor pentru oprirea răspândirii unei bacterii rezistente la antibiotice şi salvând vieţi. O companie feroviară primeşte o alertă de la unul din senzorii trenului referitoare la necesitatea unei reparaţii preventive, economisind timpul şi costul scoaterii trenului de pe şine, ulterior. O universitate constată că nivelul activităţii unui student a căzut la nivelul abandonului şcolar şi încearcă să îl ajute.

Datele pot fi de mari dimensiuni dar, în esenţă, datele de mari dimensiuni sunt foarte personale.

„Datele de mari dimensiuni se aseamănă puţin cu un misionar”, a spus Campbell, „Dimensiunile nu au, de fapt, nicio legătură.”

Mai degrabă, este vorba despre previziunile pe care le oferă. Datele de mari dimensiuni deţin cheia către oraşe mai inteligente, descoperiri mai rapide în medicină, învăţământ academic mai înalt, utilizare mai eficientă a resurselor şi firma mai profitabile. Fără a mai vorbi despre locurile de muncă – multe locuri de muncă.

„Datele de mari dimensiuni sunt importante, dar va exista un decalaj între aptitudini şi capacităţi”, a spus Kelly.

În următorii câţiva ani, vor fi create în lumea întreagă milioane de locuri de muncă domeniul IT, pentru datele de mari dimensiuni. Şi totuşi, conform institutului McKinsey Global, există o lipsă majoră a „talentului analitic şi managerial necesar pentru a obţine maximul din datele de mari dimensiuni.” Numai în Statele Unite există un deficit de peste 140.000 de persoane care să deţină abilităţile necesare pentru a lucra cu datele de mari dimensiuni, precum şi de peste 1,5 milioane de manageri şi analişti necesari pentru analizarea şi luarea deciziilor pe baza descoperirilor de pe urma datelor de mari dimensiuni.

Kelly afirmă că, în anii următori, firmele care au beneficiat de forţa datelor de mari dimensiuni vor avea rezultate excepţionale şi îşi vor depăşi concurenţii.

Conform centrului MIT Center for Digital Business, firmele care adoptă practici rezultate din date şi care utilizează datele de mari dimensiuni pentru luarea deciziilor vor avea rezultate şi productivitate cu 5 sau 6% mai mari decât ar fi fost de aşteptat, luând în considerare celelalte investiţii şi modului de utilizare a tehnologiei informaţiilor.

„NU este vorba numai despre a câştiga mai mulţi bani pe termen scurt, este vorba despre supravieţuire. Pe o piaţă din ce în ce mai competitivă, trebuie să faci tot ceea ce poţi pentru a depăşi concurenţa”, a declarat Kelly. „Dacă nu exploraţi datele şi informaţiile care vă înconjoară pentru a lua decizii mai bune şi a deveni mai eficient, veţi rămâne în urmă. Iată adevărul despre firme, guverne, sisteme de asistenţă a sănătăţii şi despre aproape orice domeniu. Iată de ce este esenţial.”