„Zlatá éra“ porozumenia: jasná budúcnosť veľkých dát

Viac ako 20 rokov sa laboratóriá Microsoft Research na celom svete zameriavajú na výskum širokého spektra tém súvisiacich s informatikou. Od začiatku organizácia investovala veľké prostriedky do priekopníckych a prelomových objavov v oblasti strojovej inteligencie vrátane snáh v oblastiach strojového učenia a veľkých dát. V tomto rozhovore hovorí významný vedec Eric Horvitz o pokrokoch, ktoré vidí na horizonte, o vplyve, ktorý budú mať na váš každodenný život, a o tom, ako porozumenie veľkým dátam a vývoj inteligentnejšieho softvéru a služieb zmení svet.
V laboratóriách Microsoft Research na celom svete o veľkých dátach uvažuje niekoľko mysliteľov. Patrí medzi nich aj Eric Horvitz, významný vedec v spoločnosti Microsoft a jeden z riaditeľov laboratória Microsoft Research v Redmonde, ktorý bol nedávno zvolený za člena akadémie National Academy of Engineering za jeho prácu v oblasti „výpočtových mechanizmov na rozhodovanie pri neistote a s obmedzenými prostriedkami“.
Vidí budúcnosť, v ktorej sa stroje poháňané veľkým množstvom údajov môžu stať „nápomocnými digitálnymi spoločníkmi na celý život“, ktorí vedia, čo chcete alebo potrebujete (či už pizzu, alebo lieky), kam chcete ísť (či už na Havaj, alebo na cestu bez premávky na zápas), a všeobecne fungujú so zanietením vo váš prospech.
Zaznamenávanie údajov, ich ukladanie, interpretácia a využívanie môže poskytovať porozumenie v malom aj veľkom meradle a v oblasti pokročilých technológií a rovnako aj v bežnom živote, povedal Horvitz.
„V dnešnom svete sa efektívna analýza veľkého rozsahu údajov na prediktívne modelovanie, vizualizácia a objavovanie stávajú hlavnými prostriedkami úspechu v mnohých oblastiach.“
Stredisko Microsoft News Center sa nedávno zhováralo s pánom Horvitzom o tom, ako laboratórium Microsoft Research (MSR) investuje čas a ľudské zdroje do oblasti veľkých dát a strojovej inteligencie, aké prielomy laboratórium MSR dosiahlo, a o jeho vízii budúcnosti týchto odvetví.
Microsoft News Center: Prečo si myslíte, že sa teraz na veľké dáta sústredí taká výrazná pozornosť?
Horvitz: Módne slová vznikajú z rôznych dôvodov. V tomto prípade si myslím, že súhra niekoľkých faktorov viedla k rozšírenému používaniu tohto chytľavého spojenia. Jedným z nich sú údaje, ktoré sa teraz zhromažďujú v bezprecedentnom množstve v rôznych oblastiach, a pokroky v informatike – pri snímaní, ukladaní a sieťach. Zhromažďuje sa veľké množstvo údajov čiastočne pre prechod mnohých ľudských činností na web. To zjednodušilo zhromažďovanie transakcií a udalostí rôznych druhov v prúde s činnosťami. Zahŕňa to všetko od elektronického obchodu, cez autá prechádzajúce cez senzory v cestách, služby pre smartfóny využívajúce údaje o polohe až po zdravotníctvo. V zdravotníctve explózia genomiky a zvýšenie zaznamenávania klinických údajov v nemocniciach prinieslo do databáz gigabajty a terabajty údajov o pacientoch a my zažívame počiatky biomedicínskej informatiky. Ukladací priestor tiež výrazne zlacnel v porovnaní s minulosťou. Hovorievali sme, že možno jedného dňa budeme mať terabajty údajov. Teraz môžu terabajty nosiť vaše deti na malej jednotke vo vrecku, keď idú na druhý stupeň základnej školy. Na výpočtovej strane sa objavili pokroky vo výpočtových procedúrach, ktoré používame na využívanie údajov viacerými zaujímavými spôsobmi, napríklad na vytváranie prediktívnych modelov z údajov. Napríklad môžeme využívať údaje na predpovedanie meniacich sa zámerov alebo záujmov používateľa počítača v reálnom čase a naučiť sa rozpoznávať niekoho gestá. Môžeme sa učiť z údajov pacienta a predpovedať pravdepodobnosť, že pacient bude po prepustení z nemocnice do nej znova prijatý.
Microsoft News Center: Čo je na výskume strojového učenia v laboratóriu Microsoft Research jedinečné v porovnaní s inými v tejto oblasti?
Horvitz: Laboratórium Microsoft Research je dobre známe ako otvorené výskumné laboratórium, kde podporujeme slobodu výskumu a publikovanie našich výsledkov a pokrokov. To prilákalo najlepších a najmúdrejších ľudí. Ľudia v laboratóriu MSR sú povzbudení záplavou zaujímavých problémov z reálneho sveta. Majú tiež prístup k veľkým zdrojom údajov a lákavú príležitosť dať svoje najlepšie nápady do rúk stovkám miliónov ľudí. Naši výskumníci zaoberajúci sa strojovým učením sú neoddeliteľnou súčasťou väčšej komunity výskumníkov na celom svete, ktorí sa venujú štúdiu strojovej inteligencie. Okrem strojového učenia tento výskum zahŕňa strojové vnímanie, automatické uvažovanie a rozhodovanie. Strojové učenie je hlbokozakorenenou súčasťou DNA laboratória Microsoft Research. Táto oblasť bola jednou z niekoľkých prvotných oblastí s kritickou prioritou, do ktorých sme investovali.
Dnes ľudia, ktorí sa venujú výskumu strojového učenia v našich laboratóriách, tvoria podstatnú intelektuálnu silu. Zahŕňa to tímy mysliteľov pracujúcich na základných princípoch, ako aj aplikáciách. Máme tímy pracovníkov venujúcich sa strojovému učeniu v Redmonde, Cambridgi, Pekingu, Bangalore, Silicon Valley, Novom Anglicku a v New Yorku. Spoločne tieto skupiny predstavujú jedno z najväčších úsilí v oblasti strojového učenia na svete.
Microsoft News Center: Akými spôsobmi si výskum strojového učenia laboratória MSR našiel cestu do produktov spoločnosti Microsoft?
Horvitz: Do produktov a služieb spoločnosti Microsoft sa dostali mnohé z pokusov. Mnohé z týchto úspechov vychádzajú z veľmi úzkej spolupráce medzi ľuďmi z laboratória MSR a pracovníkmi produktových tímov. Jeden príklad, laboratórium Microsoft Research urobilo podstatnú prácu pri zisťovaní, ako hodnotiť položky. Táto práca viedla k základným metódam lokality Bing na hodnotenie výsledkov vyhľadávania v odpovediach na dotazy používateľov. Laboratórium MSR je tiež dobre známe svojou prácou na systémoch videnia, zariadeniach, ktoré dokážu vidieť a rozpoznať to, čo vidia, ako aj na rozpoznávaní reči a prekladaní. Keď používate vyhľadávanie hlasom Bing alebo prekladač Bing, využívate základné výsledky snaženia laboratória MSR v oblasti strojového učenia.
Náš tím v Cambridgi je dobre známy metódami, ktoré sa snažia pochopiť, ako zhotoviť snímku, rozdeliť ju na segmenty a kategorizovať ju. Táto cenná a inovatívna práca bola kritickým faktorom, ktorý umožnil senzor Kinect, ktorý dokáže v miestnosti rozpoznať ľudí a ich gestá.
Laboratórium MSR je známe aj použitím výskumu strojového učenia v oblasti biomedicínskej informatiky a iných aspektov klinickej zdravotnej starostlivosti. V laboratóriu v Redmonde vynakladáme veľké úsilie na zvládnutie a využitie veľkého množstva klinických údajov, ktoré teraz prichádzajú z nemocníc, na vytvorenie prediktívnych modelov na pomoc pri rozhodovaní v nemocniciach. Tieto systémy pracujú práve teraz v nemocniciach na zlepšovaní zdravotnej starostlivosti. Ďalšou aplikáciou sú Mapy Bing a Bing Directions, ktorá poskytuje navigáciu reagujúcu na dopravu v 72 mestách v Severnej Amerike. Aplikácia Bing Directions využíva metódy od laboratória MSR, ktoré ukázali, ako sa môžeme naučiť z historických údajov o doprave predpovedať prúdenie dopravy v reálnom čase na všetkých uliciach vo väčšej mestskej oblasti. Strojové učenie sa dokonca nachádza aj hlboko v operačnom systéme Windows. Laboratórium MSR sa spojilo s tímom Windows, aby vyvinuli systém načítavania na pozadí v reálnom čase, ktorý funguje v systémoch Windows 7 a Windows 8. Systém Windows sa naďalej učí od používateľov o ich vzorcoch činnosti a potom predpovedá nasledujúce činnosti – čo ešte viac zrýchľuje operačný systém.
Microsoft News Center: Aké sú niektoré ciele tohto rozsiahleho výskumu strojovej inteligencie?
Horvitz: Smerovanie a ciele sú rozsiahle – od výskumu základných vedeckých princípov strojového učenia až po pochopenie, ako najlepšie riešiť konkrétne triedy údajov a vykonávať konkrétne úlohy. Tiež skúmame vývoj efektívnejších a výkonnejších nástrojov na podporu technických postupov strojového učenia. V tejto oblasti skúmame vývoj nástrojov a metód, ktoré umožňujú laikom alebo čiastočným odborníkom dosahovať vynikajúce výsledky pri ich vlastnom prediktívnom modelovaní a analytike údajov. Toto je veľmi, veľmi zaujímavá výzva, dať tento výkon do rúk koncových používateľov. Zvyčajne mali tento druh analytického výkonu v rukách iba odborníci na strojové učenie a štatistici.
Microsoft News Center: Znie to ako obrovská výzva. Kde začnete pri snahe sprístupniť strojovú inteligenciu masovému publiku?
Horvitz: Pri strojovom učení bolo vyvinutých mnoho algoritmických procedúr. Každá z nich zvyčajne obsahuje ovládacie prvky na doladenie metód pre spracovávané údaje a úlohu. Vznikajú otázky, ktorá metóda je najvhodnejšia pre konkrétnu množinu údajov a úlohu učenia. Existujú aj problémy s čistením, prípravou a anonymizáciou nespracovaných údajov, aby ich bolo možné jednoducho spracovať a analyzovať. Pri strojovom učení existuje niekoľko nebezpečenstiev a nové typy nástrojov môžu pomôcť ľuďom určiť, čo presne chcú zistiť a ako overiť presnosť predpovedí vypracovaných modelmi, ktoré vytvorili. Potom je tu otázka rozhodovania. Tá sa sústredí na spôsob nasmerovania činností a zásad vo svete založenom na predpovediach. Pracujeme na vytváraní nových typov nástrojov, ktoré usmerňujú zhromažďovanie údajov, analýzu a testovanie a ktoré tiež umožňujú koncovým používateľom pochopiť vizualizáciu a rozhodovanie.
Microsoft News Center: Aké sú ďalšie prekážky vo svete strojového učenia?
Horvitz: Jedným z problémov, ktorý riešime, sú zariadenia, ktoré dokážu rozumieť a dokonca prekladať konverzáciu. Niekedy majú malé zisky v presnosti veľké dôsledky pre spôsobilosť systému. Nedávno (riaditeľ výskumu laboratória MSR) Rick Rashid predviedol pred veľkým publikom v Tiencine v Číne možnosť prekladu z angličtiny do čínštiny v reálnom čase. Voľne rozprával a jeho reč sa prekladala a potom znova transformovala na jeho vlastný hlas – v reálnom čase hovoril po čínsky. Tento prekladateľský kanál bol umožnený niekoľkými technológiami, ale určitým spôsobom najpozoruhodnejšou a najprekvapujúcejšou inováciou bolo prekvapujúce zvýšenie presnosti rozpoznávania reči pri konverzácii. To sa odohralo iba v priebehu niekoľkých posledných rokov a bolo výsledkom výskumu a pokusov v laboratóriu MSR s novými smermi strojového učenia.
Microsoft News Center: Tak na aký aspekt veľkých dát sa laboratórium Microsoft Research zameria?
Horvitz: Existuje veľmi veľa zábavných a sľubných smerov. Musím povedať, že je to skutočne oblasť so vzrušujúcimi príležitosťami a že sme vo vzrušujúcom období. Keď sa pozriem na dlhodobejšiu budúcnosť, očakávam, že strojové učenie a všeobecnejšie strojová inteligencia nám poskytnú nové základové nástroje na vedecký výskum a že sa mnohé prielomy v priebehu niekoľkých nasledujúcich desaťročí dosiahnu spoluprácou medzi ľuďmi a nástrojmi na strojové učenie a uvažovanie. Existujú príležitosti naučiť sa z veľkého množstva údajov nové veci vrátane odhalenia záhad zdravotnej starostlivosti tým, že prejdeme údaje pomocou nástrojov na automatické učenie, z ktorých niektoré dokážu rozoznať kauzalitu, že A vlastne spôsobuje B.
Ďalším smerom je práca na zložení množiny technológií – strojové učenie, rozpoznávanie reči, porozumenie prirodzenému jazyku, strojové videnie a rozhodovanie tak, aby vznikli systémy, ktoré budú fungovať ako múdri spolupracovníci a budú novými spôsobmi dopĺňať ľudský intelekt.
V inej oblasti existuje veľké množstvo príležitostí na uskutočňovanie nových druhov vyhľadávania a získavania údajov na webe. Strojové učenie aplikujeme novými spôsobmi aj na zisťovanie signálov vo veľkom množstve údajov o populácii. V nedávnej práci sme, napríklad, vyvinuli spôsob objavovania vodidiel k informáciám o vedľajších účinkoch liekov v anonymizovaných denníkoch vyhľadávania. Verím, že metódy zamerané na údaje zmenia svet mnohými spôsobmi a ovplyvnia zdravie, vzdelanie, vedu a obchod.
Microsoft News Center: Ak by ste sa mali na chvíľu stať Julesom Verneom, čo by celý tento výskum mohol znamenať pre budúcnosť?
Horvitz: Keď sa pozriem do budúcnosti, verím, že existuje príležitosť vybudovať systémy, ktoré sa skutočne stanú nápomocnými digitálnymi spoločníkmi na celý život, ktorí do hĺbky pochopia, čo presne chcete robiť, kam chcete ísť, čo sa chcete naučiť, čo musíte robiť, aby ste boli zdraví, v čom ste dobrí a v čom menej, a ktorí budú nepretržite pracovať vo váš prospech, aby vám pomáhali a dopĺňali vás. Práca v niekoľkých oblastiach už poskytuje niektoré matné predzvesti širších možností.
Microsoft News Center: Prečo ste sa začali tejto oblasti venovať?
Horvitz: Už dlho ma zaujíma pochopenie ľudskej mysle a moja zvedavosť ma priviedla od biológie k fyzike až k svetu informácií a výpočtom. Okrem tohto základného úsilia ma v priebehu rokov začala vzrušovať aplikácia princípov učenia a rozhodovania v aplikáciách pre skutočný svet, ktoré poskytujú hodnotu, pričom stále nejakým spôsobom súvisia s veľkými otázkami o mysliacich systémoch. Bavila ma práca spoločne a po boku fantastických kolegov na princípoch a aplikáciách. A na mieste, ako je laboratórium Microsoft Research, máme všetci na mysli tú lákavú „páku“ s otočným bodom na horizonte. Naša ďalšia inovácia alebo myšlienka by skutočne mohla pohnúť planétou tak, že ovplyvní produkty a služby spoločnosti Microsoft.
Microsoft News Center: To všetko za deň práce, však?
Horvitz: [Smiech.] Presne. Ale myslím to vážne, my nežartujeme.
Microsoft News Center: Časopis Harvard Business Review vyhlásil vedca študujúceho údaje za nové najsexi zamestnanie.
Horvitz: To je skvelé. Dalo by sa povedať, že určitým spôsobom informatika a iné technické odbory v priebehu rokov trpeli tým, že ľudia pri rozhodovaní o kariére hľadali „vznešené činnosti“ v odvetviach, ako je zdravotná starostlivosť a právo. Verím, že výpočtová veda sa stáva vznešenou činnosťou našich čias, pretože výpočtové technológie umožňujú toľko ďalších vecí – od leteckého a kozmického priemyslu, cez zdravotnú starostlivosť, vedu, právo až po vládu.