Data Insights ist die Zukunft von Big Data

Seit mehr als 20 Jahren Beschäftigen sich die globalen Labs von Microsoft Research mit den unterschiedlichsten Themen im Bereich Informatik. Von Anfang an lag ein Investitionsschwerpunkt des Unternehmens bei bahnbrechenden Entwicklungen auf dem Gebiet der "Machine Intelligence", was auch maschinelles Lernen und Big Data beinhaltete. In diesem Interview äußert sich der angesehene Wissenschaftler Eric Horvitz über Fortschritte auf diesen Gebieten, über ihren Einfluss auf unser künftiges Alltagsleben und darüber, wie Einblicke, die wir aus Big Data gewinnen, und die Entwicklung immer intelligenterer Software dazu beitragen werden, die Welt zu verändern.
In den Microsoft Research-Laboren auf der ganzen Welt beschäftigen sich professionelle Denker mit dem Thema Big Data. Zu ihnen zählt Eric Horvitz, anerkannter Wissenschaftler bei Microsoft und Co-Direktor des Labors von Microsoft Research in Redmont, der kürzlich mit seiner Aufnahme in die National Academy of Engineering für seine Arbeit auf dem Gebiet „Computermechanismen zur Entscheidungsfindung unter Bedingungen der Ungewissheit und begrenzter Ressourcen“ geehrt wurde.
Er stellt sich eine Zukunft vor, in der mit riesigen Datenmengen versorgte Maschinen zu „leistungsfähigen und lebenslangen digitalen Begleitern“ werden, die wissen, was Sie wollen oder brauchen (sei es eine Pizza oder Ihre Medikamente), wohin Sie wollen (sei es Hawaii oder eine möglichst verkehrsarme Streckenführung zum Fußballstadion) oder die ganz allgemein mit einer gewissen Leidenschaft für Sie arbeiten.
Die Erfassung von Daten und ihre Speicherung, Interpretation und Nutzung kann im kleinen und großen Maßstab für neue Einblicke sorgen, was laut Horvitz gleichermaßen für den High-Tech-Bereich wie für alltägliche Lebensbereiche gilt.
„Heutzutage haben auf vielen Gebieten groß angelegte und effektive Datenanalysen eine immer zentralere Bedeutung für die prognostizierende Modellierung, Visualisierung und Aufdeckung.
Das Microsoft News Center konnte vor kurzem mit Horvitz darüber sprechen, wie Microsoft Research (MSR) Zeit und Talente im Bereich Big Data und Machine Intelligence investiert, welche bahnbrechenden Ergebnisse MSR dabei erzielt hat und wie er die Zukunft auf diesen Gebieten sieht.
MNC: Warum gibt es Ihrer Meinung gerade so einen Hype bei Big Data?
Horvitz: Solche Hypes entstehen aus vielerlei Gründen. In diesem Fall führte meiner Meinung nach das Zusammenwirken mehrerer Faktoren zur allgemein gebräuchlichen Verwendung dieses griffigen Ausdrucks. Einer davon ist, dass heute Daten in nie dagewesenen Mengen an den verschiedensten Fronten gesammelt werden und dass es auf dem Gebiet der Informatik große Fortschritte gegeben hat – bei Erfassung, Speicherung und Vernetzung. Große Datenmengen werden zum Teil deshalb gesammelt, weil sich viele menschliche Aktivitäten zunehmend ins Web verlagern, denn erst das hat es möglich gemacht, verschiedenste aktivitätsbezogene Transaktionen und Ereignisse zu sammeln. Dazu zählt alles Mögliche: vom eCommerce über Autos, die über Sensoren in Straßen fahren, über Smartphones, deren Dienste auf Standortdaten zurückgreifen, bis hin zum Gesundheitssektor. Dort haben das explosionsartige Anwachsen der Gentechnik und die wachsende Erfassung klinischer Daten in Krankenhäusern den Datenbanken Gigabytes und Terabytes an Patientendaten beschert – und dabei stehen wir bei der biomedizinischen Informatik erst ganz am Anfang. Auch die Datenspeicherung ist im Vergleich zu früher sehr preiswert geworden. Ich weiß noch, wie wir davon sprachen, dass man eines Tages Terabytes an Daten haben könnte. Heute kann jedes Kind in der Hosentasche Terabytes mit sich herumtragen, die auf kompakten Geräten gespeichert sind. Auf der Rechnerseite gab es Fortschritte bei den Computerprozessen, die wir für zahlreiche interessante Zwecke nutzen – beispielsweise für Prognosemodelle, die wir aus Daten berechnen. Beispielsweise können wir heute anhand von Daten Echtzeitprognosen zu den wechselnden Absichten eines Computerbenutzers machen und die Gesten von Personen erkennen. Aus Patientendaten können wir die Wahrscheinlichkeit vorausberechnen, wann ein Patient nach seiner Entlassung aus dem Krankenhaus wieder eingeliefert werden muss.
MNC: Worin unterscheidet sich die Forschung von Microsoft Research auf dem Gebiet maschinelles Lernen von der anderer Forscher?
Horvitz: Microsoft Research genießt einen guten Ruf als offenes Forschungslabor, wo wir die Freiheit der Forschung fördern und unsere Ergebnisse und Fortschritte veröffentlichen. Das hat die besten und schlauesten Leute angezogen. Die Wissenschaftler bei MSR werden durch einen wahren Strom an interessanten Herausforderungen aus dem realen Leben angetrieben. Sie haben auch Zugang zu großen Datenressourcen – und stehen vor der verführerischen Möglichkeit, ihre besten Ideen in die Hände von Hunderten Millionen von Menschen zu geben. Unsere Fachleute auf dem Gebiet des maschinellen Lernens sind ganz eng in eine große weltweite Forschungsgemeinschaft eingebunden, die sich mit der maschinellen Intelligenz beschäftigt. Neben dem maschinellen Lernen geht es bei dieser Forschung auch um maschinelle Wahrnehmung und automatische Beweisführung und Entscheidungsfindung. Das maschinelle Lernen führt tief in die DNA von Microsoft Research, denn dieses Arbeitsfeld gehörte zu den wenigen Bereichen mit kritischer Priorität, in die wir schon frühzeitig investiert haben.
Heute stellen die Leute, die in unseren Labors das maschinelle Lernen erforschen, eine wesentliche intellektuelle Kraft dar. Dazu zählen Teams von Intellektuellen, die sich sowohl mit den Kernprinzipien beschäftigen als auch mit Anwendungen. Mit dem maschinellen Lernen befassen sich unsere Teams in Redmond, Cambridge, Peking, Bangalore, Silicon Valley, New England und New York City. Zusammen bilden diese Gruppen eine der weltweit größten Initiativen auf dem Gebiet des maschinellen Lernens.
MNC: Auf welche Weise hat die MSR-Forschung beim maschinellen Lernen Einzug in Produkte von Microsoft gehalten?
Horvitz: Zahlreiche Bemühungen haben sich in Produkten und Dienstleistungen von Microsoft niedergeschlagen. Von diesen Erfolgen entspringen viele der engen Zusammenarbeit zwischen MSR und den Leuten aus den Produktteams. Ein Beispiel: Microsoft Research leistete die Hauptarbeit, als es darum ging, das Ranking von Elementen zu verstehen. Diese Arbeit führte zu den Kernmethoden von Bing zum Ranking von Suchergebnissen im Ergebnis von Benutzerabfragen. MSR ist auch für seine Mitarbeit an Vision-Systemen bekannt, also an Maschinen, die sehen und das Gesehene erkennen können, aber auch für seine Beiträge zur Spracherkennung und maschinellen Übersetzung. Wenn Sie die Sprachsuche von Bing oder die Übersetzungsfunktion von Bing verwenden, nutzen Sie grundlegende Erkenntnisse von MSR auf dem Gebiet des maschinellen Lernens.
Unser Team in Cambridge ist für seine Methoden berühmt, die verstehen können, wie ein Bild aufgenommen wird, und es auch segmentieren und kategorisieren können. Diese wertvolle und innovative Arbeit war entscheidend für Kinect, das Personen und ihre Gesten in einem Raum erkennen kann.
MSR hat auch tolle Ergebnisse bei angewandter Forschung auf dem Gebiet der biomedizinischen Informatik und in anderen Bereichen des klinischen Gesundheitswesens vorzuweisen. Im Labor in Redmond haben wir uns intensiv mit der Zusammenführung und Nutzung der riesigen Mengen an klinischen Daten beschäftigt, die heute in Krankenhäusern entstehen, und wie sich diese zur Entwicklung von Prognosemodellen einsetzen lassen, mit denen sich die Entscheidungsfindung in Krankenhäusern erleichtern lässt. Diese Systeme sind momentan schon in Krankenhäusern im Einsatz, wo sie die Patientenbetreuung verbessern. Weitere Anwendungen sind Bing Maps und Bing Directions, die bereits für 72 Großstädte in Nordamerika Routenvorschläge entsprechend dem aktuellen Verkehrsaufkommen anbieten können. Bei Bing Directions werden von MSR entwickelte Verfahren genutzt, mit denen historische Verkehrsdaten ausgewertet werden, um den Echtzeitverkehrsfluss auf allen Straßen in einer Großstadtregion vorherzusagen. Das maschinelle Lernen hat sogar tief im Inneren des Windows-Betriebssystems Einzug gehalten. MSR hat gemeinsam mit Windows ein Echtzeit-Prefetching-System entwickelt, das bereits in Windows 7 und Windows 8 genutzt wird. Windows lernt damit aus den Aktivitätsmustern seiner Benutzer und trifft Vorhersagen zu möglichen nächsten Aktionen – wodurch das Betriebssystem noch schneller wird.
MNC: Welche Ziele hat diese umfangreiche Forschung auf dem Gebiet Machine Intelligence?
Horvitz: Die Richtungen und Ziele sind vielfältig, von der weiteren Erkundung der Grundlagen des maschinellen Lernens bis hin zum Verstehen, wie sich bestimmte Datenklassen am besten verarbeiten und bestimmte Aufgaben am besten erledigen lassen. Wir arbeiten auch an der Entwicklung noch effizienterer und leistungsstärkerer Tools für die praktische Umsetzung des maschinellen Lernens. Auf diesem Gebiet haben wir bereits Tools und Verfahren erforscht und entwickelt, mit denen auch Nicht-Experten oder Halb-Experten erfolgreich eigene Prognosemodelle und Datenanalysen durchführen können. Das ist eine extrem interessante Herausforderung: diese enorme Kraft in die Hände des Endanwenders zu geben. Bisher konnten derart leistungsstarke Analysen nur von Experten für maschinelles Lernen und Statistiker durchgeführt werden.
MNC: Das hört sich nach einer enormen Herausforderung an. Wo setzen Sie an, wenn es darum geht, maschinelle Intelligenz für die Massen verfügbar zu machen?
Horvitz: Auf dem Gebiet des maschinellen Lernens wurden zahlreiche algorithmische Verfahren entwickelt. Jedes dieser Verfahren verfügt zumeist über Hebel und Stellschrauben, mit denen sich die Verfahren auf die verfügbaren Daten und Aufgaben abstimmen lassen. So stellt sich die Frage, welches Verfahren sich am besten für eine bestimmte Datenmenge und eine bestimmte Lernaufgabe eignet. Weitere Herausforderungen sind das Bereinigen, Aufbereiten und Anonymisieren der Rohdaten, damit diese einfach verarbeitet und analysiert werden können. Das maschinelle Lernen birgt viele Gefahrenzonen in sich, und neuartige Tools können es den Menschen leichter machen, was genau sie erfahren wollen und wie sich die Genauigkeit der Vorhersagen überprüfen lässt, die sie mit den von ihnen erstellten Modellen erzeugt haben. Und dann gibt es noch die Entscheidungsfindung. Dabei geht es darum, wie sich in der rein auf Prognosen beruhenden Welt Aktionen und Richtlinien umsetzen lassen. Wir arbeiten da gerade an der Entwicklung neuartiger Tools zur Steuerung von Datensammlung, -analyse und -prüfung, die auch Endanwendern wichtige Einblicke in Sachen Visualisierung und Entscheidungsfindung verschaffen.
MNC: Was gibt es sonst noch für Hürden in der Welt des maschinellen Lernens?
Horvitz: Eine Herausforderung, mit der wir uns beschäftigen, sind Maschinen, die menschliche Umgangssprache verstehen und sogar übersetzen können. Da haben manchmal schon geringe Genauigkeitszuwächse große Auswirkungen auf die Kompetenz des gesamten Systems. Vor kurzem erst hat Rick Rashid (MSR Chief Research Officer) vor einem großen Publikum in Tianjin, China, vorgeführt, wie die Echtzeitübersetzung von Englisch ins Mandarin-Chinesisch funktioniert. Er hat frei gesprochen und seine Worte wurden übersetzt und in seiner eigenen Stimmlage wiedergegeben – er hat also Mandarin in Echtzeit gesprochen. Diese Übersetzungs-Pipeline beruhte auf verschiedenen Technologien, aber die wohl herausragendste und überraschendste Innovation war ein erstaunlicher Genauigkeitsanstieg bei der Spracherkennung für Umgangssprache. Das alles wurde erst in den letzten paar Jahren entwickelt und war das Ergebnis der Forschungs- und Experimentalarbeit von MSR bei neuen Richtungen im maschinellen Lernen.
MNC: Auf welche Aspekte bei Big Data wird sich Microsoft Research konzentrieren?
Horvitz: Da gibt es so viele interessante und Erfolg versprechende Richtungen. Das ist wirklich ein ganz spannendes Gebiet – und wir leben in einer spannenden Zeit. Für die fernere Zukunft erwarte ich, dass das maschinelle Lernen und die Machine Intelligence im Allgemeinen uns grundlegend neue Tools für die wissenschaftliche Forschung verschaffen werden und dass wir noch zahlreiche bahnbrechende Innovationen in den nächsten Jahrzehnten erleben werden, die sich aus der Zusammenarbeit zwischen Mensch und den Tools für maschinelles Lernen und maschinelle Beweisführung ergeben. Wir werden aus riesigen Datenmengen völlig neue Dinge lernen können. So werden wir wohl dank automatisierter Lerntools, von denen einige Kausalität erkennen können, also dass A zu B führt, einigen Mysterien des Gesundheitswesens auf den Grund gehen können.
Eine andere Richtung ist die weitere Verflechtung verschiedener Technologien – maschinelles Lernen, Spracherkennung, Verstehen natürlicher Sprache, maschinelles Sehvermögen und maschinelle Entscheidungsfindung – zu Systemen, die wie schlaue Kollegen funktionieren und den menschlichen Intellekt auf vielfältige Weise ergänzen können.
An einer anderen Front gibt es riesige Möglichkeiten für neuartige Such- und Abrufabläufe im Web. Wir nutzen auch neue Anwendungswege des maschinellen Lernens, um Signale aus riesigen Mengen an Bevölkerungsdaten herauszufiltern. So haben wir erst kürzlich eine Methode entwickelt, mit der sich aus anonymisierten Suchprotokollen Rückschlüsse auf Nebeneffekte von Medikamenten ziehen lassen. Ich bin davon überzeugt, dass datenorientierte Methoden die Welt in so vielfältiger Weise ändern werden, was Auswirkungen auf Medizin, Bildung, Wissenschaft und Wirtschaft haben wird.
MNC: Spielen Sie einmal ein bisschen Jules Verne. Was könnte all diese Forschung für die Zukunft bedeuten?
Horvitz: Wenn ich mir die Zukunft vorstelle, dann sehe ich die Möglichkeit, Systeme zu entwickeln, die zu leistungsfähigen und lebenslangen digitalen Begleitern werden. Diese werden wirklich verstehen, was Sie machen möchten, wohin Sie wollen und was Sie erfahren möchten. Aber auch, was Sie machen müssen, um gesund zu bleiben, in was Sie gut und in was Sie weniger gut sind. Und sie werden in Ihrem Auftrag dafür zuständig sein, Sie zu unterstützen und zu ergänzen. Die Arbeit an verschiedenen Fronten lässt bereits erahnen, welche großen Möglichkeiten sich da eröffnen.
MNC: Wie sind Sie eigentlich in dieses Sachgebiet geraten?
Horvitz: Ich interessierte mich schon seit langem dafür, wie der menschliche Geist funktioniert, und meine Neugierde führte mich von der Biologie über die Physik in die Welt der Informationen und Computer. Zusätzlich zu diesem grundsätzlichen Streben fand ich es im Laufe der Jahre auch immer spannender, die Prinzipien des Lernens und der Entscheidungsfindung auf Alltagsanwendungen zu übertragen, die wirkliche Werte erzeugen – und doch irgendwie mit den großen Fragen im Zusammenhang mit denkenden Systemen zu tun haben. Es war für mich immer fantastisch, mit so wunderbaren Kollegen an Prinzipien und Anwendungen forschen zu dürfen. Und wir alle bei Microsoft Research träumen von diesem verführerischen „Hebel“ – mit einem Angelpunkt am Horizont. Unsere nächste Innovation oder Idee könnte vielleicht tatsächlich den Planeten verändern – über die Einflussnahme auf die Produkte und Dienstleistungen von Microsoft.
MNC: Und das vielleicht mit nur einem Tag Arbeitsaufwand, oder?
Horvitz: [Lacht] Genau! Aber ich meine das im Ernst, wir albern nicht nur herum.
MNC: Vom Harvard Business Review wurde der Informatiker zum „New Sexiest Job“ erklärt.
Horvitz: Das ist toll. Denn man kann ja sagen, dass die Informatik und andere technische Fachgebiete in den letzten Jahren darunter gelitten haben, dass junge Leute bei ihrer Suche nach „großen Aufgaben“ eher an Gebiete wie die Medizin und die Justiz gedacht haben. Ich glaube, dass die Computerwissenschaften die „großen Aufgaben“ unserer Zeit bieten, weil erst dadurch so viele andere Sachen möglich werden, ganz egal ob Raumfahrt, Medizin, Wissenschaft, Justiz oder Verwaltung.