Big Data Everywhere

Zugegeben: Daten gab es immer schon ein ganze Menge. Im Jahr 1944 sah Fremont Rider von der Wesleyan University, dass sich die Bibliotheken in Amerika alle 16 Jahre verdoppeln und prognostizierte daraus für das Jahr 2040, dass die Bibliothek in Yale 200 Millionen Bücher umfassen wird, die von 6.000 Menschen verwaltet werden. [1]

Das waren Zeiten. Im Jahr 2008 konsumierten die Amerikaner bereits 3,6 Zettabytes an Daten [2]. Unternehmensserver verarbeitete im selben Jahr 10 Millionen Millionen Gigabyte, also 10 Zettabytes [3]. Es war sozusagen angerichtet, als Kenneth Cukier im Februar 2010 im Economist [4] notierte: “…the world contains an unimaginably vast amount of digital information which is getting ever vaster more rapidly… The effect is being felt everywhere, from business to science, from governments to the arts. Scientists and computer engineers have coined a new term for the phenomenon: ‘big data.’”

Big Data betrifft uns alle

Im Mai 2011 veröffentlicht das McKinsey Global Institute einen Report zu Big Data [5], in dem es heißt, dass die Analyse großer Datenmengen (also Big Data) in Zukunft ein Schlüssel zum Erfolg sein wird, weil durch Sie Unternehmen produktiver, innovativer und service-orientierter agieren können: „Leaders in every sector will have to grapple with the implications of big data, not just a few data-oriented managers. The increasing volume and detail of information captured by enterprises, the rise of multimedia, social media, and the Internet of Things will fuel exponential growth in data for the foreseeable future.” Das erklärt die Bedeutung dieses hochkarätigen Events!

Wir sprachen mit Georg Droschl, BI-Spezialist bei Microsoft, der für Sie gerne in einem persönlichen Briefing die Brücke schlägt zwischen Microsoft Business Intelligence Tools und Big Data.

Herr Droschl, warum überhaupt Big Data?

GDroschl: „In den letzten drei Jahren haben wir gleichviel Daten neu erstellt, wie in der gesamten restlichen Menschheitsgeschichte. Und der Großteil der Daten, nämlich 70–80%, liegt heute „unstrukturiert“ vor, was bedeutet, dass diese Daten nicht über klassische relationale Datenbanken zu managen sind. Das verstärkt den Druck auf Unternehmen und IT-Abteilungen, die ohnehin schon stark gefordert sind, weil sie mehr Produktivität mit weniger Budgets erzielen sollen.“

Ist Big Data nicht zu groß für Österreich?

GDroschl: „Mitnichten. Wir können es uns auch in Österreich nicht leisten, die Informationen aus dem Internet und Social Media zu ignorieren. Und dank CLOUD ist es ja so, dass man auch große Dinge wie Big Data sehr einfach ausprobieren kann. Und das in kurzer Zeit. Eine Hadoop- Infrastruktur ist schnell aufgesetzt. Entscheidend dabei ist, dass man Anwendern über ihr Excel Zugriff auf die Daten geben kann. Möglich wird das Hadoop auf Windows Azure in Verbindung mit den Microsoft BI Tools (Excel, SharePoint, SQL Server). Und wenn der „Proof of Concept“ erfolgreich ist, lässt sich das einfach skalieren.“

Es geht also nicht nur darum, was am Back-End oder in der Wolke passiert. Es geht auch darum, was der User davon hat?

GDroschl: „Genau! Wir haben in den letzten Jahren viel in Business Intelligence investiert. Aber noch immer ist mehr als die Hälfte der Anwender von den passenden BI Tools ausgesperrt. Mit Excel und PowerPivot bzw. PowerView machen wir es dem Anwender denkbar leicht, mit Millionen Datensätzen zu jonglieren und neue Sichten auf diese Daten zu erstellen – in einer Geschwindigkeit, die man kaum für möglich hält.“

Warum steht dabei Apache Hadoop im Zentrum?

GDroschl: „Fakt ist, es gibt ein “Open Source Large Distributed Computing Framework“ namens Hadoop, das für die Speicherung und Verarbeitung großer Datenmengen extrem gut geeignet ist. Microsoft steht hinter diesem Framework und integriert es in die Microsoft Applikationsplattform, konkret in SQL Server, für den es sein Mitte 2011 einen Connector gibt. Wichtig ist, dass die Nutzer hier möglichst flexibel sind und Daten, die Hadoop entnommen werden, über die Microsoft Business Intelligence Möglichkeiten in SQL Server ausgewertet werden können. Diese Möglichkeit gibt es direkt in Hadoop nicht. Andererseits gibt es auch die Möglichkeit, Daten in Hadoop zurück zu speichern, um sie dort weiter zu verarbeiten. Das volle Potenzial ergibt sich durch eine Integration mit der Datenbankinfrastruktur im Unternehmen.“

Was bedeutet das für Microsoft Kunden?

GDroschl: „Dass sie das Beste aus beiden Welten – Big Data und relationale Welt – nutzen können. Wenn Hadoop auch auf Azure zur Verfügung steht, haben Kunden beinahe unbegrenzte Skalierungsmöglichkeiten. Heute wird Hadoop z.B. im Bereich Social Media von Unternehmen wie Facebook eingesetzt, wo täglich 15 Terabyte an Daten dazukommen. Aber auch kleinere Unternehmen wie die deutsche 1&1 setzen auf Hadoop und Big Data. Das sind die Speerspitzen, zweifellos, aber in den nächsten Jahren ist aufgrund des enormen Datenwachstums mit einem breiteren Einsatz zu rechnen.“

Danke für das Gespräch und viel Erfolg bei der Konferenz!