"Potencia y Sencillez son la clave del Big Data"

Y potencia y sencillez son también las señas de identidad de Rafal Lukawiecki, Consultor Estratégico y Director de Project Boticelli, reconocido como uno de los máximos conocedores del Big Data y Analytics del momento. Polaco de nacimiento y británico de adopción, Lukawiecki forma parte de la lista de conferenciantes de TI más prestigiosos del mundo y su éxito, quizás, se lo debe no solo sus enormes conocimientos de BI (Business Intelligence) sino a que, al igual que con su otra pasión, la fotografía en blanco y negro, Lukawiecki es capaz de hacer fácil lo difícil, seduciendo a sus audiencias con instantáneas de paisajes imposibles o al compás de millones de filas de datos complejos y gráficos espectaculares. Y es que, como aseguró Lukawiecki en esta entrevista exclusiva realizada para Perspectivas News durante el evento de Big Data y Analytics de Microsoft, "algo que es sencillo de usar, como una cámara de fotos tradicional o como el nuevo Excel 2013, es tremendamente poderoso".

- ¿Qué es Big Data?

Se trata de un nombre extraño porque, habitualmente, cuando hablamos de Big Data nos referimos a datos físicamente grandes, pero en muchos casos esa definición es incorrecta o insuficiente. Además del tamaño o volumen de datos, mucha gente identifica el concepto con la velocidad con la que esos datos se generan, rapidísimo, o con la variedad o procedencia de los mismos, suficientemente importante como para considerarlos complejos. Para mí, sin embargo, Big Data es cualquier dato que es demasiado complejo para ser procesado usando las tecnologías y modelos tradicionales. Lo que hace que Big Data sea realmente Big Data no es tanto su complejidad como la complejidad del problema que se está tratando de resolver, en relación con los datos proporcionados.


Rafal Lukawiecki
Strategic Consultant and Director, Project Botticelli Ltd
projectbotticelli.com

- ¿Cómo ha cambiado Big Data en los últimos 10 años y cómo cambiará, en su opinión, en los próximos 10?

Se trata de la primera vez en la evolución de TI que contamos con una tecnología que permite llevar a cabo el procesado masivamente paralelo de grandes datos de forma práctica y relativamente fácil.

En los últimos 10 años no hemos parado de agregar datos y más datos útiles. Como resultado de ello, quizás con la excepción de las organizaciones líderes mundiales, las empresas, ya fueran grandes industrias o compañías medianas, no fueron capaces de analizar de forma rápida y económica la enorme cantidad de información que generaban hasta aproximadamente 2004-2005, con la pérdida de oportunidades que ello suponía. Es decir, de algún modo, datos grandes siempre han existido, pero su análisis solo era accesible a los denominados científicos de datos de instituciones muy exclusivas, ya que resultaba muy caro. El verdadero avance es que, hoy en día, las empresas ya no tienen por qué ser Bing o Google o Yahoo para ser capaces de analizar sus propios datos, gracias, por ejemplo, a innovaciones como Apache Hadoop, implementada por Microsoft en su tecnología HDInsight. Hoy en día cualquiera puede utilizar HDInsight para Windows Azure sin necesidad de tener que invertir en hardware o en montar un data center, con lo cual, cualquiera es ahora capaz de analizar Big Data a un coste bastante bajo. Es más, estoy convencido de que el coste de estas tecnologías seguirá bajando hasta hacerlas accesibles y económicas para las organizaciones más pequeñas e incluso, más tarde o más temprano, para cualquier individuo.



- Durante su conferencia en el evento Big Data y Analytics organizado por Microsoft, usted ha dicho que el Big data de hoy es el little data del mañana… Da un poco de miedo escuchar eso, ¿no cree?

Bueno, en realidad estaba tratando de compartir con la audiencia algo así como una advertencia acerca de que lo que es complejo hoy, probablemente no lo sea mañana, complejidad que, precisamente, hizo imposible el procesamiento de datos masivos hasta hace muy poco tiempo. En cualquier caso, está claro que nuestra capacidad computacional crece cada día (la conjetura de Moore que dice que doblamos la capacidad de nuestra CPU cada 18 meses, aproximadamente, todavía sigue vigente) y que, probablemente, tecnologías de hoy como Apache Hadoop, quizás no sean ya necesarias en el futuro.



- Volviendo al presente, háblenos más a fondo de la integración de Apache Hadoop y Microsoft.

Creo que es importante para Microsoft tener Hadoop integrado en su plataforma porque, gracias a ello, millones de desarrolladores de Windows a lo ancho y largo del planeta, pueden utilizar sus capacidades y su software actual para analizar los datos. Antes de que Microsoft implementara HDInsight no era nada fácil para un desarrollador de Windows utilizar sus capacidades de Big Data Analytics usando Hadoop. Microsoft ha tenido que aprender a adaptar su software a Linux e incluso reescribir su código. En mi opinión, mientras que eso puede resultar fácil para algunos, en IT generalmente preferimos el camino más sencillo, es decir, que teniendo HDInsight de Microsoft, de repente estamos permitiendo que todo el código tradicional de Windows, escrito en cualquier lenguaje .NET, trabaje como parte del ecosistema Hadoop, independientemente de que sea en un Windows Data Center, en la nube privada o en la nube pública de Azure. Otro aspecto muy interesante de la integración es que Microsoft añade a la solución la característica manejabilidad y familiaridad de Windows, lo cual también es particularmente importante desde la perspectiva de la seguridad y la protección de datos, que no son los puntos más fuertes del nativo Apache Hadoop, mientras que el Directorio Activo sí tiene una amplia aceptación en muchas corporaciones.



- Entonces, ¿cree que la solución de Big Data de Microsoft supone un paso adelante, un avance en el mercado?

La estrategia de Microsoft se basa en poner al usuario en el centro de todo y solo por eso ya es interesante, y también solo por eso se diferencia de muchas otras de la competencia. Como he mencionado antes, Microsoft está haciendo un trabajo muy interesante con HDInsight al integrar Hadoop en su plataforma analítica. La implementación, co-creada con Hortonworks, una de las dos compañías que lanzaron las tecnologías Hadoop, está 100% basada en la solución open source Apache y es compatible con ella. Por ejemplo, HDInsight puede coger datos fácilmente tanto de Hadoop Distributed File System (HDFS) como de SQL Server Database porque usando Microsoft Parallel Data Warehouse 2012 no importa de dónde vengan los datos. La nueva tecnología PolyBase de Microsoft nos permite olvidarnos de cómo se almacenan los resultados de un proceso analítico y acceder a ellos de forma tradicional, como si fueran datos relacionales, haciendo las vidas de los desarrolladores de BI mucho más sencillas, y el proceso entero de construir una solución, mucho más barato y rápido. De forma similar, Microsoft integra el uso de Big Data en Excel 2013 mediante el conector Hive, y hace igualmente sencillo hacer de Hadoop otra fuente de análisis de calidad que puede ser utilizada y consumida por cualquier solución de análisis tradicional usando los mismos cuadros de mando, scorecards, modelos tabulares e incluso los gráficos de burbujas de Power View que hemos estado utilizando con soluciones de BI tradicionales durante algún tiempo. En otras palabras, lo mejor de aproximación de Microsoft a Big Data y Analytics es, precisamente, que hace del Big Data algo sencillo de usar, independientemente de los datos que se procesen, pudiendo tratar datos de cualquier tamaño y de cualquier origen con la ventaja añadida de contar con la simplicidad de herramientas familiares como Excel con el poder del Big Data trabajando por detrás.



- ¿Cuando hablamos de Big Data, hablamos de tecnología o de negocio?

De los dos. Big Data tiene que ver con la tecnología que es capaz de procesar cantidades ingentes de datos complejos; pero si fuera únicamente por eso estaríamos hablando de una disciplina que entra en el dominio de la ciencia y la investigación universitaria. Hoy en día, Big Data aporta valor a aquellos negocios que quieran mejorar objetivos como la rentabilidad o la satisfacción de los clientes o de los propios trabajadores mediante la toma de nuevas, mejores y más rápidas decisiones. Por ejemplo, algunas organizaciones están usando Big Data para obtener resultados acerca de si su marca está mejorando, o por el contrario, está empeorando a consecuencia de las acciones emprendidas. En el pasado, obtener este tipo de información acerca del comportamiento de una marca llevaba un tiempo considerable, meses e incluso más. Ahora, con Big Data podemos obtener resultados de manera casi instantánea: puedes probar una promoción, un nuevo producto, una nueva estrategia de marketing a pequeña escala o cualquier otra cosa y obtener respuestas acerca de su posible impacto positivo o negativo en horas. Eso, a mi juicio, es algo increíble. Todo ello enlaza con la pregunta inicial, es decir, Big Data tiene mucho que ver con el negocio puro y duro, con generar valor, mejorar, innovar, aprender, crecer… eso sí, a través de la magia de la nueva tecnología.



- ¿Entonces Big Data debería ser una prioridad para el CIO o para el CEO?

Esa es una difícil pregunta que tiene que ver con otra cuestión: ¿quién debería ser el responsable de Business Intelligence y Analytics en la empresa? Desafortunadamente, no tengo la respuesta, no todavía. Puedo decirle que en un encuentro con mis clientes, responsables de exitosos proyectos de Business Intelligence, encontré que esos proyectos en muchas ocasiones fueron liderados por alguien de los departamentos financieros de esas empresas, casi siempre, el CFO. Yo creo que esto puede deberse a que ese departamento, en cualquier organización, es uno de los más conectados a las métricas de la empresa. Idealmente, el valor de un proyecto de Big Data debería ser lo suficientemente importante como para no pasar por alto su enorme valor de negocio, y por ello debería estar en el punto de mira de cualquier CEO que quiera mejorar su desarrollo organizativo. En cualquier caso, desde mi punto de vista, a día de hoy esta tecnología no está todavía lo suficientemente madura como para que cualquiera la use sin la ayuda del departamento IT; no en vano, el Big Data, tal como lo conocemos actualmente, solo cuenta con unos pocos años y todavía tiene que madurar para llegar a ser fácil y accesible para usuarios no técnicos. También, por esa misma razón, entiendo que ningún proyecto de Big Data y Analytics puede tener éxito sin una fuerte involucración del CIO.



- En un receso de su conferencia le he visto utilizando una tableta y un smartphone… ¿Es posible gestionar grandes datos en este tipo de dispositivos?

Sí, claro. A mí me encanta usar tecnologías de muchas compañías distintas; supongo que todavía soy un geek (sonríe). Uso constantemente las tecnologías de Microsoft para la parte de Analytics pero, por ejemplo, para muchos de los análisis estadísticos que hago utilizo software open source conocido como R, que funcionan tan bien en sistemas Windows como en Mac. Lo que sí es cierto es que hoy por hoy, nada supera el poder de Excel 2013 en Windows (estoy esperando a ver la versión para Mac) pero si es lo mismo, seguro que seguiré pasando de un sistema a otro y de un dispositivo a otro sin problema. Podemos manejar Big Data en cualquier dispositivo. Lo interesante no es dónde lo hacemos, sino cómo lo hacemos y cómo lo presentamos de una forma visualmente agradable e interesante para conseguir retener el interés del usuario. Hadoop, por ejemplo, no viene con demasiados elementos visualmente excitantes, todavía. En cualquier caso, la mayoría de los dashboard de análisis que pueden ser construidos con SharePoint 2013 funcionan bien incluso en iPads. En este sentido, ahora tenemos Microsoft Power View, una herramienta muy atractiva que cuenta con la visualización de datos más moderna, como mapas interactivos con datos geoespaciales, o diagramas de dispersión animados. Power View puede ser usado en la mayoría de navegadores (Internet Explorer, Firefox, Safari…) en ordenadores de sobremesa y muy pronto Power View también estará disponible para sistemas iOS y dispositivos Surface gracias la aplicación de BI de Microsoft que está por llegar.



-A juzgar por lo que dice, parece que simplicidad y potencia pueden ser la clave de la nueva era del Big Data y Analytics. En este contexto, ¿qué papel juegan el nuevo Excel y PowerPivot?

El poder de la simplicidad es, sin duda alguna, la clave de lo que denominamos Analytics, en particular de Big Data Analytics. Lejos quedan los días en los que los reportes analíticos eran tan sumamente complejos que requerían un analista especializado para entenderlos. A lo largo de los años, los usuarios nos han demostrado que lo quieren todo y lo quieren en Excel. De hecho, yo creo firmemente que Excel se convertirá en la herramienta de reporting más importante en detrimento de los tradicionales reportes estáticos. Esto se debe a que tan pronto como uno ve una respuesta que le interesa, quiere interactuar con ella, cambiarla, hacer preguntas del tipo: "¿y si…?" Y, sobre todo, lo que uno quiere es entender esas respuestas mejor para poder confiar plenamente en ellas y actuar. Todo ello significa que tenemos que simplificar la forma en la que presentamos Analytics. Cualquier persona que ha alcanzado algún éxito en el mundo empresarial conoce Excel. De hecho, el botón más popular en cualquier paquete de software analítico es "Exportar" o "Importar" desde Excel. Por ese motivo estoy realmente feliz de ver que Microsoft ha integrado la tecnología PowerPivot, que permite trabajar tanto con modelos sencillos como complejos de datos, incluso si contienen cientos de millones de filas de datos de forma nativa en Excel 2013. Y es incluso mejor con la integración de Power View en Excel 2013. Todo el mundo sabe ahora el poder de usar esta increíble, rápida y sencilla tecnología sin necesidad de tener que aprender mucho más de lo que ya sabe (si los lectores de Perspectivas News no han tenido la oportunidad de ver cómo trabaja, me atrevo a sugerirles que visiten nuestra web site para ver un vídeo en el que mostramos las cosas increíbles que se pueden hacer con PowerPivot, Power View y Bing Maps, con decenas de millones de filas de datos, y todo en Excel 2013 y en solo 16 minutos.
projectbotticelli.com/knowledge/geospatial-data-exploration-excel-power-view-maps-and-sharepoint-2013-free-video-tutorial

En resumen, lo realmente importante de todo esto es que con Excel 2013 potencia y simplicidad trabajan mano a mano, incluso en los escenarios más complejos, donde, además de Excel, basamos nuestros modelos analíticos en SQL Server Analysis Services para tener seguridad y poder escalar, según las necesidades de cada organización.



- Y en cuanto a la forma de entregar Analytics: on premises, nube pública, nube híbrida…
¿Cuál es la mejor forma en su opinión?


Prefiero la nube híbrida. Entiendo los enormes beneficios económicos que aporta la nube pública, pero también entiendo que no todas las organizaciones quieran o puedan subirse a ella de repente y trasladar todos sus datos a la nube. Por eso el planteamiento híbrido me parece mejor: una parte in house y otra en la nube. En este sentido, creo que el posicionamiento de Microsoft a la nube híbrida es, quizás, único. Sin embargo, para las grandes organizaciones mi recomendación es considerar una nube privada, la cual tiene los beneficios de la nube pública: manejabilidad, capacidad de seguimiento y control de costes, así como flexibilidad, elasticidad y escalabilidad, aunados con la seguridad y el control. Cualquier sistema de Big Data y Analytics puede desarrollarse en cualquiera de estos escenarios, sin embargo, en mi opinión encaja especialmente bien con el sistema de nube híbrida, que integra el análisis de datos en una nube privada on premises con recursos de computación en la nube para los clusters Hadoop, como y cuando sea necesario.

Yo creo que al final todo se moverá a la nube pública, pero no en esta década. Es necesario tiempo para construir la seguridad adecuada y, sobre todo, para beneficiarse de las nuevas formas de escribir software, como por ejemplo, usar Windows Azure como nuevo sistema operativo, pero primero necesitamos aprender para después internalizarlo en las empresas.



- Finalmente, ¿qué hace un artista como usted en un mundo como este? ¿Hay algo en común entre la fotografía en blanco y negro y el Big Data?

Bueno… me hago esa pregunta muchísimas veces (sonríe). Mi amor por la fotografía tradicional en blanco y negro y el mundo del análisis de datos, quizás no es una conexión fácilmente comprensible. Yo soy especialista en fotografiar paisajes, pero lo que realmente más me atrae es la abstracción existente en esos paisajes naturales. Si visita mi página web http://rafal.net , encontrará muchas fotografías cuyo foco tiene que ver, en cierta manera, con un modelo matemático, con formas y modelos que yo veo y extraigo de la naturaleza. Estoy convencido de que la parte de mi mente que me ayuda a ver esos modelos también es la que me ayuda a buscar y encontrar datos en los sistemas de BI. Créame, algunas veces, esos modelos pueden ser realmente bellos e interesantes, y no me refiero solo a los paisajes. Sin duda, la conexión existe.