Haga clic aquí para instalar Silverlight*
LatinoaméricaCambiar|Todos los sitios de Microsoft
Microsoft TechNet
|Suscríbase|Descarga|Contáctenos|Simplified

Introducción a SQL Server 2005 Integration Services

Publicado: mayo 1, aaaa

Este artículo trata los desafíos que enfrentan las empresas que confían en tecnologías de integración de datos para proporcionar información con sentido y confiable a fin de mantener una ventaja competitiva en el mundo de los negocios actual. Describe la manera en la que SQL Server 2005 Integration Services (SSIS) puede ayudar a los departamentos de tecnología de la información a cumplir con los requisitos de integración de datos de sus empresas. Se incluyen escenarios reales.

*
En esta página
IntroducciónIntroducción
Desafíos de la integración de datosDesafíos de la integración de datos
SQL Server 2005 Integration ServicesSQL Server 2005 Integration Services
Integración de datos más accesibleIntegración de datos más accesible

Introducción

La capacidad de transformar datos corporativos en información con sentido y que se pueda procesar es la ventaja competititva más importante del mundo de los negocios actual. Controlar la explosión de datos para entender mejor el pasado y prepararse para el futuro se ha convertido en uno de los mayores desafíos de los departamentos de tecnologías de la información de las organizaciones internacionales Hay tres amplias categorías de temas relacionados con la integración de datos:

Desafíos tecnológicos

Problemas de organización

Desafíos económicos

En este artículo, exploraremos estos desafíos de forma detallada y trataremos la manera de abordarlos con Microsoft® SQL Server™ 2005 Integration Services (SSIS). Primero, veámoslos en el contexto de un escenario real.

Escenario real

Una empresa internacional de transporte usa su almacén de datos para analizar el rendimiento de sus operaciones y para predecir variaciones en las entregas programadas.

Orígenes de datos

Los principales orígenes de datos de esta empresa son: datos sobre pedidos del sistema de entrada de pedidos basado en DB2, datos de clientes del sistema de administración de las relaciones con el cliente (CRM) basado en SQL Server y datos de proveedores del sistema ERP basado en Oracle. Además de los datos de estos sistemas principales, se incorporan al almacén de datos aquéllos procedentes de las hojas de cálculo de seguimiento de eventos “extraordinarios”, que escribieron manualmente los supervisores de envíos. En la actualidad, los datos externos, como información del tiempo, estado del tráfico y detalles de los proveedores (para entregas subcontratadas), se incorporan con retraso desde archivos de texto de varios orígenes.

Consumo de datos

No sólo los orígenes de estos datos son diversos; los consumidores también lo son, en cuanto a sus requisitos y a su ubicación geográfica. Esta diversidad fue la causa de la proliferación de sistemas locales. Uno de los mayores esfuerzos para el departamento de tecnología de la información consiste en establecer una “única versión de la verdad”, al menos para los datos de sus clientes.

Requisitos de integración de datos

Si tenemos en cuenta esta diversidad de datos, de necesidades empresariales y de requisitos de los usuarios, el departamento de tecnología de la información ha especificado el siguiente conjunto de requisitos de integración de datos:

Deben proporcionar datos históricos y actuales, que sean confiables y coherentes, integrados de distintos orígenes, tanto internos como externos.

Los datos de los proveedores deben estar disponibles a través de servicios Web o de algún otro mecanismo directo, como FTP, para reducir los retrasos en su adquisición.

Necesitan limpiar y eliminar datos duplicados y exigir la calidad de los datos.

Las exigencias cada vez mayores de las disposiciones legales internacionales requieren que la empresa mantenga pistas de auditorías transparentes. Mantener datos confiables no es suficiente; se debe poder realizar un seguimiento de los datos y certificarlos.

Desafíos de la integración de datos

En un nivel, el problema de la integración de datos en nuestro escenario real es extraordinariamente simple. Obtener datos de distintos orígenes, limpiar y transformar los datos, y cargarlos en almacenes que permitan su análisis y la creación de informes. Desafortunadamente, en un almacén de datos o en un proyecto de inteligencia empresarial típicos, las empresas emplean del 60 al 80% de los recursos disponibles en la etapa de integración de datos. ¿Qué problema plantea esto?

Desafíos tecnológicos

Los desafíos tecnológicos comienzan con los sistemas de origen. Pasamos de recopilar datos sobre las transacciones (en las que los clientes se comprometen a obtener, comprar o adquirir algo) a recopilar datos sobre transacciones preliminares (en las que se realiza un seguimiento de las intenciones de los clientes mediante mecanismos como clics en Web o RFID). Los datos ahora no sólo se adquieren mediante los recursos y formatos tradicionales, como bases de datos y archivos de texto, sino que cada vez más están disponibles en una variedad de formatos distintos (como archivos de propietario, documentos de Microsoft Office y archivos basados en XML) y de orígenes basados en Internet, como servicios Web y secuencias de RSS (Really Simple Syndication). Los desafíos más pertinentes son:

Diversos orígenes con formatos diferentes.

Datos estructurados, semiestructurados y sin estructura.

Suministros de datos de sistemas de origen que llegan en distintos momentos.

Grandes volúmenes de datos.

En un mundo ideal, aunque logremos tener todos los datos que necesitamos en un lugar, comienzan a surgir nuevos desafíos, incluso:

Calidad de los datos.

Comprender los diferentes formatos de los datos.

Transformar los datos en un formato que tenga sentido para los analistas empresariales.

Supongamos que, como por arte de magia, podemos obtener todos los datos necesarios y que podemos limpiarlos, transformarlos y asignarles un formato útil. Todavía queda otro cambio respecto del movimiento y la integración de datos tradicionales. El cambio consiste en pasar de procesos por lotes fijos y largos a procesos a petición fluidos y más cortos. Los procesos por lotes, por lo general, se llevan a cabo durante “tiempos de inactividad”, cuando los usuarios no imponen fuertes exigencias al sistema. Esto suele suceder por la noche, en una ventana predefinida de lotes de 6 a 8 horas, cuando, por lo general, no hay nadie en la oficina. Debido a la creciente globalización de las empresas de todos los tipos y tamaños, esto ya no es así. Hay muy poco tiempo de inactividad (si es que hay), y siempre hay alguien en la oficina en algún lugar del mundo. El sol ya no se pone en la empresa global.

Como resultado tenemos:

Cada vez más presión para cargar los datos de la forma más rápida posible.

La necesidad de cargar diversos destinos al mismo tiempo.

Diversos destinos.

No sólo tenemos que hacer todo esto, sino que debemos hacerlo lo más rápido posible. En casos extremos, como el de las empresas en línea, los datos deben integrarse continuamente. No hay ventanas de lotes reales y las latencias no pueden durar más que minutos. En muchos de estos escenarios, el proceso de toma de decisiones se automatiza con un software que se ejecuta continuamente.

La escalabilidad y el rendimiento son cada vez más importantes a medida que nos enfrentamos con necesidades empresariales que no admiten tiempos de inactividad.

Sin la tecnología adecuada, los sistemas requieren almacenamiento provisional en casi todos los pasos del proceso de almacenamiento e integración. A medida que en el proceso ETL (extracción, transformación y carga) se deben incluir diferentes orígenes de datos (especialmente los que no son estándar) y sobre los datos se deben realizar operaciones de mayor complejidad (como la minería de datos y texto), aumenta la necesidad de almacenar de forma provisional los datos. Como se muestra en la figura 1, con un mayor almacenamiento provisional, también aumenta el tiempo necesario para “cerrar el bucle” (es decir, analizar y adoptar medidas para los nuevos datos). Estas arquitecturas ETL tradicionales (en contraposición a los procesos ETL con valor agregado que se desarrollan antes de la carga) imponen serias restricciones sobre la capacidad de respuesta de los sistemas frente a las nuevas necesidades empresariales.

Figura 1

Figura 1

Por último, la pregunta sobre cómo se adapta la integración de datos a la arquitectura de integración general de la organización es cada vez más importante en un momento en que, tanto la tecnología transaccional de integración de las aplicaciones en tiempo real, como el mundo de la tecnología de integración de datos en gran volumen y por lotes son necesarios para resolver los problemas empresariales.

Desafíos de organización

Hay dos grandes problemas respecto de la integración de datos en una gran organización: la “energía” y la “zona de comodidad”.

Desafío de la energía: Los datos son energía y, en general, es muy difícil lograr que la gente considere los datos un activo compartido valioso de la empresa. Para que la integración de los datos de la empresa se realice correctamente, todos los responsables de los diversos orígenes de datos tienen que aceptar sin condicionamientos el propósito y la dirección del proyecto. La falta de cooperación entre las partes pertinentes es una de las principales razones del fracaso de los proyectos de integración de datos. El patrocinio ejecutivo, la creación de consenso y un fuerte equipo de integración de datos con varios participantes son algunos de los factores críticos necesarios para el éxito que pueden ayudar a resolver los problemas.

Desafío de la zona de comodidad: Los problemas de integración de datos, cuando se analizan en el contexto de una necesidad aislada, se pueden resolver de varias maneras. Alrededor del 60% de la integración de datos se resuelve mediante la codificación manual. La tecnología que se utiliza para resolver problemas similares puede ir desde réplica, ETL, SQL hasta EAI. La gente siempre recurre a la tecnología que conoce. A pesar de que estos enfoques tienen capacidades que se superponen y que tal vez puedan hacer el trabajo en casos aislados, estas tecnologías se optimizan para resolver diferentes grupos de problemas. Cuando se intenta resolver el problema de la integración de datos de una empresa, la falta de una arquitectura sólida con opciones tecnológicas adecuadas puede terminar siendo la receta para el fracaso.

Desafíos económicos

Los problemas de organización y de tecnología descritos anteriormente conspiran para hacer que la integración de datos sea la parte más costosa de cualquier almacén de datos o proyecto de inteligencia empresarial. Los factores principales que contribuyen al costo de la integración de datos son:

La minería de datos en el formato necesario para la integración termina siendo un proceso lento y tortuoso, lleno de juegos de poder en la organización.

La limpieza de los datos de diversos orígenes y su asignación a un formato coherente y con sentido es extraordinariamente difícil.

En general, la funcionalidad o la extensibilidad que ofrecen las herramientas estándar de integración de datos no es suficiente para satisfacer los requisitos de transformación de datos del proyecto. Esto puede tener como resultado el gasto de grandes cantidades de dinero en costos de consultoría para desarrollar un código ETL especial para llevar a cabo el trabajo.

Diferentes sectores de la organización se concentran en el problema de integración de datos en silos.

Cuando se necesita juntarlos, se incurre en gastos adicionales para adaptar estos esfuerzos a una arquitectura de integración de datos para toda la empresa.

A medida que aumentan las necesidades de almacenamiento de datos y de inteligencia empresarial de la organización, resulta cada vez más difícil mantener una arquitectura de integración de datos defectuosa, y el costo total de propiedad se dispara.

SQL Server 2005 Integration Services

La integración de datos centrada en el ETL tradicional de orígenes de datos estándar sigue siendo el centro de la mayoría de los almacenes de datos. Sin embargo, las exigencias para que se incluyan orígenes de datos más diversos, los requisitos de las disposiciones legales y las operaciones globales y en línea se están transformando rápidamente en los requisitos tradicionales para la integración de datos. En este paisaje que cambia y crece rápidamente, la necesidad de extraer valor de los datos y la necesidad de poder confiar en ellos es más importante que nunca. La integración de datos efectiva se ha convertido en la base para la toma de decisiones efectiva. SQL Server Integration Services proporciona una arquitectura flexible, rápida y escalable que permite una integración de datos efectiva en los entornos empresariales actuales.

En este artículo examinaremos por qué SQL Server Integration Services (SSIS) es un conjunto de herramientas efectivo, tanto para las exigencias de las operaciones ETL tradicionales, como para las necesidades de integración de datos para propósitos generales en continua evolución. También trataremos las diferencias fundamentales de SSIS frente a las herramientas y las soluciones que proporcionan los principales proveedores de ETL para que se adapte de forma ideal a fin de satisfacer las exigencias cambiantes de las empresas internacionales, desde la más grande hasta la más pequeña.

Arquitectura SSIS

Motor de flujo de tareas y de flujo de datos

SSIS tiene un motor de flujo de tareas orientadas a las operaciones y un motor de flujo de datos escalable y rápido. El flujo de datos existe en el contexto de un flujo de tareas general. El motor de flujo de tareas es el que proporciona la compatibilidad operativa y de recurso en tiempo de ejecución para el motor de flujo de datos. Esta combinación de flujo de tareas y flujo de datos permite que SSIS sea efectivo en escenarios tradicionales de ETL o de almacén de datos (DW), así como en muchos otros escenarios ampliados, como operaciones de centro de datos. En este artículo nos concentraremos principalmente en los escenarios relacionados con el flujo de datos. El uso de SSIS para el flujo de trabajo orientado a centro de datos es un tema aparte.

Arquitectura de canalización

En el centro de SSIS, se encuentra la canalización de transformación de datos. Esta canalización tiene una arquitectura orientada al búfer, que es extremadamente rápida para manipular conjuntos de filas de datos una vez que se cargan en la memoria. El enfoque tiene como objetivo realizar todos los pasos para la transformación de datos del proceso ETL en una única operación sin almacenar de forma povisional los datos, a pesar de que los requisitos específicos operativos o de transformación, o el hardware en sí, puedan ser un obstáculo. No obstante, para obtener el máximo rendimiento, la arquitectura evita el almacenamiento provisional. Incluso se evita, dentro de lo posible, copiar los datos en la memoria. Esto se opone a las herramientas ETL tradicionales, que suelen requerir almacenamiento provisional en casi todos los pasos del proceso de almacenamiento e integración. La capacidad de manipular datos sin almacenamiento provisional va más allá de los datos de archivos relacionales y sin formato tradicionales, y de las capacidades de transformación ETL tradicionales. Con SSIS, todos los tipos de datos (estructurados, sin estructura, XML, etc.) se convierten en una estructura tabular (columnas y filas) antes de cargarse en sus búferes. Cualquier operación de datos que se pueda aplicar a datos tabulares, también se puede aplicar a los datos en cualquier paso de la canalización del flujo de datos. Esto significa que una única canalización del flujo de datos puede integrar diversos orígenes de datos y realizar operaciones complejas de forma arbitraria sobre estos datos, sin tener que almacenar de forma provisional los datos.

Sin embargo, también debe advertirse que si se requiere almacenamiento provisional por razones empresariales u operativas, SSIS también admite estas implementaciones.

Esta arquitectura permite usar SSIS en varios escenarios de integración de datos, desde ETL tradicional orientado a DW hasta tecnologías de integración de información no tradicionales.

Escenarios de integración

SSIS para la carga tradicional de DW

En su parte esencial, SSIS es una herramienta ETL integral y totalmente funcional. Su funcionalidad, escala y rendimiento se comparan de manera muy favorable con competidores superiores en el mercado, a una fracción de su costo. La arquitectura de canalización de integración de datos permite consumir datos desde diversos orígenes simultáneos, realizar diversas transformaciones complejas y llevar los datos a diversos destinos simultáneos. Esta arquitectura permite usar SSIS no sólo para conjuntos de datos de gran tamaño, sino también para flujos de datos complejos. A medida que los datos fluyen desde los orígenes hacia los destinos, la secuencia de datos se puede dividir, fusionar, combinar con otras secuencias de datos y manipular de distintas maneras. La figura 2 muestra un ejemplo del flujo:

SSIS puede consumir datos desde una variedad de orígenes (y llevar datos hacia ellos) como OLE DB, (ADO.NET) administrados, ODBC, archivos sin formato, Excel y XML mediante un conjunto de componentes especializados denominados adaptadores. SSIS incluso puede consumir datos de adaptadores de datos personalizados (desarrollados dentro de la empresa o por terceros). Esto permite el ajuste de la lógica de carga de datos heredados en un origen de datos que se pueda consumir de manera uniforme en el flujo de datos de SSIS. SSIS incluye un eficaz conjunto de componentes de transformación de datos que permiten manipular datos esenciales para construir almacenes de datos. Estos componentes de transformación incluyen:

Agregar Realiza diversos agregados en un único paso.

Ordenar Ordena los datos del flujo.

Buscar Realiza operaciones flexibles de búsqueda en caché para hacer referencia a los conjuntos de datos.

Rotar filas en columnas y Rotar columnas en filas Dos transformaciones que hacen exactamente lo que sugieren sus nombres.

Combinar, Combinar unir y Unir todos Pueden realizar operaciones de unión y combinación.

Columna derivada Realiza manipulaciones en el nivel de las columnas, como operaciones de cadenas, numéricas, fecha/hora, etc., y traducciones de páginas de código. Este componente único ajusta lo que otros fabricantes podrían separar en muchas transformaciones diferentes.

Conversión de datos Convierte datos entre varios tipos (numéricos, cadenas, etc.).

Auditar Agrega columnas con metadatos de linaje y otros datos de auditoría operativa.

Además de estas transformaciones de almacenamiento de datos centrales, SSIS también admite necesidades avanzadas de almacenamiento de datos como Slowly Changing Dimensions (SCD). El asistente para SCD en SSIS guía a los usuarios mediante la especificación de sus requisitos para administrar dimensiones que cambian lentamente y, según los datos proporcionados, genera un completo flujo de datos con diversas transformaciones para implementar la carga de dimensiones que cambian lentamente. Incluye compatibilidad con SCD estándar tipo 1 y tipo 2, junto con 2 nuevos tipos de SCD, Fixed Attributes (Atributos fijos) e Inferred Members (Miembros inferidos). La figura 3 muestra una página del asistente para SCD.

La figura 4 muestra el flujo de datos generado por el asistente.

SSIS también se puede usar para cargar cachés de OLAP multidimensionales (MOLAP) de Analysis Services directamente desde la canalización de flujos de datos. Esto significa que SSIS no sólo puede utilizarse para crear almacenes de datos relacionales, sino también para cargar cubos multidimensionales para aplicaciones analíticas.

SSIS y la calidad de los datos

Una de las características clave de SSIS es su capacidad para integrar datos y, además, para integrar diferentes tecnologías para la manipulación de datos. Esto permitió a SSIS incluir la “lógica difusa” de última tecnología basada en componentes de limpieza de datos. Estos componentes se desarrollaron en los laboratorios de Microsoft Research y representan la última investigación en esta área. El enfoque elegido es el de dominio independiente y no depende de ningún dato de dominio específico, como los datos de referencia de dirección o código postal. Esto permite utilizar estas transformaciones para limpiar la mayoría de los tipos de datos y no sólo los de dirección.

SSIS está profundamente integrado en la funcionalidad de minería de datos de Analysis Services. La minería de datos resume los patrones en un conjunto de datos y los encapsula en un modelo de minería. Este modelo de minería, entre otras cosas, puede utilizarse para realizar predicciones sobre qué datos corresponden a un conjunto de datos y qué datos pueden ser incorrectos, lo que permite utilizar la minería de datos como una herramienta para implementar la calidad de los datos. La compatibilidad con el enrutamiento de datos complejos en SSIS permite no sólo identificar datos incorrectos, sino también corregirlos y reemplazarlos automáticamente por mejores valores. Esto permite la existencia de escenarios de limpieza de “bucle cerrado”. La figura 5 muestra un ejemplo del flujo de datos de limpieza de bucle cerrado:

Además de sus características integradas de calidad de datos, SSIS puede ampliarse para trabajar junto con soluciones de limpieza de datos de terceros.

Aplicación de SSIS más allá del escenario ETL tradicional

La capacidad de la canalización de flujo de datos para manipular casi todos los tipos de datos, la profunda integración con Analysis Services, la compatibilidad de ampliación mediante una gran variedad de tecnologías de manipulación de datos y la inclusión de un motor de flujo de trabajo enriquecido permite utilizar SSIS en muchos escenarios que no están pensados tradicionalmente como ETL

Arquitectura orientada a servicios

SSIS admite el origen de datos XML en la canalización de flujo de datos, incluso los datos de los archivos del disco y de las direcciones URL a través de HTTP. Los datos XML se “fragmentan” en datos tabulares, que pueden manipularse fácilmente en el flujo de datos. Esta compatibilidad con XML puede funcionar con la compatibilidad con servicios Web. SSIS puede interactuar con servicios Web en el flujo de control para capturar datos XML.

El código XML también se puede capturar desde los archivos, desde Microsoft Message Queuing (MSMQ) y por Web a través de HTTP. SSIS permite la manipulación de XML con XSLT, XPATH, diff/merge, etc., y también puede conducir el código XML al flujo de datos.

Esta compatibilidad permite que SSIS participe en arquitecturas orientadas a servicios (SOA) flexibles.

Minería de datos y de texto

SSIS, además de integrarse profundamente con las características de minería de datos de Analysis Services, también tiene componentes de minería de texto. La minería de texto (también denominada clasificación de texto) consiste en identificar la relación existente entre categorías de empresas y los datos de texto (palabras y frases). Esto permite descubrir términos clave en los datos de texto y utilizarlos para identificar, de forma automática, texto que resulte “interesante”. A su vez, esto puede impulsar acciones de “bucle cerrado” para lograr objetivos empresariales, como aumentar la satisfacción del cliente o la calidad de los productos y los servicios.

Origen de datos a petición

Una de las características más destacadas de SSIS es el destino DataReader, que lleva datos a un objeto DataReader de ADO.NET. Cuando este componente se incluye en una canalización de flujo de datos, el paquete que contiene el destino de DataReader se puede utilizar como origen de datos, expuesto como un objeto DataReader de ADO.NET. Esto hace que SSIS se use no sólo como una herramienta ETL tradicional para cargar almacenes de datos, sino también como un origen de datos que puede ofrecer datos integrados, organizados y limpios de diversos orígenes a petición. Por ejemplo, esto podría utilizarse para permitir que Reporting Services consuma datos de diversos orígenes de datos mediante un paquete SSIS como su origen.

Un posible escenario que integre todo esto consiste en identificar y ofrecer artículos interesantes de comentarios RSS como parte de un informe regular. La figura 6 muestra un paquete SSIS que origina datos de comentarios RSS por Internet, los integra con datos de un servicio Web, ejecuta la minería de textos para encontrar artículos interesantes en los comentarios RSS y lleva los artículos interesantes a un destino DataReader para que, por último, se utilicen en un informe de Reporting Services.

La figura 7 muestra el uso del paquete SSIS como origen de datos en el asistente para informes.

Desde la perspectiva de una herramienta ETL, este escenario es muy poco común porque realmente no hay extracción, transformación ni carga de datos.

SSIS, la plataforma de integración

SSIS es más que una herramienta ETL, ya que no sólo permite escenarios no tradicionales, sino también porque es una verdadera plataforma para la integración de datos. SSIS es parte de la plataforma Business Intelligence (BI) de SQL Server, que permite el desarrollo de aplicaciones de inteligencia empresarial de extremo a extremo.

Plataforma de desarrollo integrada

SQL Server Integration Services, Analysis Services y Reporting Services usan un entorno de desarrollo común basado en Visual Studio® llamado SQL Server Business Intelligence (BI) Development Studio. Business Intelligence Development Studio proporciona un entorno de desarrollo integrado (IDE) para aplicaciones de inteligencia empresarial. Esta infraestructura compartida permite la integración en el nivel de los metadatos entre varios proyectos de desarrollo (integración, análisis y creación de informes). Un ejemplo de esta construcción compartida es Data Source View (DSV), que es una definición de esquemas/vistas de orígenes de datos sin conexión, y lo utilizan los tres tipos de proyectos de inteligencia empresarial.

Este IDE proporciona funciones tales como la integración con el software de control de versión (por ejemplo, VSS), junto con la compatibilidad para características basadas en equipos, como “proteger/desproteger” y, como tal, satisface la necesidad de tener un entorno de desarrollo empresarial orientado a equipos para las aplicaciones de inteligencia empresarial. La figura 8 muestra una solución de BI Development Studio que consiste en proyectos de integración, análisis y creación de informes.

No sólo proporciona un único lugar para desarrollar aplicaciones de inteligencia empresarial, sino que también se puede usar para desarrollar otros proyectos de Visual Studio (con Visual C#®, Visual Basic® .NET, etc.) y, por lo tanto, puede ofrecer a los desarrolladores una verdadera experiencia de desarrollo de extremo a extremo.

Además de un entorno de desarrollo de inteligencia empresarial integrado, BI Development Studio tiene características que permiten la depuración de paquetes SSIS en tiempo de ejecución real. Éstas incluyen la capacidad de establecer puntos de interrupción y admitir construcciones de desarrollo estándar, como observar variables. Una característica verdaderamente única es el visor de datos, que proporciona la capacidad de ver filas de datos a medida que se procesan en la canalización de flujo de datos. Los datos se pueden ver en una cuadrícula de texto normal o en una presentación gráfica, como un gráfico de dispersión o de barras. En realidad, es posible tener diversos visores conectados que pueden mostrar los datos de forma simultánea en diversos formatos. La figura 9 muestra un ejemplo de datos geográficos en un gráfico de dispersión y en una cuadrícula de texto.

Programabilidad

Además de proporcionar un entorno de desarrollo profesional, SSIS expone toda su funcionalidad mediante un conjunto de API enriquecidas. Estas API son administradas (.NET Framework) y nativas (Win32), y permiten que los desarrolladores amplíen la funcionalidad de SSIS mediante componentes personalizados en cualquier lenguaje compatible con .NET Framework (como Visual C#, Visual Basic .NET, etc.) y C++. Estos componentes personalizados pueden ser tareas de flujo de trabajo y transformaciones de flujo de datos (incluso adaptadores de origen y destino). Esto permite incluir fácilmente datos heredados y la funcionalidad en los procesos de integración SSIS, lo que permite aprovechar de forma efectiva las inversiones anteriores en tecnologías heredadas. También permite incluir componentes de terceros de forma sencilla.

Secuencias de comandos

La extensibilidad mencionada anteriormente no está limitada sólo a componentes personalizados reutilizables, sino que también incluye extensibilidad basada en secuencias de comandos. SSIS tiene componentes de secuencias de comandos para el flujo de tareas y para el flujo de datos. Éstos permiten que los usuarios escriban secuencias de comandos en Visual Basic .NET para agregar funcionalidad ad hoc (que incluye orígenes y destinos de datos) y para reutilizar cualquier funcionalidad preexistente empaquetada como ensamblados de .NET Framework.

La figura 10 muestra un ejemplo de una secuencia de comandos que manipula filas de datos dentro de un flujo de datos.

Este modelo de extensibilidad hace de SSIS, además de una herramienta de integración de datos, un bus de integración en el que tecnologías como la minería de datos, la minería de texto y UDM se pueden conectar fácilmente para permitir escenarios de integración complejos que incluyan la manipulación de datos y estructuras arbitrarias.

Integración de datos más accesible

La arquitectura flexible y extensible de SSIS permite superar la mayoría de los desafíos tecnológicos frente a la integración de datos descritos en este artículo. Tal como se muestra en la figura 11, SSIS elimina (o al menos minimiza) el almacenamiento provisional innecesario. Dado que realiza una compleja manipulación de datos en una simple operación de canalización, ahora es posible reaccionar ante los cambios y diseños de los datos bastante rápido, dentro de un margen de tiempo que tenga sentido para cerrar el bucle y adoptar medidas. Esto se opone a las arquitecturas tradicionales que se basan en el almacenamiento provisional de datos y no resultan prácticas para cerrar el bucle y adoptar medidas que tengan sentido respecto de los datos.

Figura 11

Figura 11

La naturaleza extensible de SSIS posibilita que las organizaciones aprovechen las inversiones existentes en un código personalizado para la integración de datos, ajustándolos como extensiones reutilizables para SSIS, para aprovechar plenamente características tales como el registro, la depuración, la integración de BI, etc. Esto ayuda en gran medida a superar algunos de los desafíos que encuentran las organizaciones descritos en este artículo.

La inclusión de SSIS en el producto SQL Server hace que el costo de la adquisición sea extremadamente razonable en comparación con otras herramientas de integración de datos superiores. No sólo el costo inicial de la adquisición es más bajo, sino que, a través de una estrecha integración con Visual Studio y el resto de las herramientas de BI de SQL Server, el costo de desarrollo y mantenimiento de aplicaciones también es mucho menor en comparación con otras herramientas similares. El costo total de propiedad (TCO) de SSIS (y del resto de SQL Server), que es extremadamente razonable, hace que la integración de datos para empresas sea accesible para todos los segmentos del mercado y lo saca del dominio exclusivo de las empresas más grandes (y las más ricas). Al mismo tiempo, la arquitectura de SSIS se optimiza para aprovechar el hardware moderno y para brindar rendimiento y escala para los requisitos más avanzados de los clientes. SSIS permite una integración de datos enriquecida y escalable para todos los clientes, desde la empresa del más alto nivel hasta las pequeñas y medianas empresas. Junto con el resto de las características de SQL Server, la infraestructura de atención al cliente de Microsoft (que va desde amplias y extensas pruebas de versiones beta, hasta amplias comunidades en línea pasando por contratos de atención privilegiada) y la coherencia e integración con el resto de las ofertas de productos de Microsoft, SSIS es un conjunto de herramientas realmente único que abre nuevas fronteras para la integración de datos.



©2015 Microsoft Corporation. Todos los derechos reservados. Póngase en contacto con nosotros |Aviso Legal |Marcas registradas |Privacidad
Microsoft