Examen
70-775

Microsoft logo

  • Publicado:
    22 de febrero de 2017
  • Idiomas:
    Inglés
  • Público:
    Científicos de datos
  • Tecnología:
    Azure HDInsight
  • Crédito para la certificación:
    MCSA

Realizar ingeniería de datos en Microsoft Azure HDInsight


* El precio no incluye ofertas promocionales ni descuentos para los miembros de los programas Microsoft Imagine Academy, Microsoft Certified Trainers y Microsoft Partner Network.El precio está sujeto a cambios sin previo aviso.El precio no incluye los impuestos aplicables.Confirme el precio exacto con su proveedor de exámenes antes de realizar el examen.

A partir del 1 de mayo de 2017, la política de cancelación existente será sustituida en su totalidad por la siguiente política:Cancelar o reprogramar el examen en un plazo de 5 días de la hora del examen registrada estará sujeto a cargos.No presentarse a la cita de examen ni reprogramar o cancelar la cita al menos 24 horas antes de la cita programada conlleva la pérdida de toda la cuota del examen.

Habilidades medidas

Este examen mide su capacidad para realizar las tareas técnicas mencionadas a continuación.Vea tutoriales en vídeo acerca de la variety of question types en los exámenes de Microsoft.

Tenga en cuenta que las preguntas pueden evaluar, entre otros, los temas descritos en el texto con viñetas.

¿Tiene algún comentario sobre la pertinencia de las aptitudes evaluadas en este examen?No dude en enviar sus comentarios a Microsoft.Todos los comentarios se revisarán y aplicarán según se considere oportuno, manteniendo siempre la validez y fiabilidad del proceso de certificación.Tenga en cuenta que Microsoft no responderá directamente a sus comentarios.Agradecemos su participación para garantizar la calidad del programa Microsoft Certification.

Si cree que existe algún problema con preguntas específicas de este examen, envíe una exam challenge.

Si tiene otras preguntas o comentarios sobre los exámenes de Microsoft Certification o el programa de certificación, el registro o las promociones, póngase en contacto con su Regional Service Center.

Administrar y proveer grupos de HDInsight
  • Implementar grupos de HDInsight
    • Crear un grupo en una red virtual privada, crear un grupo con una metatienda personalizada, crear un grupo de dominio unido, seleccionar un tipo de grupo adecuado según las consideraciones de carga de trabajo, personalizar un grupo usando acciones de script, proveer un grupo usando Portal, proveer un grupo usando herramientas de Azure CLI, proveer un grupo usando plantillas de Azure Resource Manager (ARM) y PowerShell, administrar discos administrados, configurar pares de vNet
  • Implementar y asegurar grupos multiusuario de HDInsight
    • Proveer usuarios con diferentes roles; administrar usuarios, grupos y permisos a través de Apacha Ambari, PowerShell y Apache Ranger; configurar Kerberos; configurar cuentas de servicio; implementar tunelización de SSH; restringir el acceso a datos
  • Introducir datos para procesamiento por lotes e interactivo
    • Introducir datos de la nube o locales; almacenar datos en Azure Data Lake; almacenar datos en Azure Blob Storage; realizar pequeñas escrituras rutinarias de forma continua con herramientas de Azure CLI; introducir datos en Apache Hive y Apache Spark usando Apache Sqoop, Application Development Framework (ADF), AzCopy y AdlCopy; introducir datos de un grupo Hadoop local
  • Configurar grupos de HDInsight
    • Administrar actualizaciones de la metatienda; ver y editar grupos de configuración de Ambari; ver y cambiar configuraciones de servicio mediante Ambari; acceder a registros escritos en el almacenamiento de Azure Table; habilitar vaciado para servicios Hadoop; administrar la configuración de HDInsight, usar HDInsight . NET SDK, y PowerShell; realizar depuración a nivel de usuario; detener e iniciar servicios mediante Ambari; administrar alertas y métrica de Ambari
  • Administrar y depurar trabajos de HDInsight
    • Describir la escritura y operación de YARN; examinar los trabajos de YARN a través de la UI de ResourceManager y revisar las aplicaciones en ejecución; usar YARN CLI para terminar trabajos; encontrar trabajos de diferentes tipos; depurar trabajos de Hadoop y Spark; usar Azure Operations Management Suite (OMS) para monitorizar y administrar las alertas y realizar acciones predictivas
Implementar soluciones de procesamiento de remesas de macrodatos
  • Implementar soluciones de remesa con Hive y Apache Pig
    • Definir tablas de Hive externas; cargar datos a una tabla de Hive; usar particiones y agrupamiento para mejorar el rendimiento de Hive; usar archivos semiestructurados como XML y JSON con Hive; unir tablas con Hive usando uniones mezcladas y uniones transmitidas; invocar UDF de Hive con Java y Python; diseñar scripts con Pig; identificar embotellamientos de consultas usando el gráfico de consultas de Hive; identificar el formato de almacenamiento adecuado, como Apache Parquet, ORC, Text y JSON
  • Diseñar soluciones ETL de remesa para macrodatos con Spark
    • Compartir recursos entre aplicaciones usando consultas y preferencias de YARN, seleccionar los ajustes de controlador y ejecutor de Spark para el rendimiento óptimo, usar particiones y agrupamiento para mejorar el rendimiento de Spark, conectarse a fuentes de datos Spark externas, incorpora código Scala y Python personalizado en un programa Spark DataSets, identificar embotellamientos de consultas usando el gráfico de consultas de Spark SQL
  • Operacionalizar Hadoop y Spark
    • Crear y personalizar un grupo usando ADF; adjuntar almacenamiento a un grupo y ejecutar una actividad AD; elegir entre grupos propios y bajo demanda; usar Apache Oozie con HDInsight; elegir entre Oozie y ADF; compartir cuentas de la metatienda y de almacenamiento entre un grupo de Hive y un grupo de Spark para habilitar la misma tabla en todos los tipos de grupos; seleccionar un tipo de almacenamiento adecuado para un conducto de distribución de datos, como el almacenamiento Blob, Azure Data Lake y Hadoop Distributed File System (HDFS) local
Implementar soluciones de procesamiento interactivas de macrodatos
  • Implementar consultas interactivas para macrodatos con Spark SQL
    • Ejecutar consultas con Spark SQL, Spark DataFrames de caché para consultas reiteradas, guardar Spark DataFrames como archivos de Parquet, conectar herramientas de BI a grupos de Spark, optimizar los tipos de unión como uniones de transmisión frente a combinación, administrar el servidor de Spark Thrift y cambiar la asignación de los recursos de YARN, identificar los casos de uso de diferentes tipos de almacenamiento para las consultas interactivas
  • Realizar análisis de datos exploratorios usando Spark SQL
    • Usar Jupyter y Apache Zeppelin para visualizar y desarrollar Spark DataFrames limpios para modelado, usar uniones de dos tablas de Spark SQL para combinar resultados de DataFrames y caché, guardar Spark DataFrames limpios en formato eficiente para lectura y análisis (Apache Parquet), administrar sesiones Livy interactivas y sus recursos
  • Implementar consultas interactivas para macrodatos con Interactive Hive
    • Habilitar Hive LLAP mediante los ajustes de Hive, administrar y configurar la asignación de memoria para trabajos Hive LLAP, conectar herramientas de BI a los grupos de Interactive Hive
  • Realizar análisis de datos exploratorios usando Hive
    • Realizar consultas y visualizaciones interactivas, usar Ambari View, usar HiveQL, analizar archivos CSV con Hive, usar ORC frente a Text para caché, usar tablas internas y externas en Hive, usar Zeppelin para visualizar datos
  • Realizar procesamiento interactivo usando Apache Phoenix en HBase
    • Usar Phoenix en HDInsight; usar Phoenix Grammar para consultas; configurar transacciones, funciones definidas por el usuario e índices secundarios; identificar y optimizar el rendimiento de Phoenix; seleccionar entre Hive, Spark y Phoenix en HBase para procesamiento interactivo; identificar cuándo compartir la metatienda entre un grupo de Hive y un grupo de Spark
Implementar soluciones de procesamiento en tiempo real de macrodatos
  • Crear aplicaciones de transmisión de Spark usando la API DStream
    • Definir la DStreams y compararlas con Resilient Distributed Dataset (RDD), iniciar y detener aplicaciones de transmisión, transformar DStream (flatMap, reduceByKey, UpdateStateByKey), continuar tiendas de datos a largo plazo en HBase y SQL, continuar con datos a largo plazo de Azure Data Lake y Azure Blob Storage, transmitir datos de Apache Kafka o Event Hub, visualizar datos de transmisión en un tablero en tiempo real de PowerBI
  • Crear aplicaciones de transmisión estructuras de Spark
    • Usar las API DataFrames y DataSets para crear DataFrames y DataSets de transmisión; crear operaciones de Windows en Event Time; definir transformaciones de Windows para operaciones Stateful y Stateless; transmitir funciones de Windows, Reduce by Key, y Window para resumir datos de transmisión; continuar con datos a largo plazo de HBase y SQL; continuar con datos a largo plazo de Azure Data Lake y Azure Blob Storage; transmitir datos desde Kafka o Event Hub; visualizar datos de transmisión en un tablero en tiempo real de PowerBI
  • Desarrollar soluciones de procesamiento de macrodatos en tiempo real con Apache Storm
    • Crear grupos de Storm para trabajos en tiempo real, continuar con datos a largo plazo de HBase y SQL, continuar con datos a largo plazo de Azure Data Lake y Azure Blob Storage, transmitir datos desde Kafka o Event Hub, configurar ventanas de eventos en Storm, visualizar datos de transmisión en un tablero en tiempo real de PowerBI, definir topologías de Storm y describir la arquitectura de gráficas de computación de Storm, crear transmisiones de Storm y realizar uniones de transmisión, ejecutar topologías de Storm en modo local para pruebas, configurar aplicaciones de Storm (modo de trabajo, depuración), realizar agrupaciones de transmisión para transmitir tuplas por los trabajos de componentes, depuración y monitorización
  • Crear soluciones que usen Kafka
    • Crear grupos de Spark y Storm en la red virtual, administrar particiones, configurar MirrorMaker, iniciar y detener servicios mediante Ambari, administrar temas
  • Crear soluciones que usen HBase
    • Identificar los casos de uso de HBase en HDInsight, usar HBase Shell para crear actualizaciones y dejar tablas de HBase, monitorizar un grupo de HBase, optimizar el rendimiento de un grupo de HBase, identificar los casos de uso mediante Phoenix para análisis de datos en tiempo real, implementar la replicaicón en HBase

Opciones de preparación

Cursos en línea
Formación guiada por un instructor
Libros

Referencia de examen 70-775 Realizar ingeniería de datos en Microsoft HDInsight
Publicado: 24 de abril de 2018

Desarrollada directamente por Microsoft, esta referencia de examen es la guía de estudio oficial para el examen de certificación de Microsoft 70-775 Realizar ingeniería de datos en Microsoft HDInsight. La referencia de examen 70-775 Realizar ingeniería de datos en Microsoft HDInsight ofrece preparación de nivel profesional que ayuda a los candidatos a maximizar su rendimiento en el examen y a mejorar sus habilidades en el trabajo. Se centra en las áreas específicas de experiencia que los profesionales de IT modernos necesitan para administrar y ofrecer con éxito clústers de HDInsight, e implementar soluciones de procesamiento de macrodatos eficaces con HDInsight.

Comprar este libro en Microsoft Press Store

Los libros y ebooks de Microsoft Press se pueden reservar durante los 90 días previos a la publicación del libro.

¿Quién debería realizar este examen?

Este examen de certificación se dirige a ingenieros de datos, arquitectos de datos, científicos de datos y desarrolladores de datos que implementan flujos de trabajo de ingeniería de macrodatos en HDInsight. Los candidatos para este examen deben tener experiencia de trabajo pertinente en soluciones de análisis de grandes volúmenes de datos.

Los candidatos también deben estar familiarizados con las funciones y características de procesamiento de remesas de datos, procesamiento en tiempo real y procesamiento interactivo.

Se espera que los candidatos que realicen este examen sean capaces de aplicar el ecosistema de nube de Microsoft para diseñar e implementar flujos de trabajo de ingeniería de macrodatos y que usen tecnologías de código abierto para un valor añadido estratégico.

Más información sobre los exámenes

Preparación de exámenes

Le recomendamos que consulte esta guía de preparación para el examen en profundidad y se familiarice con los recursos de este sitio web antes de programar el examen.Consulte la Microsoft Certification exam overview para obtener información sobre el registro, videos de los formatos de preguntas de examen habituales y otros recursos de preparación.Para obtener información sobre las políticas de examen y puntuación, consulte Microsoft Certification exam policies and FAQs.

Nota

Esta guía de preparación está sujeta a cambios en cualquier momento a discreción de Microsoft sin necesidad de aviso previo.Los exámenes de Microsoft pueden incluir tecnología de prueba adaptativa y elementos de simulación.Microsoft no identifica el formato en que se presentan los exámenes.Use esta guía de preparación para prepararse para el examen, sea cual sea el formato.Para ayudarle a prepararse para este examen, Microsoft recomienda adquirir experiencia práctica con el producto y usar los recursos formativos especificados.Estos recursos de formación no cubren necesariamente todos los temas que aparecen en la sección "Habilidades medidas".