Экзамен
70-775

Microsoft logo

Инженерия данных в Microsoft Azure HDInsight

Получите скидку 25–50 % на следующие экзамены.

Зарегистрируйтесь через Microsoft.


* Цены представлены без учета специальных предложений и скидок для участников программы Microsoft Imagine Academy, сертифицированных инструкторов Microsoft Certified Trainers и участников программы Microsoft Partner Network. Указанные расценки могут быть изменены без предварительного уведомления. В стоимость экзаменов не входят применимые налоги. Перед регистрацией для сдачи экзамена уточните у поставщика экзамена его точную стоимость.

Начиная с 1 мая 2017 г. существующая политика отмены будет заменена целиком на следующую политику: отмена или изменение расписания экзамена в течение 5 рабочих дней с момента зарегистрированного времени экзамена предполагает взимание платы. Если клиент не явится на экзамен, не изменит расписание или не отменит экзамен за 24 часа до запланированного времени, с него взимается плата за экзамен в полном объеме.

Оценка квалификационных навыков

Данный экзамен позволяет оценить, в какой мере вы можете выполнять перечисленные ниже технические задачи. Ознакомьтесь с обучающими видеоматериалами о variety of question types , включенных в экзамены Microsoft.

Учтите, что вопросы охватывают темы, описанные в этом маркированном списке, но не ограничиваются ими.

Хотите поделиться своим мнением о релевантности навыков, оцениваемых с помощью этого экзамена? Отправьте комментарий специалистам Microsoft. Все отзывы будут проверены и при необходимости учтены в сертификационной программе, если такие изменения не повлияют на действительность и надежность процесса сертификации. Обратите внимание, что корпорация Microsoft не отвечает непосредственно на каждый отзыв. Мы ценим ваш вклад в обеспечение качества сертификационной программы Microsoft.

Если у вас возникли сомнения в отношении определенных вопросов данного экзамена, вы можете exam challenge.

Если у вас возникли дополнительные вопросы или есть комментарии, связанные с сертификационными экзаменами Microsoft, или по программе сертификации, регистрации или специальным предложениям, обращайтесь в Regional Service Center.

Администрирование и подготовка кластеров HDInsight
  • Развертывание кластеров HDInsight
    • Создание кластера в частной виртуальной сети, создание кластера с настраиваемым хранилищем метаданных, создание присоединенного к домену кластера, выбор подходящего типа кластера в зависимости от особенностей рабочей нагрузки, настройка кластеров с помощью действий сценариев, подготовка кластера с помощью портала, подготовка кластера с помощью средств интерфейса командной строки Azure, подготовка кластера с помощью шаблонов Azure Resource Manager (ARM) и PowerShell, управление управляемыми дисками, настройка пиринговой виртуальной сети
  • Развертывание и защита кластеров HDInsight для нескольких пользователей
    • Подготовка пользователей с различными ролями; управление пользователями, группами и разрешениями с помощью Apache Ambari, PowerShell и Apache Ranger; настройка Kerberos; настройка учетных записей служб; реализация туннелирования SSH; ограничение доступа к данным
  • Прием данных для пакетной и интерактивной обработки
    • Прием данных из облака или локальных данных; хранение данных в Azure Data Lake; хранение данных в хранилище BLOB-объектов Azure; непрерывная запись небольшого объема типовых данных с помощью средств интерфейса командной строки Azure; прием данных в Apache Hive и Apache Spark с помощью Apache Sqoop, Application Development Framework (ADF), AzCopy и AdlCopy; прием данных из локального кластера Hadoop
  • Настройка кластеров HDInsight
    • Управление обновлениями хранилищ метаданных; просмотр и редактирование групп конфигураций Ambari; просмотр и изменение конфигураций служб с помощью Ambari; доступ к журналам, записанным в табличном хранилище Azure; включение дампов кучи для служб Hadoop; управление конфигурацией HDInsight, использование пакета SDK для HDInsight .NET и PowerShell; выполнение отладки на уровне кластера; остановка и запуск служб с помощью Ambari; управление оповещениями и показателями Ambari
  • Управление заданиями HDInsight и их отладка
    • Описание архитектуры и операций YARN; проверка заданий YARN с помощью пользовательского интерфейса ResourceManager и проверка запущенных приложений; использование интерфейса командной строки YARN для удаления заданий; поиск журналов для различных типов заданий; отладка заданий Hadoop и Spark; использование Azure Operations Management Suite (OMS) для мониторинга оповещений и управления ими, а также для выполнения прогнозирующих действий
Реализация решений для пакетной обработки больших данных
  • Реализация пакетных решений с помощью Hive и Apache Pig
    • Определение внешних таблиц Hive; загрузка данных в таблицу Hive; использование секционирования и группирования для улучшения работы Hive; использование квазиструктурированных файлов, например XML и JSON с Hive; объединение таблиц с Hive с помощью перемешанных и широковещательных связей; вызов определяемых пользователем функций Hive с помощью Java и Python; создание сценариев с помощью Pig; определение узких мест запросов с помощью графа запросов Hive; определение подходящего формата хранения, например Apache Parquet, ORC, текст и JSON
  • Разработка пакетных решений ETL для больших данных с помощью Spark
    • Совместное использование ресурсов приложениями Spark с помощью очередей YARN и вытеснения, выбор параметров исполнителя Spark и драйвера для оптимальной работы, использование секционирования и группирования для улучшения работы Spark, подключение к внешним источникам данных Spark, внесение настраиваемого кода Python и Scala в программу Spark DataSets, определение узких мест запросов с помощью графа запросов Spark SQL
  • Управление Hadoop и Spark
    • Создание и настройка кластера с помощью ADF; подключение хранилища к кластеру и запуск действия ADF; выбор между предоставлением своих кластеров и кластерами по запросу; использование Apache Oozie с HDInsight; выбор между Oozie и ADF; совместное использование хранилища метаданных и учетных записей хранилища для кластера Hive и кластера Spark с целью использования одной таблицы для разных типов кластеров; выбор подходящего типа хранилища для конвейера данных, например хранилище BLOB-объектов, Azure Data Lake и локальная распределенная файловая система Hadoop (HDFS)
Реализация интерактивных решений для обработки больших данных
  • Реализация интерактивных запросов для больших данных с помощью Spark SQL
    • Выполнение запросов с помощью Spark SQL, помещение в кэш Spark DataFrames для интерактивных запросов, сохранение Spark DataFrames в качестве файлов Parquet, подключение средств бизнес-аналитики к кластерам Spark, оптимизация типов соединения, например использование широковещательных соединений вместо объединения соединений, управление сервером Spark Thrift и изменение выделения ресурсов YARN, определение вариантов использования для различных типов хранилища для интерактивных запросов
  • Исследовательский анализ данных с помощью Spark SQL
    • Использование Jupyter и Apache Zeppelin для визуализации и разработки проработанных кадров Spark DataFrames для моделирования, использование соединений двух таблиц Spark SQL для объединения DataFrames и результатов кэша, сохранение проработанных кадров Spark DataFrames в высокопроизводительном формате для чтения и анализа (Apache Parquet), управление интерактивными сеансами Livy и их ресурсами
  • Реализация интерактивных запросов для больших данных с помощью Interactive Hive
    • Включение Hive LLAP в параметрах Hive, управление выделением памяти и его настройка для заданий Hive LLAP, подключение средств бизнес-аналитики к кластерам Interactive Hive
  • Исследовательский анализ данных с помощью Hive
    • Осуществление интерактивных запросов и визуализации, использование просмотров Ambari, использование HiveQL, анализ CSV-файлов с помощью Hive, использование ORC вместо текста для кэширования, использование внутренних и внешних таблиц в Hive, использование Zeppelin для визуализации данных
  • Интерактивная обработка с помощью Apache Phoenix в HBase
    • Использование Phoenix в HDInsight; использование Phoenix Grammar для запросов; настройка транзакций, определяемых пользователем функций и вторичных индексов; определение и оптимизация производительности Phoenix; выбор между Hive, Spark и Phoenix в HBase для интерактивной обработки; определение условий, когда необходимо совместного использовать хранилище метаданных для кластера Hive и кластера Spark
Реализация решений для обработки больших данных в режиме реального времени
  • Создание потоковых приложений Spark с помощью DStream API
    • Определение потоков DStream и их сравнение с Resilient Distributed Dataset (RDD), запуск и остановка потоковых приложений, преобразование DStream (flatMap, reduceByKey, UpdateStateByKey), сохранение хранилищ для долгосрочного хранения данных в HBase и SQL, сохранение Azure Data Lake с долгосрочным хранением данных и хранилища BLOB-объектов Azure, потоковая передача данных из Apache Kafka или концентратора событий, визуализация данных потоковой передачи на панели мониторинга PowerBI, обновляемой в режиме реального времени
  • Создание структурированных потоковых приложений Spark
    • Использование DataFrames API и DataSets API для создания потоковых кадров DataFrames и наборов данных; создание операций с окнами в момент времени события; определение преобразований окон для операций с отслеживанием состояния и без отслеживания состояния; потоковая передача данных функций окна, сокращения по ключу и окна для сведения данных потоковой передачи; сохранение HBase с долгосрочным хранением данных и SQL; сохранение Azure Data Lake с долгосрочным хранением данных и хранилища BLOB-объектов Azure; потоковая передача данных из Kafka или концентратора событий; визуализация данных потоковой передачи на панели мониторинга PowerBI, обновляемой в режиме реального времени
  • Разработка решений для обработки больших данных в режиме реального времени с помощью Apache Storm
    • Создание кластеров Storm для заданий в режиме реального времени, сохранение HBase с долгосрочным хранением данных и SQL, сохранение Azure Data Lake с долгосрочным хранением данных и хранилища BLOB-объектов Azure; потоковая передача данных из Kafka или концентратора событий, настройка окон событий в Storm, визуализация данных потоковой передачи на панели мониторинга PowerBI, обновляемой в режиме реального времени, определение топологий Storm и описание архитектуры графа вычислений Storm, создание потоков Storm и выполнение потоковых соединений, запуск топологий Storm в локальном режиме для тестирования, настройка приложений Storm (рабочие потоки, режим отладки), осуществление группировки потоков для трансляции кортежей между компонентами, отладка и мониторинг заданий Storm
  • Создание решений, использующих Kafka
    • Создание кластеров Spark и Storm в виртуальной сети, управление секционированием, настройка MirrorMaker, запуск и остановка служб с помощью Ambari, управление разделами
  • Создание решений, использующих HBase
    • Определение вариантов использования HBase в HDInsight, использование оболочки HBase для создания обновлений и удаления таблиц HBase, мониторинг кластера HBase, оптимизация работы кластера HBase, определение вариантов использования Phoenix для анализа данных в режиме реального времени, реализация репликации в HBase

Варианты подготовки

Онлайн-обучение
Обучение под руководством инструктора
Книги

Экзамен № 70-775 по обработке данных на Microsoft Azure HDInsight
Опубликовано: 24 апреля 2018 г.

Direct Exam от Microsoft, этот экзамен Ref является официальным учебным пособием для Microsoft 70-775 Perform Data Engineering на сертификате Microsoft Azure HDInsight. Экзамен № 70-775 «Обработка данных» на Microsoft Azure HDInsight предлагает подготовку на профессиональном уровне, которая помогает кандидатам максимизировать эффективность экзаменов и заострить свои навыки на работе. Он фокусируется на конкретных областях знаний, которые современные ИТ-специалисты должны успешно администрировать и предоставлять кластеры HDInsight, а также внедрять эффективные решения для обработки больших данных с помощью HDInsight.

Купить книгу в магазине Microsoft Press

Книги Microsoft и электронные книги доступны для предварительного заказа в течение 90 дней с даты публикации книги.

Кто сдает этот экзамен?

Этот сертификационный экзамен предназначен для специалистов по работе с данными, архитекторов данных, специалистов по обработке и анализу данных и разработчиков данных, которые реализуют рабочие процессы инженерии данных в HDInsight. Кандидаты для этого экзамена должны обладать соответствующим опытом работы с аналитическими решениями для больших данных.

Кандидаты также должны быть знакомы с функциями и возможностями пакетной обработки данных, обработки в режиме реального времени и интерактивной обработки.

Кандидаты, которые сдают этот экзамен, должны уметь применять облачную экосистему Microsoft для создания и реализации рабочих процессов инженерии больших данных и использовать технологии с открытым исходным кодом в качестве стратегических дополнительных ресурсов.

Дополнительные сведения об экзаменах

Подготовка к экзамену

Перед планированием экзамена рекомендуется просмотреть настоящее руководство по подготовке к экзамену целиком и ознакомиться с ресурсами на настоящем веб-сайте. В разделе Microsoft Certification exam overview можно найти сведения о регистрации, видеоролики стандартных форматов экзаменационных вопросов и другие ресурсы для подготовки. Сведения о правилах проведения экзаменов и о подсчете баллов можно найти в разделе Microsoft Certification exam policies and FAQs.

Примечание

Настоящее руководство по подготовке может быть изменено в любой момент без предварительного уведомления исключительно по усмотрению корпорации Microsoft. Экзамены Microsoft могут содержать элементы адаптивного и имитационного тестирования. Корпорация Microsoft не определяет формат, в котором представлены экзамены. В каком бы формате ни проводился экзамен, пользуйтесь этим руководством по подготовке. Для подготовки к этому экзамену корпорация Microsoft рекомендует получить опыт работы с продуктом и использовать указанные учебные ресурсы. Эти учебные ресурсы не обязательно охватывают все темы, перечисленные в разделе «Оценка навыков».