Повысьте свою уверенность в успешной сдаче экзамена с помощью Exam Replay or an Exam Replay with Practice Test.

Экзамен
70-773

Microsoft logo

Анализ больших данных с помощью Microsoft R

* Цены представлены без учета специальных предложений и скидок для участников программы Microsoft Imagine Academy, сертифицированных инструкторов Microsoft Certified Trainers и участников программы Microsoft Partner Network. Указанные расценки могут быть изменены без предварительного уведомления. В стоимость экзаменов не входят применимые налоги. Перед регистрацией для сдачи экзамена уточните у поставщика экзамена его точную стоимость.

Начиная с 1 мая 2017 г. существующая политика отмены будет заменена целиком на следующую политику: отмена или изменение расписания экзамена в течение 5 рабочих дней с момента зарегистрированного времени экзамена предполагает взимание платы. Если клиент не явится на экзамен, не изменит расписание или не отменит экзамен за 24 часа до запланированного времени, с него взимается плата за экзамен в полном объеме.

Смотреть занятие по подготовке к экзамену от Microsoft Ignite 2017

Оценка квалификационных навыков

Данный экзамен позволяет оценить, в какой мере вы можете выполнять перечисленные ниже технические задачи. Ознакомьтесь с обучающими видеоматериалами о variety of question types , включенных в экзамены Microsoft.

Учтите, что вопросы охватывают темы, описанные в этом маркированном списке, но не ограничиваются ими.

Хотите поделиться своим мнением о релевантности навыков, оцениваемых с помощью этого экзамена? Отправьте комментарий специалистам Microsoft. Все отзывы будут проверены и при необходимости учтены в сертификационной программе, если такие изменения не повлияют на действительность и надежность процесса сертификации. Обратите внимание, что корпорация Microsoft не отвечает непосредственно на каждый отзыв. Мы ценим ваш вклад в обеспечение качества сертификационной программы Microsoft.

Если у вас возникли сомнения в отношении определенных вопросов данного экзамена, вы можете exam challenge.

Если у вас возникли дополнительные вопросы или есть комментарии, связанные с сертификационными экзаменами Microsoft, или по программе сертификации, регистрации или специальным предложениям, обращайтесь в Regional Service Center.

Чтение и просмотр больших данных
  • Чтение данных с помощью R Server
    • Чтение поддерживаемых форматов файлов с данными, например текстовых файлов, SAS и SPSS; преобразование данных в формат XDF; определение взаимовлияния между XDF и обычными текстовыми файлами; чтение данных с помощью источников данных Open Database Connectivity (ODBC); чтение данных в файлах в других файловых системах; использование внутреннего кадра данных в качестве источника данных; обработка данных из источников, чтение которых не поддерживается в R Server
  • Сведение данных
    • Вычисление перекрестной таблицы и одномерной статистики, принятие решения о том, когда использовать rxCrossTabs вместо rxCube, интеграция с технологиями с открытым исходным кодом посредством использования таких пакетов, как dplyrXdf, использование группировки по функциональным возможностям, создание сложных формул для выполнения нескольких задач за один проход чтения данных, извлечение количественных значений с помощью rxQuantile
  • Визуализация данных
    • Визуализация данных в памяти с помощью базовых функций построения и ggplot2; создание настраиваемых визуализаций с помощью rxSummary и rxCube; визуализация данных с помощью rxHistogram и rxLinePlot, включая фасетные графики
Обработка больших данных
  • Обработка данных с помощью rxDataStep
    • Вложение строк данных, изменение и создание столбцов с помощью аргумента Преобразования, принятие решения о том, когда использовать преобразования «на лету» вместо согласования преобразований в данных, обработка ситуаций с отсутствием значений посредством фильтрации и замены, создание кадра данных или файла XDF, обработка дат (POSIXct, POSIXlt)
  • Выполнение сложных преобразований, в которых используются функции преобразования
    • Определение функции преобразования; изменение формы данных с помощью функции преобразования; использование пакетов с открытым исходным кодом, например lubridate; предъявление значений с помощью transformVars и transformEnvir; использование внутренних переменных и функций .rx для выполнения задач, включая обмен данными между блоками
  • Управление наборами данных
    • Сортировка данных в различных порядках, например по возрастанию и по убыванию; использование дедупликации rxSort для удаления повторяющихся значений; объединение источников данных с помощью rxMerge(); объединение параметров и типов; определение, когда следует использовать функции, отличные от rxSort и rxMerge
  • Обработка текстов с помощью пакетов RML
    • Создание компонентов с помощью функций RML, например featurizeText(); создание индикаторных переменных и массивов с помощью функций RML, например categorical() и categoricalHash(); выбор компонентов с помощью функций RML
Создание прогнозных моделей с помощью ScaleR
  • Оценка линейных моделей
    • Использование rxLinMod, rxGlm и rxLogit для оценки линейных моделей; задание семейства для обобщенной линейной модели с помощью таких функций, как rxTweedie; обработка данных «на лету» с помощью подходящих аргументов и функций, например функции F и аргумента Преобразования; наблюдение за весами с использованием весов частоты или вероятности; выбор различных типов автоматического выбора переменных, например принудительный поиск, многократная оценка и побочный результат обучения; определение влияния недостающих значений во время автоматического выбора переменных
  • Создание и использование моделей секционирования
    • Использование rxDTree, rxDForest и rxBTrees для создания моделей секционирования; регулировка взвешивания ложных положительных результатов и недостающих значений с помощью потери; выбор параметров, которые влияют на смещение и отклонение, например отсечение, скорость обучения и глубина дерева; использование as.rpart для взаимодействия с экосистемами с открытым исходным кодом
  • Создание прогнозов и остатков
    • Использование rxPredict для создания прогнозов; выполнение параллельной оценки с помощью rxExec; создание различных типов прогнозов, например оценка связей и откликов для GLM, отклик, вероятность и голосование для rxDForest; создание различных типов остатков, например обычный, Пирсона и DBM
  • Оценка моделей и настройка параметров
    • Сведение оцениваемых моделей; запуск произвольного кода вне процесса, например параллельная настройка параметров с помощью rxExec; оценка моделей деревьев с помощью RevoTreeView и rxVarImpPlot; расчет показателей оценки модели с помощью встроенных функций; расчет показателей оценки модели и визуализации с помощью настраиваемого кода, например средней абсолютной ошибки в процентах и точных кривых отзыва
  • Создание дополнительных моделей с помощью пакетов RML
    • Создание и использование машины для обработки данных опорных векторов с одним классом, создание и использование линейных и логистических регрессий, в которых используются регуляризации L1 и L2, создание и использование дерева решений с помощью FastTree, использование FastTree в качестве рекомендателя с ранжированной потерей (NDCG), создание и использование нейронной сети прямого распространения с тремя слоями
Использование сервера R Server в различных средах
  • Использование различных контекстов вычислений для эффективного применения сервера R Server
    • Изменение контекста вычислений (rxHadoopMR, rxSpark, rxLocalseq и rxLocalParallel); определение контекст вычислений, который следует использовать, для различных задач; использование различных объектов источников данных в зависимости от контекста (RxOdbcData и RxTextData); определение и использование подходящих источников данных для различных источников данных и контекстов вычислений (HDFS и SQL Server); отладка процессов в разных контекстах вычислений; определение вариантов использования для RevoPemaR
  • Оптимизация задач с помощью локальных контекстов вычислений
    • Определение и выполнение задач, которые можно запускать только в локальном контексте вычислений, определение задач, которые эффективнее выполняются в локальном контексте вычислений, выбор между профилями rxLocalseq и rxLocalParallel в разных контекстах вычислений
  • Аналитика в базе данных с помощью SQL Server
    • Выбор между вычислениями в базе данных и вне базы данных, определение ограничений вычислений в базе данных, правильное использование контекстов вычислений в базе данных вместо контекстов вычислений вне базы данных, использование хранимых процедур для этапов обработки данных, сериализация объектов и запись в двоичные поля в таблице, запись таблиц, настройка R для оптимизации SQL Server (chunksize, numtasks и computecontext), эффективная передача эксплуатационных свойств администраторам и архитекторам SQL (SQL Server Profiler)
  • Реализация рабочих процессов анализа в экосистеме Hadoop и Spark
    • Использование подходящих функций R Server в Spark; интеграция с Hive, Pig и Hadoop MapReduce; интеграция с экосистемой средств Spark, например SparklyR и SparkR; профилирование и настройка в различных контекстах вычислений; использование doRSR для распараллеливания кода, который был написан с помощью оператора foreach с открытым кодом
  • Развертывания моделей прогнозирования на сервере SQL Server и в машинном обучении Azure
    • Развертывание моделей прогнозирования на сервере SQL Server в виде хранимой процедуры, развертывание произвольной функции в машинном обучении Azure с помощью пакета AzureML R, определение условий для использования DeployR

Кто сдает этот экзамен?

Кандидатами на прохождение этого экзамена являются специалисты по обработке и анализу данных или аналитики данных, которые занимаются обработкой и анализом наборов данных, объем которых превосходит память, с помощью R. У кандидатов должен быть опыт работы с R, они должны быть знакомы со структурами данных, знакомы с базовыми принципами программирования (например, поток управления и область применения) и знакомы с написанием и отладкой функций R.

Кандидаты должны быть знакомы с общепринятыми статистическими методами и передовыми подходами в области анализа данных. Кандидаты также должны иметь подробное представление о платформах для работы с данными, например экосистеме Hadoop, сервере SQL Server и основных возможностях T-SQL.

Дополнительные сведения об экзаменах

Подготовка к экзамену

Перед планированием экзамена рекомендуется просмотреть настоящее руководство по подготовке к экзамену целиком и ознакомиться с ресурсами на настоящем веб-сайте. В разделе Microsoft Certification exam overview можно найти сведения о регистрации, видеоролики стандартных форматов экзаменационных вопросов и другие ресурсы для подготовки. Сведения о правилах проведения экзаменов и о подсчете баллов можно найти в разделе Microsoft Certification exam policies and FAQs.

Примечание

Настоящее руководство по подготовке может быть изменено в любой момент без предварительного уведомления исключительно по усмотрению корпорации Microsoft. Экзамены Microsoft могут содержать элементы адаптивного и имитационного тестирования. Корпорация Microsoft не определяет формат, в котором представлены экзамены. В каком бы формате ни проводился экзамен, пользуйтесь этим руководством по подготовке. Для подготовки к этому экзамену корпорация Microsoft рекомендует получить опыт работы с продуктом и использовать указанные учебные ресурсы. Эти учебные ресурсы не обязательно охватывают все темы, перечисленные в разделе «Оценка навыков».