Hadoop для инженеров данных
Перейти на старую версию сайта +7 (495) 150 96 00 academy@it.ru Войти

В корзине ничего нет.

Перейти на старую версию сайта
Войти

В корзине ничего нет.

Академия АйТи Онлайн
#
#HDDE # Управление данными (BigData, Machine learning) # 5 дней/40 часов

Hadoop для инженеров данных


Физлицам 88000 ₽
Юрлицам 90000 ₽
Очное обучение. Курсы проводятся во всех региональных учебных центрах Академии АйТи или на базе заказчика.

Забронировать курс

К сожалению, в этом курсе нет ближайших дат для бронирования, но вы можете запросить информацию.


Целевая аудитория

#

Специалисты по работе с большими данными, ответственные за настройку и сопровождение ввода данных в Data Lake

Расписание

1

Основные концепции Hadoop и Data Lake


  • Основы Hadoop. Жизненный цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных.  Тенденции развития Hadoop.
  • Организация хранения данных в Hadoop Data Lake 
  • Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS.
  • Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределенных данных с использованием Apache Spark, YARN и MapReduce v2/v3.
  • Управление ресурсами и очередями задач. FIFO/Capacity/Fair scheduler.

2

Инструменты управления кластером


  • Выполнение базовых операций с Cloudera Manager.
  • Создание и управление запросами и данными с использованием сервиса Hue/Zeppelin.

3

Хранение данных в HDFS


  • Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVRO, ORC, Parquet.
  • Организация и оптимизация Data Layout хранения данных в HDFS

4

Импорт/экспорт данных в кластер Hadoop – формирование Data Lake


  • Импорт и обработка данных в кластере Hadoop
  • Интеграция с реляционными базами данных
  • Структура хранения данных в таблицах
  • Сравнительная характеристика решений Hadoop SQL
  • Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкрементальный импорт

5

Введение в Apache Spark


  • Архитектура и состав Apache Spark
  • Основные абстракции (Dataframe, RDD)
  • Spark SQL
  • Ввод и вывод данных в Apache Spark
  • Spark Streaming.
  • Обработка слабо структурированных данных.

6

Apache Hive


  • Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов,  работа с внешними и внутренними таблицами Hive, оптимизация Join операций. Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности
  • Hive LLAP, Hive on Tez

7

Cloudera Impala (опционально)


  • Введение в Cloudera Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие  Spark, Hive
  • Оптимизация Impala запросов

8

Потоковые данные в Data Lake


  • Event Processing System. Импорт потоковых данных в кластер
  • Использование Kafka для работы с потоковыми данными
  • Использование Flume  для работы с потоковыми данными (опционально только для версии 2)
  • Интеграция Flume + Kafka
  • Процессинг данных с использование Apache NiFi
  • Оркестрация данных с Apache Airflow

9

Практические занятия


  • Выполнение первоначальной настройки и базовых операций с кластером Hadoop и файловой системой HDFS
  • Управление очередями ресурсами и запуском задач с использованием YARN 
  • Использование Apache Pig для подготовки данных, операции JOIN (опционально версия 2)
  • Инкрементальный импорт/экспорт данных с помощью Apache Sqoop
  • Использование Apache Hive для анализа данных
  • Оптимизация запросов JOIN в Apache Hive
  • Настройка partition и bucket в Apache Hive
  • SQL аналитика данных с помощью Cloudera Impala
  • Подготовка и анализ данных с использованием  Apache Spark
  • Импорт данных с помощью Apache Flume (опционально версия 2)
  • Построение Event Processing System с использованием Apache Flume и Kafka
  • Создание и управление запросами Hive, Impala с использованием веб-интерфейса HUE/Zeppelin (Демо)
  • Построение Dataflow с использованием Apache NiFi (опционально)
  • Построение Workflow с использованием Apache Airflow



0 отзывов

Об этом курсе отзывов пока нет. Будьте первым.






#
#

Академия АйТи

Ведущий консалтинговый центр получения дополнительного профессионального образования

Войдите в систему, чтобы получить все возможности платформы и доступ к образовательным курсам
Не запоминать
Забыли пароль?

Забыли пароль?

Введите e-mail, указанный при регистрации, пришлем вам инструкцию по восстановлению пароля.


Нажимая «Зарегистрироваться» вы соглашаетесь с политикой обработки персональных данных

Нажимая «Зарегистрироваться» вы соглашаетесь с политикой обработки персональных данных
15%
Шаг 1 из 2 Заполните данные
Далее Назад Зарегистрироваться