HADM: Администрирование кластера Hadoop

5 дней практического обученияАдминистрирования кластера Hadoop, установке и настройке кластера Hadoop под управлением Apache Ambari на платформе HortonWorks Data Platform или Arenadata Hadoop, безопасность Kerberos, Apache Ranger, Atlas, Knox, мониторинг, репликация и резервное копирование, взаимодействие с компонентами экосистемы Hadoop: Spark, Hive/Tez, sqoop, HDFS, MapReduce, Zeppelin, NiFi.

ИТ и интернет 16+

Программа курса

  1. Введение в Big Data
    • Что такое Big Data. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • Принципы формирование pipelines и Data Lake
  2. Архитектура Apache Hadoop
    • Hadoop сервисы и основные компоненты. Name nodeData NodeYARN сервис
    • Планировщик
    • HDFS
    • Отказоустойчивость и высокая доступность
  3. Hadoop Distributed File System
    • Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS
    • Дисковые квоты
    • Поддержка компрессии
    • Основные форматы хранения данных TXTAVROORCParquetSequence файлы
    • Импорт(загрузка) данных на HDFS
  4. MapReduce
    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduceYARN MapReduce v2
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce
  5. Дизайн кластера Hadoop
    • Сравнение дистрибутивов и версий Hadoop ⅔ (HortonWorks Data Platform, Cloudera Distributed HadoopMapR, Arenadata Hadoop): различия и ограничения.
    • Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость HadoopFederated NameNodeHadoop в облаке.
    • Сравнение Cloud решений для HadoopAmazon EMR.
    • Интеграция с другими решениями: streaming (DataFlow), NoSQL
  6. Установка кластера
    • Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoopкластера в облаке.
    • Автоматическая установка.
    • Установка и настройка кластера Hadoop в изолированном окружении (offline).
  7. Операции обслуживания кластера Hadoop
    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск
    • Управление узлами
    • Сетевая топология
    • Управление обновлениями и создание локального репозитория.
  8. Оптимизация и управление ресурсами
    • Поиск узких мест.
    • Производительность
    • Файловая система
    • Data Node
    • Сетевая производительность
    • ПланировщикиFIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
  9. 9. Управление кластером Hadoop с использованием Apache Ambari
    • Установка Apache Ambari. Интерфейс управления Apache Ambari. Базовые операции обслуживания и управление задачами с использованием Apache Ambari. Диагностика и trobleshooting с Apache Ambari.
  10. Безопасность Hadoop
    • Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива HortonWorks/ ArenadataHadoopApache RangerApache AtlasApache Knox.
    • Многопользовательский режим. Аутентификация и авторизация. Kerberoskeytabsprincipals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
    • Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
    • Best practices HortonWorks / Arenadata Hadoop.
  11. Мониторинг
    • Apache Zookeeper. Встроенные средства мониторинга Apache Ambari Metrics. Логи сервисов и компонент. Внешние системы мониторинга: ZabbixJMX.
  12. Troubleshooting
    • Data Node
    • Name Node
    • Восстановление Name Node
  13. Инструментарий Hadoop экосистемы дистрибутива HortonWorks/ Arenadata Hadoop
    • Графический интерфейс сервиса Zeppelin.
    • Введение Apache Pig.
    • Введение Apache Zookeeper
    • Введение в Apache Hive/Tez, понятие Hive таблицы, установка Hive/Tez.
    • Введение в Apache sqoop — установка и выполнение базовых операций.
    • Введение в Apache Flume — установка и выполнение базовых операций.
    • Введение в Apache Spark — установка и выполнение базовых операций.
    • Обзор и назначение компонент: Apache KafkaApache HBaseApache NiFiApache FlinkApache Zookeeper.

Примерный список практических занятий:
• Ручная установка кластера Hadoop с дистрибутива HortonWorks Data Platform/Arenadata Hadoop на локальной системе 3х-узловый кластер
• Установка -узлового кластера в облаке Amazon Web Services с использованием Apache Ambari
• Базовые операции с кластером Hadoop и файловые операции HDFS.
• Управление ресурсами и запуском задач с использованием YARN MapReduce.
• Управление кластером с использованием Apache Ambari (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
• Настройка аутентификации Kerberos для кластера Hadoop под управление Apache Ambari
• Установка и выполнение базовых операций в Apache HiveApache sqoopApache FlumeApache Spark
• Выполнение задач в веб-интерфейсе Zeppelin
• Настройка мониторинга кластера Hadoop с использованием Zabbix (опционально)
• Настройка высокой доступности Name Node (опционально).

Примечание
• Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30(возможно продление времени по запросу)
• Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

Поделиться:

1326 дней назад
28 сентября 10:00 — 2 октября 2020 17:30

Москва
Илимская улица, д.5/К2
Показать на карте

Уже есть билет
Восстановить или вернуть

Поделиться:

Связь с организатором

Напоминаем, что для того чтобы восстановить билет или сделать возврат организатору можно не писать.

На этот адрес придёт ответ от организатора.

Подпишитесь на рассылку организатора

Восстановление билета

Введите адрес электронной почты, указанный при регистрации на событие

Обращаем внимание на то, что билеты должны были прийти к вам на почту сразу после покупки.

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов