• 30 ноября 2020, понедельник
  • Москва, Илимская улица, д.5/К2

HADM: Администрирование кластера Hadoop

Регистрация на событие закрыта

Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.

Другие события организатора

ООО "Учебный центр "Коммерсант"
1214 дней назад
с 10:00 30 ноября до 17:30 4 декабря 2020
Москва
Илимская улица, д.5/К2

5 дней практического обученияАдминистрирования кластера Hadoop, установке и настройке кластера Hadoop под управлением Apache Ambari на платформе HortonWorks Data Platform или Arenadata Hadoop, безопасность Kerberos, Apache Ranger, Atlas, Knox, мониторинг, репликация и резервное копирование, взаимодействие с компонентами экосистемы Hadoop: Spark, Hive/Tez, sqoop, HDFS, MapReduce, Zeppelin, NiFi.

Программа курса

  1. Введение в Big Data
    • Что такое Big Data. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • Принципы формирование pipelines и Data Lake
  2. Архитектура Apache Hadoop
    • Hadoop сервисы и основные компоненты. Name nodeData NodeYARN сервис
    • Планировщик
    • HDFS
    • Отказоустойчивость и высокая доступность
  3. Hadoop Distributed File System
    • Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS
    • Дисковые квоты
    • Поддержка компрессии
    • Основные форматы хранения данных TXTAVROORCParquetSequence файлы
    • Импорт(загрузка) данных на HDFS
  4. MapReduce
    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduceYARN MapReduce v2
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce
  5. Дизайн кластера Hadoop
    • Сравнение дистрибутивов и версий Hadoop ⅔ (HortonWorks Data Platform, Cloudera Distributed HadoopMapR, Arenadata Hadoop): различия и ограничения.
    • Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость HadoopFederated NameNodeHadoop в облаке.
    • Сравнение Cloud решений для HadoopAmazon EMR.
    • Интеграция с другими решениями: streaming (DataFlow), NoSQL
  6. Установка кластера
    • Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoopкластера в облаке.
    • Автоматическая установка.
    • Установка и настройка кластера Hadoop в изолированном окружении (offline).
  7. Операции обслуживания кластера Hadoop
    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск
    • Управление узлами
    • Сетевая топология
    • Управление обновлениями и создание локального репозитория.
  8. Оптимизация и управление ресурсами
    • Поиск узких мест.
    • Производительность
    • Файловая система
    • Data Node
    • Сетевая производительность
    • ПланировщикиFIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
  9. 9. Управление кластером Hadoop с использованием Apache Ambari
    • Установка Apache Ambari. Интерфейс управления Apache Ambari. Базовые операции обслуживания и управление задачами с использованием Apache Ambari. Диагностика и trobleshooting с Apache Ambari.
  10. Безопасность Hadoop
    • Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива HortonWorks/ ArenadataHadoopApache RangerApache AtlasApache Knox.
    • Многопользовательский режим. Аутентификация и авторизация. Kerberoskeytabsprincipals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
    • Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
    • Best practices HortonWorks / Arenadata Hadoop.
  11. Мониторинг
    • Apache Zookeeper. Встроенные средства мониторинга Apache Ambari Metrics. Логи сервисов и компонент. Внешние системы мониторинга: ZabbixJMX.
  12. Troubleshooting
    • Data Node
    • Name Node
    • Восстановление Name Node
  13. Инструментарий Hadoop экосистемы дистрибутива HortonWorks/ Arenadata Hadoop
    • Графический интерфейс сервиса Zeppelin.
    • Введение Apache Pig.
    • Введение Apache Zookeeper
    • Введение в Apache Hive/Tez, понятие Hive таблицы, установка Hive/Tez.
    • Введение в Apache sqoop — установка и выполнение базовых операций.
    • Введение в Apache Flume — установка и выполнение базовых операций.
    • Введение в Apache Spark — установка и выполнение базовых операций.
    • Обзор и назначение компонент: Apache KafkaApache HBaseApache NiFiApache FlinkApache Zookeeper.

Примерный список практических занятий:
• Ручная установка кластера Hadoop с дистрибутива HortonWorks Data Platform/Arenadata Hadoop на локальной системе 3х-узловый кластер
• Установка -узлового кластера в облаке Amazon Web Services с использованием Apache Ambari
• Базовые операции с кластером Hadoop и файловые операции HDFS.
• Управление ресурсами и запуском задач с использованием YARN MapReduce.
• Управление кластером с использованием Apache Ambari (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
• Настройка аутентификации Kerberos для кластера Hadoop под управление Apache Ambari
• Установка и выполнение базовых операций в Apache HiveApache sqoopApache FlumeApache Spark
• Выполнение задач в веб-интерфейсе Zeppelin
• Настройка мониторинга кластера Hadoop с использованием Zabbix (опционально)
• Настройка высокой доступности Name Node (опционально).

Примечание
• Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30(возможно продление времени по запросу)
• Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

Регистрация

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!

Профессиональная билетная система, статистика продаж 24/7, выгрузка списков участников, встроенные инструменты продвижения, личный кабинет для самостоятельного управления и еще много чего интересного.

Узнать больше