HADM: Администрирование кластера Hadoop

5 дней практического обучения установке и настройке кластера Hadoop, безопасность Kerberos, Apache Sentry, Cloudera Navigator, Apache Ambari, Apache Ranger, Apache Atlas, Apache KNOX, мониторинг, репликация и резервное копирование, взаимодействие с компонентами экосистемы Hadoop: Spark, Hive, sqoop, HDFS, MapReduce.

ИТ и интернет 16+

Программа курса «Администрирование кластера Hadoop»

  1. Введение в Big Data

    • Что такое Big Data. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • ПринципыФормирование Data Lake и pipelines
  2. Архитектура Apache Hadoop

     

    • Hadoop сервисы и основные компоненты. Name nodeData Node.
    • YARN сервис — планировщик
    • HDFS
    • Отказоустойчивость и высокая доступность
  3. Hadoop Distributed File System

    • Архитектура HDFSБлоки HDFS.
    • Основные команды работы с HDFS.
    • Операции чтения и записи, назначения HDFS
    • Дисковые квоты. Поддержка компрессии
    • Основные форматы хранения данных TXTAVROORCParquetSequence файлы
    • Импорт (загрузка) данных на HDFS
    • Организация Tiering для хранения данных
    • Архивное хранение HDFS
    • Локальное чтение и распределенное кэширование
  4. Map Reduce

    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduceYARN MapReduce v2/3
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce
  5. Дизайн кластера Hadoop

    • Сравнение дистрибутивов и версий Hadoop 2/3 (Cloudera Distributed HadoopMapR, HortonWorks Data Platform, Arenadata Hadoop): различия и ограничения
    • Требования программного и аппаратного обеспечения
    • Планирование кластера
    • Масштабирование кластера Hadoop. Отказоустойчивость Hadoop
    • Federated NameNodeHadoop в облаке.
    • Сравнение Cloud решений для Hadoop. Amazon EMR
    • Интеграция с другими решениями: streaming (DataFlow), NoSQL.
  6. Установка кластера

    • Установка Hadoop кластера
    • Выбор начальной конфигурации
    • Оптимизация уровня ядра для узлов
    • Начальная конфигурация HDFS и MapReduce
    • Файлы логов и конфигураций
    • Установка Hadoop клиентов
    • Установка Hadoop кластера в облаке
    • Автоматические варианты установки
    • Установка и настройка кластера Hadoop в изолированном окружении (offline).
  7. Операции обслуживания кластера Hadoop

    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск(Graceful Shutdown)
    • Управление узлами
    • Управление обновлениями и создание локального репозитория
  8. Оптимизация и управление ресурсами

    • Поиск узких мест.
    • Производительность. Файловая система. Data Node и data layout и партиционирование, bucketing
    • ПланировщикиFIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
    • Особенности управления ресурсами для разных дистрибутивов
  9. Управление кластером Hadoop с использованием Cloudera Manager/Apache Ambari

    • Установка Cloudera Manager/Apache Ambari
    • Основные операции и задачи Cloudera Manager/Apache Ambari
    • Мониторинг с Cloudera Manager/Apache Ambari/ Grafana
    • Диагностика и разрешение проблем с Cloudera Manager/Apache Ambari
  10. Безопасность Apache Hadoop

    • Безопасность по умолчанию
    • Многопользовательский режим
    • Аутентификация и авторизация с использованием Active Directory(Microsoft), REALM MIT/FreeIPA: Kerberoskeytabsprincipals. Установка и конфигурирование Kerberos в Hadoop
    • Обзор возможностей Apache Sentry, Cloudera Navigator, Apache Ambari, Apache Ranger, Apache Knox, Apache Atlas
    • Резервное копирование и аварийное восстановление
    • Репликация данных и snapshoting.Конфигурирование высокой доступности Name node (HA)
    • Компоненты безопасности Hadoop
    • Best practices Cloudera / HortonWorks/Cloudera/ArenaData
  11. Мониторинг Apache Hadoop

    • Apache Zookeeper
    • Встроенные средства мониторинга Cloudera Manager/Apache Ambari
    • Логи сервисов и компонент
    • Внешние системы мониторинга: ZabbixJMXGrafana
  12. Troubleshooting

    • Data Node
    • Name Node
    • Восстановление Name Node
  13. Инструментарий Apache Hadoop экосистемы

    • Графический интерфейс сервиса HUE
    • Подключение Cloudera Data Science Workbench
    • Назначение  Apache Zookeeper
    • Основы Apache Pig — установка и выполнение базовых операций
    • Введение в Apache Hive, понятие Hive таблицы, установка Hive
    • Использование Apache sqoop — установка и выполнение базовых операций
    • Базовые операции Apache Flume — установка и выполнение базовых операций
    • Обзор и назначение компонент: Cloudera ImpalaApache NiFi,  Apache HBaseApache Kafka, Apache Zookeeper, Apache Oozie

Примерный список практических занятий:
Ручная установка кластера Hadoop с дистрибутива Cloudera Distributed Hadoop/HortonWorks/Аренадата Hadoop на локальной системе 3-узловый кластер
Установка 3-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari
Базовые операции с кластером Hadoop и файловые операции HDFS.
Управление ресурсами и запуском задач с использованием YARN MapReduce/Tez.
Управление кластером с использованием Cloudera Manager/Apache Ambari(развертывание сервисов, репликация, мониторинг, alerting и т.д.)
Конфигурирование системы аутентификации Kerberos для кластера Hadoop под управление Cloudera Manager/Apache Ambari
Установка и выполнение базовых операций в Apache HiveApache sqoopApache Flume
Выполнение задач в веб-интерфейсе HUE/Apache Ambari View
Мониторинг кластера Hadoop с использованием Zabbix (опционально)
HA высокая доступность(High Availablility) Name Node и YARN (ресурс менеджер) .

Поделиться:

1578 дней назад
20 января 10:00 — 24 января 2020 17:30

Москва
улица Илимская 5/2
Показать на карте

Уже есть билет
Восстановить или вернуть

Поделиться:

Связь с организатором

Напоминаем, что для того чтобы восстановить билет или сделать возврат организатору можно не писать.

На этот адрес придёт ответ от организатора.

Подпишитесь на рассылку организатора

Восстановление билета

Введите адрес электронной почты, указанный при регистрации на событие

Обращаем внимание на то, что билеты должны были прийти к вам на почту сразу после покупки.

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов