• 1 октября 2018, понедельник
  • Москва, Доброслободская, 5

Workshop: Администрирование Hadoop кластера на платформе Cloudera Distributed Hadoop

Регистрация на событие закрыта

Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.

Другие события организатора

ООО "Учебный центр "Коммерсант"
2058 дней назад
с 10:00 1 октября до 17:00 5 октября 2018
Москва
Доброслободская, 5

Apache Hadoop является наиболее популярной открытой платформой для распределенных вычислений. Данный курс содержит информацию по планированию и развертыванию распределенных вычислительных кластеров на базе Hadoop, мониторингу и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройке безопасности системы Kerberos на базе Hadoop.

Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре; использования компонент Hadoop для запуска задач распределенных вычислений с  тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Cloudera Distributed Hadoop и программного обеспечения управления кластером Cloudera Manager.

Аудитория

Системные администраторы, системные архитекторы, разработчики Hadoop желающие получить практические навыки по установке, конфигурированию, обслуживанию и управлению кластером Hadoop с использованием дистрибутива Cloudera.

Соотношение теории к практике 40/60

 

Необходимая предварительная подготовка

  • Начальный опыт работы в Unix, опыт работы с текстовым редактором vi (желателен)

 

Программа

1. Введение в Big Data

Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Формирование Data Lake.

 

2. Архитектура Apache Hadoop

Hadoop сервисы и основные компоненты.  Name node. Data Node. YARN сервис. Планировщик. HDFS. Отказоустойчивость и высокая доступность.

 

3. Hadoop Distributed File System

Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS. Дисковые квоты. Поддержка компрессии. Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы. Импорт(загрузка) данных на HDFS.

 

4. MapReduce

Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce.

 

5. Дизайн кластера Hadoop

Сравнение дистрибутивов и версий Hadoop ⅔ (Cloudera Distributed Hadoop, MapR, HortonWorks Data Platform): различия и ограничения. Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. Federated NameNode.Hadoop в облаке. Сравнение Cloud решений для Hadoop. Amazon EMR.

 

6. Установка кластера

Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoop кластера в облаке. Выбор вендора и хостинга. Установка с использованием виртуального образа.

 

7. Операции обслуживания кластера Hadoop

Дисковая подсистема. Квоты. Остановка, запуск, перезапуск. Управление узлами. Сетевая топология. Настройка высокой доступности кластера. Управление обновлениями.

 

8. Оптимизация и управление ресурсами

Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность. FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.

 

9. Управление кластером Hadoop с использованием Cloudera Manager

Установка Cloudera Manager. Основные операции и задачи Cloudera Manager. Мониторинг с Cloudera Manager. Диагностика и разрешение проблем с Cloudera Manager.

 

10. Безопасность Hadoop

Безопасность по умолчанию. Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа. Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA). Компоненты безопасности Hadoop. Best practices.

 

11. Мониторинг

Apache Zookeeper. Встроенные средства мониторинга Cloudera Manager. Логи сервисов и компонент. Внешние системы мониторинга: Zabbix, JMX, Grafana,Nagios, Ganglia.

 

12. Troubleshooting

Name Node. Восстановление Name node. Data Node.

 

13. Инструментарий Hadoop экосистемы

Графический интерфейс сервиса HUE. Подключение Cloudera Data Science Workbench. Apache Zookeeper. Введение Apache Pig. Введение в Apache Hive, понятие Hive таблицы, установка Hive. Введение в Apache sqoopустановка и выполнение базовых операций. Введение в Apache Flume — установка и выполнение базовых операций. Введение в Apache Spark — установка и выполнение базовых операций. Обзор и назначение компонент: Cloudera Impala, Apache HBase.

 

Примерный  список практических занятий:

  • Ручная установка кластера Hadoop с дистрибутива Cloudera Distributed Hadoop на локальной системе -узловый кластер
  • Установка -узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager
  • Базовые операции с кластером Hadoop и файловые операции HDFS.
  • Управление ресурсами и запуском задач с использованием YARN MapReduce.
  • Управление кластером с использованием Cloudera Manager (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
  • Настройка аутентификации Kerberos для кластера Hadoop под управление Cloudera Manager
  • Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume, Apache Spark.
  • Выполнение задач в  веб-интерфейсе HUE
  • Настройка мониторинга кластера Hadoop с использованием Zabbix (опционально)
  • Настройка высокой доступности Name Node (опционально).

Примечание:

  • Доступ к лабораторному стенду  на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу)
  • Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

Регистрация

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!

Профессиональная билетная система, статистика продаж 24/7, выгрузка списков участников, встроенные инструменты продвижения, личный кабинет для самостоятельного управления и еще много чего интересного.

Узнать больше