Workshop: Администрирование Hadoop кластера на платформе Cloudera Distributed Hadoop / События на TimePad.ru

Рекомендуемые события

Регистрация на событие закрыта

Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.

Другие события организатора

ООО "Учебный центр "Коммерсант"

Связаться с организатором

2066 дней назад

с 10:00 24 сентября до 17:00 28 сентября 2018

Москва

Доброслободская, 5

Apache Hadoop является наиболее популярной открытой платформой для распределенных вычислений. Данный курс содержит информацию по планированию и развертыванию распределенных вычислительных кластеров на базе Hadoop, мониторингу и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройке безопасности системы Kerberos на базе Hadoop.

Восстановить билет

Вернуть билет

Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре; использования компонент Hadoop для запуска задач распределенных вычислений с тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Cloudera Distributed Hadoop и программного обеспечения управления кластером Cloudera Manager.

Аудитория

Системные администраторы, системные архитекторы, разработчики Hadoop желающие получить практические навыки по установке, конфигурированию, обслуживанию и управлению кластером Hadoop с использованием дистрибутива Cloudera.

Соотношение теории к практике 40/60

Необходимая предварительная подготовка

Начальный опыт работы в Unix, опыт работы с текстовым редактором vi (желателен)

Программа

1. Введение в Big Data

Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Формирование Data Lake.

2. Архитектура Apache Hadoop

Hadoop сервисы и основные компоненты. Name node. Data Node. YARN сервис. Планировщик. HDFS. Отказоустойчивость и высокая доступность.

3. Hadoop Distributed File System

Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS. Дисковые квоты. Поддержка компрессии. Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы. Импорт(загрузка) данных на HDFS.

4. MapReduce

Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce.

5. Дизайн кластера Hadoop

Сравнение дистрибутивов и версий Hadoop ⅔ (Cloudera Distributed Hadoop, MapR, HortonWorks Data Platform): различия и ограничения. Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. Federated NameNode.Hadoop в облаке. Сравнение Cloud решений для Hadoop. Amazon EMR.

6. Установка кластера

Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoop кластера в облаке. Выбор вендора и хостинга. Установка с использованием виртуального образа.

7. Операции обслуживания кластера Hadoop

Дисковая подсистема. Квоты. Остановка, запуск, перезапуск. Управление узлами. Сетевая топология. Настройка высокой доступности кластера. Управление обновлениями.

8. Оптимизация и управление ресурсами

Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность. FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.

9. Управление кластером Hadoop с использованием Cloudera Manager

Установка Cloudera Manager. Основные операции и задачи Cloudera Manager. Мониторинг с Cloudera Manager. Диагностика и разрешение проблем с Cloudera Manager.

10. Безопасность Hadoop

Безопасность по умолчанию. Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа. Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA). Компоненты безопасности Hadoop. Best practices.

11. Мониторинг

Apache Zookeeper. Встроенные средства мониторинга Cloudera Manager. Логи сервисов и компонент. Внешние системы мониторинга: Zabbix, JMX, Grafana,Nagios, Ganglia.

12. Troubleshooting

Name Node. Восстановление Name node. Data Node.

13. Инструментарий Hadoop экосистемы

Графический интерфейс сервиса HUE. Подключение Cloudera Data Science Workbench. Apache Zookeeper. Введение Apache Pig. Введение в Apache Hive, понятие Hive таблицы, установка Hive. Введение в Apache sqoop — установка и выполнение базовых операций. Введение в Apache Flume — установка и выполнение базовых операций. Введение в Apache Spark — установка и выполнение базовых операций. Обзор и назначение компонент: Cloudera Impala, Apache HBase.

Примерный список практических занятий:

Ручная установка кластера Hadoop с дистрибутива Cloudera Distributed Hadoop на локальной системе 3х-узловый кластер
Установка 3х-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager
Базовые операции с кластером Hadoop и файловые операции HDFS.
Управление ресурсами и запуском задач с использованием YARN MapReduce.
Управление кластером с использованием Cloudera Manager (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
Настройка аутентификации Kerberos для кластера Hadoop под управление Cloudera Manager
Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume, Apache Spark.
Выполнение задач в веб-интерфейсе HUE
Настройка мониторинга кластера Hadoop с использованием Zabbix (опционально)
Настройка высокой доступности Name Node (опционально).

Примечание:

Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу)
Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

Получение и восстановление электронных билетов

Возврат билета

Нужна помощь?

Как оплатить билет?

Как получить билет?

Как вернуть билет?

Задать вопрос организатору

Связаться с организатором

Workshop: Администрирование Hadoop кластера на платформе Cloudera Distributed Hadoop

Рекомендуемые события

Регистрация

Рекомендуемые события

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!