Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.
Apache Hadoop является наиболее популярной открытой платформой для распределенных вычислений. Данный курс содержит информацию по планированию и развертыванию распределенных вычислительных кластеров на базе Hadoop, мониторингу и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройке безопасности системы Kerberos на базе Hadoop.
Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре; использования компонент Hadoop для запуска задач распределенных вычислений с тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Cloudera Distributed Hadoop и программного обеспечения управления кластером Cloudera Manager.
Аудитория
Системные администраторы, системные архитекторы, разработчики Hadoop желающие получить практические навыки по установке, конфигурированию, обслуживанию и управлению кластером Hadoop с использованием дистрибутива Cloudera.
Соотношение теории к практике 40/60
Необходимая предварительная подготовка
Программа
1. Введение в Big Data
Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Формирование Data Lake.
2. Архитектура Apache Hadoop
Hadoop сервисы и основные компоненты. Name node. Data Node. YARN сервис. Планировщик. HDFS. Отказоустойчивость и высокая доступность.
3. Hadoop Distributed File System
Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS. Дисковые квоты. Поддержка компрессии. Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы. Импорт(загрузка) данных на HDFS.
4. MapReduce
Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce.
5. Дизайн кластера Hadoop
Сравнение дистрибутивов и версий Hadoop ⅔ (Cloudera Distributed Hadoop, MapR, HortonWorks Data Platform): различия и ограничения. Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. Federated NameNode.Hadoop в облаке. Сравнение Cloud решений для Hadoop. Amazon EMR.
6. Установка кластера
Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoop кластера в облаке. Выбор вендора и хостинга. Установка с использованием виртуального образа.
7. Операции обслуживания кластера Hadoop
Дисковая подсистема. Квоты. Остановка, запуск, перезапуск. Управление узлами. Сетевая топология. Настройка высокой доступности кластера. Управление обновлениями.
8. Оптимизация и управление ресурсами
Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность. FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
9. Управление кластером Hadoop с использованием Cloudera Manager
Установка Cloudera Manager. Основные операции и задачи Cloudera Manager. Мониторинг с Cloudera Manager. Диагностика и разрешение проблем с Cloudera Manager.
10. Безопасность Hadoop
Безопасность по умолчанию. Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа. Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA). Компоненты безопасности Hadoop. Best practices.
11. Мониторинг
Apache Zookeeper. Встроенные средства мониторинга Cloudera Manager. Логи сервисов и компонент. Внешние системы мониторинга: Zabbix, JMX, Grafana,Nagios, Ganglia.
12. Troubleshooting
Name Node. Восстановление Name node. Data Node.
13. Инструментарий Hadoop экосистемы
Графический интерфейс сервиса HUE. Подключение Cloudera Data Science Workbench. Apache Zookeeper. Введение Apache Pig. Введение в Apache Hive, понятие Hive таблицы, установка Hive. Введение в Apache sqoop установка и выполнение базовых операций. Введение в Apache Flume установка и выполнение базовых операций. Введение в Apache Spark установка и выполнение базовых операций. Обзор и назначение компонент: Cloudera Impala, Apache HBase.
Примерный список практических занятий:
Примечание: