Программа курса
- Введение в Big Data
- Что такое Big Data. Понимание проблемы Big Data
- Эволюция систем распределенных вычислений Hadoop
- Принципы формирование pipelines и Data Lake
- Архитектура Apache Hadoop
- Hadoop сервисы и основные компоненты. Name node. Data Node. YARN сервис
- Планировщик
- HDFS
- Отказоустойчивость и высокая доступность
- Hadoop Distributed File System
- Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS
- Дисковые квоты
- Поддержка компрессии
- Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
- Импорт(загрузка) данных на HDFS
- MapReduce
- Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2
- Ограничения и параметры MapReduce и YARN
- Управление запуском пользовательских задач (jobs) под MapReduce
- Дизайн кластера Hadoop
- Сравнение дистрибутивов и версий Hadoop ⅔ (HortonWorks Data Platform, Cloudera Distributed Hadoop, MapR, Arenadata Hadoop): различия и ограничения.
- Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. Federated NameNode. Hadoop в облаке.
- Сравнение Cloud решений для Hadoop. Amazon EMR.
- Интеграция с другими решениями: streaming (DataFlow), NoSQL
- Установка кластера
- Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoopкластера в облаке.
- Автоматическая установка.
- Установка и настройка кластера Hadoop в изолированном окружении (offline).
- Операции обслуживания кластера Hadoop
- Дисковая подсистема
- Квоты
- Остановка, запуск, перезапуск
- Управление узлами
- Сетевая топология
- Управление обновлениями и создание локального репозитория.
- Оптимизация и управление ресурсами
- Поиск узких мест.
- Производительность
- Файловая система
- Data Node
- Сетевая производительность
- Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
- 9. Управление кластером Hadoop с использованием Apache Ambari
- Установка Apache Ambari. Интерфейс управления Apache Ambari. Базовые операции обслуживания и управление задачами с использованием Apache Ambari. Диагностика и trobleshooting с Apache Ambari.
- Безопасность Hadoop
- Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива HortonWorks/ ArenadataHadoop: Apache Ranger, Apache Atlas, Apache Knox.
- Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
- Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
- Best practices HortonWorks / Arenadata Hadoop.
- Мониторинг
- Apache Zookeeper. Встроенные средства мониторинга Apache Ambari Metrics. Логи сервисов и компонент. Внешние системы мониторинга: Zabbix, JMX.
- Troubleshooting
- Data Node
- Name Node
- Восстановление Name Node
- Инструментарий Hadoop экосистемы дистрибутива HortonWorks/ Arenadata Hadoop
- Графический интерфейс сервиса Zeppelin.
- Введение Apache Pig.
- Введение Apache Zookeeper
- Введение в Apache Hive/Tez, понятие Hive таблицы, установка Hive/Tez.
- Введение в Apache sqoop — установка и выполнение базовых операций.
- Введение в Apache Flume — установка и выполнение базовых операций.
- Введение в Apache Spark — установка и выполнение базовых операций.
- Обзор и назначение компонент: Apache Kafka, Apache HBase, Apache NiFi, Apache Flink, Apache Zookeeper.
Примерный список практических занятий:
• Ручная установка кластера Hadoop с дистрибутива HortonWorks Data Platform/Arenadata Hadoop на локальной системе 3х-узловый кластер
• Установка 3х-узлового кластера в облаке Amazon Web Services с использованием Apache Ambari
• Базовые операции с кластером Hadoop и файловые операции HDFS.
• Управление ресурсами и запуском задач с использованием YARN MapReduce.
• Управление кластером с использованием Apache Ambari (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
• Настройка аутентификации Kerberos для кластера Hadoop под управление Apache Ambari
• Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume, Apache Spark
• Выполнение задач в веб-интерфейсе Zeppelin
• Настройка мониторинга кластера Hadoop с использованием Zabbix (опционально)
• Настройка высокой доступности Name Node (опционально).
Примечание:
• Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30(возможно продление времени по запросу)
• Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей