Программа курса «Основы Hadoop»
-
Основы Hadoop и Big Data
- Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Концепция Data Lake.
-
Архитектура Apache Hadoop
- Hadoop сервисы и основные компоненты: Name node, Data Node, YARN, HDFS.
- Отказоустойчивость и высокая доступность.
- Batch процессинг.
- Потоковая обработка
-
Распределенная файловая система HDFS
- Основы HDFS: Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Дисковые квоты.
- Архитектура HDFS. Управление репликацией. Политики гибридного хранения данных HDFS.
- Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы.
- Влияние компрессии на производительность. Кодеки компрессии.
- Импорт(загрузка) данных на HDFS
-
MapReduce
- Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce.
-
Установка кластера Hadoop
- Установка Hadoop кластера.
- Выбор начальной конфигурации.
- Оптимизация уровня ядра для узлов.
- Оптимизация Java, JVM, Heap size, Garbage Collection
- Начальная конфигурация HDFS и MapReduce.
- Файлы логов и конфигураций.
- Настройка подключений Hadoop клиентов.
- Установка кластера Hadoop в облаке.
- Особенности настройки кластера Hadoop на физическом сервере (on-premises)
- Топология кластера Hadoop
- Tiering — многоуровневое хранение данных (Cold, Warm,Hot, RAM disk). Storage policy — полтиики хранения. Метки конфигураций узлов. RACK awareness.
-
Архитектура YARN — планировщик и менеджер ресурсов
- Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность.
- FIFO scheduler
- Capacity scheduler (Планировщик по мощности)
- Fair scheduler (Гранулярное управление ресурсами)
- Защита очередей и доминантное управление ресурсами DRF
-
Инструментарий Hadoop экосистемы
- Графический интерфейс сервиса HUE/Zeppelin
- Базовые операции в Apache Pig
- Использование Apache Hive для доступа к данным на HDFS по SQL интерфейсу, понятие Hive таблицы, HiveQL — базовый синтаксис.
- Импорт и экспорт SQL таблиц с применением Apache sqoop
- Настройка агентов для управления потоковыми операциями с Apache Flume
- Базовые операции в Apache Spark
Примерный список практических занятий для курса «Основы Hadoop»:
- Установка 3х-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari
- Базовые операции обслуживания кластера Hadoop и файловые операции HDFS
- Управление ресурсами и запуском задач с использованием YARN и MapReduce
- ETL операции преобразования с использованием Apache Pig
- Знакомство с SQL интерфейсом доступа Apache Hive
- Выполнение базовых операций импорта/экспорта с применением Apache sqoop
- Настройка агента потоковой обработки Apache Flume(опционально)
- Применение веб-интерфейса HUE/Zeppelin (опционально)