INTR: Основы Hadoop

Курс «Основы Hadoop» представляет сокращенную версию курса «Администрирование кластера Hadoop» и проводится параллельно с данным курсом в 3 дня, согласно утвержденной программе, на платформе Cloudera, HortonWorks или ArenaData Hadoop по выбору.

ИТ и интернет 18+

Программа курса «Основы Hadoop»

Основы Hadoop и Big Data
- Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Концепция Data Lake.
Архитектура Apache Hadoop
- Hadoop сервисы и основные компоненты: Name node, Data Node, YARN, HDFS.
- Отказоустойчивость и высокая доступность.
- Batch процессинг.
- Потоковая обработка
Распределенная файловая система HDFS
- Основы HDFS: Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Дисковые квоты.
- Архитектура HDFS. Управление репликацией. Политики гибридного хранения данных HDFS.
- Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы.
- Влияние компрессии на производительность. Кодеки компрессии.
- Импорт(загрузка) данных на HDFS
MapReduce
- Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce.
Установка кластера Hadoop
- Установка Hadoop кластера.
- Выбор начальной конфигурации.
- Оптимизация уровня ядра для узлов.
- Оптимизация Java, JVM, Heap size, Garbage Collection
- Начальная конфигурация HDFS и MapReduce.
- Файлы логов и конфигураций.
- Настройка подключений Hadoop клиентов.
- Установка кластера Hadoop в облаке.
- Особенности настройки кластера Hadoop на физическом сервере (on-premises)
- Топология кластера Hadoop
- Tiering — многоуровневое хранение данных (Cold, Warm,Hot, RAM disk). Storage policy — полтиики хранения. Метки конфигураций узлов. RACK awareness.
Архитектура YARN — планировщик и менеджер ресурсов
- Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность.
- FIFO scheduler
- Capacity scheduler (Планировщик по мощности)
- Fair scheduler (Гранулярное управление ресурсами)
- Защита очередей и доминантное управление ресурсами DRF
Инструментарий Hadoop экосистемы
- Графический интерфейс сервиса HUE/Zeppelin
- Базовые операции в Apache Pig
- Использование Apache Hive для доступа к данным на HDFS по SQL интерфейсу, понятие Hive таблицы, HiveQL — базовый синтаксис.
- Импорт и экспорт SQL таблиц с применением Apache sqoop
- Настройка агентов для управления потоковыми операциями с Apache Flume
- Базовые операции в Apache Spark

Примерный список практических занятий для курса «Основы Hadoop»:

Установка 3х-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari
Базовые операции обслуживания кластера Hadoop и файловые операции HDFS
Управление ресурсами и запуском задач с использованием YARN и MapReduce
ETL операции преобразования с использованием Apache Pig
Знакомство с SQL интерфейсом доступа Apache Hive
Выполнение базовых операций импорта/экспорта с применением Apache sqoop
Настройка агента потоковой обработки Apache Flume(опционально)
Применение веб-интерфейса HUE/Zeppelin (опционально)

Регистрация

1328 дней назад
28 сентября 10:00 — 30 сентября 2020 17:30

Москва
улица Илимская, 5/2
Показать на карте

Уже есть билет
Восстановить или вернуть

Программа курса «Основы Hadoop»

Основы Hadoop и Big Data

Архитектура Apache Hadoop

Распределенная файловая система HDFS

MapReduce

Установка кластера Hadoop

Архитектура YARN — планировщик и менеджер ресурсов

Инструментарий Hadoop экосистемы

Получить ссылку на трансляцию

Связь с организатором

Подпишитесь на рассылку организатора

Восстановление билета

Возврат билета