HDDE: Hadoop для инженеров данных / События на TimePad.ru

Рекомендуемые события

Регистрация на событие закрыта

Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.

Другие события организатора

ООО "Учебный центр "Коммерсант"

Связаться с организатором

1230 дней назад

с 10:00 14 декабря до 17:30 18 декабря 2020

Москва

ул.Илимская, д.5/2

Данный курс направлен на формирование практических и теоретических навыков планирования, формирования и сопровождения Hadoop Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания «pipelines» — традиционных источников поступления данных (корпоративные базы данных, web-логи, файловые системы, интернет данные, транзакции) для последующего анализа больших данных. Практические занятия выполняются в AWS и локальной кластерной системе с использованием дистрибутивов Cloudera Hadoop, HortonWorks Data Platform и Аренадата Hadoop.

Восстановить билет

Вернуть билет

Программа курса

Основные концепции Hadoop и Data Lake
- Основы Hadoop. Жизненный цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных. Тенденции развития Hadoop.
- Организация хранения данных в Hadoop Data Lake
- Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS.
- Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределенных данных с использованием Apache Spark, YARN и MapReduce v2/v3.
- Управление ресурсами и очередями задач. FIFO/Capacity/Fair scheduler.
Инструменты управления кластером
- Выполнение базовых операций с Cloudera Manager/Apache Ambari.
- Настройка компонент Apache ZooKeeper.
- Создание и управление запросами и данными с использованием сервиса Hue/ Ambari View.
Хранение данных в HDFS
- Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVRO, ORC, Parquet.
- Введение в Apache Pig: формат хранения данных, сложные и вложенные типы данных, синтаксис Pig Latin, оптимизация операций Join.
Импорт/экспорт данных в кластер Hadoop — формирование Data Lake
- Импорт и обработка данных в кластере Hadoop
- Интеграция с реляционными базами данных
- Структура хранения данных в таблицах
- Сравнительная характеристика решений Hadoop SQL
- Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкрементальный импорт
Apache Hive
- Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов, работа с внешними и внутренними таблицами Hive, оптимизация Join операций. Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности
- Hive LLAP, Hive on Spark/Tez
Cloudera Impala
- Введение в Cloudera Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие Spark, Hive
- Оптимизация Impala запросов
Потоковые данные в Data Lake
- Event Processing System. Импорт потоковых данных в кластер
- Использование Kafka для работы с потоковыми данными
- Использование Flume для работы с потоковыми данными
- Интеграция Flume + Kafka
- Процессинг данных с использование Apache NiFi

Cписок практических занятий:

Автоматическая установка 3-узлового кластера в облаке Amazon Web Services с использованием ClouderaManager/HortonWorks и выполнение базовых операций с кластером Hadoop и HDFS (опционально)
Управление очередями ресурсами и запуском задач с использованием YARN .
Использование Apache Pig для подготовки данных, операции JOIN
Использование Apache Hive для анализа данных
Оптимизация запросов JOIN в Apache Hive
Настройка partition и bucket в Apache Hive
Инкрементальный импорт/экспорт данных с помощью Apache sqoop
SQL аналитика данных с помощью Cloudera Impala
Импорт данных с помощью Apache Flume
Построение Event Processing System с использованием Apache Flume и Kafka
Создание и управление запросами sqoop, MapReduce, Hive, Impala с использованием веб-интерфейса
Построение Dataflow с использованием Apache NiFi

Получение и восстановление электронных билетов

Возврат билета

Нужна помощь?

Как оплатить билет?

Как получить билет?

Как вернуть билет?

Задать вопрос организатору

Связаться с организатором

HDDE: Hadoop для инженеров данных

Рекомендуемые события

Программа курса

Основные концепции Hadoop и Data Lake

Инструменты управления кластером

Хранение данных в HDFS

Импорт/экспорт данных в кластер Hadoop — формирование Data Lake

Apache Hive

Cloudera Impala

Потоковые данные в Data Lake

Cписок практических занятий:

Регистрация

Рекомендуемые события

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!