• 29 сентября 2020, вторник
  • Москва, улица Илимская, дом 5/2, офис 303, БЦ "ДЕПО"

Курс DPREP: Подготовка данных для Data Mining

Регистрация на событие закрыта

Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.

Другие события организатора

ООО "Учебный центр "Коммерсант"
1329 дней назад
с 0:00 29 сентября до 0:00 2 октября 2020
Москва
улица Илимская, дом 5/2, офис 303, БЦ "ДЕПО"

Процесс сбора и подготовки данных — один из самых трудоемких и сложных этапов в анализе больших объемов данных, который порой занимает до 80% всего времени. Использование статистических методик и современного программного обеспечения позволяет значительно сократить временные и финансовые затраты на данном этапе, и повысить эффективность и качество конечных результатов.

Программа курса

  1. Введение в Data Mining

    • Процессный подход Data Mining. Data Lake концепция
    • Стандарты CRISP-DM и SEMMA
    • Фазы жизненного цикла процессов Data Mining
    • Подход Data provenance — происхождение данных. Тэгирование данных
    • Подход Data Lineage и документирование
    • Важность фазы подготовки данных для формирования озера данных
  2. Целевая функция

    • Целевая функции, и ее содержание.
    • Основные принципы формирования целевой функции
  3. Формат зависимых переменных

    • Зависимые переменные. Типы зависимых переменных и преобразование шкал (нормализация данных)
    • Приведение форматов даты и времени
    • Приведение форматов Locale
  4. Тестовая выборка

    • Формирование тестовой выборки, ее содержание и объем по отношению ко всему объему исходных данных
    • Основные принципы формирования тестовой выборки
  5. Валидационная выборка

    • Понятие валидационной выборки, ее содержание и объем по отношению ко всему объему исходных данных
    • Основные принципы формирования тестовой выборки и валидационной
  6. Анализ выбросов

    • Понятие «выбросов» (Outliers) и их анализ
  7. Проверка на нормальность распределения

    • Тестирование входных параметров на нормальность распределения
    • Параметрическая статистика
  8. Отcутствующие значения в исходных данных

    • Отсутствующие значения (Missing values)
    • Правила замены (генерации) отсутствующих данных или опущения (ommit)
  9. Регрессионные модели данных

  10. Заключительный проект по подготовке данных

    • Выполнение полного цикла очистки и подготовки данных на примере выбранного dataset
    • Формирование тестовой и валидационной выборки
    • Документирование

Регистрация

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!

Профессиональная билетная система, статистика продаж 24/7, выгрузка списков участников, встроенные инструменты продвижения, личный кабинет для самостоятельного управления и еще много чего интересного.

Узнать больше