• 3 сентября 2018, понедельник
  • Москва, Доброслободская, 5

Курс: Data Science: Машинное обучение в R

Регистрация на событие закрыта

Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.

Другие события организатора

ООО "Учебный центр "Коммерсант"
2087 дней назад
с 10:00 3 сентября до 17:00 7 сентября 2018
Москва
Доброслободская, 5

Данный курс предназначен для изучения алгоритмов машинного обучения с практическим применением техник машинного обучения реализованных в R. Рассматриваются понятия data mining, измерения производительности и уменьшения размерности, регрессионные модели, байессовская модель, SVM и ассоциативные правила для анализа. После успешного завершения данного курса вы сможете понимать и объяснять принципы работы алгоритмов машинного обучение, и применять данные алгоритмы на реальных задачах в больших данных.

              Аудитория

Специалисты по работе с большими данными, бизнес аналитики и руководители желающие получить расширеннуюпрактическую и теоретическую подготовку по методам Data Mining для участия в проектах анализа больших данных и машинного обучения.

Предварительная подготовка

  • Понимание основ статистики
  • Опыт работы c R-Studio или знания в рамках курса DSML-Data Science: Машинное обучение в R

1. Основы статистики и простая линейная регрессия

Что такое ваши данные. Статистические выводы. Введение в машинное обучение. Простая линейная регрессия. Диагностика и трансформация. Коэффициент определенности. Методы оценки моделей и производительности.

 

2. Базовое программирование с R (опционально)

Введение в R. Что такое R? R-Studio, пакеты и рабочая область. Основные элементы языка R. Типы объектов данных. Введение функций и управляющих операторов. Функции. Программирование функций. Подключение библиотек в R-Studio.

 

3. Подготовка  данных (опционально)

Принципы формирование Dataset (набор данных). Локальный импорт / экспорт данных. Работа с отсутствующими данными (NA). Категориальные данные. Формирование обучающего и тестового набора данных. Вопросы масштабирования и автоматизации. Препроцессинг данных.

 

4. Линейная регрессия и обобщенная линейная модель

P-value — ошибки первого рода. Допущения и диагностика. Оценка максимального правдоподобия. Интерпретация модели. Оценка соответствия модели.

Обобщенные линейные модели:

  • Простая линейная регрессия
  • Множественная линейная регрессия
  • Логистическая регрессия
  • Полиномиальная регрессия

Метод опорных векторов (SVR)  и деревья решений

Деревья решений. Bagging. Случайные леса.  Boosting. Важность переменной. Сортировка полей и поддержка векторного классификатора. Метод опорных векторов.

Оценка производительности регрессионной модели. Коэффициенты линейной регрессии.

 

5. Алгоритмы классификации.

Логистическая регрессия.

Алгоритм ближайших соседей.

Алгоритм K-ближайших соседей. Выбор К и меры расстояния.

Наивный байессовский анализ и "проклятие размерности" Условная вероятность: теорема Байеса. Оценка Лапласа. Уменьшение размерности. Процедура PCA. Ridge и регрессия Лассо. Перекрестная проверка.

Классификация с помощью деревьев решений.

Классификация методом случайных деревьев.

Оценка производительности классификационной модели.

 

6. Кластерный анализ

Кластерный анализ.

K-means кластеризация

  • Выбор количества кластеров
  • Типовые ошибки при кластеризации

Иерархическая кластеризация. Принципы построения дендрограмм.

 

7. Ассоциативные правила

Правила Априори алгоритма

Основные приниципыи построение модели в R

 

8. Машинные алгоритмы с переобучением (Reinforcement learning)

Верхняя граница достоверности (UCBUpper Confidence Bound)

  • по Томпсону

Сравнение алгоритмов

Реализация алгоритмов в К

 

9. NLP алгоритмы (Алгоритмы текстовой обработки)

Основы Natural Language Proccesingе

Реализация алгоритмов NLPв R

 

10. Глубокое Обучение (Deep Learning)

Отличие машинного обучение(Machine Learning) от глубокого обучения (Deep Learning)

Искуственные Нейронные Сети (Artificial Neural Networks) :

  • План атаки
  • Нейроны
  • Активация нейронов
  • Как работают нейронные сети
  • Как обучить нейронную сеть
  • Градиентный спуск
  • Стохастический градиентный спуск
  • Метод обратного распространения

 

11. Уменьшение размерности

Принципиальный компонентный анализ — Principal Component Analysis (PCA)

  • дискриминантный анализ — Linear Discriminant Analysis (LDA)
  1. Выбор модели

k-Fold кросс проверка

Реализация поиска структуры (Grid search) в R

Реализация XGBoost в R

Регистрация

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!

Профессиональная билетная система, статистика продаж 24/7, выгрузка списков участников, встроенные инструменты продвижения, личный кабинет для самостоятельного управления и еще много чего интересного.

Узнать больше