Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.
Данный курс предназначен для изучения алгоритмов машинного обучения с практическим применением техник машинного обучения реализованных в R. Рассматриваются понятия data mining, измерения производительности и уменьшения размерности, регрессионные модели, байессовская модель, SVM и ассоциативные правила для анализа. После успешного завершения данного курса вы сможете понимать и объяснять принципы работы алгоритмов машинного обучение, и применять данные алгоритмы на реальных задачах в больших данных.
Аудитория
Специалисты по работе с большими данными, бизнес аналитики и руководители желающие получить расширеннуюпрактическую и теоретическую подготовку по методам Data Mining для участия в проектах анализа больших данных и машинного обучения.
Предварительная подготовка
1. Основы статистики и простая линейная регрессия
Что такое ваши данные. Статистические выводы. Введение в машинное обучение. Простая линейная регрессия. Диагностика и трансформация. Коэффициент определенности. Методы оценки моделей и производительности.
2. Базовое программирование с R (опционально)
Введение в R. Что такое R? R-Studio, пакеты и рабочая область. Основные элементы языка R. Типы объектов данных. Введение функций и управляющих операторов. Функции. Программирование функций. Подключение библиотек в R-Studio.
3. Подготовка данных (опционально)
Принципы формирование Dataset (набор данных). Локальный импорт / экспорт данных. Работа с отсутствующими данными (NA). Категориальные данные. Формирование обучающего и тестового набора данных. Вопросы масштабирования и автоматизации. Препроцессинг данных.
4. Линейная регрессия и обобщенная линейная модель
P-value ошибки первого рода. Допущения и диагностика. Оценка максимального правдоподобия. Интерпретация модели. Оценка соответствия модели.
Обобщенные линейные модели:
Метод опорных векторов (SVR) и деревья решений
Деревья решений. Bagging. Случайные леса. Boosting. Важность переменной. Сортировка полей и поддержка векторного классификатора. Метод опорных векторов.
Оценка производительности регрессионной модели. Коэффициенты линейной регрессии.
5. Алгоритмы классификации.
Логистическая регрессия.
Алгоритм ближайших соседей.
Алгоритм K-ближайших соседей. Выбор К и меры расстояния.
Наивный байессовский анализ и "проклятие размерности" Условная вероятность: теорема Байеса. Оценка Лапласа. Уменьшение размерности. Процедура PCA. Ridge и регрессия Лассо. Перекрестная проверка.
Классификация с помощью деревьев решений.
Классификация методом случайных деревьев.
Оценка производительности классификационной модели.
6. Кластерный анализ
Кластерный анализ.
K-means кластеризация
Иерархическая кластеризация. Принципы построения дендрограмм.
7. Ассоциативные правила
Правила Априори алгоритма
Основные приниципыи построение модели в R
8. Машинные алгоритмы с переобучением (Reinforcement learning)
Верхняя граница достоверности (UCB Upper Confidence Bound)
Сравнение алгоритмов
Реализация алгоритмов в К
9. NLP алгоритмы (Алгоритмы текстовой обработки)
Основы Natural Language Proccesingе
Реализация алгоритмов NLPв R
10. Глубокое Обучение (Deep Learning)
Отличие машинного обучение(Machine Learning) от глубокого обучения (Deep Learning)
Искуственные Нейронные Сети (Artificial Neural Networks) :
11. Уменьшение размерности
Принципиальный компонентный анализ Principal Component Analysis (PCA)
k-Fold кросс проверка
Реализация поиска структуры (Grid search) в R
Реализация XGBoost в R