8 октября в МФТИ очередной раз стартует спецкурс "Анализ данных на практике". Занятия будут проходить в Долгопрудном по субботам с 17 до 20 часов (лекция + семинар). Первое занятие состоится в аудитории 239 НК.
Цель курса - познакомить слушателей с основными методами и конкретными применениями анализа данных и машинного обучения, а также научить решать эти задачи. На входе требуются только элементарные знания по программированию (что такое переменные, циклы, условные операторы) и математике (что такое функция, производная, градиент, матрица), а также желание и готовность уделять работе по курсу 5-10 часов в неделю.
В этом году на курсе появляются семинарские группы, чтобы более плотно работать с каждым слушателем. Групп будет семь и у каждой - одна из трех специализаций:
1) индустриальный анализ данных ("индустрия") - для тех, кому интересно формализовывать задачи, в расплывчатой форме поставленные заказчиком, понимать, какие данные нужны, и строить решения, применимые в бизнесе
2) спортивный анализ данных ("спорт") - для тех, кто хочет участвовать и побеждать в соревнованиях по анализу данных и готов упорно доводить свое решение до максимального качества
3) последние тренды в анализе данных ("тренды") - для тех, кто хочет быть на переднем крае науки и практики, кто не позволит диалоговым системам или стилизация изображений нейросетями пройти мимо него.
Также обращаем внимание, что если вы по каким-то причинам не готовы ходить на семинары - не надо отказывать себе в посещении лекций :)
Традиционно курс пользуется популярностью как у студентов МФТИ, так и у студентов и выпускников других вузов. Последние два года на первое занятие приходит более сотни человек, к концу первого семестра остается несколько десятков. Мы хотим хотя бы примерно оценить возможное число слушателей, поэтому просим предварительно заполнить небольшую анкету: https://goo.gl/forms/OWNSXdXYZPmnWBVt1
Команда курса:
Виктор Кантор - Yandex Data Factory (ранее - ABBYY), индустрия
Александр Гущин - Avito, Kaggle Master, входит в top20 рейтинга kaggle.com, спорт
Денис Семененко - DoubleData (ранее - Surfingbird), индустрия
Дмитрий Персиянов - Тинькофф Кредитные Системы (ранее - Surfingbird), тренды
Евгений Елтышев - Kaggle Master, спорт
Арсений Ашуха - BayesGroup (ранее - Яндекс, Рамблер), тренды
Илья Ирхин - Yandex Data Factory, индустрия
Программа курса в осеннем семестре:
1) Вводная лекция с основными понятиями, примерами простых методов и примером постановки задачи. Короткое знакомство с методами оптимизации и со списком необходимых питоновских библиотек.
2) Базовые методы решения задач классификации и регрессии (линейные модели, решающие деревья, ансамбли)
3) Базовые методы кластеризации и методы понижения размерности пространства признаков
4) Оценка качества и метрики. Генерация и отбор признаков.
5) Анализ текстов: классификация и кластеризация текстов, оценка похожести текстов по смыслу, анализ тональности текстов, аннотирование, распознавание именованных сущностей
6) Анализ изображений: введение в обработку изображений, детектирование ключевых точек, дескрипторы, сопоставление изображений, классификация изображений и поиск объектов на изображении
7) Нейросети и deep learning: метод обратного распространения ошибки, функции активации и dropout, сверточные нейросети, реккурентные нейросети, автоэнкодеры. Примеры, когда стандартные методы работают лучше.
8) Временные ряды: простые методы прогнозирования с анализом тренда и сезонности, ARIMA, сложные композиции алгоритмов.
9) Рекомендательные системы: максимизация экономического эффекта от рекомендаций, оценка оффлайн и онлайн качества
10) Задачи из банков, ритейла и телекома: скоринг, отток, прогнозирование спроса
11) Интерактивное занятие про дизайн задачи: познакомившись с разными примерами, попробуем поучиться ставить задачу на конкретных кейсах
Каждую неделю на семинарах будут выдаваться небольшие задания к следующему занятию, выполняя которые, слушатели будут разбираться с работой разных методов и учиться самостоятельно решать рассмотренные в курсе задачи. Периодически в течение курса будут устраиваться соревнования и, при готовности аудитории, хакатоны.
В весеннем семестре слушателей ждут работа над своими проектами, серьезные соревнования и еще больше интересных задач.
Заполняйте анкету слушателя курса и приходите :)