8 октября в МФТИ очередной раз стартует спецкурс "Анализ данных на практике". Занятия будут проходить в Долгопрудном по субботам с 17 до 20 часов (лекция + семинар). Первое занятие состоится в аудитории 239 НК. Цель курса - познакомить слушателей с основными методами и конкретными применениями анализа данных и машинного обучения, а также научить решать эти задачи. На входе требуются только элементарные знания по программированию (что такое переменные, циклы, условные операторы) и математике (что такое функция, производная, градиент, матрица), а также желание и готовность уделять работе по курсу 5-10 часов в неделю. В этом году на курсе появляются семинарские группы, чтобы более плотно работать с каждым слушателем. Групп будет семь и у каждой - одна из трех специализаций: 1) индустриальный анализ данных ("индустрия") - для тех, кому интересно формализовывать задачи, в расплывчатой форме поставленные заказчиком, понимать, какие данные нужны, и строить решения, применимые в бизнесе 2) спортивный анализ данных ("спорт") - для тех, кто хочет участвовать и побеждать в соревнованиях по анализу данных и готов упорно доводить свое решение до максимального качества 3) последние тренды в анализе данных ("тренды") - для тех, кто хочет быть на переднем крае науки и практики, кто не позволит диалоговым системам или стилизация изображений нейросетями пройти мимо него. Также обращаем внимание, что если вы по каким-то причинам не готовы ходить на семинары - не надо отказывать себе в посещении лекций :) Традиционно курс пользуется популярностью как у студентов МФТИ, так и у студентов и выпускников других вузов. Последние два года на первое занятие приходит более сотни человек, к концу первого семестра остается несколько десятков. Мы хотим хотя бы примерно оценить возможное число слушателей, поэтому просим предварительно заполнить небольшую анкету: https://goo.gl/forms/OWNSXdXYZPmnWBVt1 Команда курса: Виктор Кантор - Yandex Data Factory (ранее - ABBYY), индустрия Александр Гущин - Avito, Kaggle Master, входит в top20 рейтинга kaggle.com, спорт Денис Семененко - DoubleData (ранее - Surfingbird), индустрия Дмитрий Персиянов - Тинькофф Кредитные Системы (ранее - Surfingbird), тренды Евгений Елтышев - Kaggle Master, спорт Арсений Ашуха - BayesGroup (ранее - Яндекс, Рамблер), тренды Илья Ирхин - Yandex Data Factory, индустрия Программа курса в осеннем семестре: 1) Вводная лекция с основными понятиями, примерами простых методов и примером постановки задачи. Короткое знакомство с методами оптимизации и со списком необходимых питоновских библиотек. 2) Базовые методы решения задач классификации и регрессии (линейные модели, решающие деревья, ансамбли) 3) Базовые методы кластеризации и методы понижения размерности пространства признаков 4) Оценка качества и метрики. Генерация и отбор признаков. 5) Анализ текстов: классификация и кластеризация текстов, оценка похожести текстов по смыслу, анализ тональности текстов, аннотирование, распознавание именованных сущностей 6) Анализ изображений: введение в обработку изображений, детектирование ключевых точек, дескрипторы, сопоставление изображений, классификация изображений и поиск объектов на изображении 7) Нейросети и deep learning: метод обратного распространения ошибки, функции активации и dropout, сверточные нейросети, реккурентные нейросети, автоэнкодеры. Примеры, когда стандартные методы работают лучше. 8) Временные ряды: простые методы прогнозирования с анализом тренда и сезонности, ARIMA, сложные композиции алгоритмов. 9) Рекомендательные системы: максимизация экономического эффекта от рекомендаций, оценка оффлайн и онлайн качества 10) Задачи из банков, ритейла и телекома: скоринг, отток, прогнозирование спроса 11) Интерактивное занятие про дизайн задачи: познакомившись с разными примерами, попробуем поучиться ставить задачу на конкретных кейсах Каждую неделю на семинарах будут выдаваться небольшие задания к следующему занятию, выполняя которые, слушатели будут разбираться с работой разных методов и учиться самостоятельно решать рассмотренные в курсе задачи. Периодически в течение курса будут устраиваться соревнования и, при готовности аудитории, хакатоны. В весеннем семестре слушателей ждут работа над своими проектами, серьезные соревнования и еще больше интересных задач. Заполняйте анкету слушателя курса и приходите :)