Большие данные и машинное обучение

  • информатика
  • математика
  • Дает 100 баллов на ЕГЭ

Профиль «Большие данные и машинное обучение» погружает участников в выполнение реальных задач, связанных с анализом больших объёмов данных и разработкой приложений.

Этот профиль — наиболее «программистский» из всех: он состоит исключительно из написания кода, математики и анализа данных.

В свободной и непринуждённой атмосфере молодые программисты пытаются решить задачи, значительно выходящие за рамки школьной программы (очень пригодится знание мат. статистики, теории графов и, разумеется, Python).

Задача профиля «Большие данные и машинное обучение» на Олимпиаде НТИ 2019/20 состояла в определении успеваемости студентов НовГУ им. Ярослвав Мудрого. По обезличенным данным абитурентов, их школьной и вузовской успеваемости было предложено спрогнозировать реальные оценки студентов в будущем.

На Олимпиаде 2016/17 базой для анализа выступил массив дневников, написанных различными людьми в начале 20 века. Нашим программистам нужно было написать алгоритм, который бы анализировал стилистику различных записей и определял авторство тех, которые пока оставались анонимными, сопоставляя их с отрывками, чьи авторы известны.

 

Состав команды — 3 человека

2 программиста (пишут код, разрабатывают архитектуру и интерфейс решения)

1 аналитик (разрабатывает бизнес-процессы, строит мат. модель)

Разработчики профиля

Партнеры профиля

 

Отборочные этапы

Во время отборочных этапов необходимо будет писать программы, разрабатывать алгоритмы по обработке данных, решать задачи с использованием современных технологий, таких как машинное обучение, нереляционные базы данных, облачные технологии, современные средства визуализации данных.

В ходе второго отборочного этапа школьникам будут предложены онлайн-курсы, хакатоны (в них можно будет принять участие удалённо) и видеолекции ведущих российских специалистов в индустрии.

Заключительный этап

Финальная задача традиционно является классическим соревнованиям по построения прогнозных моделей. Участникам выдается набор данных и параметр, который на этом наборе необходимо спрогнозировать. Участники не ограничены в применении алгоритмов и техник, однако их решение на языке Python должно запуститься в тестовой среде и выдать прогноз. Победителем считается команда, выдавшая наиболее точный прогноз.

В рамках заключительного этапа организаторами традиционно предоставляются вычислительные серверы, которые можно использовать для решения и оставлять обучаться модели на ночь, пока участники идут спать. Таким образом базовые знания работы в linux также не будут лишними.

Традиционно на решение задачи отводится несколько дней и все время участники могут видеть лидерборде, на котором выводится точность прогнозных моделей команд.

Материалы для участников

Что потребуется:

  • понимание основных концепций в области машинного обучения и нейросетей;
  • программирование на языке Python и знание библиотек обработки данных (pandas, scikit-learn, numpy, scipy и т.д.);
  • умение быстро находить решения в интернете на специализированных ресурсах (stackexchange и пр.), разбираться в них и адаптировать под свои потребности;
  • умение эффективно работать с большими данными, писать алгоритмы эффективно;
  • умение вести тестирование, отладку.

Для подготовки к участию в данном профиле мы предлагаем вам следующие документы и внешние ресурсы:

Общие материалы для подготовки:

Профильные материалы для подготовки

Рынки НТИ

  • NeuroNet
  • SpaceNet
  • TechNet