В том, что школьники могут создать работающие и применимое на практике решение, уверены и организаторы профиля больших данных и машинного обучения — в этом году он направлен на медицинские данные. Николай Князев, координатор трека больших данных и ведущий дата-аналитик «Инфосистемы Джет», объясняет, что особенность профиля — в том, что они всегда ищут нерешенную задачу в сфере машинного обучения и заказчика, которому эта задача была бы интересна.

«Три года назад у нас был в партнерах Mail.ru Group с анализом соцсетей, два года назад — анализировали дневники поэтов с «Прожито», шли задачи на определение авторства текста. В этот раз вместе с НИИ Бурденко предсказываем выживаемость пациентов и вероятность рецидива заболеваний», — объясняет Николай. Данные для исследований, конечно, реальные: так, специально для Олимпиады собрали дата-сет из 920 пациентов и более чем 5000 очагов, часть данных стали «контрольными» для проверки организаторами, а основной массив пошел ребятам на решения задач.

Участники должны сначала разобраться с медицинскими терминами и назначениях, потом — проработать методологию решения двух задач, по выживаемости и по ремиссии. «Если взять средние значения и средние отклонения от значения, то ошибка будет в районе года. С использованием методов машинного обучения ошибка уменьшилась до 4-5 месяцев. Будем надеяться, что этот показатель еще улучшится», — рассказывает Николай.

«Мы, конечно, тоже оцениваем данные пациентов, — комментирует Александра Далечина, медицинский физик Центра «Гамма-нож» при НИИ нейрохирургии им. Бурденко и одна из организаторов профиля. — Но используем стандартные статистические методы, которые не учитывают многие параметры, действующие на результат лечения. Алгоритмы машинного обучения позволят выявить важные факторы, влияющие на результат, и более точно оценивать эффективность лечебных методик».

Все успехи команд видны на большом экране в центре помещения. Система простая — чем более эффективное решение задачи предложено, тем больше баллов. У лидирующей сейчас команды с полным символизма названием «2035» — больше 30 баллов за первую задачу. Это значит, что разработанный командой алгоритм уже в шесть раз лучше, чем базовый, предложенный составителями.

Светалана Зыкова, Rusbase