🏅ML Соревнования

Last updated on 19 февр. 2020 г.

Уже довольно давно ML-соревнования проходят мимо нас, т.к. исторически мы участвовали в них только при совпадении этих критериев:

Интересный и новый домен, не противоречащий минимальной этике (например face-recognition);
Код, который будет написан во время соревнования, можно будет использовать повторно и в работе;
Адекватные организаторы, которые готовы вкладывать время и работу в то, чтобы сделать данные и валидацию вменяемыми;
Адекватный уровень конкуренции, четко поставленная задача и адекватная метрика;
Заранее заявленная методология отложенной проверки решений;

Сейчас большая часть соревнований - это просто информационный шум (такой менталитет превалирует среди участников) и они как правило не имеют ничего общего с интересными решениями / качественным кодом / новизной, но тем не менее есть несколько выступлений, которыми мы гордимся:

SpaceNet 4 (статья). Спутниковые картинки, семантическая сегментация. Это было первое серьезное соревнование для Ани, но она смогла даже немного поднять денег. Тут почти правильно было все - и проверка решений, и докеризация. Были некоторые проблемы с темпом, может можно было бы попасть и повыше, но топовые решения даже тут настакали по 30 моделей. В SpaceNet 5 не стали даже входить, т.к. он абстрактно был посложнее и вообще показалось, что организаторы на нем уже просто осваивают средства и о начале никто даже не стал объявлять;
SpaceNet 3 (статья). Спутниковые картинки, семантическая сегментация. Это было мое первое серьезное соревнование. Получилось попасть в топ на одной модели;
CFT 2018 (статья). Правка опечаток в именах. Это соревнование послужило нам поводом собрать для себя качественный минималистичный sequence-to-sequence пайплайн. Мы даже заняли первое место. Задача была реальной, валидация внезапно адекватной;
Kaggle DS Bowl 2018 (статья). Очередная лотерея от Kaggle, но сама задача было весьма интересной. Плюс было интересно разобраться с Instance Segmentation;
Jungle Animal Trap Competition (статья). Тут скорее было интересно, что нужно было обработать 1 TB видео-данных. Наша команда попала в топ, мы даже что-то получили;

В общем и целом, судите сами по выбору задач.