☣ 2019 Пре-модерация Картинок
Суть
Юзеры заливают много картинок. Картинки должны пройти автоматическую модерацию, т.к. сами модеры не успевают вручную все просматривать. Интересуют 2 основные типа контента - NSFW и фотографии контактов. Типичная бизнес-задача (все как мы любим):
- C очень дисбалансными выборками;
- Отсутствием реально размеченных данных и четких критериев NSFW;
- Мягко говоря странными и устаревшими state-of-the-art решениями;
- Отсутствием нормальных публичных датасетов;
Ситуацию не упрощает тот факт, что некоторые типы "спорного" контента (младенцы которым делают массаж, эпилированные лобки с прикрытыми половыми губами, татуировки) формально могут являться допустимым.
Итоги
Сделали с нулем (!!! в supervised learning !!!) потраченных денег на разметку, отдали заказчику, задеплоили. Получился хороший баланс между precision и recall за счет комбинирования разных датасетов и использования семантической сегментации для ряда голов нейросетки.
В итоге получилось:
- Красиво;
- Быстро;
- Минималистично;
Технические детали
Некоторые детали можно почитать тут.