🔨 2019 Семантический Поиск и Полу-автоматическая Система Дистилляции Контента Profi.ru
Суть
Было поставлено 2 задачи:
- Сильно повысить точность поиска на главной Profi.ru, улучшив как точность, так и "интерполируемость" и "умность" поиска (чтобы искало условно не только по тому контенту, что есть в базе, но и чтобы поиск мог находить близкие по смыслу услуги);
- Помочь наполнить бекенд новыми услугами и завести их в промышленном количестве (десятки тысяч);
Итоги
- Оперативно разработали уникальное решение для поиска, параллельно попробовав самые практичные близкие к state-of-the-art подходам и повысив точность с 60-70% до 85-90%;
- Поиск стал генерализоваться - то есть реагировать не только на контент, которые есть, но и на похожие по смыслу фразы;
- Поиск стал сильно более устойчив к опечаткам, ошибкам и частичному вводу;
- Были построены бизнес-процессы, позволяющие в сжатые сроки найти, отфильтровать, и включить в поисковый индекс услуги в любом наперед заданном информационном домене;
- Параллельно был опубликован ряд статей;
Ссылки и статьи:
- Презентация промежуточных итогов на русском
- Опубликованные pre-trained Fast-Text вектора
- Несколько опубликованных статей: