🔨 2019 Семантический Поиск и Полу-автоматическая Система Дистилляции Контента Profi.ru

Суть

Было поставлено 2 задачи:

  • Сильно повысить точность поиска на главной Profi.ru, улучшив как точность, так и "интерполируемость" и "умность" поиска (чтобы искало условно не только по тому контенту, что есть в базе, но и чтобы поиск мог находить близкие по смыслу услуги);
  • Помочь наполнить бекенд новыми услугами и завести их в промышленном количестве (десятки тысяч);

Итоги

  • Оперативно разработали уникальное решение для поиска, параллельно попробовав самые практичные близкие к state-of-the-art подходам и повысив точность с 60-70% до 85-90%;
  • Поиск стал генерализоваться - то есть реагировать не только на контент, которые есть, но и на похожие по смыслу фразы;
  • Поиск стал сильно более устойчив к опечаткам, ошибкам и частичному вводу;
  • Были построены бизнес-процессы, позволяющие в сжатые сроки найти, отфильтровать, и включить в поисковый индекс услуги в любом наперед заданном информационном домене;
  • Параллельно был опубликован ряд статей;

Ссылки и статьи:

  • Презентация промежуточных итогов на русском
  • Опубликованные pre-trained Fast-Text вектора
  • Несколько опубликованных статей:
Building client routing / semantic search and clustering arbitrary external corpuses at Profi.ru
Building client routing / semantic search and clustering arbitrary external corpuses at Profi.ruСтатьи автора - http://spark-in.me/author/snakers41Блог - http://spark-in.me
Конечно же надо писать corpora, я знаю
Learning to rank search results without annotation
Solving search ranking problemСтатьи автора - http://spark-in.me/author/adamnsandleБлог - http://spark-in.me
Complexity / generalization /computational cost in modern applied NLP for morphologically rich languages
Complexity / generalization /computational cost in modern applied NLP for morphologically rich languages. Towards a new state of the art?Статьи автора - http://spark-in.me/author/snakers41Блог - http://spark-in.me

Картиночки

Рост точности на чистом вводе
Рост точности на частичном вводе
Рост точности на вводе со ошибками
Визуализация поисковых запросов в 2D пространстве