📦 Мажорный Релиз Enterprise Дистрибутивов v1.4.4 и релиз STT моделей v15

Мы очень много работали с потоковым распознаванием и улучшением наших моделей распознавания языка. Нельзя выделить одну "главную" фичу, было очень много точечной работы в первую очередь над детектором аудио и потоковым распознаванием.

📦 Релиз Enterprise Дистрибутивов v1.4.4

Начиная с внутренней версии 1.4.1 мы активно обкатывали свои дистрибутивы на своих внутренних продуктах (телеграм-бот и сервис для распознавания аудио) и вместе с нашими партнерами.

Просуммируем что мы добавили с точки зрения пакетирования во время промежуточных релизов с 1.4.1 по 1.4.4.

Общее:

  • Добавлена поддержка работы с 2 LM для других языков;
  • Добавлена возможности работы с другими языками;
  • Старые лиц. файлы и дистрибутивы совместимы с новыми образами;

gRPC:

  • Масштабный релиз нашего VAD-а, он теперь встроен и в gRPC АПИ;
  • Добавлена модель расстановки знаков препинания и пунктуации (te-model);
  • Дальнейшие фиксы проблем VAD-а в начале и конце сессии ("спасибо", лишняя обрезка, повышена точность определения границ речи);
  • Существенно снижено потребление ресурсов VAD-ом, убраны разные его разновидности, на порядок снижено количество кода для вызова непосредственно самого VAD-а;
  • Рефакторинг и существенное упрощение логики работы VAD-а;
  • Масштабная переработка параметров VAD-а, добавлена возможности указывать их не только при старте сервиса, но и в каждой gRPC сессии;
  • Добавлена поддержка SSL в gRPC API без возни с сертификатами;
  • Возможность изменять адрес api консюмера в gRPC через .env переменные: API_NAME - по умолчанию, 'api', API_PORT - по умолчанию, '5000';
  • Нагрузочное тестирование gRPC на длинных файлах на больших объемах при стресс тестах, блуждающие ошибки самого gRPC локализованы и устранены, утечки памяти найдены и устранены;
  • Нашли и пофиксили в gRPC критичный баг, который при одновременном прогоне нескольких длинных файлов иногда приводил к странным ошибкам и падению всего контейнера;

Основное API:

  • Для te-model вынесен отдельный эндпоинт в основное АПИ;
  • Фикс тупого бага в диаризации;

TTS:

  • Новое обязательное поле в запросе в /voice метод - sample_rate;
  • Добавили TTS-only compose file;
  • Обновили доку;
  • Финишная прямая перед масштабным релизом синтеза;

💎 Релиз новых моделей V15

Изначально планировалось, что релизы дистрибутивов и моделей будут иметь одну мажорную версию, но они разошлись (мы пропустили одну версию, в будущем синхронизируемся, потому что будем сильно менять наши модели, и это займет время).

Обновление от 07.04.2022 - сделали ручную переразметку "новых" валидационных сетов.

Основные моменты:

  • В среднем качество растет;
  • На звонках качество существенно растет;
  • Появились новые валидационные датасеты (еще предстоит их немного почистить и переразметить, реальные метрики скорее всего на ~5 пп лучше);
  • На такси скорее всего мы уперлись в лимиты нашего пост-процессинга (акустическая модель в этот раз была заметно лучше), нам предстоит большая работа именно над пост-процессингом в принципе;