📦 Мажорный Релиз Enterprise Дистрибутивов v1.4.4 и релиз STT моделей v15

Last updated on 7 апр. 2022 г.

Мы очень много работали с потоковым распознаванием и улучшением наших моделей распознавания языка. Нельзя выделить одну "главную" фичу, было очень много точечной работы в первую очередь над детектором аудио и потоковым распознаванием.

📦 Релиз Enterprise Дистрибутивов v1.4.4

Начиная с внутренней версии 1.4.1 мы активно обкатывали свои дистрибутивы на своих внутренних продуктах (телеграм-бот и сервис для распознавания аудио) и вместе с нашими партнерами.

Просуммируем что мы добавили с точки зрения пакетирования во время промежуточных релизов с 1.4.1 по 1.4.4.

Общее:

Добавлена поддержка работы с 2 LM для других языков;
Добавлена возможности работы с другими языками;
Старые лиц. файлы и дистрибутивы совместимы с новыми образами;

gRPC:

Масштабный релиз нашего VAD-а, он теперь встроен и в gRPC АПИ;
Добавлена модель расстановки знаков препинания и пунктуации (te-model);
Дальнейшие фиксы проблем VAD-а в начале и конце сессии ("спасибо", лишняя обрезка, повышена точность определения границ речи);
Существенно снижено потребление ресурсов VAD-ом, убраны разные его разновидности, на порядок снижено количество кода для вызова непосредственно самого VAD-а;
Рефакторинг и существенное упрощение логики работы VAD-а;
Масштабная переработка параметров VAD-а, добавлена возможности указывать их не только при старте сервиса, но и в каждой gRPC сессии;
Добавлена поддержка SSL в gRPC API без возни с сертификатами;
Возможность изменять адрес api консюмера в gRPC через .env переменные: API_NAME - по умолчанию, 'api', API_PORT - по умолчанию, '5000';
Нагрузочное тестирование gRPC на длинных файлах на больших объемах при стресс тестах, блуждающие ошибки самого gRPC локализованы и устранены, утечки памяти найдены и устранены;
Нашли и пофиксили в gRPC критичный баг, который при одновременном прогоне нескольких длинных файлов иногда приводил к странным ошибкам и падению всего контейнера;

Основное API:

Для te-model вынесен отдельный эндпоинт в основное АПИ;
Фикс тупого бага в диаризации;

TTS:

Новое обязательное поле в запросе в /voice метод - sample_rate;
Добавили TTS-only compose file;
Обновили доку;
Финишная прямая перед масштабным релизом синтеза;

💎 Релиз новых моделей V15

Изначально планировалось, что релизы дистрибутивов и моделей будут иметь одну мажорную версию, но они разошлись (мы пропустили одну версию, в будущем синхронизируемся, потому что будем сильно менять наши модели, и это займет время).

Обновление от 07.04.2022 - сделали ручную переразметку "новых" валидационных сетов.

Основные моменты:

В среднем качество растет;
На звонках качество существенно растет;
Появились новые валидационные датасеты (еще предстоит их немного почистить и переразметить, реальные метрики скорее всего на ~5 пп лучше);
На такси скорее всего мы уперлись в лимиты нашего пост-процессинга (акустическая модель в этот раз была заметно лучше), нам предстоит большая работа именно над пост-процессингом в принципе;