🌐Модели для Детекции Речи, Чисел и Распознавания Языков
GitHub - snakers4/silero-vad: Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector
Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector - GitHub - snakers4/silero-vad: Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector
На данный момент у нас есть ряд вспомогательных моделей, которые умеют:
- Определять наличие речи в аудио (Voice Activity Detector, VAD);
- Определять наличие сказанных числительных в речи (Number Detector);
- Определять на каком языке и языковой группе что-то было сказано (Language Classifier);
Все модели живут и обновляются в репозитории silero-models. Там же находятся примеры, документация по настройке гипер-параметров и базовый код для применения моделей на практике.
VAD
Самая популярная и часто обновляемая модель. Определяет наличие речи в аудио, а также ее начало и конец.
Существует в ряде вариаций:
- Большая (1M параметров) и малые модели (10 - 100k параметров);
- Модель для частоты дискретизации в 16 kHz и 8 kHz;
- Также для некоторых моделей чекпойнты сконвертированы в ONNX;
Популярные страницы:
- Метрики и скорость;
- Тонкая настройка параметров;
- Механизм работы;
Также многочисленные примеры можно найти в списке примеров в ноутбуке:
Google Colaboratory
... и в папке с примерами:
silero-vad/examples at master · snakers4/silero-vad
Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector - silero-vad/examples at master · snakers4/silero-vad
Language Classifier
На данный момент лучший классификатор языков:
- Поддерживает 95 языков (85% точности) и 58 языковых групп (90% точности);
- Взаимопонятные языки объединены в группы (например Сербский + Хорватский + Боснийский);
- Натренирован примерно на 20k часов аудио (10к из которых принадлежат к 5 самым популярным языкам);
- Данные взяты из максимально разных источников, это не просто оверфит на один публичный датасет;
- Довольно компактная сетка в 4.7M параметров;
GitHub - snakers4/silero-vad: Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector
Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector - GitHub - snakers4/silero-vad: Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector
Number Detector
Детектор чисел ищет устно сказанные числа на 4 языках:
GitHub - snakers4/silero-vad: Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector
Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector - GitHub - snakers4/silero-vad: Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector