🚀 2019 Open STT 1.0
В конце 2019 года мы опубликовали релиз 1.0 наверное самого крупного на тот момент нашего достижения - самого большного открытого датасета русской речи в мире.
Кратко об Open STT v1.0
- Более 20 000 часов (изначально мы ставили себе планку в 10 000 часов) аудио русской речи, 2.3 Tb данных (в формате
wav
); - Большое разнообразие доменов: начиная с аудио, записанных на профессиональный микрофон, заканчивая телефонными звонками:
Домен | Разметка | Фразы | Часы | GB |
---|---|---|---|---|
Радио | Alignment | 8,3М | 11,996 | 1367 |
Публичная речь | Alignment | 1,7M | 2,709 | 301 |
Youtube | Субтитры | 2,6М | 2,117 | 346 |
Книги | Alignment/ASR | 1,3М | 1,632 | 180 |
Звонки | ASR | 695K | 819 | 91 |
Другие датасеты | TTS, начитывание | 1.9M | 835 | 95 |
- Теперь данные можно скачать на высокой скорости как в
.wav
(mono, 16KHz, int16) формате через торрент, так и по прямой ссылке в.mp3
; - Добавили небольшой вручную размеченный валидационный датасет (18 часов) для 3х основных доменов;
Более детально со статистикой можно познакомиться в репозитории проекта.
Ссылки: