🦄 Список Разработанных Перезанимаемых Технологий
Это список технологий, которые мы используем / освоили / успешно применяли в проектах, которые дошли до продакшен применения. Они могут пригодиться и в вашем проекте. Что-то написано совсем с нуля, что-то является просто кастомизацией общедоступного.
Speech
- Датасет Open STT и многочисленные его приватные расширения;
- Уникальная акустическая модель (из речи в буквы) для русского языка. Скоро будет около-научная статья. Очень быстрая, требует мало ресурсов для тренировки, можно использовать как в облаке, так и on-premise, детали тут;
- Пост-процессинг для акустической модели, который также легко настраивается под конкретный домен просто списком терминов;
- Внутренний тулкит для быстрого майнинга речевых корпусов;
Computer Vision (CV)
- Сейчас этим никого не удивишь, но так или иначе у нас есть опыт успешного применения CV нейросеток в классификации и семантической сегментации (маски). Есть бойлерплейт для любых типовых задач, кроме детекции объектов и генерации картинок;
Natural Language Processing (NLP)
- Минималистичный пайплайн для sequence-to-sequence моделирования, также поддерживающий laser-tagger подход;
- Свой аналог геокодера, построенный на открытых данных, который может обрабатывать ограниченный набор цепочек в произвольной спонтанной речи (в основном цепочки город - улица - дом);
- Токенизация для русского языка, учитывающая изменения слов - склонения / спряжения / падежи. Работает сильно лучше, чем стандартные подходы;
- Публично опубликованная нормализация ("2020-й "=> "две тысячи двадцатый") для русского языка на основе правил и на основе нейросетей;
- Денормализация ("сто пятнадцать"=> "115") для русского языка на основе правил и грамматик;
- Правка пунктуации и правописания на основе нейросетей;
Общие вещи
- Бойлерплейт для высоко-нагруженного АПИ с поддержкой асинхронной работы с видеокартами и распределенной архитектурой;
- Набор докерфайлов для работы командой и быстрого поднятия рабочих окружений для Deep Learning (DL) / Machine Learning (ML) работы;