Что произошло
Xiaomi открыла исходный код MiMo-V2.5-ASR 30 апреля — модель для распознавания речи (ASR) с нативной поддержкой китайских диалектов.
| Возможность | Описание |
|---|---|
| Мандаринский | Стандартный китайский |
| Английский | Стандартный английский |
| У | Шанхайский, Сучжоуский |
| Кантонский | Гуандунский |
| Миньнань | Фуцзянь, Тайвань |
| Сычуаньский | Юго-западный мандарин |
| Распознавание песен | Речевой контент с музыкой |
| Шумная среда | Устойчивое распознавание |
| Мульти-спикер | Одновременное распознавание |
Технические особенности
- Единая архитектура: одна модель для всех диалектов
- Поддержка шума и музыки: высокий уровень извлечения акустических признаков
- Мульти-спикер: нативная поддержка без сторонних инструментов
Рекомендации
- Разработчики: Следите за лицензией на GitHub, тестируйте свои данные диалектов
- Продакт-менеджеры: Распознавание диалектов имеет чёткий спрос в Китае (сотни миллионов носителей)
На основе информации о релизе Xiaomi MiMo-V2.5-ASR.