E-VAE-44100-25hz
E-VAE — это высококачественный стриминговый аудио-VAE
Модель разработана для задач синтеза речи. Она сжимает аудио 44.1 кГц в компактное латентное представление с частотой обновления 25 Гц.
Метрики качества
| Metric | Value (Mean) | Min / Max | Description |
|---|---|---|---|
| PESQ | 3.072 | 1.076 / 3.933 | Perceptual Evaluation of Speech Quality (Wideband) |
| UTMOS | 3.052 | 1.335 / 3.813 | MOS prediction for naturalness |
| V/UV F1 | 0.975 | - | Точность определения тональных/шумовых участков |
Технические характеристики
- Sample Rate: 44100 Hz
- Frame Rate (Latent): 25 Hz
- Downsampling Factors:
[2, 3, 6, 7, 7] - Архитектура: Fully Causal Conv1d + Snake Activations.
Использование
В файлах репозитория используйте ebanyvae.py и ebanyvae.pt