E-VAE-44100-25hz

E-VAE — это высококачественный стриминговый аудио-VAE

Модель разработана для задач синтеза речи. Она сжимает аудио 44.1 кГц в компактное латентное представление с частотой обновления 25 Гц.

Метрики качества

Metric Value (Mean) Min / Max Description
PESQ 3.072 1.076 / 3.933 Perceptual Evaluation of Speech Quality (Wideband)
UTMOS 3.052 1.335 / 3.813 MOS prediction for naturalness
V/UV F1 0.975 - Точность определения тональных/шумовых участков

Технические характеристики

  • Sample Rate: 44100 Hz
  • Frame Rate (Latent): 25 Hz
  • Downsampling Factors: [2, 3, 6, 7, 7]
  • Архитектура: Fully Causal Conv1d + Snake Activations.

Использование

В файлах репозитория используйте ebanyvae.py и ebanyvae.pt

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support