F5-TTS-ไทย

โมเดล Text To Speech ภาษาไทย

โมเดลหลัก : SWivid/F5-TTS

Github : https://github.com/SWivid/F5-TTS

ชุดข้อมูล ระยะเวลา(ชั่วโมง)
Common Voice (Porameht/processed-voice-th-169k) ~160
Porjai Dataset ~300
Common Voice-EN(อังกฤษ) ~40
  • ขนาดโมเดลล่าสุด

    • 1,000,000 Steps
  • ภาษาที่รองรับ: ไทย และ อังกฤษ.

  • การอ่านข้อความยาวๆ หรือบางคำ ยังไม่ถูกต้อง

    • เสียงตัวอย่างควรมีความยาว 2-8 วินาที
    • สามารถลองปรับลดความเร็วเสียงในการสร้าง เช่น 0.8 หรือ กำหนด seed ใหม่, เพื่อให้ได้เสียงที่ถูกต้อง.
    • เสียงและข้อความต้นฉบับควรเป็นภาษาไทย.
    • ถ้าเสียงต้นฉบับเป็นภาษาอื่นควรเปลี่ยนข้อความต้นฉบับเป็นคำอ่านไทย เช่น Good Morning เป็น กูดมอร์นิ่ง.
    • ถ้าเสียงต้นฉบับมีความเร็วในการอ่านมาก ควรลดความเร็ว เหลือ 0.7-0.8

การใช้งาน

Github

ติดตั้ง

pip install f5-tts-th

#จำเป็นต้องติดตั้งเพื่อใช้งานได้มีประสิทธิภาพกับ GPU
pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124

ใช้งาน

from f5_tts_th.tts import TTS
import soundfile as sf

tts = TTS(model="v1") 

wav = tts.infer(
    ref_audio="YOUR_AUDIO_PATH",
    ref_text="ได้รับข่าวคราวของเราที่จะหาที่มันเป็นไปที่จะจัดขึ้น.", 
    gen_text="สวัสดีครับ นี่คือเสียงพูดภาษาไทย.", 
    step=32, 
    cfg=2.0, 
    speed=1.0
)

sf.write("test.wav", wav, 24000)

ตัวอย่างเสียง

  • เสียงต้นแบบ
    • ข้อความคำพูด : ฉันเดินทางไปเที่ยวที่จังหวัดเชียงใหม่ในช่วงฤดูหนาวเพื่อสัมผัสอากาศเย็นสบาย
  • เสียงที่สร้างขึ้น
    • Seed : 4213936761049775187
Downloads last month
72
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for VIZINTZOR/F5-TTS-THAI

Base model

SWivid/F5-TTS
Finetuned
(69)
this model
Finetunes
1 model

Dataset used to train VIZINTZOR/F5-TTS-THAI

Space using VIZINTZOR/F5-TTS-THAI 1

Collection including VIZINTZOR/F5-TTS-THAI