Upload folder using huggingface_hub
Browse files- README.md +86 -7
- model.ckpt +2 -2
README.md
CHANGED
|
@@ -1,9 +1,88 @@
|
|
| 1 |
-
|
| 2 |
-
license: cc-by-sa-4.0
|
| 3 |
-
language:
|
| 4 |
-
- ja
|
| 5 |
-
---
|
| 6 |
|
| 7 |
-
|
| 8 |
|
| 9 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
# Piper Plus Base Model (Japanese)
|
|
|
|
|
|
|
|
|
|
|
|
|
| 2 |
|
| 3 |
+
日本語TTS用の事前学習済みベースモデルです。このモデルは単一話者のファインチューニング用に最適化されています。
|
| 4 |
|
| 5 |
+
## Model Details
|
| 6 |
+
|
| 7 |
+
| 項目 | 値 |
|
| 8 |
+
|------|-----|
|
| 9 |
+
| アーキテクチャ | VITS |
|
| 10 |
+
| 言語 | 日本語 (ja) |
|
| 11 |
+
| サンプルレート | 22050 Hz |
|
| 12 |
+
| 品質 | medium |
|
| 13 |
+
| 音素タイプ | OpenJTalk |
|
| 14 |
+
| 話者数 | 0 (単一話者用) |
|
| 15 |
+
|
| 16 |
+
## 使用方法
|
| 17 |
+
|
| 18 |
+
### ファインチューニング
|
| 19 |
+
|
| 20 |
+
このベースモデルを使用して、新しい話者の音声でファインチューニングできます。
|
| 21 |
+
|
| 22 |
+
#### 1. データセットの前処理
|
| 23 |
+
|
| 24 |
+
```bash
|
| 25 |
+
uv run python -m piper_train.preprocess \
|
| 26 |
+
--input-dir /path/to/your-ljspeech-data \
|
| 27 |
+
--output-dir /path/to/dataset \
|
| 28 |
+
--language ja \
|
| 29 |
+
--dataset-format ljspeech \
|
| 30 |
+
--sample-rate 22050 \
|
| 31 |
+
--single-speaker \
|
| 32 |
+
--phoneme-type openjtalk
|
| 33 |
+
```
|
| 34 |
+
|
| 35 |
+
#### 2. ファインチューニングの実行
|
| 36 |
+
|
| 37 |
+
```bash
|
| 38 |
+
uv run python -m piper_train \
|
| 39 |
+
--dataset-dir /path/to/dataset \
|
| 40 |
+
--accelerator gpu \
|
| 41 |
+
--devices 1 \
|
| 42 |
+
--precision 16-mixed \
|
| 43 |
+
--max_epochs 50 \
|
| 44 |
+
--batch-size 32 \
|
| 45 |
+
--checkpoint-epochs 1 \
|
| 46 |
+
--base_lr 1e-4 \
|
| 47 |
+
--disable_auto_lr_scaling \
|
| 48 |
+
--resume_from_checkpoint /path/to/model.ckpt \
|
| 49 |
+
--default_root_dir /path/to/output
|
| 50 |
+
```
|
| 51 |
+
|
| 52 |
+
### 推奨パラメータ
|
| 53 |
+
|
| 54 |
+
| パラメータ | 値 | 説明 |
|
| 55 |
+
|-----------|-----|------|
|
| 56 |
+
| `--base_lr` | 1e-4 | 事前学習より低い学習率(過学習防止) |
|
| 57 |
+
| `--disable_auto_lr_scaling` | - | 学習率の自動スケーリングを無効化 |
|
| 58 |
+
| `--max_epochs` | 50-100 | 少量データの場合は短め |
|
| 59 |
+
| `--batch-size` | 32 | GPUメモリに応じて調整 |
|
| 60 |
+
|
| 61 |
+
## 元モデル
|
| 62 |
+
|
| 63 |
+
このベースモデルは50話者のマルチスピーカーモデルから変換されました:
|
| 64 |
+
- 元データセット: moe-speech-50speakers
|
| 65 |
+
- 学習エポック: 200
|
| 66 |
+
- 話者埋め込み層を削除
|
| 67 |
+
- オプティマイザ状態を初期化
|
| 68 |
+
- エポックカウンタをリセット
|
| 69 |
+
|
| 70 |
+
## ファイル構成
|
| 71 |
+
|
| 72 |
+
- `model.ckpt` - PyTorch Lightningチェックポイント
|
| 73 |
+
- `config.json` - モデル設定(音素マップ等)
|
| 74 |
+
|
| 75 |
+
## License
|
| 76 |
+
|
| 77 |
+
Apache 2.0
|
| 78 |
+
|
| 79 |
+
## Citation
|
| 80 |
+
|
| 81 |
+
```bibtex
|
| 82 |
+
@software{piper_plus,
|
| 83 |
+
title = {Piper Plus: Japanese TTS with VITS},
|
| 84 |
+
author = {ayousanz},
|
| 85 |
+
year = {2024},
|
| 86 |
+
url = {https://github.com/ayousanz/piper}
|
| 87 |
+
}
|
| 88 |
+
```
|
model.ckpt
CHANGED
|
@@ -1,3 +1,3 @@
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
-
oid sha256:
|
| 3 |
-
size
|
|
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:a4ff8c5b35bf37a190fb039fc7e8ed4d209acc2f3fbc75776bdbabd578d32a64
|
| 3 |
+
size 288896406
|