ayousanz commited on
Commit
010b0d3
·
verified ·
1 Parent(s): 9582a2e

Upload folder using huggingface_hub

Browse files
Files changed (2) hide show
  1. README.md +86 -7
  2. model.ckpt +2 -2
README.md CHANGED
@@ -1,9 +1,88 @@
1
- ---
2
- license: cc-by-sa-4.0
3
- language:
4
- - ja
5
- ---
6
 
7
- # 日本語事前学習モデル-[piper-plus](https://github.com/ayutaz/piper-plus)
8
 
9
- 日本語のデータセット 100時間程度を一から学習した日本語特化の事前学習モデルです。学習がうまくいっていないので、今後より精度が高いものを公開予定です
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # Piper Plus Base Model (Japanese)
 
 
 
 
2
 
3
+ 日本語TTS用の事前学習済みベースモデルです。このモデルは単一話者のファインチューニング用に最適化されています。
4
 
5
+ ## Model Details
6
+
7
+ | 項目 | 値 |
8
+ |------|-----|
9
+ | アーキテクチャ | VITS |
10
+ | 言語 | 日本語 (ja) |
11
+ | サンプルレート | 22050 Hz |
12
+ | 品質 | medium |
13
+ | 音素タイプ | OpenJTalk |
14
+ | 話者数 | 0 (単一話者用) |
15
+
16
+ ## 使用方法
17
+
18
+ ### ファインチューニング
19
+
20
+ このベースモデルを使用して、新しい話者の音声でファインチューニングできます。
21
+
22
+ #### 1. データセットの前処理
23
+
24
+ ```bash
25
+ uv run python -m piper_train.preprocess \
26
+ --input-dir /path/to/your-ljspeech-data \
27
+ --output-dir /path/to/dataset \
28
+ --language ja \
29
+ --dataset-format ljspeech \
30
+ --sample-rate 22050 \
31
+ --single-speaker \
32
+ --phoneme-type openjtalk
33
+ ```
34
+
35
+ #### 2. ファインチューニングの実行
36
+
37
+ ```bash
38
+ uv run python -m piper_train \
39
+ --dataset-dir /path/to/dataset \
40
+ --accelerator gpu \
41
+ --devices 1 \
42
+ --precision 16-mixed \
43
+ --max_epochs 50 \
44
+ --batch-size 32 \
45
+ --checkpoint-epochs 1 \
46
+ --base_lr 1e-4 \
47
+ --disable_auto_lr_scaling \
48
+ --resume_from_checkpoint /path/to/model.ckpt \
49
+ --default_root_dir /path/to/output
50
+ ```
51
+
52
+ ### 推奨パラメータ
53
+
54
+ | パラメータ | 値 | 説明 |
55
+ |-----------|-----|------|
56
+ | `--base_lr` | 1e-4 | 事前学習より低い学習率(過学習防止) |
57
+ | `--disable_auto_lr_scaling` | - | 学習率の自動スケーリングを無効化 |
58
+ | `--max_epochs` | 50-100 | 少量データの場合は短め |
59
+ | `--batch-size` | 32 | GPUメモリに応じて調整 |
60
+
61
+ ## 元モデル
62
+
63
+ このベースモデルは50話者のマルチスピーカーモデルから変換されました:
64
+ - 元データセット: moe-speech-50speakers
65
+ - 学習エポック: 200
66
+ - 話者埋め込み層を削除
67
+ - オプティマイザ状態を初期化
68
+ - エポックカウンタをリセット
69
+
70
+ ## ファイル構成
71
+
72
+ - `model.ckpt` - PyTorch Lightningチェックポイント
73
+ - `config.json` - モデル設定(音素マップ等)
74
+
75
+ ## License
76
+
77
+ Apache 2.0
78
+
79
+ ## Citation
80
+
81
+ ```bibtex
82
+ @software{piper_plus,
83
+ title = {Piper Plus: Japanese TTS with VITS},
84
+ author = {ayousanz},
85
+ year = {2024},
86
+ url = {https://github.com/ayousanz/piper}
87
+ }
88
+ ```
model.ckpt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7d89b3f50261728e50a65c8dd01fc9132411d14569723915e3caad2703571930
3
- size 288969429
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a4ff8c5b35bf37a190fb039fc7e8ed4d209acc2f3fbc75776bdbabd578d32a64
3
+ size 288896406