ayousanz
/

piper-plus-base

@@ -1,9 +1,88 @@
----
-license: cc-by-sa-4.0
-language:
-- ja
----
-# 日本語事前学習モデル-[piper-plus](https://github.com/ayutaz/piper-plus)
-日本語のデータセット 100時間程度を一から学習した日本語特化の事前学習モデルです。学習がうまくいっていないので、今後より精度が高いものを公開予定です

+# Piper Plus Base Model (Japanese)
+日本語TTS用の事前学習済みベースモデルです。このモデルは単一話者のファインチューニング用に最適化されています。
+## Model Details
+| 項目 | 値 |
+|------|-----|
+| アーキテクチャ | VITS |
+| 言語 | 日本語 (ja) |
+| サンプルレート | 22050 Hz |
+| 品質 | medium |
+| 音素タイプ | OpenJTalk |
+| 話者数 | 0 (単一話者用) |
+## 使用方法
+### ファインチューニング
+このベースモデルを使用して、新しい話者の音声でファインチューニングできます。
+#### 1. データセットの前処理
+```bash
+uv run python -m piper_train.preprocess \
+  --input-dir /path/to/your-ljspeech-data \
+  --output-dir /path/to/dataset \
+  --language ja \
+  --dataset-format ljspeech \
+  --sample-rate 22050 \
+  --single-speaker \
+  --phoneme-type openjtalk
+```
+#### 2. ファインチューニングの実行
+```bash
+uv run python -m piper_train \
+  --dataset-dir /path/to/dataset \
+  --accelerator gpu \
+  --devices 1 \
+  --precision 16-mixed \
+  --max_epochs 50 \
+  --batch-size 32 \
+  --checkpoint-epochs 1 \
+  --base_lr 1e-4 \
+  --disable_auto_lr_scaling \
+  --resume_from_checkpoint /path/to/model.ckpt \
+  --default_root_dir /path/to/output
+```
+### 推奨パラメータ
+| パラメータ | 値 | 説明 |
+|-----------|-----|------|
+| `--base_lr` | 1e-4 | 事前学習より低い学習率（過学習防止） |
+| `--disable_auto_lr_scaling` | - | 学習率の自動スケーリングを無効化 |
+| `--max_epochs` | 50-100 | 少量データの場合は短め |
+| `--batch-size` | 32 | GPUメモリに応じて調整 |
+## 元モデル
+このベースモデルは50話者のマルチスピーカーモデルから変換されました：
+- 元データセット: moe-speech-50speakers
+- 学習エポック: 200
+- 話者埋め込み層を削除
+- オプティマイザ状態を初期化
+- エポックカウンタをリセット
+## ファイル構成
+- `model.ckpt` - PyTorch Lightningチェックポイント
+- `config.json` - モデル設定（音素マップ等）
+## License
+Apache 2.0
+## Citation
+```bibtex
+@software{piper_plus,
+  title = {Piper Plus: Japanese TTS with VITS},
+  author = {ayousanz},
+  year = {2024},
+  url = {https://github.com/ayousanz/piper}
+}
+```

model.ckpt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d89b3f50261728e50a65c8dd01fc9132411d14569723915e3caad2703571930
-size 288969429

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4ff8c5b35bf37a190fb039fc7e8ed4d209acc2f3fbc75776bdbabd578d32a64
+size 288896406