caiyuchen
/

DAPO-step-0

Text Generation

text-generation-inference

Model card Files Files and versions

caiyuchen commited on Oct 3, 2025

Commit

73a2606

·

verified ·

1 Parent(s): 21ae9a9

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ This model is a reinforcement learning fine-tuned version of **Qwen3-8B-Base**,
 - **Base Model**: Qwen3-8B-Base
 - **Training Method**: Reinforcement Learning (DAPO)
 - **Dataset**: DAPO-Math-17k
-- **Checkpoint**: global_step_0(no RL training, i.e. Qwen3-8B-Base)
 ---

 - **Base Model**: Qwen3-8B-Base
 - **Training Method**: Reinforcement Learning (DAPO)
 - **Dataset**: DAPO-Math-17k
+- **Checkpoint**: global_step_0 (no RL training, i.e. Qwen3-8B-Base)
 ---