metadata
license: apache-2.0
S1-Base-1.5-8B-128K
模型介绍
本仓库为磐石 S1-Base-1.5-8B-128K 通用科学大语言模型,基于磐石科学基础大模型 S1-Base 经过后训练(SFT+GRPO)训练而来,该模型在保持模型科学推理能力的情况下,重点提升模型的超长上下文理解和推理能力,以及科研场景下的复杂指令遵循能力,本系列模型上下文长度为 128k。
模型权重
S1-Base-1.5-8B-128K 模型以 Apache 2.0 协议开源,您可以在我们的 Huggingface 或 ModelScope 下载模型权重。
模型评测
为全面验证 S1-Base-1.5-128K 的综合能力,我们针对模型的超长上下文能力、指令遵循能力、科学推理能力等三大核心能力进行了系统性评测,结果如下表所示。
| 评测集 | S1-Base-1.5-8B-128K | S1-Base-8B | Qwen3-8B | Intern-S1-mini | GLM-Z1-9B-0414 |
|---|---|---|---|---|---|
| CLongEval | 36.18 | 27.51 | 33.62 | 32.82 | 25.71 |
| InfiniteBench | 35.57 | 27.62 | 34.41 | 30.42 | 29.58 |
| IFEval | 87.06 | 70.42 | 85.00 | 83.00 | 78.93 |
| GPQA | 70.33 | 63.01 | 60.86 | 65.97 | 55.81 |
| ChemBench | 61.59 | 62.74 | 57.79 | 57.54 | 55.85 |
| LLM-MSE | 83.63 | 88.50 | 83.51 | 78.65 | 80.97 |
| LAB bench | 37.54 | 37.63 | 26.52 | 29.11 | 29.89 |
| AIME2024 | 77.92 | 75.42 | 74.60 | 85.00 | 79.37 |
| LiveMathBench | 86.72 | 82.81 | 77.00 | 86.72 | 82.82 |
主要亮点:
- 📜 长上下文推理能力提升:模型在 CLongEval、InfiniteBench 等公开长文基准上领先基座及同等参数量模型,在面向论文、网页等真实场景的自建长文评测中提升显著。
- 🎯 复杂指令遵循能力提升:构建涵盖文档理解、结构化生成、信息抽取、图表理解四大类任务的科学文献指令遵循任务体系,并结合长度、格式、内容等多维度约束,模型在 IFEval 等基准保持领先。
- 🔬 科学推理能力保持稳定:模型在生物、物理、化学等综合科学能力评估基准 GPQA 优势显著,其他科学任务评估基准的性能未因上下文扩展而产生大幅波动,整体能力保持稳定。
- 👍 用户赞踩反馈数据飞轮:结合 ScienceOne 平台用户点赞与点踩反馈,持续优化模型在真实场景下的表现和用户体验。
部署方式
我们推荐使用 vLLM 部署 S1-Base,实现高效推理与 OpenAI 兼容的 API 服务。
快速启动命令示例:
pip install vllm
vllm serve <your_s1_model_path> --served-model-name s1-base-1.5-8b-128k
API 请求和响应格式与 OpenAI 基本一致,详细可参考 vLLM 官方文档。
使用 OpenAI Python SDK 生成响应:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="")
resp = client.chat.completions.create(
model="s1-base-1.5-8b-128k",
messages=[{"role": "user", "content": "你好"}]
)
print(resp.choices[0].message.content)
使用 CURL 生成响应:
curl -X POST http://localhost:8000/v1/chat/completions -d '{"model": "s1-base-1.5-8b-128k", "messages":[{"role":"user", "content": "你好"}], "skip_special_tokens": false}' -H "Content-Type: application/json"