S1-Base-1.5-8B-128K / README_zh.md
ScienceOne-AI's picture
Create README_zh.md
525e996 verified
metadata
license: apache-2.0

S1-Base-1.5-8B-128K

中文版English

模型介绍

本仓库为磐石 S1-Base-1.5-8B-128K 通用科学大语言模型,基于磐石科学基础大模型 S1-Base 经过后训练(SFT+GRPO)训练而来,该模型在保持模型科学推理能力的情况下,重点提升模型的超长上下文理解和推理能力,以及科研场景下的复杂指令遵循能力,本系列模型上下文长度为 128k。

模型权重

S1-Base-1.5-8B-128K 模型以 Apache 2.0 协议开源,您可以在我们的 HuggingfaceModelScope 下载模型权重。

模型名称 Huggingface地址 ModelScope地址
S1-Base-8B 点击下载 点击下载

模型评测

为全面验证 S1-Base-1.5-128K 的综合能力,我们针对模型的超长上下文能力、指令遵循能力、科学推理能力等三大核心能力进行了系统性评测,结果如下表所示。

评测集 S1-Base-1.5-8B-128K S1-Base-8B Qwen3-8B Intern-S1-mini GLM-Z1-9B-0414
CLongEval 36.18 27.51 33.62 32.82 25.71
InfiniteBench 35.57 27.62 34.41 30.42 29.58
IFEval 87.06 70.42 85.00 83.00 78.93
GPQA 70.33 63.01 60.86 65.97 55.81
ChemBench 61.59 62.74 57.79 57.54 55.85
LLM-MSE 83.63 88.50 83.51 78.65 80.97
LAB bench 37.54 37.63 26.52 29.11 29.89
AIME2024 77.92 75.42 74.60 85.00 79.37
LiveMathBench 86.72 82.81 77.00 86.72 82.82

主要亮点:

  • 📜 长上下文推理能力提升:模型在 CLongEval、InfiniteBench 等公开长文基准上领先基座及同等参数量模型,在面向论文、网页等真实场景的自建长文评测中提升显著。
  • 🎯 复杂指令遵循能力提升:构建涵盖文档理解、结构化生成、信息抽取、图表理解四大类任务的科学文献指令遵循任务体系,并结合长度、格式、内容等多维度约束,模型在 IFEval 等基准保持领先。
  • 🔬 科学推理能力保持稳定:模型在生物、物理、化学等综合科学能力评估基准 GPQA 优势显著,其他科学任务评估基准的性能未因上下文扩展而产生大幅波动,整体能力保持稳定。
  • 👍 用户赞踩反馈数据飞轮:结合 ScienceOne 平台用户点赞与点踩反馈,持续优化模型在真实场景下的表现和用户体验。

部署方式

我们推荐使用 vLLM 部署 S1-Base,实现高效推理与 OpenAI 兼容的 API 服务。

快速启动命令示例:

pip install vllm  
vllm serve <your_s1_model_path> --served-model-name s1-base-1.5-8b-128k

API 请求和响应格式与 OpenAI 基本一致,详细可参考 vLLM 官方文档。

使用 OpenAI Python SDK 生成响应:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="")
resp = client.chat.completions.create(
    model="s1-base-1.5-8b-128k",
    messages=[{"role": "user", "content": "你好"}]
)
print(resp.choices[0].message.content)

使用 CURL 生成响应:

curl -X POST http://localhost:8000/v1/chat/completions -d '{"model": "s1-base-1.5-8b-128k", "messages":[{"role":"user", "content": "你好"}], "skip_special_tokens": false}' -H "Content-Type: application/json"