You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

SIP-med-LLM/SIP-jmed-llm-3-8x13b-AC-32k-instruct

このモデルは、戦略的イノベーション創造プログラム(SIP)第 3 期課題「統合型ヘルスケアシステムの構築における生成 AI 活用」テーマ1「安全性・信頼性を持つオープンな医療 LLM の開発・社会実装」において研究開発された、研究用途限定・商用利用不可の医療特化型 LLM です。

プロジェクトページ: https://sip3.ncgm.go.jp/


「SIP-jmed-llm-3-8x13b-AC-32k-instruct」 利用規約

このモデル(以下「本モデル」)は、戦略的イノベーション創造プログラム(SIP)第3期「統合型ヘルスケアシステムの構築における生成AI活用」の一環として研究開発された、医療特化型 LLM です。本モデルは、その性質上、学術研究目的での利用に限定されており、一切の商用利用を禁じます。

本モデルを利用することにより、利用者は以下の規約に同意したものとみなされます。

第1条(ライセンスの継承)

本モデルは、学習に用いたデータセットの一部である zhengyun21/PMC-Patients が持つ Creative Commons 表示-非営利-継承 4.0 国際 (CC BY-NC-SA 4.0) ライセンスの条件を継承します。したがって、本規約の条項は当該ライセンスの精神に準拠するものとします。

第2条(許諾される権利)

本規約の条項に従うことを条件として、開発者は利用者に対し、以下の非独占的、全世界的、無償のライセンスを許諾します。

  1. 利用: 学術研究目的で本モデルを使用すること。
  2. 複製・再配布: 本モデルを複製し、第三者に再配布すること(ただし、本規約を遵守し、非営利目的に限る)。
  3. 派生物の作成: 本モデルを改変、翻案、または本モデルに基づく派生的なモデル(以下「派生モデル」)を作成すること。

第3条(利用条件)

  1. 非営利(Non-Commercial):本モデル、その出力、および派生モデルを、直接的・間接的に商業的利益や金銭的報酬を得る目的で使用することは固く禁じます。
  2. 表示(Attribution):本モデル、その出力、または派生モデルを用いた研究成果等を公開する際には、以下のクレジットを明示しなければなりません。
  • 本モデルがSIP『統合型ヘルスケアシステムの構築』の研究成果であること。
  • 本モデルの学習に、Creative Commons 表示-非営利-継承 4.0 国際ライセンスの下で公開された zhengyun21/PMC-Patients データセットを利用していること。
  1. 継承(ShareAlike):

派生モデルを作成し、それを再配布する場合、本規約と同一または互換性のあるライセンス(CC BY-NC-SA 4.0 を含む)の下で公開しなければなりません。

第4条(禁止事項)

以下の行為を禁止します。

  1. 商用利用: 第2条で定義された非営利の範囲を超える、一切の商用利用。
  2. データ等の抽出: 本モデルの学習に用いられたデータセットや、内部パラメータを意図的に抽出、リバースエンジニアリングする行為。
  3. 不正利用: 法令、公序良俗に反する目的での利用。

第5条(免責事項と責任の制限)

  1. 無保証: 本モデルは「現状有姿」で提供される研究プロトタイプであり、開発者はその出力内容の正確性、完全性、信頼性、安全性について一切保証しません。
  2. 責任の制限: 本モデルの利用によって利用者に生じたいかなる直接的・間接的な損害(データの損失、逸失利益を含むがこれに限らない)についても、開発者は一切の責任を負いません。

第6条(その他)

  1. 脆弱性の報告: 本モデルにセキュリティ上の脆弱性を発見した場合、速やかに開発チームへ報告してください。
  2. 規約違反: 利用者が本規約のいずれかの条項に違反した場合、本規約に基づいて許諾された全ての権利は自動的に終了します。
  3. 規約の変更: 本規約は、事前の予告なく変更されることがあります。利用にあたっては、常に最新の規約をご確認ください。

モデルの概要

  • ベースモデル: llm-jp/llm-jp-3-8x13bに対して、SIPプロジェクトで収集した0.3T汎用コーパスで事前学習を実施したモデル
  • モデルタイプ: トランスフォーマーベースの言語モデル
  • 言語: 日本語・英語
  • ライセンス: 「SIP-jmed-llm-3-8x13b-AC-32k-instruct」 利用規約
  • 開発者: SIP 第 3 期 テーマ 1 研究開発チーム

使用目的と制限事項

このモデルは「安全性・信頼性を持つオープンな医療 LLM の開発・社会実装」における研究開発プロトタイプとして開発されました。現段階では研究開発目的のみでの使用を想定しており、実際の臨床現場における疾患の診断や臨床意思決定支援として直接利用することは推奨されません。

制限事項

  • 本モデルは研究開発段階のプロトタイプであり、実臨床における安全性・有効性の検証は十分に行われていません。
  • 開発者は、本プログラムに関し、その正確性、完全性、最新性、および品質など、いかなる保証も行わず、利用者が本プログラムを利用したこと、利用できなかったことにより生じた一切の損害について責任を負いません。
  • 医療行為(診断、治療方針の決定、健康への助言など)に直接適用することは推奨されません。あくまで医療専門家による適切な判断の補助となる情報提供ツールとしての利用可能性を探る研究段階にあります。
  • 公開しているモデルを活用して「具体的な製品」を開発される場合、その製品が医療機器プログラムとして薬機法の規制対象となる可能性があることにご留意ください。

学習データ

本モデルは以下のデータセットを用いて、ベースモデルを追加事前学習することにより開発されました:

追加事前学習用データセット

追加事前学習用データセットとして、主に以下の内容からなる医療系コーパス(トークン数 78.3B)を用いました。

文書種別

  • 医学生物学論文フルテキスト
  • 医学生物学論文アブストラクト
  • 医療系Webクロールデータ
  • 学術研究レポート
  • 医学教科書
  • 薬剤添付文書
  • 専門機関発行文書:
    • 学会発行の診療ガイドライン
    • 医療機関・行政機関による医療関連文書
    • 製薬企業等による医療情報・医薬品情報
  • ベンチマークの学習用データセット:医師国家試験過去問(2006年から2017年までの12年分)、USMLE過去問を含む

コンテクスト長拡張を目的とした追加事前学習用データセット

上記の医療系コーパスから、目的とするコンテクスト長に合わせてサンプリングしたサブセットを用いて、コンテクスト長を 4096 から 32,768 まで段階的に拡張するための追加事前学習を実施しました。

指示チューニング用データセット

追加事前学習の後、以下のデータセットを用いた指示チューニングも実施されています。

  • LLM-jp-3.1シリーズ で用いられた指示チューニングデータセット(instruct4)
  • 医療系ベンチマークデータセットの学習用データセット(医師国家試験過去問題や USMLE 過去問題など)
  • zhengyun21/PMC-Patients に含まれる症例報告文書の日本語訳をベースに作成した診療テキストにもとづく、翻訳・要約・情報抽出・鑑別診断などの質問応答
  • 自由回答形式の医学知識に関する質問応答 など
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-13b-instruct")
model = AutoModelForCausalLM.from_pretrained("SIP-med-LLM/SIP-jmed-llm-3-8x13b-AC-32k-instruct", device_map="auto", torch_dtype=torch.bfloat16)
chat = [
    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
    {"role": "user", "content": "心筋梗塞の主要な症状を教えて下さい。"},
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

技術仕様の詳細

トークナイザーなどの詳細な技術仕様については、llm-jp/llm-jp-3-8x13bのページを参照してください。

メンテナンス情報

  • リリース日: 2025 年 10 月 30 日
  • 最終更新日: 2025 年 10 月 30 日
  • バージョン: 1.0.0
  • 問い合わせ先: sip-med-llm-contact@nii.ac.jp へご連絡ください。
Downloads last month
301
Safetensors
Model size
73B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for SIP-med-LLM/SIP-jmed-llm-3-8x13b-AC-32k-instruct

Finetuned
(2)
this model
Quantizations
1 model