--- license: apache-2.0 pipeline_tag: text-generation language: - ja - en datasets: - hotchpotch/fineweb-2-edu-japanese - HuggingFaceTB/smollm-corpus - HuggingFaceFW/finepdfs - OmniAICreator/WebNovels-Ja --- ## 概要 Phi3アーキテクチャのモデルです。 context sizeは256です。 ## dataset 以下のデータセットで1epoch回しました。 - [HuggingFaceTB/smollm-corpus](huggingface.co/datasets/HuggingFaceTB/smollm-corpus) - cosmopedia-v2: 10,000,000件 - fineweb-edu-dedup: 10,000,000件 - [hotchpotch/fineweb-2-edu-japanese](huggingface.co/datasets/hotchpotch/fineweb-2-edu-japanese) - sample_10BT: 15,000,000件 - [HuggingFaceFW/finepdfs](huggingface.co/datasets/HuggingFaceFW/finepdfs) - jpn_Jpan: 10,000,000件 - eng_Latn: 100,000件 - [OmniAICreator/WebNovels-Ja](huggingface.co/datasets/OmniAICreator/WebNovels-Ja) - 2,560,871件 バッチサイズ: 140 ステップ数: 2094240 トレーニングトークン合計数: 75B tokens 学習率: 3e-4 ## tokenizer [Rakuten/RakutenAI-2.0-mini-instruct](Rakuten/RakutenAI-2.0-mini-instruct)を使用しました。 日本語対応LLMであり、vocab_sizeが48000と学習に使いやすそうだったからです。」