Switch to sharded safetensors

Browse files

Files changed (6) hide show

config.json +17 -18
generation_config.json +8 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +143 -0
special_tokens_map.json +28 -4

config.json CHANGED Viewed

@@ -1,30 +1,29 @@
 {
-  "model_type": "shallowmind",
-  "architectures": ["MyCustomModelForCausalLM"],
   "auto_map": {
     "AutoConfig": "blahblahtron_1_3B.HFWrapperConfig",
     "AutoModelForCausalLM": "blahblahtron_1_3B.MyCustomModelForCausalLM"
   },
-  "vocab_size": 50257,
   "embedding_dim": 2048,
-  "num_layers": 22,
   "num_heads": 16,
   "num_kv_heads": 4,
-  "ffn_dim_multiplier": 4.0,
-  "max_length": 1024,
-  "dropout": 0.1,
-  "bos_token_id": 50256,
-  "eos_token_id": 50256,
   "pad_token_id": 50256,
   "torch_dtype": "bfloat16",
-  "_notes": "Extra training-only keys kept below; HF ignores them but they’re here for provenance.",
   "use_flash_attention_2": true,
-  "learning_rate": 0.0003,
-  "weight_decay": 0.1,
-  "tokenizer_name_or_path": "gpt2"
 }

 {
+  "_notes": "Extra training-only keys kept below; HF ignores them but they\u2019re here for provenance.",
+  "architectures": [
+    "MyCustomModelForCausalLM"
+  ],
   "auto_map": {
     "AutoConfig": "blahblahtron_1_3B.HFWrapperConfig",
     "AutoModelForCausalLM": "blahblahtron_1_3B.MyCustomModelForCausalLM"
   },
+  "bos_token_id": 50256,
+  "dropout": 0.1,
   "embedding_dim": 2048,
+  "eos_token_id": 50256,
+  "ffn_dim_multiplier": 4.0,
+  "learning_rate": 0.0003,
+  "max_length": null,
+  "model_type": "shallowmind",
   "num_heads": 16,
   "num_kv_heads": 4,
+  "num_layers": 22,
   "pad_token_id": 50256,
+  "rms_norm_eps": 1e-06,
+  "tokenizer_name_or_path": "gpt2",
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.55.2",
   "use_flash_attention_2": true,
+  "vocab_size": 50257,
+  "weight_decay": 0.1
 }

generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "max_length": 1024,
+  "pad_token_id": 50256,
+  "transformers_version": "4.55.2"
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1931627ce28c6e6089d40c3fbd720315c8aeafe854d897feea6265fb3b78aae5
+size 1986502536

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b9c248a5c2bf1d0ff6ea9da1e2a20af52a24d4f3ffeac92a48768ae6952ed03
+size 409306816

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,143 @@

+{
+  "metadata": {
+    "total_parameters": 1197897728,
+    "total_size": 2395795456
+  },
+  "weight_map": {
+    "blocks.0.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.0.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.0.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.0.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.0.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.0.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.1.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.1.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.1.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.1.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.1.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.1.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.10.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.10.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.10.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.10.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.10.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.10.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.11.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.11.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.11.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.11.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.11.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.11.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.12.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.12.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.12.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.12.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.12.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.12.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.13.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.13.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.13.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.13.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.13.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.13.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.14.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.14.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.14.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.14.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.14.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.14.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.15.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.15.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.15.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.15.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.15.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.15.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.16.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.16.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.16.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.16.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.16.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.16.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.17.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.17.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.17.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.17.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.17.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.17.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.18.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.18.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.18.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.18.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.18.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.18.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.19.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.19.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.19.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.19.ffn.linear_2.weight": "model-00002-of-00002.safetensors",
+    "blocks.19.norm1.weight": "model-00002-of-00002.safetensors",
+    "blocks.19.norm2.weight": "model-00002-of-00002.safetensors",
+    "blocks.2.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.2.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.2.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.2.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.2.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.2.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.20.attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "blocks.20.attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "blocks.20.ffn.linear_1.weight": "model-00002-of-00002.safetensors",
+    "blocks.20.ffn.linear_2.weight": "model-00002-of-00002.safetensors",
+    "blocks.20.norm1.weight": "model-00002-of-00002.safetensors",
+    "blocks.20.norm2.weight": "model-00002-of-00002.safetensors",
+    "blocks.21.attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "blocks.21.attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "blocks.21.ffn.linear_1.weight": "model-00002-of-00002.safetensors",
+    "blocks.21.ffn.linear_2.weight": "model-00002-of-00002.safetensors",
+    "blocks.21.norm1.weight": "model-00002-of-00002.safetensors",
+    "blocks.21.norm2.weight": "model-00002-of-00002.safetensors",
+    "blocks.3.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.3.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.3.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.3.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.3.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.3.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.4.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.4.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.4.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.4.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.4.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.4.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.5.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.5.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.5.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.5.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.5.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.5.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.6.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.6.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.6.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.6.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.6.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.6.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.7.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.7.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.7.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.7.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.7.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.7.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.8.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.8.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.8.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.8.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.8.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.8.norm2.weight": "model-00001-of-00002.safetensors",
+    "blocks.9.attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.9.attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "blocks.9.ffn.linear_1.weight": "model-00001-of-00002.safetensors",
+    "blocks.9.ffn.linear_2.weight": "model-00001-of-00002.safetensors",
+    "blocks.9.norm1.weight": "model-00001-of-00002.safetensors",
+    "blocks.9.norm2.weight": "model-00001-of-00002.safetensors",
+    "final_norm.weight": "model-00002-of-00002.safetensors",
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "token_embeddings.weight": "model-00001-of-00002.safetensors"
+  }
+}

special_tokens_map.json CHANGED Viewed

@@ -1,6 +1,30 @@
 {
-  "bos_token": "<|endoftext|>",
-  "eos_token": "<|endoftext|>",
-  "pad_token": "<|endoftext|>",
-  "unk_token": "<|endoftext|>"
 }

 {
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
 }