irodkin
/

InnerLoopARMTForCausalLM_run_20

PyTorch

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on 17 days ago

Commit

45b57e0

verified ·

1 Parent(s): dec028f

Training checkpoint at step 2000

Browse files

Files changed (1) hide show

trainer_state.json +1886 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 1000,
-  "best_metric": 2.488457202911377,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_7x1024_mem32_bs64_hf_armt_dmem64/run_20/checkpoint-1000",
-  "epoch": 0.02,
   "eval_steps": 5,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1888,6 +1888,1886 @@
       "eval_samples_per_second": 3.464,
       "eval_steps_per_second": 1.747,
       "step": 1000
     }
   ],
   "logging_steps": 25,
@@ -1907,7 +3787,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.785301757633233e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 2000,
+  "best_metric": 2.449084520339966,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_7x1024_mem32_bs64_hf_armt_dmem64/run_20/checkpoint-2000",
+  "epoch": 0.04,
   "eval_steps": 5,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.464,
       "eval_steps_per_second": 1.747,
       "step": 1000
+    },
+    {
+      "epoch": 0.0201,
+      "eval_loss": 2.4881434440612793,
+      "eval_runtime": 33.6922,
+      "eval_samples_per_second": 3.473,
+      "eval_steps_per_second": 1.751,
+      "step": 1005
+    },
+    {
+      "epoch": 0.0202,
+      "eval_loss": 2.4879722595214844,
+      "eval_runtime": 33.6857,
+      "eval_samples_per_second": 3.473,
+      "eval_steps_per_second": 1.751,
+      "step": 1010
+    },
+    {
+      "epoch": 0.0203,
+      "eval_loss": 2.4876134395599365,
+      "eval_runtime": 33.7945,
+      "eval_samples_per_second": 3.462,
+      "eval_steps_per_second": 1.746,
+      "step": 1015
+    },
+    {
+      "epoch": 0.0204,
+      "eval_loss": 2.4872164726257324,
+      "eval_runtime": 33.7811,
+      "eval_samples_per_second": 3.463,
+      "eval_steps_per_second": 1.747,
+      "step": 1020
+    },
+    {
+      "epoch": 0.0205,
+      "grad_norm": 0.04204734602618554,
+      "learning_rate": 2.048e-06,
+      "loss": 2.4708,
+      "step": 1025
+    },
+    {
+      "epoch": 0.0205,
+      "eval_loss": 2.48695707321167,
+      "eval_runtime": 33.821,
+      "eval_samples_per_second": 3.459,
+      "eval_steps_per_second": 1.744,
+      "step": 1025
+    },
+    {
+      "epoch": 0.0206,
+      "eval_loss": 2.486564874649048,
+      "eval_runtime": 33.82,
+      "eval_samples_per_second": 3.459,
+      "eval_steps_per_second": 1.745,
+      "step": 1030
+    },
+    {
+      "epoch": 0.0207,
+      "eval_loss": 2.486281633377075,
+      "eval_runtime": 33.927,
+      "eval_samples_per_second": 3.449,
+      "eval_steps_per_second": 1.739,
+      "step": 1035
+    },
+    {
+      "epoch": 0.0208,
+      "eval_loss": 2.4860103130340576,
+      "eval_runtime": 33.9697,
+      "eval_samples_per_second": 3.444,
+      "eval_steps_per_second": 1.737,
+      "step": 1040
+    },
+    {
+      "epoch": 0.0209,
+      "eval_loss": 2.4855759143829346,
+      "eval_runtime": 33.9097,
+      "eval_samples_per_second": 3.45,
+      "eval_steps_per_second": 1.74,
+      "step": 1045
+    },
+    {
+      "epoch": 0.021,
+      "grad_norm": 0.03813289834436041,
+      "learning_rate": 2.098e-06,
+      "loss": 2.4799,
+      "step": 1050
+    },
+    {
+      "epoch": 0.021,
+      "eval_loss": 2.485349416732788,
+      "eval_runtime": 34.0131,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.735,
+      "step": 1050
+    },
+    {
+      "epoch": 0.0211,
+      "eval_loss": 2.48506498336792,
+      "eval_runtime": 34.036,
+      "eval_samples_per_second": 3.438,
+      "eval_steps_per_second": 1.733,
+      "step": 1055
+    },
+    {
+      "epoch": 0.0212,
+      "eval_loss": 2.484771966934204,
+      "eval_runtime": 34.0842,
+      "eval_samples_per_second": 3.433,
+      "eval_steps_per_second": 1.731,
+      "step": 1060
+    },
+    {
+      "epoch": 0.0213,
+      "eval_loss": 2.4846508502960205,
+      "eval_runtime": 34.0289,
+      "eval_samples_per_second": 3.438,
+      "eval_steps_per_second": 1.734,
+      "step": 1065
+    },
+    {
+      "epoch": 0.0214,
+      "eval_loss": 2.484158992767334,
+      "eval_runtime": 34.0038,
+      "eval_samples_per_second": 3.441,
+      "eval_steps_per_second": 1.735,
+      "step": 1070
+    },
+    {
+      "epoch": 0.0215,
+      "grad_norm": 0.04289680570208033,
+      "learning_rate": 2.148e-06,
+      "loss": 2.4822,
+      "step": 1075
+    },
+    {
+      "epoch": 0.0215,
+      "eval_loss": 2.483947992324829,
+      "eval_runtime": 33.9604,
+      "eval_samples_per_second": 3.445,
+      "eval_steps_per_second": 1.737,
+      "step": 1075
+    },
+    {
+      "epoch": 0.0216,
+      "eval_loss": 2.4836008548736572,
+      "eval_runtime": 33.9465,
+      "eval_samples_per_second": 3.447,
+      "eval_steps_per_second": 1.738,
+      "step": 1080
+    },
+    {
+      "epoch": 0.0217,
+      "eval_loss": 2.483187675476074,
+      "eval_runtime": 34.1344,
+      "eval_samples_per_second": 3.428,
+      "eval_steps_per_second": 1.728,
+      "step": 1085
+    },
+    {
+      "epoch": 0.0218,
+      "eval_loss": 2.4829964637756348,
+      "eval_runtime": 34.0915,
+      "eval_samples_per_second": 3.432,
+      "eval_steps_per_second": 1.731,
+      "step": 1090
+    },
+    {
+      "epoch": 0.0219,
+      "eval_loss": 2.482805013656616,
+      "eval_runtime": 33.9291,
+      "eval_samples_per_second": 3.448,
+      "eval_steps_per_second": 1.739,
+      "step": 1095
+    },
+    {
+      "epoch": 0.022,
+      "grad_norm": 0.03972633299982532,
+      "learning_rate": 2.198e-06,
+      "loss": 2.4871,
+      "step": 1100
+    },
+    {
+      "epoch": 0.022,
+      "eval_loss": 2.482428550720215,
+      "eval_runtime": 33.7324,
+      "eval_samples_per_second": 3.468,
+      "eval_steps_per_second": 1.749,
+      "step": 1100
+    },
+    {
+      "epoch": 0.0221,
+      "eval_loss": 2.4822213649749756,
+      "eval_runtime": 33.7954,
+      "eval_samples_per_second": 3.462,
+      "eval_steps_per_second": 1.746,
+      "step": 1105
+    },
+    {
+      "epoch": 0.0222,
+      "eval_loss": 2.481689214706421,
+      "eval_runtime": 33.7787,
+      "eval_samples_per_second": 3.464,
+      "eval_steps_per_second": 1.747,
+      "step": 1110
+    },
+    {
+      "epoch": 0.0223,
+      "eval_loss": 2.481731414794922,
+      "eval_runtime": 33.6129,
+      "eval_samples_per_second": 3.481,
+      "eval_steps_per_second": 1.755,
+      "step": 1115
+    },
+    {
+      "epoch": 0.0224,
+      "eval_loss": 2.4812448024749756,
+      "eval_runtime": 33.511,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.761,
+      "step": 1120
+    },
+    {
+      "epoch": 0.0225,
+      "grad_norm": 0.041792864961431496,
+      "learning_rate": 2.2480000000000003e-06,
+      "loss": 2.4766,
+      "step": 1125
+    },
+    {
+      "epoch": 0.0225,
+      "eval_loss": 2.4809837341308594,
+      "eval_runtime": 33.7009,
+      "eval_samples_per_second": 3.472,
+      "eval_steps_per_second": 1.751,
+      "step": 1125
+    },
+    {
+      "epoch": 0.0226,
+      "eval_loss": 2.480768918991089,
+      "eval_runtime": 33.6615,
+      "eval_samples_per_second": 3.476,
+      "eval_steps_per_second": 1.753,
+      "step": 1130
+    },
+    {
+      "epoch": 0.0227,
+      "eval_loss": 2.480337381362915,
+      "eval_runtime": 33.6203,
+      "eval_samples_per_second": 3.48,
+      "eval_steps_per_second": 1.755,
+      "step": 1135
+    },
+    {
+      "epoch": 0.0228,
+      "eval_loss": 2.4803271293640137,
+      "eval_runtime": 33.6559,
+      "eval_samples_per_second": 3.476,
+      "eval_steps_per_second": 1.753,
+      "step": 1140
+    },
+    {
+      "epoch": 0.0229,
+      "eval_loss": 2.4799482822418213,
+      "eval_runtime": 33.5023,
+      "eval_samples_per_second": 3.492,
+      "eval_steps_per_second": 1.761,
+      "step": 1145
+    },
+    {
+      "epoch": 0.023,
+      "grad_norm": 0.035383899567194975,
+      "learning_rate": 2.2980000000000003e-06,
+      "loss": 2.4749,
+      "step": 1150
+    },
+    {
+      "epoch": 0.023,
+      "eval_loss": 2.479668140411377,
+      "eval_runtime": 33.4615,
+      "eval_samples_per_second": 3.497,
+      "eval_steps_per_second": 1.763,
+      "step": 1150
+    },
+    {
+      "epoch": 0.0231,
+      "eval_loss": 2.4794092178344727,
+      "eval_runtime": 33.4264,
+      "eval_samples_per_second": 3.5,
+      "eval_steps_per_second": 1.765,
+      "step": 1155
+    },
+    {
+      "epoch": 0.0232,
+      "eval_loss": 2.4790964126586914,
+      "eval_runtime": 33.4165,
+      "eval_samples_per_second": 3.501,
+      "eval_steps_per_second": 1.766,
+      "step": 1160
+    },
+    {
+      "epoch": 0.0233,
+      "eval_loss": 2.4789323806762695,
+      "eval_runtime": 33.2576,
+      "eval_samples_per_second": 3.518,
+      "eval_steps_per_second": 1.774,
+      "step": 1165
+    },
+    {
+      "epoch": 0.0234,
+      "eval_loss": 2.4786429405212402,
+      "eval_runtime": 33.3028,
+      "eval_samples_per_second": 3.513,
+      "eval_steps_per_second": 1.772,
+      "step": 1170
+    },
+    {
+      "epoch": 0.0235,
+      "grad_norm": 0.034819138532107045,
+      "learning_rate": 2.3480000000000002e-06,
+      "loss": 2.4874,
+      "step": 1175
+    },
+    {
+      "epoch": 0.0235,
+      "eval_loss": 2.4784486293792725,
+      "eval_runtime": 33.3374,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.77,
+      "step": 1175
+    },
+    {
+      "epoch": 0.0236,
+      "eval_loss": 2.478088855743408,
+      "eval_runtime": 33.2864,
+      "eval_samples_per_second": 3.515,
+      "eval_steps_per_second": 1.772,
+      "step": 1180
+    },
+    {
+      "epoch": 0.0237,
+      "eval_loss": 2.477979898452759,
+      "eval_runtime": 33.4245,
+      "eval_samples_per_second": 3.5,
+      "eval_steps_per_second": 1.765,
+      "step": 1185
+    },
+    {
+      "epoch": 0.0238,
+      "eval_loss": 2.4778709411621094,
+      "eval_runtime": 33.2611,
+      "eval_samples_per_second": 3.518,
+      "eval_steps_per_second": 1.774,
+      "step": 1190
+    },
+    {
+      "epoch": 0.0239,
+      "eval_loss": 2.477571487426758,
+      "eval_runtime": 33.3418,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.77,
+      "step": 1195
+    },
+    {
+      "epoch": 0.024,
+      "grad_norm": 0.037748109041694296,
+      "learning_rate": 2.398e-06,
+      "loss": 2.4666,
+      "step": 1200
+    },
+    {
+      "epoch": 0.024,
+      "eval_loss": 2.4772226810455322,
+      "eval_runtime": 33.3603,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.769,
+      "step": 1200
+    },
+    {
+      "epoch": 0.0241,
+      "eval_loss": 2.4769959449768066,
+      "eval_runtime": 33.21,
+      "eval_samples_per_second": 3.523,
+      "eval_steps_per_second": 1.777,
+      "step": 1205
+    },
+    {
+      "epoch": 0.0242,
+      "eval_loss": 2.4768526554107666,
+      "eval_runtime": 33.4359,
+      "eval_samples_per_second": 3.499,
+      "eval_steps_per_second": 1.765,
+      "step": 1210
+    },
+    {
+      "epoch": 0.0243,
+      "eval_loss": 2.476616382598877,
+      "eval_runtime": 33.3341,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.77,
+      "step": 1215
+    },
+    {
+      "epoch": 0.0244,
+      "eval_loss": 2.476250171661377,
+      "eval_runtime": 33.3422,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.77,
+      "step": 1220
+    },
+    {
+      "epoch": 0.0245,
+      "grad_norm": 0.042904100843004035,
+      "learning_rate": 2.448e-06,
+      "loss": 2.4698,
+      "step": 1225
+    },
+    {
+      "epoch": 0.0245,
+      "eval_loss": 2.475933790206909,
+      "eval_runtime": 33.3238,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.771,
+      "step": 1225
+    },
+    {
+      "epoch": 0.0246,
+      "eval_loss": 2.475733995437622,
+      "eval_runtime": 33.337,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.77,
+      "step": 1230
+    },
+    {
+      "epoch": 0.0247,
+      "eval_loss": 2.4756155014038086,
+      "eval_runtime": 33.3642,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.768,
+      "step": 1235
+    },
+    {
+      "epoch": 0.0248,
+      "eval_loss": 2.475208044052124,
+      "eval_runtime": 33.3567,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 1.769,
+      "step": 1240
+    },
+    {
+      "epoch": 0.0249,
+      "eval_loss": 2.4751882553100586,
+      "eval_runtime": 33.2409,
+      "eval_samples_per_second": 3.52,
+      "eval_steps_per_second": 1.775,
+      "step": 1245
+    },
+    {
+      "epoch": 0.025,
+      "grad_norm": 0.04198064762114288,
+      "learning_rate": 2.498e-06,
+      "loss": 2.4544,
+      "step": 1250
+    },
+    {
+      "epoch": 0.025,
+      "eval_loss": 2.4749433994293213,
+      "eval_runtime": 33.219,
+      "eval_samples_per_second": 3.522,
+      "eval_steps_per_second": 1.776,
+      "step": 1250
+    },
+    {
+      "epoch": 0.0251,
+      "eval_loss": 2.475109577178955,
+      "eval_runtime": 33.293,
+      "eval_samples_per_second": 3.514,
+      "eval_steps_per_second": 1.772,
+      "step": 1255
+    },
+    {
+      "epoch": 0.0252,
+      "eval_loss": 2.474750280380249,
+      "eval_runtime": 33.5388,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 1.759,
+      "step": 1260
+    },
+    {
+      "epoch": 0.0253,
+      "eval_loss": 2.4743547439575195,
+      "eval_runtime": 33.3597,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.769,
+      "step": 1265
+    },
+    {
+      "epoch": 0.0254,
+      "eval_loss": 2.4740777015686035,
+      "eval_runtime": 33.3283,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.77,
+      "step": 1270
+    },
+    {
+      "epoch": 0.0255,
+      "grad_norm": 0.03252077443949688,
+      "learning_rate": 2.5480000000000004e-06,
+      "loss": 2.4647,
+      "step": 1275
+    },
+    {
+      "epoch": 0.0255,
+      "eval_loss": 2.473674774169922,
+      "eval_runtime": 33.2492,
+      "eval_samples_per_second": 3.519,
+      "eval_steps_per_second": 1.774,
+      "step": 1275
+    },
+    {
+      "epoch": 0.0256,
+      "eval_loss": 2.4734930992126465,
+      "eval_runtime": 33.2934,
+      "eval_samples_per_second": 3.514,
+      "eval_steps_per_second": 1.772,
+      "step": 1280
+    },
+    {
+      "epoch": 0.0257,
+      "eval_loss": 2.4735071659088135,
+      "eval_runtime": 33.466,
+      "eval_samples_per_second": 3.496,
+      "eval_steps_per_second": 1.763,
+      "step": 1285
+    },
+    {
+      "epoch": 0.0258,
+      "eval_loss": 2.4733572006225586,
+      "eval_runtime": 33.248,
+      "eval_samples_per_second": 3.519,
+      "eval_steps_per_second": 1.775,
+      "step": 1290
+    },
+    {
+      "epoch": 0.0259,
+      "eval_loss": 2.4730312824249268,
+      "eval_runtime": 33.3551,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 1.769,
+      "step": 1295
+    },
+    {
+      "epoch": 0.026,
+      "grad_norm": 0.034740776600877266,
+      "learning_rate": 2.598e-06,
+      "loss": 2.4625,
+      "step": 1300
+    },
+    {
+      "epoch": 0.026,
+      "eval_loss": 2.4726204872131348,
+      "eval_runtime": 33.3147,
+      "eval_samples_per_second": 3.512,
+      "eval_steps_per_second": 1.771,
+      "step": 1300
+    },
+    {
+      "epoch": 0.0261,
+      "eval_loss": 2.4729621410369873,
+      "eval_runtime": 33.3118,
+      "eval_samples_per_second": 3.512,
+      "eval_steps_per_second": 1.771,
+      "step": 1305
+    },
+    {
+      "epoch": 0.0262,
+      "eval_loss": 2.4726085662841797,
+      "eval_runtime": 33.4111,
+      "eval_samples_per_second": 3.502,
+      "eval_steps_per_second": 1.766,
+      "step": 1310
+    },
+    {
+      "epoch": 0.0263,
+      "eval_loss": 2.4724133014678955,
+      "eval_runtime": 33.3144,
+      "eval_samples_per_second": 3.512,
+      "eval_steps_per_second": 1.771,
+      "step": 1315
+    },
+    {
+      "epoch": 0.0264,
+      "eval_loss": 2.471963405609131,
+      "eval_runtime": 33.3272,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.77,
+      "step": 1320
+    },
+    {
+      "epoch": 0.0265,
+      "grad_norm": 0.039738232523319775,
+      "learning_rate": 2.648e-06,
+      "loss": 2.4734,
+      "step": 1325
+    },
+    {
+      "epoch": 0.0265,
+      "eval_loss": 2.4717814922332764,
+      "eval_runtime": 33.2395,
+      "eval_samples_per_second": 3.52,
+      "eval_steps_per_second": 1.775,
+      "step": 1325
+    },
+    {
+      "epoch": 0.0266,
+      "eval_loss": 2.471389055252075,
+      "eval_runtime": 33.2159,
+      "eval_samples_per_second": 3.522,
+      "eval_steps_per_second": 1.776,
+      "step": 1330
+    },
+    {
+      "epoch": 0.0267,
+      "eval_loss": 2.4711251258850098,
+      "eval_runtime": 33.4193,
+      "eval_samples_per_second": 3.501,
+      "eval_steps_per_second": 1.765,
+      "step": 1335
+    },
+    {
+      "epoch": 0.0268,
+      "eval_loss": 2.470979928970337,
+      "eval_runtime": 33.2748,
+      "eval_samples_per_second": 3.516,
+      "eval_steps_per_second": 1.773,
+      "step": 1340
+    },
+    {
+      "epoch": 0.0269,
+      "eval_loss": 2.4706759452819824,
+      "eval_runtime": 33.3367,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.77,
+      "step": 1345
+    },
+    {
+      "epoch": 0.027,
+      "grad_norm": 0.036968596903604725,
+      "learning_rate": 2.6980000000000003e-06,
+      "loss": 2.4642,
+      "step": 1350
+    },
+    {
+      "epoch": 0.027,
+      "eval_loss": 2.470658302307129,
+      "eval_runtime": 33.3288,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.77,
+      "step": 1350
+    },
+    {
+      "epoch": 0.0271,
+      "eval_loss": 2.4704952239990234,
+      "eval_runtime": 33.3162,
+      "eval_samples_per_second": 3.512,
+      "eval_steps_per_second": 1.771,
+      "step": 1355
+    },
+    {
+      "epoch": 0.0272,
+      "eval_loss": 2.470270872116089,
+      "eval_runtime": 33.35,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 1.769,
+      "step": 1360
+    },
+    {
+      "epoch": 0.0273,
+      "eval_loss": 2.4699764251708984,
+      "eval_runtime": 33.3696,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 1365
+    },
+    {
+      "epoch": 0.0274,
+      "eval_loss": 2.469688653945923,
+      "eval_runtime": 33.4143,
+      "eval_samples_per_second": 3.501,
+      "eval_steps_per_second": 1.766,
+      "step": 1370
+    },
+    {
+      "epoch": 0.0275,
+      "grad_norm": 0.03899590922475157,
+      "learning_rate": 2.748e-06,
+      "loss": 2.4579,
+      "step": 1375
+    },
+    {
+      "epoch": 0.0275,
+      "eval_loss": 2.469435691833496,
+      "eval_runtime": 33.34,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.77,
+      "step": 1375
+    },
+    {
+      "epoch": 0.0276,
+      "eval_loss": 2.469395160675049,
+      "eval_runtime": 33.2655,
+      "eval_samples_per_second": 3.517,
+      "eval_steps_per_second": 1.774,
+      "step": 1380
+    },
+    {
+      "epoch": 0.0277,
+      "eval_loss": 2.46889328956604,
+      "eval_runtime": 33.3344,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.77,
+      "step": 1385
+    },
+    {
+      "epoch": 0.0278,
+      "eval_loss": 2.468695640563965,
+      "eval_runtime": 33.4003,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 1.766,
+      "step": 1390
+    },
+    {
+      "epoch": 0.0279,
+      "eval_loss": 2.4685797691345215,
+      "eval_runtime": 33.252,
+      "eval_samples_per_second": 3.519,
+      "eval_steps_per_second": 1.774,
+      "step": 1395
+    },
+    {
+      "epoch": 0.028,
+      "grad_norm": 0.03498385470366268,
+      "learning_rate": 2.798e-06,
+      "loss": 2.472,
+      "step": 1400
+    },
+    {
+      "epoch": 0.028,
+      "eval_loss": 2.468594789505005,
+      "eval_runtime": 33.5555,
+      "eval_samples_per_second": 3.487,
+      "eval_steps_per_second": 1.758,
+      "step": 1400
+    },
+    {
+      "epoch": 0.0281,
+      "eval_loss": 2.4685287475585938,
+      "eval_runtime": 33.3147,
+      "eval_samples_per_second": 3.512,
+      "eval_steps_per_second": 1.771,
+      "step": 1405
+    },
+    {
+      "epoch": 0.0282,
+      "eval_loss": 2.467956304550171,
+      "eval_runtime": 33.3679,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 1410
+    },
+    {
+      "epoch": 0.0283,
+      "eval_loss": 2.467761993408203,
+      "eval_runtime": 33.3242,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.77,
+      "step": 1415
+    },
+    {
+      "epoch": 0.0284,
+      "eval_loss": 2.467660903930664,
+      "eval_runtime": 33.3677,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 1420
+    },
+    {
+      "epoch": 0.0285,
+      "grad_norm": 0.03333480906358989,
+      "learning_rate": 2.848e-06,
+      "loss": 2.4676,
+      "step": 1425
+    },
+    {
+      "epoch": 0.0285,
+      "eval_loss": 2.4673027992248535,
+      "eval_runtime": 33.3388,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.77,
+      "step": 1425
+    },
+    {
+      "epoch": 0.0286,
+      "eval_loss": 2.467072010040283,
+      "eval_runtime": 33.3596,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.769,
+      "step": 1430
+    },
+    {
+      "epoch": 0.0287,
+      "eval_loss": 2.4668517112731934,
+      "eval_runtime": 33.5136,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.76,
+      "step": 1435
+    },
+    {
+      "epoch": 0.0288,
+      "eval_loss": 2.4666786193847656,
+      "eval_runtime": 33.3405,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.77,
+      "step": 1440
+    },
+    {
+      "epoch": 0.0289,
+      "eval_loss": 2.4667794704437256,
+      "eval_runtime": 33.3333,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.77,
+      "step": 1445
+    },
+    {
+      "epoch": 0.029,
+      "grad_norm": 0.03480548121480933,
+      "learning_rate": 2.8980000000000005e-06,
+      "loss": 2.4524,
+      "step": 1450
+    },
+    {
+      "epoch": 0.029,
+      "eval_loss": 2.466280460357666,
+      "eval_runtime": 33.4727,
+      "eval_samples_per_second": 3.495,
+      "eval_steps_per_second": 1.763,
+      "step": 1450
+    },
+    {
+      "epoch": 0.0291,
+      "eval_loss": 2.4659922122955322,
+      "eval_runtime": 33.3309,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.77,
+      "step": 1455
+    },
+    {
+      "epoch": 0.0292,
+      "eval_loss": 2.4657278060913086,
+      "eval_runtime": 33.326,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.77,
+      "step": 1460
+    },
+    {
+      "epoch": 0.0293,
+      "eval_loss": 2.4654440879821777,
+      "eval_runtime": 33.3457,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.769,
+      "step": 1465
+    },
+    {
+      "epoch": 0.0294,
+      "eval_loss": 2.465367317199707,
+      "eval_runtime": 33.2824,
+      "eval_samples_per_second": 3.515,
+      "eval_steps_per_second": 1.773,
+      "step": 1470
+    },
+    {
+      "epoch": 0.0295,
+      "grad_norm": 0.03652712436191979,
+      "learning_rate": 2.9480000000000004e-06,
+      "loss": 2.466,
+      "step": 1475
+    },
+    {
+      "epoch": 0.0295,
+      "eval_loss": 2.465318202972412,
+      "eval_runtime": 33.3264,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.77,
+      "step": 1475
+    },
+    {
+      "epoch": 0.0296,
+      "eval_loss": 2.465156316757202,
+      "eval_runtime": 33.2661,
+      "eval_samples_per_second": 3.517,
+      "eval_steps_per_second": 1.774,
+      "step": 1480
+    },
+    {
+      "epoch": 0.0297,
+      "eval_loss": 2.4648799896240234,
+      "eval_runtime": 33.4782,
+      "eval_samples_per_second": 3.495,
+      "eval_steps_per_second": 1.762,
+      "step": 1485
+    },
+    {
+      "epoch": 0.0298,
+      "eval_loss": 2.4646074771881104,
+      "eval_runtime": 33.3194,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.771,
+      "step": 1490
+    },
+    {
+      "epoch": 0.0299,
+      "eval_loss": 2.464465856552124,
+      "eval_runtime": 33.3466,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.769,
+      "step": 1495
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 0.03778721361564108,
+      "learning_rate": 2.9980000000000003e-06,
+      "loss": 2.4684,
+      "step": 1500
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.464305877685547,
+      "eval_runtime": 33.25,
+      "eval_samples_per_second": 3.519,
+      "eval_steps_per_second": 1.774,
+      "step": 1500
+    },
+    {
+      "epoch": 0.0301,
+      "eval_loss": 2.464261531829834,
+      "eval_runtime": 33.3761,
+      "eval_samples_per_second": 3.505,
+      "eval_steps_per_second": 1.768,
+      "step": 1505
+    },
+    {
+      "epoch": 0.0302,
+      "eval_loss": 2.464185953140259,
+      "eval_runtime": 33.4957,
+      "eval_samples_per_second": 3.493,
+      "eval_steps_per_second": 1.761,
+      "step": 1510
+    },
+    {
+      "epoch": 0.0303,
+      "eval_loss": 2.4639229774475098,
+      "eval_runtime": 33.2475,
+      "eval_samples_per_second": 3.519,
+      "eval_steps_per_second": 1.775,
+      "step": 1515
+    },
+    {
+      "epoch": 0.0304,
+      "eval_loss": 2.4636595249176025,
+      "eval_runtime": 33.3124,
+      "eval_samples_per_second": 3.512,
+      "eval_steps_per_second": 1.771,
+      "step": 1520
+    },
+    {
+      "epoch": 0.0305,
+      "grad_norm": 0.035809836530372154,
+      "learning_rate": 3.0480000000000003e-06,
+      "loss": 2.4631,
+      "step": 1525
+    },
+    {
+      "epoch": 0.0305,
+      "eval_loss": 2.46356201171875,
+      "eval_runtime": 33.3423,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.77,
+      "step": 1525
+    },
+    {
+      "epoch": 0.0306,
+      "eval_loss": 2.463318347930908,
+      "eval_runtime": 33.3917,
+      "eval_samples_per_second": 3.504,
+      "eval_steps_per_second": 1.767,
+      "step": 1530
+    },
+    {
+      "epoch": 0.0307,
+      "eval_loss": 2.4631264209747314,
+      "eval_runtime": 33.4053,
+      "eval_samples_per_second": 3.502,
+      "eval_steps_per_second": 1.766,
+      "step": 1535
+    },
+    {
+      "epoch": 0.0308,
+      "eval_loss": 2.462981700897217,
+      "eval_runtime": 33.2608,
+      "eval_samples_per_second": 3.518,
+      "eval_steps_per_second": 1.774,
+      "step": 1540
+    },
+    {
+      "epoch": 0.0309,
+      "eval_loss": 2.462719202041626,
+      "eval_runtime": 33.3259,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.77,
+      "step": 1545
+    },
+    {
+      "epoch": 0.031,
+      "grad_norm": 0.05979367258550731,
+      "learning_rate": 3.0980000000000007e-06,
+      "loss": 2.46,
+      "step": 1550
+    },
+    {
+      "epoch": 0.031,
+      "eval_loss": 2.462733268737793,
+      "eval_runtime": 33.3195,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.771,
+      "step": 1550
+    },
+    {
+      "epoch": 0.0311,
+      "eval_loss": 2.4625959396362305,
+      "eval_runtime": 33.3704,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 1555
+    },
+    {
+      "epoch": 0.0312,
+      "eval_loss": 2.462366819381714,
+      "eval_runtime": 33.4047,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 1.766,
+      "step": 1560
+    },
+    {
+      "epoch": 0.0313,
+      "eval_loss": 2.4618427753448486,
+      "eval_runtime": 33.3896,
+      "eval_samples_per_second": 3.504,
+      "eval_steps_per_second": 1.767,
+      "step": 1565
+    },
+    {
+      "epoch": 0.0314,
+      "eval_loss": 2.4616317749023438,
+      "eval_runtime": 33.3414,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.77,
+      "step": 1570
+    },
+    {
+      "epoch": 0.0315,
+      "grad_norm": 0.031804244667956116,
+      "learning_rate": 3.1480000000000006e-06,
+      "loss": 2.4477,
+      "step": 1575
+    },
+    {
+      "epoch": 0.0315,
+      "eval_loss": 2.4615368843078613,
+      "eval_runtime": 33.3548,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 1.769,
+      "step": 1575
+    },
+    {
+      "epoch": 0.0316,
+      "eval_loss": 2.461198091506958,
+      "eval_runtime": 33.2416,
+      "eval_samples_per_second": 3.52,
+      "eval_steps_per_second": 1.775,
+      "step": 1580
+    },
+    {
+      "epoch": 0.0317,
+      "eval_loss": 2.4611523151397705,
+      "eval_runtime": 33.3445,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.769,
+      "step": 1585
+    },
+    {
+      "epoch": 0.0318,
+      "eval_loss": 2.4609127044677734,
+      "eval_runtime": 33.3175,
+      "eval_samples_per_second": 3.512,
+      "eval_steps_per_second": 1.771,
+      "step": 1590
+    },
+    {
+      "epoch": 0.0319,
+      "eval_loss": 2.4608800411224365,
+      "eval_runtime": 33.3052,
+      "eval_samples_per_second": 3.513,
+      "eval_steps_per_second": 1.771,
+      "step": 1595
+    },
+    {
+      "epoch": 0.032,
+      "grad_norm": 0.03365841309984822,
+      "learning_rate": 3.198e-06,
+      "loss": 2.4523,
+      "step": 1600
+    },
+    {
+      "epoch": 0.032,
+      "eval_loss": 2.460757255554199,
+      "eval_runtime": 33.2636,
+      "eval_samples_per_second": 3.517,
+      "eval_steps_per_second": 1.774,
+      "step": 1600
+    },
+    {
+      "epoch": 0.0321,
+      "eval_loss": 2.4605917930603027,
+      "eval_runtime": 33.4595,
+      "eval_samples_per_second": 3.497,
+      "eval_steps_per_second": 1.763,
+      "step": 1605
+    },
+    {
+      "epoch": 0.0322,
+      "eval_loss": 2.4604575634002686,
+      "eval_runtime": 33.2706,
+      "eval_samples_per_second": 3.517,
+      "eval_steps_per_second": 1.773,
+      "step": 1610
+    },
+    {
+      "epoch": 0.0323,
+      "eval_loss": 2.4603111743927,
+      "eval_runtime": 33.405,
+      "eval_samples_per_second": 3.502,
+      "eval_steps_per_second": 1.766,
+      "step": 1615
+    },
+    {
+      "epoch": 0.0324,
+      "eval_loss": 2.460045337677002,
+      "eval_runtime": 33.2598,
+      "eval_samples_per_second": 3.518,
+      "eval_steps_per_second": 1.774,
+      "step": 1620
+    },
+    {
+      "epoch": 0.0325,
+      "grad_norm": 0.03534600587541967,
+      "learning_rate": 3.248e-06,
+      "loss": 2.45,
+      "step": 1625
+    },
+    {
+      "epoch": 0.0325,
+      "eval_loss": 2.460045099258423,
+      "eval_runtime": 33.2663,
+      "eval_samples_per_second": 3.517,
+      "eval_steps_per_second": 1.774,
+      "step": 1625
+    },
+    {
+      "epoch": 0.0326,
+      "eval_loss": 2.4599287509918213,
+      "eval_runtime": 33.2545,
+      "eval_samples_per_second": 3.518,
+      "eval_steps_per_second": 1.774,
+      "step": 1630
+    },
+    {
+      "epoch": 0.0327,
+      "eval_loss": 2.459611654281616,
+      "eval_runtime": 33.4189,
+      "eval_samples_per_second": 3.501,
+      "eval_steps_per_second": 1.765,
+      "step": 1635
+    },
+    {
+      "epoch": 0.0328,
+      "eval_loss": 2.4594151973724365,
+      "eval_runtime": 33.284,
+      "eval_samples_per_second": 3.515,
+      "eval_steps_per_second": 1.773,
+      "step": 1640
+    },
+    {
+      "epoch": 0.0329,
+      "eval_loss": 2.4589221477508545,
+      "eval_runtime": 33.4033,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 1.766,
+      "step": 1645
+    },
+    {
+      "epoch": 0.033,
+      "grad_norm": 0.032596527761614855,
+      "learning_rate": 3.298e-06,
+      "loss": 2.4422,
+      "step": 1650
+    },
+    {
+      "epoch": 0.033,
+      "eval_loss": 2.4589502811431885,
+      "eval_runtime": 33.2986,
+      "eval_samples_per_second": 3.514,
+      "eval_steps_per_second": 1.772,
+      "step": 1650
+    },
+    {
+      "epoch": 0.0331,
+      "eval_loss": 2.4588239192962646,
+      "eval_runtime": 33.4046,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 1.766,
+      "step": 1655
+    },
+    {
+      "epoch": 0.0332,
+      "eval_loss": 2.458603620529175,
+      "eval_runtime": 33.3448,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.769,
+      "step": 1660
+    },
+    {
+      "epoch": 0.0333,
+      "eval_loss": 2.458559513092041,
+      "eval_runtime": 33.368,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 1665
+    },
+    {
+      "epoch": 0.0334,
+      "eval_loss": 2.458500862121582,
+      "eval_runtime": 33.2335,
+      "eval_samples_per_second": 3.521,
+      "eval_steps_per_second": 1.775,
+      "step": 1670
+    },
+    {
+      "epoch": 0.0335,
+      "grad_norm": 0.03339611698643194,
+      "learning_rate": 3.348e-06,
+      "loss": 2.447,
+      "step": 1675
+    },
+    {
+      "epoch": 0.0335,
+      "eval_loss": 2.458252191543579,
+      "eval_runtime": 33.3623,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.768,
+      "step": 1675
+    },
+    {
+      "epoch": 0.0336,
+      "eval_loss": 2.4580931663513184,
+      "eval_runtime": 33.2532,
+      "eval_samples_per_second": 3.518,
+      "eval_steps_per_second": 1.774,
+      "step": 1680
+    },
+    {
+      "epoch": 0.0337,
+      "eval_loss": 2.4578795433044434,
+      "eval_runtime": 33.3214,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.771,
+      "step": 1685
+    },
+    {
+      "epoch": 0.0338,
+      "eval_loss": 2.4576218128204346,
+      "eval_runtime": 33.248,
+      "eval_samples_per_second": 3.519,
+      "eval_steps_per_second": 1.775,
+      "step": 1690
+    },
+    {
+      "epoch": 0.0339,
+      "eval_loss": 2.4576828479766846,
+      "eval_runtime": 33.3499,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 1.769,
+      "step": 1695
+    },
+    {
+      "epoch": 0.034,
+      "grad_norm": 0.03028181865357742,
+      "learning_rate": 3.3980000000000003e-06,
+      "loss": 2.4582,
+      "step": 1700
+    },
+    {
+      "epoch": 0.034,
+      "eval_loss": 2.457383155822754,
+      "eval_runtime": 33.2574,
+      "eval_samples_per_second": 3.518,
+      "eval_steps_per_second": 1.774,
+      "step": 1700
+    },
+    {
+      "epoch": 0.0341,
+      "eval_loss": 2.4572579860687256,
+      "eval_runtime": 33.2947,
+      "eval_samples_per_second": 3.514,
+      "eval_steps_per_second": 1.772,
+      "step": 1705
+    },
+    {
+      "epoch": 0.0342,
+      "eval_loss": 2.4584450721740723,
+      "eval_runtime": 33.3296,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.77,
+      "step": 1710
+    },
+    {
+      "epoch": 0.0343,
+      "eval_loss": 2.458603858947754,
+      "eval_runtime": 33.3017,
+      "eval_samples_per_second": 3.513,
+      "eval_steps_per_second": 1.772,
+      "step": 1715
+    },
+    {
+      "epoch": 0.0344,
+      "eval_loss": 2.4579555988311768,
+      "eval_runtime": 33.292,
+      "eval_samples_per_second": 3.514,
+      "eval_steps_per_second": 1.772,
+      "step": 1720
+    },
+    {
+      "epoch": 0.0345,
+      "grad_norm": 0.03734241446236971,
+      "learning_rate": 3.4480000000000003e-06,
+      "loss": 2.4501,
+      "step": 1725
+    },
+    {
+      "epoch": 0.0345,
+      "eval_loss": 2.4574153423309326,
+      "eval_runtime": 33.4313,
+      "eval_samples_per_second": 3.5,
+      "eval_steps_per_second": 1.765,
+      "step": 1725
+    },
+    {
+      "epoch": 0.0346,
+      "eval_loss": 2.456867218017578,
+      "eval_runtime": 33.2833,
+      "eval_samples_per_second": 3.515,
+      "eval_steps_per_second": 1.773,
+      "step": 1730
+    },
+    {
+      "epoch": 0.0347,
+      "eval_loss": 2.4567270278930664,
+      "eval_runtime": 33.3694,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 1735
+    },
+    {
+      "epoch": 0.0348,
+      "eval_loss": 2.456348180770874,
+      "eval_runtime": 33.3416,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.77,
+      "step": 1740
+    },
+    {
+      "epoch": 0.0349,
+      "eval_loss": 2.4563136100769043,
+      "eval_runtime": 33.3531,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 1.769,
+      "step": 1745
+    },
+    {
+      "epoch": 0.035,
+      "grad_norm": 0.030782538004837847,
+      "learning_rate": 3.4980000000000002e-06,
+      "loss": 2.4509,
+      "step": 1750
+    },
+    {
+      "epoch": 0.035,
+      "eval_loss": 2.455827236175537,
+      "eval_runtime": 33.3143,
+      "eval_samples_per_second": 3.512,
+      "eval_steps_per_second": 1.771,
+      "step": 1750
+    },
+    {
+      "epoch": 0.0351,
+      "eval_loss": 2.4558639526367188,
+      "eval_runtime": 33.3716,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 1755
+    },
+    {
+      "epoch": 0.0352,
+      "eval_loss": 2.4555938243865967,
+      "eval_runtime": 33.2966,
+      "eval_samples_per_second": 3.514,
+      "eval_steps_per_second": 1.772,
+      "step": 1760
+    },
+    {
+      "epoch": 0.0353,
+      "eval_loss": 2.4551546573638916,
+      "eval_runtime": 33.3145,
+      "eval_samples_per_second": 3.512,
+      "eval_steps_per_second": 1.771,
+      "step": 1765
+    },
+    {
+      "epoch": 0.0354,
+      "eval_loss": 2.454957962036133,
+      "eval_runtime": 33.3201,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.771,
+      "step": 1770
+    },
+    {
+      "epoch": 0.0355,
+      "grad_norm": 0.03281862515471333,
+      "learning_rate": 3.548e-06,
+      "loss": 2.4439,
+      "step": 1775
+    },
+    {
+      "epoch": 0.0355,
+      "eval_loss": 2.455031394958496,
+      "eval_runtime": 33.264,
+      "eval_samples_per_second": 3.517,
+      "eval_steps_per_second": 1.774,
+      "step": 1775
+    },
+    {
+      "epoch": 0.0356,
+      "eval_loss": 2.4550724029541016,
+      "eval_runtime": 33.3734,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 1780
+    },
+    {
+      "epoch": 0.0357,
+      "eval_loss": 2.454719305038452,
+      "eval_runtime": 33.3267,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.77,
+      "step": 1785
+    },
+    {
+      "epoch": 0.0358,
+      "eval_loss": 2.4547033309936523,
+      "eval_runtime": 33.2651,
+      "eval_samples_per_second": 3.517,
+      "eval_steps_per_second": 1.774,
+      "step": 1790
+    },
+    {
+      "epoch": 0.0359,
+      "eval_loss": 2.454416275024414,
+      "eval_runtime": 33.3612,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.769,
+      "step": 1795
+    },
+    {
+      "epoch": 0.036,
+      "grad_norm": 0.031756006482001914,
+      "learning_rate": 3.5980000000000005e-06,
+      "loss": 2.4493,
+      "step": 1800
+    },
+    {
+      "epoch": 0.036,
+      "eval_loss": 2.454286813735962,
+      "eval_runtime": 33.326,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.77,
+      "step": 1800
+    },
+    {
+      "epoch": 0.0361,
+      "eval_loss": 2.4541101455688477,
+      "eval_runtime": 33.2597,
+      "eval_samples_per_second": 3.518,
+      "eval_steps_per_second": 1.774,
+      "step": 1805
+    },
+    {
+      "epoch": 0.0362,
+      "eval_loss": 2.4541351795196533,
+      "eval_runtime": 33.2421,
+      "eval_samples_per_second": 3.52,
+      "eval_steps_per_second": 1.775,
+      "step": 1810
+    },
+    {
+      "epoch": 0.0363,
+      "eval_loss": 2.4537973403930664,
+      "eval_runtime": 33.3201,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.771,
+      "step": 1815
+    },
+    {
+      "epoch": 0.0364,
+      "eval_loss": 2.4534847736358643,
+      "eval_runtime": 33.2973,
+      "eval_samples_per_second": 3.514,
+      "eval_steps_per_second": 1.772,
+      "step": 1820
+    },
+    {
+      "epoch": 0.0365,
+      "grad_norm": 0.03128096989289917,
+      "learning_rate": 3.6480000000000005e-06,
+      "loss": 2.4526,
+      "step": 1825
+    },
+    {
+      "epoch": 0.0365,
+      "eval_loss": 2.453655481338501,
+      "eval_runtime": 33.3755,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 1825
+    },
+    {
+      "epoch": 0.0366,
+      "eval_loss": 2.4534049034118652,
+      "eval_runtime": 33.332,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.77,
+      "step": 1830
+    },
+    {
+      "epoch": 0.0367,
+      "eval_loss": 2.4529781341552734,
+      "eval_runtime": 33.3325,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.77,
+      "step": 1835
+    },
+    {
+      "epoch": 0.0368,
+      "eval_loss": 2.454005241394043,
+      "eval_runtime": 33.3975,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 1.767,
+      "step": 1840
+    },
+    {
+      "epoch": 0.0369,
+      "eval_loss": 2.4538745880126953,
+      "eval_runtime": 33.3,
+      "eval_samples_per_second": 3.514,
+      "eval_steps_per_second": 1.772,
+      "step": 1845
+    },
+    {
+      "epoch": 0.037,
+      "grad_norm": 0.02999582338402207,
+      "learning_rate": 3.6980000000000004e-06,
+      "loss": 2.4309,
+      "step": 1850
+    },
+    {
+      "epoch": 0.037,
+      "eval_loss": 2.4534404277801514,
+      "eval_runtime": 33.2825,
+      "eval_samples_per_second": 3.515,
+      "eval_steps_per_second": 1.773,
+      "step": 1850
+    },
+    {
+      "epoch": 0.0371,
+      "eval_loss": 2.4529800415039062,
+      "eval_runtime": 33.513,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.761,
+      "step": 1855
+    },
+    {
+      "epoch": 0.0372,
+      "eval_loss": 2.453007221221924,
+      "eval_runtime": 33.3414,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.77,
+      "step": 1860
+    },
+    {
+      "epoch": 0.0373,
+      "eval_loss": 2.452350616455078,
+      "eval_runtime": 33.3625,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.768,
+      "step": 1865
+    },
+    {
+      "epoch": 0.0374,
+      "eval_loss": 2.4522666931152344,
+      "eval_runtime": 33.3116,
+      "eval_samples_per_second": 3.512,
+      "eval_steps_per_second": 1.771,
+      "step": 1870
+    },
+    {
+      "epoch": 0.0375,
+      "grad_norm": 0.0409025592520596,
+      "learning_rate": 3.7480000000000004e-06,
+      "loss": 2.442,
+      "step": 1875
+    },
+    {
+      "epoch": 0.0375,
+      "eval_loss": 2.4521546363830566,
+      "eval_runtime": 33.3782,
+      "eval_samples_per_second": 3.505,
+      "eval_steps_per_second": 1.768,
+      "step": 1875
+    },
+    {
+      "epoch": 0.0376,
+      "eval_loss": 2.4520437717437744,
+      "eval_runtime": 33.2887,
+      "eval_samples_per_second": 3.515,
+      "eval_steps_per_second": 1.772,
+      "step": 1880
+    },
+    {
+      "epoch": 0.0377,
+      "eval_loss": 2.4519331455230713,
+      "eval_runtime": 33.3746,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 1885
+    },
+    {
+      "epoch": 0.0378,
+      "eval_loss": 2.451744556427002,
+      "eval_runtime": 33.3214,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.771,
+      "step": 1890
+    },
+    {
+      "epoch": 0.0379,
+      "eval_loss": 2.451737642288208,
+      "eval_runtime": 33.3457,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.769,
+      "step": 1895
+    },
+    {
+      "epoch": 0.038,
+      "grad_norm": 0.03431980647954774,
+      "learning_rate": 3.7980000000000007e-06,
+      "loss": 2.4477,
+      "step": 1900
+    },
+    {
+      "epoch": 0.038,
+      "eval_loss": 2.4515624046325684,
+      "eval_runtime": 33.312,
+      "eval_samples_per_second": 3.512,
+      "eval_steps_per_second": 1.771,
+      "step": 1900
+    },
+    {
+      "epoch": 0.0381,
+      "eval_loss": 2.4512295722961426,
+      "eval_runtime": 33.3607,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.769,
+      "step": 1905
+    },
+    {
+      "epoch": 0.0382,
+      "eval_loss": 2.4510445594787598,
+      "eval_runtime": 33.339,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.77,
+      "step": 1910
+    },
+    {
+      "epoch": 0.0383,
+      "eval_loss": 2.4508397579193115,
+      "eval_runtime": 33.3996,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 1.766,
+      "step": 1915
+    },
+    {
+      "epoch": 0.0384,
+      "eval_loss": 2.4510440826416016,
+      "eval_runtime": 33.2905,
+      "eval_samples_per_second": 3.515,
+      "eval_steps_per_second": 1.772,
+      "step": 1920
+    },
+    {
+      "epoch": 0.0385,
+      "grad_norm": 0.03587224652231601,
+      "learning_rate": 3.848e-06,
+      "loss": 2.4433,
+      "step": 1925
+    },
+    {
+      "epoch": 0.0385,
+      "eval_loss": 2.450984239578247,
+      "eval_runtime": 33.3263,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.77,
+      "step": 1925
+    },
+    {
+      "epoch": 0.0386,
+      "eval_loss": 2.45090651512146,
+      "eval_runtime": 33.3244,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.77,
+      "step": 1930
+    },
+    {
+      "epoch": 0.0387,
+      "eval_loss": 2.450443983078003,
+      "eval_runtime": 33.3023,
+      "eval_samples_per_second": 3.513,
+      "eval_steps_per_second": 1.772,
+      "step": 1935
+    },
+    {
+      "epoch": 0.0388,
+      "eval_loss": 2.450309991836548,
+      "eval_runtime": 33.4354,
+      "eval_samples_per_second": 3.499,
+      "eval_steps_per_second": 1.765,
+      "step": 1940
+    },
+    {
+      "epoch": 0.0389,
+      "eval_loss": 2.4500510692596436,
+      "eval_runtime": 33.3238,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.771,
+      "step": 1945
+    },
+    {
+      "epoch": 0.039,
+      "grad_norm": 0.027239293031380653,
+      "learning_rate": 3.898e-06,
+      "loss": 2.4347,
+      "step": 1950
+    },
+    {
+      "epoch": 0.039,
+      "eval_loss": 2.4498231410980225,
+      "eval_runtime": 33.3306,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.77,
+      "step": 1950
+    },
+    {
+      "epoch": 0.0391,
+      "eval_loss": 2.449704170227051,
+      "eval_runtime": 33.3865,
+      "eval_samples_per_second": 3.504,
+      "eval_steps_per_second": 1.767,
+      "step": 1955
+    },
+    {
+      "epoch": 0.0392,
+      "eval_loss": 2.44974684715271,
+      "eval_runtime": 33.419,
+      "eval_samples_per_second": 3.501,
+      "eval_steps_per_second": 1.765,
+      "step": 1960
+    },
+    {
+      "epoch": 0.0393,
+      "eval_loss": 2.450090169906616,
+      "eval_runtime": 33.5315,
+      "eval_samples_per_second": 3.489,
+      "eval_steps_per_second": 1.76,
+      "step": 1965
+    },
+    {
+      "epoch": 0.0394,
+      "eval_loss": 2.4494845867156982,
+      "eval_runtime": 33.4607,
+      "eval_samples_per_second": 3.497,
+      "eval_steps_per_second": 1.763,
+      "step": 1970
+    },
+    {
+      "epoch": 0.0395,
+      "grad_norm": 0.031553482039351585,
+      "learning_rate": 3.948e-06,
+      "loss": 2.4466,
+      "step": 1975
+    },
+    {
+      "epoch": 0.0395,
+      "eval_loss": 2.449598550796509,
+      "eval_runtime": 33.4853,
+      "eval_samples_per_second": 3.494,
+      "eval_steps_per_second": 1.762,
+      "step": 1975
+    },
+    {
+      "epoch": 0.0396,
+      "eval_loss": 2.449420213699341,
+      "eval_runtime": 33.4626,
+      "eval_samples_per_second": 3.496,
+      "eval_steps_per_second": 1.763,
+      "step": 1980
+    },
+    {
+      "epoch": 0.0397,
+      "eval_loss": 2.449462890625,
+      "eval_runtime": 33.4049,
+      "eval_samples_per_second": 3.502,
+      "eval_steps_per_second": 1.766,
+      "step": 1985
+    },
+    {
+      "epoch": 0.0398,
+      "eval_loss": 2.449423313140869,
+      "eval_runtime": 33.5823,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.757,
+      "step": 1990
+    },
+    {
+      "epoch": 0.0399,
+      "eval_loss": 2.4491324424743652,
+      "eval_runtime": 33.662,
+      "eval_samples_per_second": 3.476,
+      "eval_steps_per_second": 1.753,
+      "step": 1995
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.03314009226524554,
+      "learning_rate": 3.9980000000000005e-06,
+      "loss": 2.4391,
+      "step": 2000
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.449084520339966,
+      "eval_runtime": 33.5872,
+      "eval_samples_per_second": 3.483,
+      "eval_steps_per_second": 1.757,
+      "step": 2000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 5.570603510971498e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null