irodkin
/

InnerLoopARMTForCausalLM_run_20

PyTorch

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on 18 days ago

Commit

5c732b5

verified ·

1 Parent(s): bd10953

Training checkpoint at step 1000

Browse files

Files changed (1) hide show

trainer_state.json +1891 -10

trainer_state.json CHANGED Viewed

@@ -1,19 +1,1900 @@
 {
-  "best_global_step": null,
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 0.00012,
-  "eval_steps": 100,
-  "global_step": 6,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
-  "log_history": [],
   "logging_steps": 25,
   "max_steps": 50000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
-  "save_steps": 3,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -26,8 +1907,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 1642636414812160.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_global_step": 1000,
+  "best_metric": 2.488457202911377,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_7x1024_mem32_bs64_hf_armt_dmem64/run_20/checkpoint-1000",
+  "epoch": 0.02,
+  "eval_steps": 5,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0001,
+      "eval_loss": 3.320133686065674,
+      "eval_runtime": 33.1817,
+      "eval_samples_per_second": 3.526,
+      "eval_steps_per_second": 1.778,
+      "step": 5
+    },
+    {
+      "epoch": 0.0002,
+      "eval_loss": 3.319335460662842,
+      "eval_runtime": 33.1229,
+      "eval_samples_per_second": 3.532,
+      "eval_steps_per_second": 1.781,
+      "step": 10
+    },
+    {
+      "epoch": 0.0003,
+      "eval_loss": 3.318042516708374,
+      "eval_runtime": 33.3382,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.77,
+      "step": 15
+    },
+    {
+      "epoch": 0.0004,
+      "eval_loss": 3.31443190574646,
+      "eval_runtime": 33.2423,
+      "eval_samples_per_second": 3.52,
+      "eval_steps_per_second": 1.775,
+      "step": 20
+    },
+    {
+      "epoch": 0.0005,
+      "grad_norm": 0.8831791054097137,
+      "learning_rate": 4.8e-08,
+      "loss": 3.4942,
+      "step": 25
+    },
+    {
+      "epoch": 0.0005,
+      "eval_loss": 3.3073768615722656,
+      "eval_runtime": 33.3914,
+      "eval_samples_per_second": 3.504,
+      "eval_steps_per_second": 1.767,
+      "step": 25
+    },
+    {
+      "epoch": 0.0006,
+      "eval_loss": 3.299119472503662,
+      "eval_runtime": 33.4042,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 1.766,
+      "step": 30
+    },
+    {
+      "epoch": 0.0007,
+      "eval_loss": 3.2837445735931396,
+      "eval_runtime": 33.3171,
+      "eval_samples_per_second": 3.512,
+      "eval_steps_per_second": 1.771,
+      "step": 35
+    },
+    {
+      "epoch": 0.0008,
+      "eval_loss": 3.26920747756958,
+      "eval_runtime": 33.2887,
+      "eval_samples_per_second": 3.515,
+      "eval_steps_per_second": 1.772,
+      "step": 40
+    },
+    {
+      "epoch": 0.0009,
+      "eval_loss": 3.2481868267059326,
+      "eval_runtime": 33.3291,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.77,
+      "step": 45
+    },
+    {
+      "epoch": 0.001,
+      "grad_norm": 0.5545255682809549,
+      "learning_rate": 9.8e-08,
+      "loss": 3.4174,
+      "step": 50
+    },
+    {
+      "epoch": 0.001,
+      "eval_loss": 3.2263057231903076,
+      "eval_runtime": 33.3242,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.77,
+      "step": 50
+    },
+    {
+      "epoch": 0.0011,
+      "eval_loss": 3.2074711322784424,
+      "eval_runtime": 33.3412,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.77,
+      "step": 55
+    },
+    {
+      "epoch": 0.0012,
+      "eval_loss": 3.1877729892730713,
+      "eval_runtime": 33.5109,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.761,
+      "step": 60
+    },
+    {
+      "epoch": 0.0013,
+      "eval_loss": 3.153503894805908,
+      "eval_runtime": 33.4747,
+      "eval_samples_per_second": 3.495,
+      "eval_steps_per_second": 1.763,
+      "step": 65
+    },
+    {
+      "epoch": 0.0014,
+      "eval_loss": 3.1214191913604736,
+      "eval_runtime": 33.5956,
+      "eval_samples_per_second": 3.483,
+      "eval_steps_per_second": 1.756,
+      "step": 70
+    },
+    {
+      "epoch": 0.0015,
+      "grad_norm": 0.5083106511895727,
+      "learning_rate": 1.4800000000000003e-07,
+      "loss": 3.2951,
+      "step": 75
+    },
+    {
+      "epoch": 0.0015,
+      "eval_loss": 3.101821184158325,
+      "eval_runtime": 33.6,
+      "eval_samples_per_second": 3.482,
+      "eval_steps_per_second": 1.756,
+      "step": 75
+    },
+    {
+      "epoch": 0.0016,
+      "eval_loss": 3.0797102451324463,
+      "eval_runtime": 33.5302,
+      "eval_samples_per_second": 3.489,
+      "eval_steps_per_second": 1.76,
+      "step": 80
+    },
+    {
+      "epoch": 0.0017,
+      "eval_loss": 3.0523691177368164,
+      "eval_runtime": 33.5031,
+      "eval_samples_per_second": 3.492,
+      "eval_steps_per_second": 1.761,
+      "step": 85
+    },
+    {
+      "epoch": 0.0018,
+      "eval_loss": 3.022620677947998,
+      "eval_runtime": 33.6265,
+      "eval_samples_per_second": 3.479,
+      "eval_steps_per_second": 1.755,
+      "step": 90
+    },
+    {
+      "epoch": 0.0019,
+      "eval_loss": 2.991481065750122,
+      "eval_runtime": 33.5519,
+      "eval_samples_per_second": 3.487,
+      "eval_steps_per_second": 1.758,
+      "step": 95
+    },
+    {
+      "epoch": 0.002,
+      "grad_norm": 0.28367624064943,
+      "learning_rate": 1.9800000000000003e-07,
+      "loss": 3.1531,
+      "step": 100
+    },
+    {
+      "epoch": 0.002,
+      "eval_loss": 2.9630048274993896,
+      "eval_runtime": 33.734,
+      "eval_samples_per_second": 3.468,
+      "eval_steps_per_second": 1.749,
+      "step": 100
+    },
+    {
+      "epoch": 0.0021,
+      "eval_loss": 2.93916916847229,
+      "eval_runtime": 33.4897,
+      "eval_samples_per_second": 3.494,
+      "eval_steps_per_second": 1.762,
+      "step": 105
+    },
+    {
+      "epoch": 0.0022,
+      "eval_loss": 2.9186832904815674,
+      "eval_runtime": 33.5154,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.76,
+      "step": 110
+    },
+    {
+      "epoch": 0.0023,
+      "eval_loss": 2.8985302448272705,
+      "eval_runtime": 33.5846,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.757,
+      "step": 115
+    },
+    {
+      "epoch": 0.0024,
+      "eval_loss": 2.8786001205444336,
+      "eval_runtime": 33.5482,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 1.759,
+      "step": 120
+    },
+    {
+      "epoch": 0.0025,
+      "grad_norm": 0.19615444236413476,
+      "learning_rate": 2.48e-07,
+      "loss": 3.0101,
+      "step": 125
+    },
+    {
+      "epoch": 0.0025,
+      "eval_loss": 2.860034704208374,
+      "eval_runtime": 33.5143,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.76,
+      "step": 125
+    },
+    {
+      "epoch": 0.0026,
+      "eval_loss": 2.843663454055786,
+      "eval_runtime": 33.5082,
+      "eval_samples_per_second": 3.492,
+      "eval_steps_per_second": 1.761,
+      "step": 130
+    },
+    {
+      "epoch": 0.0027,
+      "eval_loss": 2.82882022857666,
+      "eval_runtime": 33.4921,
+      "eval_samples_per_second": 3.493,
+      "eval_steps_per_second": 1.762,
+      "step": 135
+    },
+    {
+      "epoch": 0.0028,
+      "eval_loss": 2.8154728412628174,
+      "eval_runtime": 33.6656,
+      "eval_samples_per_second": 3.475,
+      "eval_steps_per_second": 1.753,
+      "step": 140
+    },
+    {
+      "epoch": 0.0029,
+      "eval_loss": 2.801098346710205,
+      "eval_runtime": 33.5229,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 145
+    },
+    {
+      "epoch": 0.003,
+      "grad_norm": 0.5710572013823593,
+      "learning_rate": 2.9800000000000005e-07,
+      "loss": 2.876,
+      "step": 150
+    },
+    {
+      "epoch": 0.003,
+      "eval_loss": 2.789198160171509,
+      "eval_runtime": 33.4535,
+      "eval_samples_per_second": 3.497,
+      "eval_steps_per_second": 1.764,
+      "step": 150
+    },
+    {
+      "epoch": 0.0031,
+      "eval_loss": 2.7789695262908936,
+      "eval_runtime": 33.6409,
+      "eval_samples_per_second": 3.478,
+      "eval_steps_per_second": 1.754,
+      "step": 155
+    },
+    {
+      "epoch": 0.0032,
+      "eval_loss": 2.7694201469421387,
+      "eval_runtime": 33.4266,
+      "eval_samples_per_second": 3.5,
+      "eval_steps_per_second": 1.765,
+      "step": 160
+    },
+    {
+      "epoch": 0.0033,
+      "eval_loss": 2.7600762844085693,
+      "eval_runtime": 33.4725,
+      "eval_samples_per_second": 3.495,
+      "eval_steps_per_second": 1.763,
+      "step": 165
+    },
+    {
+      "epoch": 0.0034,
+      "eval_loss": 2.7517828941345215,
+      "eval_runtime": 33.6223,
+      "eval_samples_per_second": 3.48,
+      "eval_steps_per_second": 1.755,
+      "step": 170
+    },
+    {
+      "epoch": 0.0035,
+      "grad_norm": 0.151307501186972,
+      "learning_rate": 3.48e-07,
+      "loss": 2.811,
+      "step": 175
+    },
+    {
+      "epoch": 0.0035,
+      "eval_loss": 2.743870258331299,
+      "eval_runtime": 33.5221,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 175
+    },
+    {
+      "epoch": 0.0036,
+      "eval_loss": 2.7366557121276855,
+      "eval_runtime": 33.5448,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 1.759,
+      "step": 180
+    },
+    {
+      "epoch": 0.0037,
+      "eval_loss": 2.7298200130462646,
+      "eval_runtime": 33.5428,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 1.759,
+      "step": 185
+    },
+    {
+      "epoch": 0.0038,
+      "eval_loss": 2.722888708114624,
+      "eval_runtime": 33.6302,
+      "eval_samples_per_second": 3.479,
+      "eval_steps_per_second": 1.754,
+      "step": 190
+    },
+    {
+      "epoch": 0.0039,
+      "eval_loss": 2.714289426803589,
+      "eval_runtime": 33.5594,
+      "eval_samples_per_second": 3.486,
+      "eval_steps_per_second": 1.758,
+      "step": 195
+    },
+    {
+      "epoch": 0.004,
+      "grad_norm": 0.10362348542700331,
+      "learning_rate": 3.9800000000000004e-07,
+      "loss": 2.7606,
+      "step": 200
+    },
+    {
+      "epoch": 0.004,
+      "eval_loss": 2.7078425884246826,
+      "eval_runtime": 33.6447,
+      "eval_samples_per_second": 3.478,
+      "eval_steps_per_second": 1.754,
+      "step": 200
+    },
+    {
+      "epoch": 0.0041,
+      "eval_loss": 2.7014663219451904,
+      "eval_runtime": 33.565,
+      "eval_samples_per_second": 3.486,
+      "eval_steps_per_second": 1.758,
+      "step": 205
+    },
+    {
+      "epoch": 0.0042,
+      "eval_loss": 2.6956119537353516,
+      "eval_runtime": 33.5938,
+      "eval_samples_per_second": 3.483,
+      "eval_steps_per_second": 1.756,
+      "step": 210
+    },
+    {
+      "epoch": 0.0043,
+      "eval_loss": 2.6901819705963135,
+      "eval_runtime": 33.5009,
+      "eval_samples_per_second": 3.492,
+      "eval_steps_per_second": 1.761,
+      "step": 215
+    },
+    {
+      "epoch": 0.0044,
+      "eval_loss": 2.684842824935913,
+      "eval_runtime": 33.5857,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.757,
+      "step": 220
+    },
+    {
+      "epoch": 0.0045,
+      "grad_norm": 0.08395542059093342,
+      "learning_rate": 4.4800000000000004e-07,
+      "loss": 2.727,
+      "step": 225
+    },
+    {
+      "epoch": 0.0045,
+      "eval_loss": 2.679893732070923,
+      "eval_runtime": 33.5333,
+      "eval_samples_per_second": 3.489,
+      "eval_steps_per_second": 1.759,
+      "step": 225
+    },
+    {
+      "epoch": 0.0046,
+      "eval_loss": 2.6749234199523926,
+      "eval_runtime": 33.6847,
+      "eval_samples_per_second": 3.473,
+      "eval_steps_per_second": 1.752,
+      "step": 230
+    },
+    {
+      "epoch": 0.0047,
+      "eval_loss": 2.670543670654297,
+      "eval_runtime": 33.5814,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.757,
+      "step": 235
+    },
+    {
+      "epoch": 0.0048,
+      "eval_loss": 2.6663973331451416,
+      "eval_runtime": 33.5943,
+      "eval_samples_per_second": 3.483,
+      "eval_steps_per_second": 1.756,
+      "step": 240
+    },
+    {
+      "epoch": 0.0049,
+      "eval_loss": 2.662304162979126,
+      "eval_runtime": 33.5309,
+      "eval_samples_per_second": 3.489,
+      "eval_steps_per_second": 1.76,
+      "step": 245
+    },
+    {
+      "epoch": 0.005,
+      "grad_norm": 0.06968304771462097,
+      "learning_rate": 4.98e-07,
+      "loss": 2.6931,
+      "step": 250
+    },
+    {
+      "epoch": 0.005,
+      "eval_loss": 2.65859317779541,
+      "eval_runtime": 33.4663,
+      "eval_samples_per_second": 3.496,
+      "eval_steps_per_second": 1.763,
+      "step": 250
+    },
+    {
+      "epoch": 0.0051,
+      "eval_loss": 2.654831886291504,
+      "eval_runtime": 33.5962,
+      "eval_samples_per_second": 3.483,
+      "eval_steps_per_second": 1.756,
+      "step": 255
+    },
+    {
+      "epoch": 0.0052,
+      "eval_loss": 2.6509766578674316,
+      "eval_runtime": 33.5064,
+      "eval_samples_per_second": 3.492,
+      "eval_steps_per_second": 1.761,
+      "step": 260
+    },
+    {
+      "epoch": 0.0053,
+      "eval_loss": 2.6467387676239014,
+      "eval_runtime": 33.5346,
+      "eval_samples_per_second": 3.489,
+      "eval_steps_per_second": 1.759,
+      "step": 265
+    },
+    {
+      "epoch": 0.0054,
+      "eval_loss": 2.6428205966949463,
+      "eval_runtime": 33.5418,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 1.759,
+      "step": 270
+    },
+    {
+      "epoch": 0.0055,
+      "grad_norm": 0.05704195405230526,
+      "learning_rate": 5.480000000000001e-07,
+      "loss": 2.674,
+      "step": 275
+    },
+    {
+      "epoch": 0.0055,
+      "eval_loss": 2.6392645835876465,
+      "eval_runtime": 33.6509,
+      "eval_samples_per_second": 3.477,
+      "eval_steps_per_second": 1.753,
+      "step": 275
+    },
+    {
+      "epoch": 0.0056,
+      "eval_loss": 2.6361024379730225,
+      "eval_runtime": 33.6973,
+      "eval_samples_per_second": 3.472,
+      "eval_steps_per_second": 1.751,
+      "step": 280
+    },
+    {
+      "epoch": 0.0057,
+      "eval_loss": 2.6328718662261963,
+      "eval_runtime": 33.5639,
+      "eval_samples_per_second": 3.486,
+      "eval_steps_per_second": 1.758,
+      "step": 285
+    },
+    {
+      "epoch": 0.0058,
+      "eval_loss": 2.629871129989624,
+      "eval_runtime": 33.5243,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 290
+    },
+    {
+      "epoch": 0.0059,
+      "eval_loss": 2.6271257400512695,
+      "eval_runtime": 33.6427,
+      "eval_samples_per_second": 3.478,
+      "eval_steps_per_second": 1.754,
+      "step": 295
+    },
+    {
+      "epoch": 0.006,
+      "grad_norm": 0.05013991368613539,
+      "learning_rate": 5.98e-07,
+      "loss": 2.6504,
+      "step": 300
+    },
+    {
+      "epoch": 0.006,
+      "eval_loss": 2.6243784427642822,
+      "eval_runtime": 33.5815,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.757,
+      "step": 300
+    },
+    {
+      "epoch": 0.0061,
+      "eval_loss": 2.621882915496826,
+      "eval_runtime": 33.7331,
+      "eval_samples_per_second": 3.468,
+      "eval_steps_per_second": 1.749,
+      "step": 305
+    },
+    {
+      "epoch": 0.0062,
+      "eval_loss": 2.6194233894348145,
+      "eval_runtime": 33.594,
+      "eval_samples_per_second": 3.483,
+      "eval_steps_per_second": 1.756,
+      "step": 310
+    },
+    {
+      "epoch": 0.0063,
+      "eval_loss": 2.6167914867401123,
+      "eval_runtime": 33.5521,
+      "eval_samples_per_second": 3.487,
+      "eval_steps_per_second": 1.758,
+      "step": 315
+    },
+    {
+      "epoch": 0.0064,
+      "eval_loss": 2.6143040657043457,
+      "eval_runtime": 33.58,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.757,
+      "step": 320
+    },
+    {
+      "epoch": 0.0065,
+      "grad_norm": 0.04696879401248375,
+      "learning_rate": 6.48e-07,
+      "loss": 2.6372,
+      "step": 325
+    },
+    {
+      "epoch": 0.0065,
+      "eval_loss": 2.611804246902466,
+      "eval_runtime": 33.5371,
+      "eval_samples_per_second": 3.489,
+      "eval_steps_per_second": 1.759,
+      "step": 325
+    },
+    {
+      "epoch": 0.0066,
+      "eval_loss": 2.6093685626983643,
+      "eval_runtime": 33.8057,
+      "eval_samples_per_second": 3.461,
+      "eval_steps_per_second": 1.745,
+      "step": 330
+    },
+    {
+      "epoch": 0.0067,
+      "eval_loss": 2.607069492340088,
+      "eval_runtime": 33.5819,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.757,
+      "step": 335
+    },
+    {
+      "epoch": 0.0068,
+      "eval_loss": 2.604562520980835,
+      "eval_runtime": 33.5971,
+      "eval_samples_per_second": 3.482,
+      "eval_steps_per_second": 1.756,
+      "step": 340
+    },
+    {
+      "epoch": 0.0069,
+      "eval_loss": 2.6024069786071777,
+      "eval_runtime": 33.5107,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.761,
+      "step": 345
+    },
+    {
+      "epoch": 0.007,
+      "grad_norm": 0.04335213523196003,
+      "learning_rate": 6.98e-07,
+      "loss": 2.6173,
+      "step": 350
+    },
+    {
+      "epoch": 0.007,
+      "eval_loss": 2.6002795696258545,
+      "eval_runtime": 33.6194,
+      "eval_samples_per_second": 3.48,
+      "eval_steps_per_second": 1.755,
+      "step": 350
+    },
+    {
+      "epoch": 0.0071,
+      "eval_loss": 2.598109245300293,
+      "eval_runtime": 33.807,
+      "eval_samples_per_second": 3.461,
+      "eval_steps_per_second": 1.745,
+      "step": 355
+    },
+    {
+      "epoch": 0.0072,
+      "eval_loss": 2.596126079559326,
+      "eval_runtime": 33.5287,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 360
+    },
+    {
+      "epoch": 0.0073,
+      "eval_loss": 2.5941832065582275,
+      "eval_runtime": 33.5456,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 1.759,
+      "step": 365
+    },
+    {
+      "epoch": 0.0074,
+      "eval_loss": 2.592336893081665,
+      "eval_runtime": 33.6972,
+      "eval_samples_per_second": 3.472,
+      "eval_steps_per_second": 1.751,
+      "step": 370
+    },
+    {
+      "epoch": 0.0075,
+      "grad_norm": 0.04553004087145917,
+      "learning_rate": 7.480000000000001e-07,
+      "loss": 2.608,
+      "step": 375
+    },
+    {
+      "epoch": 0.0075,
+      "eval_loss": 2.590573310852051,
+      "eval_runtime": 33.6132,
+      "eval_samples_per_second": 3.481,
+      "eval_steps_per_second": 1.755,
+      "step": 375
+    },
+    {
+      "epoch": 0.0076,
+      "eval_loss": 2.5888302326202393,
+      "eval_runtime": 33.6363,
+      "eval_samples_per_second": 3.478,
+      "eval_steps_per_second": 1.754,
+      "step": 380
+    },
+    {
+      "epoch": 0.0077,
+      "eval_loss": 2.5870487689971924,
+      "eval_runtime": 33.6309,
+      "eval_samples_per_second": 3.479,
+      "eval_steps_per_second": 1.754,
+      "step": 385
+    },
+    {
+      "epoch": 0.0078,
+      "eval_loss": 2.5851986408233643,
+      "eval_runtime": 33.5237,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 390
+    },
+    {
+      "epoch": 0.0079,
+      "eval_loss": 2.583341598510742,
+      "eval_runtime": 33.4914,
+      "eval_samples_per_second": 3.493,
+      "eval_steps_per_second": 1.762,
+      "step": 395
+    },
+    {
+      "epoch": 0.008,
+      "grad_norm": 0.04067489002091025,
+      "learning_rate": 7.98e-07,
+      "loss": 2.6034,
+      "step": 400
+    },
+    {
+      "epoch": 0.008,
+      "eval_loss": 2.5816242694854736,
+      "eval_runtime": 33.6305,
+      "eval_samples_per_second": 3.479,
+      "eval_steps_per_second": 1.754,
+      "step": 400
+    },
+    {
+      "epoch": 0.0081,
+      "eval_loss": 2.5800209045410156,
+      "eval_runtime": 33.9049,
+      "eval_samples_per_second": 3.451,
+      "eval_steps_per_second": 1.74,
+      "step": 405
+    },
+    {
+      "epoch": 0.0082,
+      "eval_loss": 2.5783472061157227,
+      "eval_runtime": 33.6847,
+      "eval_samples_per_second": 3.473,
+      "eval_steps_per_second": 1.752,
+      "step": 410
+    },
+    {
+      "epoch": 0.0083,
+      "eval_loss": 2.5765581130981445,
+      "eval_runtime": 33.5467,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 1.759,
+      "step": 415
+    },
+    {
+      "epoch": 0.0084,
+      "eval_loss": 2.574805974960327,
+      "eval_runtime": 33.6837,
+      "eval_samples_per_second": 3.473,
+      "eval_steps_per_second": 1.752,
+      "step": 420
+    },
+    {
+      "epoch": 0.0085,
+      "grad_norm": 0.03957021300313725,
+      "learning_rate": 8.480000000000001e-07,
+      "loss": 2.5881,
+      "step": 425
+    },
+    {
+      "epoch": 0.0085,
+      "eval_loss": 2.5732243061065674,
+      "eval_runtime": 33.6883,
+      "eval_samples_per_second": 3.473,
+      "eval_steps_per_second": 1.751,
+      "step": 425
+    },
+    {
+      "epoch": 0.0086,
+      "eval_loss": 2.5712339878082275,
+      "eval_runtime": 34.0087,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.735,
+      "step": 430
+    },
+    {
+      "epoch": 0.0087,
+      "eval_loss": 2.5696043968200684,
+      "eval_runtime": 33.5522,
+      "eval_samples_per_second": 3.487,
+      "eval_steps_per_second": 1.758,
+      "step": 435
+    },
+    {
+      "epoch": 0.0088,
+      "eval_loss": 2.568011522293091,
+      "eval_runtime": 33.7026,
+      "eval_samples_per_second": 3.472,
+      "eval_steps_per_second": 1.751,
+      "step": 440
+    },
+    {
+      "epoch": 0.0089,
+      "eval_loss": 2.5661723613739014,
+      "eval_runtime": 33.7143,
+      "eval_samples_per_second": 3.47,
+      "eval_steps_per_second": 1.75,
+      "step": 445
+    },
+    {
+      "epoch": 0.009,
+      "grad_norm": 0.04518058243135632,
+      "learning_rate": 8.980000000000001e-07,
+      "loss": 2.577,
+      "step": 450
+    },
+    {
+      "epoch": 0.009,
+      "eval_loss": 2.5647170543670654,
+      "eval_runtime": 33.6066,
+      "eval_samples_per_second": 3.481,
+      "eval_steps_per_second": 1.756,
+      "step": 450
+    },
+    {
+      "epoch": 0.0091,
+      "eval_loss": 2.5629138946533203,
+      "eval_runtime": 33.695,
+      "eval_samples_per_second": 3.472,
+      "eval_steps_per_second": 1.751,
+      "step": 455
+    },
+    {
+      "epoch": 0.0092,
+      "eval_loss": 2.561223268508911,
+      "eval_runtime": 33.7639,
+      "eval_samples_per_second": 3.465,
+      "eval_steps_per_second": 1.747,
+      "step": 460
+    },
+    {
+      "epoch": 0.0093,
+      "eval_loss": 2.559941053390503,
+      "eval_runtime": 33.5726,
+      "eval_samples_per_second": 3.485,
+      "eval_steps_per_second": 1.757,
+      "step": 465
+    },
+    {
+      "epoch": 0.0094,
+      "eval_loss": 2.5585126876831055,
+      "eval_runtime": 33.5393,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 1.759,
+      "step": 470
+    },
+    {
+      "epoch": 0.0095,
+      "grad_norm": 0.04841685552742973,
+      "learning_rate": 9.480000000000001e-07,
+      "loss": 2.5614,
+      "step": 475
+    },
+    {
+      "epoch": 0.0095,
+      "eval_loss": 2.557070732116699,
+      "eval_runtime": 33.5396,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 1.759,
+      "step": 475
+    },
+    {
+      "epoch": 0.0096,
+      "eval_loss": 2.5551016330718994,
+      "eval_runtime": 33.8951,
+      "eval_samples_per_second": 3.452,
+      "eval_steps_per_second": 1.741,
+      "step": 480
+    },
+    {
+      "epoch": 0.0097,
+      "eval_loss": 2.553600311279297,
+      "eval_runtime": 33.6678,
+      "eval_samples_per_second": 3.475,
+      "eval_steps_per_second": 1.752,
+      "step": 485
+    },
+    {
+      "epoch": 0.0098,
+      "eval_loss": 2.5523183345794678,
+      "eval_runtime": 33.6551,
+      "eval_samples_per_second": 3.476,
+      "eval_steps_per_second": 1.753,
+      "step": 490
+    },
+    {
+      "epoch": 0.0099,
+      "eval_loss": 2.5510056018829346,
+      "eval_runtime": 33.6214,
+      "eval_samples_per_second": 3.48,
+      "eval_steps_per_second": 1.755,
+      "step": 495
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 0.043993000876628545,
+      "learning_rate": 9.98e-07,
+      "loss": 2.5613,
+      "step": 500
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.5498273372650146,
+      "eval_runtime": 33.6069,
+      "eval_samples_per_second": 3.481,
+      "eval_steps_per_second": 1.756,
+      "step": 500
+    },
+    {
+      "epoch": 0.0101,
+      "eval_loss": 2.548828601837158,
+      "eval_runtime": 33.7909,
+      "eval_samples_per_second": 3.462,
+      "eval_steps_per_second": 1.746,
+      "step": 505
+    },
+    {
+      "epoch": 0.0102,
+      "eval_loss": 2.5474376678466797,
+      "eval_runtime": 33.543,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 1.759,
+      "step": 510
+    },
+    {
+      "epoch": 0.0103,
+      "eval_loss": 2.5464441776275635,
+      "eval_runtime": 33.6579,
+      "eval_samples_per_second": 3.476,
+      "eval_steps_per_second": 1.753,
+      "step": 515
+    },
+    {
+      "epoch": 0.0104,
+      "eval_loss": 2.5453498363494873,
+      "eval_runtime": 33.4841,
+      "eval_samples_per_second": 3.494,
+      "eval_steps_per_second": 1.762,
+      "step": 520
+    },
+    {
+      "epoch": 0.0105,
+      "grad_norm": 0.04663602312001795,
+      "learning_rate": 1.0480000000000002e-06,
+      "loss": 2.5521,
+      "step": 525
+    },
+    {
+      "epoch": 0.0105,
+      "eval_loss": 2.5442492961883545,
+      "eval_runtime": 33.5915,
+      "eval_samples_per_second": 3.483,
+      "eval_steps_per_second": 1.756,
+      "step": 525
+    },
+    {
+      "epoch": 0.0106,
+      "eval_loss": 2.5432002544403076,
+      "eval_runtime": 33.6717,
+      "eval_samples_per_second": 3.475,
+      "eval_steps_per_second": 1.752,
+      "step": 530
+    },
+    {
+      "epoch": 0.0107,
+      "eval_loss": 2.542072057723999,
+      "eval_runtime": 33.6153,
+      "eval_samples_per_second": 3.481,
+      "eval_steps_per_second": 1.755,
+      "step": 535
+    },
+    {
+      "epoch": 0.0108,
+      "eval_loss": 2.541541814804077,
+      "eval_runtime": 34.4505,
+      "eval_samples_per_second": 3.396,
+      "eval_steps_per_second": 1.713,
+      "step": 540
+    },
+    {
+      "epoch": 0.0109,
+      "eval_loss": 2.540494203567505,
+      "eval_runtime": 33.6369,
+      "eval_samples_per_second": 3.478,
+      "eval_steps_per_second": 1.754,
+      "step": 545
+    },
+    {
+      "epoch": 0.011,
+      "grad_norm": 0.044473565671350655,
+      "learning_rate": 1.0980000000000001e-06,
+      "loss": 2.5433,
+      "step": 550
+    },
+    {
+      "epoch": 0.011,
+      "eval_loss": 2.539369821548462,
+      "eval_runtime": 33.5742,
+      "eval_samples_per_second": 3.485,
+      "eval_steps_per_second": 1.757,
+      "step": 550
+    },
+    {
+      "epoch": 0.0111,
+      "eval_loss": 2.5384223461151123,
+      "eval_runtime": 33.9094,
+      "eval_samples_per_second": 3.45,
+      "eval_steps_per_second": 1.74,
+      "step": 555
+    },
+    {
+      "epoch": 0.0112,
+      "eval_loss": 2.5375945568084717,
+      "eval_runtime": 33.6016,
+      "eval_samples_per_second": 3.482,
+      "eval_steps_per_second": 1.756,
+      "step": 560
+    },
+    {
+      "epoch": 0.0113,
+      "eval_loss": 2.536487340927124,
+      "eval_runtime": 34.3561,
+      "eval_samples_per_second": 3.406,
+      "eval_steps_per_second": 1.717,
+      "step": 565
+    },
+    {
+      "epoch": 0.0114,
+      "eval_loss": 2.5356836318969727,
+      "eval_runtime": 34.5074,
+      "eval_samples_per_second": 3.391,
+      "eval_steps_per_second": 1.71,
+      "step": 570
+    },
+    {
+      "epoch": 0.0115,
+      "grad_norm": 0.04668528198599521,
+      "learning_rate": 1.148e-06,
+      "loss": 2.5496,
+      "step": 575
+    },
+    {
+      "epoch": 0.0115,
+      "eval_loss": 2.5347819328308105,
+      "eval_runtime": 33.5932,
+      "eval_samples_per_second": 3.483,
+      "eval_steps_per_second": 1.756,
+      "step": 575
+    },
+    {
+      "epoch": 0.0116,
+      "eval_loss": 2.534010410308838,
+      "eval_runtime": 33.8124,
+      "eval_samples_per_second": 3.46,
+      "eval_steps_per_second": 1.745,
+      "step": 580
+    },
+    {
+      "epoch": 0.0117,
+      "eval_loss": 2.5331332683563232,
+      "eval_runtime": 33.5617,
+      "eval_samples_per_second": 3.486,
+      "eval_steps_per_second": 1.758,
+      "step": 585
+    },
+    {
+      "epoch": 0.0118,
+      "eval_loss": 2.5322561264038086,
+      "eval_runtime": 33.8081,
+      "eval_samples_per_second": 3.461,
+      "eval_steps_per_second": 1.745,
+      "step": 590
+    },
+    {
+      "epoch": 0.0119,
+      "eval_loss": 2.5314669609069824,
+      "eval_runtime": 33.7053,
+      "eval_samples_per_second": 3.471,
+      "eval_steps_per_second": 1.75,
+      "step": 595
+    },
+    {
+      "epoch": 0.012,
+      "grad_norm": 0.043769011241975755,
+      "learning_rate": 1.1980000000000002e-06,
+      "loss": 2.5455,
+      "step": 600
+    },
+    {
+      "epoch": 0.012,
+      "eval_loss": 2.5307207107543945,
+      "eval_runtime": 33.6848,
+      "eval_samples_per_second": 3.473,
+      "eval_steps_per_second": 1.752,
+      "step": 600
+    },
+    {
+      "epoch": 0.0121,
+      "eval_loss": 2.530006170272827,
+      "eval_runtime": 33.686,
+      "eval_samples_per_second": 3.473,
+      "eval_steps_per_second": 1.751,
+      "step": 605
+    },
+    {
+      "epoch": 0.0122,
+      "eval_loss": 2.529109239578247,
+      "eval_runtime": 33.7013,
+      "eval_samples_per_second": 3.472,
+      "eval_steps_per_second": 1.751,
+      "step": 610
+    },
+    {
+      "epoch": 0.0123,
+      "eval_loss": 2.5284457206726074,
+      "eval_runtime": 33.6733,
+      "eval_samples_per_second": 3.475,
+      "eval_steps_per_second": 1.752,
+      "step": 615
+    },
+    {
+      "epoch": 0.0124,
+      "eval_loss": 2.5276710987091064,
+      "eval_runtime": 33.624,
+      "eval_samples_per_second": 3.48,
+      "eval_steps_per_second": 1.755,
+      "step": 620
+    },
+    {
+      "epoch": 0.0125,
+      "grad_norm": 0.04196307636615052,
+      "learning_rate": 1.248e-06,
+      "loss": 2.5273,
+      "step": 625
+    },
+    {
+      "epoch": 0.0125,
+      "eval_loss": 2.526918411254883,
+      "eval_runtime": 33.5952,
+      "eval_samples_per_second": 3.483,
+      "eval_steps_per_second": 1.756,
+      "step": 625
+    },
+    {
+      "epoch": 0.0126,
+      "eval_loss": 2.5262696743011475,
+      "eval_runtime": 33.7522,
+      "eval_samples_per_second": 3.466,
+      "eval_steps_per_second": 1.748,
+      "step": 630
+    },
+    {
+      "epoch": 0.0127,
+      "eval_loss": 2.5255067348480225,
+      "eval_runtime": 33.7929,
+      "eval_samples_per_second": 3.462,
+      "eval_steps_per_second": 1.746,
+      "step": 635
+    },
+    {
+      "epoch": 0.0128,
+      "eval_loss": 2.524789810180664,
+      "eval_runtime": 33.7139,
+      "eval_samples_per_second": 3.47,
+      "eval_steps_per_second": 1.75,
+      "step": 640
+    },
+    {
+      "epoch": 0.0129,
+      "eval_loss": 2.524181604385376,
+      "eval_runtime": 33.7772,
+      "eval_samples_per_second": 3.464,
+      "eval_steps_per_second": 1.747,
+      "step": 645
+    },
+    {
+      "epoch": 0.013,
+      "grad_norm": 0.04719575571491393,
+      "learning_rate": 1.2980000000000001e-06,
+      "loss": 2.5226,
+      "step": 650
+    },
+    {
+      "epoch": 0.013,
+      "eval_loss": 2.5235090255737305,
+      "eval_runtime": 33.6972,
+      "eval_samples_per_second": 3.472,
+      "eval_steps_per_second": 1.751,
+      "step": 650
+    },
+    {
+      "epoch": 0.0131,
+      "eval_loss": 2.5227887630462646,
+      "eval_runtime": 33.8073,
+      "eval_samples_per_second": 3.461,
+      "eval_steps_per_second": 1.745,
+      "step": 655
+    },
+    {
+      "epoch": 0.0132,
+      "eval_loss": 2.522101402282715,
+      "eval_runtime": 33.7192,
+      "eval_samples_per_second": 3.47,
+      "eval_steps_per_second": 1.75,
+      "step": 660
+    },
+    {
+      "epoch": 0.0133,
+      "eval_loss": 2.5215632915496826,
+      "eval_runtime": 33.7966,
+      "eval_samples_per_second": 3.462,
+      "eval_steps_per_second": 1.746,
+      "step": 665
+    },
+    {
+      "epoch": 0.0134,
+      "eval_loss": 2.5208749771118164,
+      "eval_runtime": 33.7485,
+      "eval_samples_per_second": 3.467,
+      "eval_steps_per_second": 1.748,
+      "step": 670
+    },
+    {
+      "epoch": 0.0135,
+      "grad_norm": 0.044734235617461586,
+      "learning_rate": 1.348e-06,
+      "loss": 2.5273,
+      "step": 675
+    },
+    {
+      "epoch": 0.0135,
+      "eval_loss": 2.5201478004455566,
+      "eval_runtime": 33.8972,
+      "eval_samples_per_second": 3.452,
+      "eval_steps_per_second": 1.741,
+      "step": 675
+    },
+    {
+      "epoch": 0.0136,
+      "eval_loss": 2.5197227001190186,
+      "eval_runtime": 33.6652,
+      "eval_samples_per_second": 3.475,
+      "eval_steps_per_second": 1.753,
+      "step": 680
+    },
+    {
+      "epoch": 0.0137,
+      "eval_loss": 2.519151449203491,
+      "eval_runtime": 33.6031,
+      "eval_samples_per_second": 3.482,
+      "eval_steps_per_second": 1.756,
+      "step": 685
+    },
+    {
+      "epoch": 0.0138,
+      "eval_loss": 2.5185396671295166,
+      "eval_runtime": 33.6292,
+      "eval_samples_per_second": 3.479,
+      "eval_steps_per_second": 1.754,
+      "step": 690
+    },
+    {
+      "epoch": 0.0139,
+      "eval_loss": 2.517947196960449,
+      "eval_runtime": 33.5987,
+      "eval_samples_per_second": 3.482,
+      "eval_steps_per_second": 1.756,
+      "step": 695
+    },
+    {
+      "epoch": 0.014,
+      "grad_norm": 0.04124740305893712,
+      "learning_rate": 1.3980000000000002e-06,
+      "loss": 2.5214,
+      "step": 700
+    },
+    {
+      "epoch": 0.014,
+      "eval_loss": 2.5173356533050537,
+      "eval_runtime": 33.6657,
+      "eval_samples_per_second": 3.475,
+      "eval_steps_per_second": 1.753,
+      "step": 700
+    },
+    {
+      "epoch": 0.0141,
+      "eval_loss": 2.5167977809906006,
+      "eval_runtime": 33.5728,
+      "eval_samples_per_second": 3.485,
+      "eval_steps_per_second": 1.757,
+      "step": 705
+    },
+    {
+      "epoch": 0.0142,
+      "eval_loss": 2.5162267684936523,
+      "eval_runtime": 33.2779,
+      "eval_samples_per_second": 3.516,
+      "eval_steps_per_second": 1.773,
+      "step": 710
+    },
+    {
+      "epoch": 0.0143,
+      "eval_loss": 2.5155909061431885,
+      "eval_runtime": 33.4627,
+      "eval_samples_per_second": 3.496,
+      "eval_steps_per_second": 1.763,
+      "step": 715
+    },
+    {
+      "epoch": 0.0144,
+      "eval_loss": 2.515427589416504,
+      "eval_runtime": 33.439,
+      "eval_samples_per_second": 3.499,
+      "eval_steps_per_second": 1.764,
+      "step": 720
+    },
+    {
+      "epoch": 0.0145,
+      "grad_norm": 0.04140679897915697,
+      "learning_rate": 1.4480000000000002e-06,
+      "loss": 2.5192,
+      "step": 725
+    },
+    {
+      "epoch": 0.0145,
+      "eval_loss": 2.514657735824585,
+      "eval_runtime": 33.3527,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 1.769,
+      "step": 725
+    },
+    {
+      "epoch": 0.0146,
+      "eval_loss": 2.5141184329986572,
+      "eval_runtime": 33.3623,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.768,
+      "step": 730
+    },
+    {
+      "epoch": 0.0147,
+      "eval_loss": 2.5135021209716797,
+      "eval_runtime": 36.2875,
+      "eval_samples_per_second": 3.224,
+      "eval_steps_per_second": 1.626,
+      "step": 735
+    },
+    {
+      "epoch": 0.0148,
+      "eval_loss": 2.5130276679992676,
+      "eval_runtime": 33.3738,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 740
+    },
+    {
+      "epoch": 0.0149,
+      "eval_loss": 2.5123140811920166,
+      "eval_runtime": 33.7458,
+      "eval_samples_per_second": 3.467,
+      "eval_steps_per_second": 1.748,
+      "step": 745
+    },
+    {
+      "epoch": 0.015,
+      "grad_norm": 0.03921746155872101,
+      "learning_rate": 1.498e-06,
+      "loss": 2.5077,
+      "step": 750
+    },
+    {
+      "epoch": 0.015,
+      "eval_loss": 2.5117204189300537,
+      "eval_runtime": 33.3164,
+      "eval_samples_per_second": 3.512,
+      "eval_steps_per_second": 1.771,
+      "step": 750
+    },
+    {
+      "epoch": 0.0151,
+      "eval_loss": 2.5113115310668945,
+      "eval_runtime": 33.464,
+      "eval_samples_per_second": 3.496,
+      "eval_steps_per_second": 1.763,
+      "step": 755
+    },
+    {
+      "epoch": 0.0152,
+      "eval_loss": 2.510754108428955,
+      "eval_runtime": 33.426,
+      "eval_samples_per_second": 3.5,
+      "eval_steps_per_second": 1.765,
+      "step": 760
+    },
+    {
+      "epoch": 0.0153,
+      "eval_loss": 2.510148525238037,
+      "eval_runtime": 33.5135,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.76,
+      "step": 765
+    },
+    {
+      "epoch": 0.0154,
+      "eval_loss": 2.5096797943115234,
+      "eval_runtime": 33.5467,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 1.759,
+      "step": 770
+    },
+    {
+      "epoch": 0.0155,
+      "grad_norm": 0.038161493704092234,
+      "learning_rate": 1.548e-06,
+      "loss": 2.5127,
+      "step": 775
+    },
+    {
+      "epoch": 0.0155,
+      "eval_loss": 2.5091397762298584,
+      "eval_runtime": 33.6296,
+      "eval_samples_per_second": 3.479,
+      "eval_steps_per_second": 1.754,
+      "step": 775
+    },
+    {
+      "epoch": 0.0156,
+      "eval_loss": 2.5085766315460205,
+      "eval_runtime": 33.6417,
+      "eval_samples_per_second": 3.478,
+      "eval_steps_per_second": 1.754,
+      "step": 780
+    },
+    {
+      "epoch": 0.0157,
+      "eval_loss": 2.5081799030303955,
+      "eval_runtime": 33.5831,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.757,
+      "step": 785
+    },
+    {
+      "epoch": 0.0158,
+      "eval_loss": 2.5075252056121826,
+      "eval_runtime": 33.5806,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.757,
+      "step": 790
+    },
+    {
+      "epoch": 0.0159,
+      "eval_loss": 2.5069563388824463,
+      "eval_runtime": 33.6257,
+      "eval_samples_per_second": 3.479,
+      "eval_steps_per_second": 1.755,
+      "step": 795
+    },
+    {
+      "epoch": 0.016,
+      "grad_norm": 0.04372605860022339,
+      "learning_rate": 1.5980000000000002e-06,
+      "loss": 2.5019,
+      "step": 800
+    },
+    {
+      "epoch": 0.016,
+      "eval_loss": 2.5065925121307373,
+      "eval_runtime": 33.6041,
+      "eval_samples_per_second": 3.482,
+      "eval_steps_per_second": 1.756,
+      "step": 800
+    },
+    {
+      "epoch": 0.0161,
+      "eval_loss": 2.5059759616851807,
+      "eval_runtime": 33.6116,
+      "eval_samples_per_second": 3.481,
+      "eval_steps_per_second": 1.755,
+      "step": 805
+    },
+    {
+      "epoch": 0.0162,
+      "eval_loss": 2.505453109741211,
+      "eval_runtime": 33.5794,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.757,
+      "step": 810
+    },
+    {
+      "epoch": 0.0163,
+      "eval_loss": 2.505023241043091,
+      "eval_runtime": 33.461,
+      "eval_samples_per_second": 3.497,
+      "eval_steps_per_second": 1.763,
+      "step": 815
+    },
+    {
+      "epoch": 0.0164,
+      "eval_loss": 2.5042824745178223,
+      "eval_runtime": 33.5988,
+      "eval_samples_per_second": 3.482,
+      "eval_steps_per_second": 1.756,
+      "step": 820
+    },
+    {
+      "epoch": 0.0165,
+      "grad_norm": 0.041497520045134684,
+      "learning_rate": 1.6480000000000001e-06,
+      "loss": 2.4977,
+      "step": 825
+    },
+    {
+      "epoch": 0.0165,
+      "eval_loss": 2.5039255619049072,
+      "eval_runtime": 33.6107,
+      "eval_samples_per_second": 3.481,
+      "eval_steps_per_second": 1.755,
+      "step": 825
+    },
+    {
+      "epoch": 0.0166,
+      "eval_loss": 2.503436803817749,
+      "eval_runtime": 33.6213,
+      "eval_samples_per_second": 3.48,
+      "eval_steps_per_second": 1.755,
+      "step": 830
+    },
+    {
+      "epoch": 0.0167,
+      "eval_loss": 2.5028321743011475,
+      "eval_runtime": 33.5009,
+      "eval_samples_per_second": 3.492,
+      "eval_steps_per_second": 1.761,
+      "step": 835
+    },
+    {
+      "epoch": 0.0168,
+      "eval_loss": 2.5022666454315186,
+      "eval_runtime": 33.6392,
+      "eval_samples_per_second": 3.478,
+      "eval_steps_per_second": 1.754,
+      "step": 840
+    },
+    {
+      "epoch": 0.0169,
+      "eval_loss": 2.5018374919891357,
+      "eval_runtime": 33.5928,
+      "eval_samples_per_second": 3.483,
+      "eval_steps_per_second": 1.756,
+      "step": 845
+    },
+    {
+      "epoch": 0.017,
+      "grad_norm": 0.040226840781059835,
+      "learning_rate": 1.6980000000000003e-06,
+      "loss": 2.4968,
+      "step": 850
+    },
+    {
+      "epoch": 0.017,
+      "eval_loss": 2.5012588500976562,
+      "eval_runtime": 33.5216,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 850
+    },
+    {
+      "epoch": 0.0171,
+      "eval_loss": 2.5006515979766846,
+      "eval_runtime": 33.4799,
+      "eval_samples_per_second": 3.495,
+      "eval_steps_per_second": 1.762,
+      "step": 855
+    },
+    {
+      "epoch": 0.0172,
+      "eval_loss": 2.5001821517944336,
+      "eval_runtime": 33.6067,
+      "eval_samples_per_second": 3.481,
+      "eval_steps_per_second": 1.756,
+      "step": 860
+    },
+    {
+      "epoch": 0.0173,
+      "eval_loss": 2.499708652496338,
+      "eval_runtime": 33.5478,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 1.759,
+      "step": 865
+    },
+    {
+      "epoch": 0.0174,
+      "eval_loss": 2.4992101192474365,
+      "eval_runtime": 33.3608,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.769,
+      "step": 870
+    },
+    {
+      "epoch": 0.0175,
+      "grad_norm": 0.043360400185163274,
+      "learning_rate": 1.7480000000000002e-06,
+      "loss": 2.4947,
+      "step": 875
+    },
+    {
+      "epoch": 0.0175,
+      "eval_loss": 2.49912428855896,
+      "eval_runtime": 33.3782,
+      "eval_samples_per_second": 3.505,
+      "eval_steps_per_second": 1.768,
+      "step": 875
+    },
+    {
+      "epoch": 0.0176,
+      "eval_loss": 2.498539686203003,
+      "eval_runtime": 33.4271,
+      "eval_samples_per_second": 3.5,
+      "eval_steps_per_second": 1.765,
+      "step": 880
+    },
+    {
+      "epoch": 0.0177,
+      "eval_loss": 2.4980475902557373,
+      "eval_runtime": 33.508,
+      "eval_samples_per_second": 3.492,
+      "eval_steps_per_second": 1.761,
+      "step": 885
+    },
+    {
+      "epoch": 0.0178,
+      "eval_loss": 2.4972891807556152,
+      "eval_runtime": 33.5801,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.757,
+      "step": 890
+    },
+    {
+      "epoch": 0.0179,
+      "eval_loss": 2.496943473815918,
+      "eval_runtime": 33.4984,
+      "eval_samples_per_second": 3.493,
+      "eval_steps_per_second": 1.761,
+      "step": 895
+    },
+    {
+      "epoch": 0.018,
+      "grad_norm": 0.040565773819723885,
+      "learning_rate": 1.798e-06,
+      "loss": 2.4878,
+      "step": 900
+    },
+    {
+      "epoch": 0.018,
+      "eval_loss": 2.496464252471924,
+      "eval_runtime": 33.6538,
+      "eval_samples_per_second": 3.477,
+      "eval_steps_per_second": 1.753,
+      "step": 900
+    },
+    {
+      "epoch": 0.0181,
+      "eval_loss": 2.496126890182495,
+      "eval_runtime": 33.6415,
+      "eval_samples_per_second": 3.478,
+      "eval_steps_per_second": 1.754,
+      "step": 905
+    },
+    {
+      "epoch": 0.0182,
+      "eval_loss": 2.4957361221313477,
+      "eval_runtime": 33.7646,
+      "eval_samples_per_second": 3.465,
+      "eval_steps_per_second": 1.747,
+      "step": 910
+    },
+    {
+      "epoch": 0.0183,
+      "eval_loss": 2.4954254627227783,
+      "eval_runtime": 33.5639,
+      "eval_samples_per_second": 3.486,
+      "eval_steps_per_second": 1.758,
+      "step": 915
+    },
+    {
+      "epoch": 0.0184,
+      "eval_loss": 2.4948976039886475,
+      "eval_runtime": 33.6038,
+      "eval_samples_per_second": 3.482,
+      "eval_steps_per_second": 1.756,
+      "step": 920
+    },
+    {
+      "epoch": 0.0185,
+      "grad_norm": 0.039370814834696136,
+      "learning_rate": 1.8480000000000001e-06,
+      "loss": 2.4986,
+      "step": 925
+    },
+    {
+      "epoch": 0.0185,
+      "eval_loss": 2.494521379470825,
+      "eval_runtime": 33.7082,
+      "eval_samples_per_second": 3.471,
+      "eval_steps_per_second": 1.75,
+      "step": 925
+    },
+    {
+      "epoch": 0.0186,
+      "eval_loss": 2.4939730167388916,
+      "eval_runtime": 33.6147,
+      "eval_samples_per_second": 3.481,
+      "eval_steps_per_second": 1.755,
+      "step": 930
+    },
+    {
+      "epoch": 0.0187,
+      "eval_loss": 2.49343204498291,
+      "eval_runtime": 35.1502,
+      "eval_samples_per_second": 3.329,
+      "eval_steps_per_second": 1.679,
+      "step": 935
+    },
+    {
+      "epoch": 0.0188,
+      "eval_loss": 2.493082046508789,
+      "eval_runtime": 33.6381,
+      "eval_samples_per_second": 3.478,
+      "eval_steps_per_second": 1.754,
+      "step": 940
+    },
+    {
+      "epoch": 0.0189,
+      "eval_loss": 2.492797374725342,
+      "eval_runtime": 33.7089,
+      "eval_samples_per_second": 3.471,
+      "eval_steps_per_second": 1.75,
+      "step": 945
+    },
+    {
+      "epoch": 0.019,
+      "grad_norm": 0.04019472793080496,
+      "learning_rate": 1.898e-06,
+      "loss": 2.481,
+      "step": 950
+    },
+    {
+      "epoch": 0.019,
+      "eval_loss": 2.4925599098205566,
+      "eval_runtime": 33.5096,
+      "eval_samples_per_second": 3.492,
+      "eval_steps_per_second": 1.761,
+      "step": 950
+    },
+    {
+      "epoch": 0.0191,
+      "eval_loss": 2.4918878078460693,
+      "eval_runtime": 33.4921,
+      "eval_samples_per_second": 3.493,
+      "eval_steps_per_second": 1.762,
+      "step": 955
+    },
+    {
+      "epoch": 0.0192,
+      "eval_loss": 2.4916608333587646,
+      "eval_runtime": 33.5126,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.761,
+      "step": 960
+    },
+    {
+      "epoch": 0.0193,
+      "eval_loss": 2.491708517074585,
+      "eval_runtime": 33.6466,
+      "eval_samples_per_second": 3.477,
+      "eval_steps_per_second": 1.754,
+      "step": 965
+    },
+    {
+      "epoch": 0.0194,
+      "eval_loss": 2.4911839962005615,
+      "eval_runtime": 33.6119,
+      "eval_samples_per_second": 3.481,
+      "eval_steps_per_second": 1.755,
+      "step": 970
+    },
+    {
+      "epoch": 0.0195,
+      "grad_norm": 0.04683912756161822,
+      "learning_rate": 1.9480000000000002e-06,
+      "loss": 2.4879,
+      "step": 975
+    },
+    {
+      "epoch": 0.0195,
+      "eval_loss": 2.490492343902588,
+      "eval_runtime": 33.4389,
+      "eval_samples_per_second": 3.499,
+      "eval_steps_per_second": 1.764,
+      "step": 975
+    },
+    {
+      "epoch": 0.0196,
+      "eval_loss": 2.490133285522461,
+      "eval_runtime": 33.361,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.769,
+      "step": 980
+    },
+    {
+      "epoch": 0.0197,
+      "eval_loss": 2.4896316528320312,
+      "eval_runtime": 33.5863,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.757,
+      "step": 985
+    },
+    {
+      "epoch": 0.0198,
+      "eval_loss": 2.489122152328491,
+      "eval_runtime": 33.6173,
+      "eval_samples_per_second": 3.48,
+      "eval_steps_per_second": 1.755,
+      "step": 990
+    },
+    {
+      "epoch": 0.0199,
+      "eval_loss": 2.488906145095825,
+      "eval_runtime": 33.6531,
+      "eval_samples_per_second": 3.477,
+      "eval_steps_per_second": 1.753,
+      "step": 995
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 0.047671496052023164,
+      "learning_rate": 1.998e-06,
+      "loss": 2.4879,
+      "step": 1000
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.488457202911377,
+      "eval_runtime": 33.7763,
+      "eval_samples_per_second": 3.464,
+      "eval_steps_per_second": 1.747,
+      "step": 1000
+    }
+  ],
   "logging_steps": 25,
   "max_steps": 50000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
+  "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 2.785301757633233e+18,
+  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }