irodkin
/

InnerLoopARMTForCausalLM_run_20

PyTorch

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on 14 days ago

Commit

1f45be6

verified ·

1 Parent(s): 7c7691f

Training checkpoint at step 3000

Browse files

Files changed (1) hide show

trainer_state.json +1885 -5

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 2000,
-  "best_metric": 2.449084520339966,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_7x1024_mem32_bs64_hf_armt_dmem64/run_20/checkpoint-2000",
-  "epoch": 0.04,
   "eval_steps": 5,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3768,6 +3768,1886 @@
       "eval_samples_per_second": 3.483,
       "eval_steps_per_second": 1.757,
       "step": 2000
     }
   ],
   "logging_steps": 25,
@@ -3787,7 +5667,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.570603510971498e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 2985,
+  "best_metric": 2.4361066818237305,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_7x1024_mem32_bs64_hf_armt_dmem64/run_20/checkpoint-2000",
+  "epoch": 0.06,
   "eval_steps": 5,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.483,
       "eval_steps_per_second": 1.757,
       "step": 2000
+    },
+    {
+      "epoch": 0.0401,
+      "eval_loss": 2.449021577835083,
+      "eval_runtime": 33.5048,
+      "eval_samples_per_second": 3.492,
+      "eval_steps_per_second": 1.761,
+      "step": 2005
+    },
+    {
+      "epoch": 0.0402,
+      "eval_loss": 2.449159622192383,
+      "eval_runtime": 33.4845,
+      "eval_samples_per_second": 3.494,
+      "eval_steps_per_second": 1.762,
+      "step": 2010
+    },
+    {
+      "epoch": 0.0403,
+      "eval_loss": 2.448726177215576,
+      "eval_runtime": 33.9926,
+      "eval_samples_per_second": 3.442,
+      "eval_steps_per_second": 1.736,
+      "step": 2015
+    },
+    {
+      "epoch": 0.0404,
+      "eval_loss": 2.4484922885894775,
+      "eval_runtime": 33.6594,
+      "eval_samples_per_second": 3.476,
+      "eval_steps_per_second": 1.753,
+      "step": 2020
+    },
+    {
+      "epoch": 0.0405,
+      "grad_norm": 0.029877786947315705,
+      "learning_rate": 4.048e-06,
+      "loss": 2.438,
+      "step": 2025
+    },
+    {
+      "epoch": 0.0405,
+      "eval_loss": 2.4485254287719727,
+      "eval_runtime": 33.6812,
+      "eval_samples_per_second": 3.474,
+      "eval_steps_per_second": 1.752,
+      "step": 2025
+    },
+    {
+      "epoch": 0.0406,
+      "eval_loss": 2.448495388031006,
+      "eval_runtime": 33.9733,
+      "eval_samples_per_second": 3.444,
+      "eval_steps_per_second": 1.737,
+      "step": 2030
+    },
+    {
+      "epoch": 0.0407,
+      "eval_loss": 2.4482643604278564,
+      "eval_runtime": 33.9957,
+      "eval_samples_per_second": 3.442,
+      "eval_steps_per_second": 1.736,
+      "step": 2035
+    },
+    {
+      "epoch": 0.0408,
+      "eval_loss": 2.4481942653656006,
+      "eval_runtime": 34.3014,
+      "eval_samples_per_second": 3.411,
+      "eval_steps_per_second": 1.72,
+      "step": 2040
+    },
+    {
+      "epoch": 0.0409,
+      "eval_loss": 2.448082208633423,
+      "eval_runtime": 34.0411,
+      "eval_samples_per_second": 3.437,
+      "eval_steps_per_second": 1.733,
+      "step": 2045
+    },
+    {
+      "epoch": 0.041,
+      "grad_norm": 0.031175983773220776,
+      "learning_rate": 4.098e-06,
+      "loss": 2.4332,
+      "step": 2050
+    },
+    {
+      "epoch": 0.041,
+      "eval_loss": 2.4478490352630615,
+      "eval_runtime": 33.9245,
+      "eval_samples_per_second": 3.449,
+      "eval_steps_per_second": 1.739,
+      "step": 2050
+    },
+    {
+      "epoch": 0.0411,
+      "eval_loss": 2.4480035305023193,
+      "eval_runtime": 34.0079,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.735,
+      "step": 2055
+    },
+    {
+      "epoch": 0.0412,
+      "eval_loss": 2.447685718536377,
+      "eval_runtime": 33.999,
+      "eval_samples_per_second": 3.441,
+      "eval_steps_per_second": 1.735,
+      "step": 2060
+    },
+    {
+      "epoch": 0.0413,
+      "eval_loss": 2.447507619857788,
+      "eval_runtime": 34.1446,
+      "eval_samples_per_second": 3.427,
+      "eval_steps_per_second": 1.728,
+      "step": 2065
+    },
+    {
+      "epoch": 0.0414,
+      "eval_loss": 2.447322130203247,
+      "eval_runtime": 33.7479,
+      "eval_samples_per_second": 3.467,
+      "eval_steps_per_second": 1.748,
+      "step": 2070
+    },
+    {
+      "epoch": 0.0415,
+      "grad_norm": 0.02904850084773878,
+      "learning_rate": 4.148000000000001e-06,
+      "loss": 2.4481,
+      "step": 2075
+    },
+    {
+      "epoch": 0.0415,
+      "eval_loss": 2.4471347332000732,
+      "eval_runtime": 33.917,
+      "eval_samples_per_second": 3.45,
+      "eval_steps_per_second": 1.74,
+      "step": 2075
+    },
+    {
+      "epoch": 0.0416,
+      "eval_loss": 2.447152853012085,
+      "eval_runtime": 33.8287,
+      "eval_samples_per_second": 3.459,
+      "eval_steps_per_second": 1.744,
+      "step": 2080
+    },
+    {
+      "epoch": 0.0417,
+      "eval_loss": 2.4469242095947266,
+      "eval_runtime": 33.7591,
+      "eval_samples_per_second": 3.466,
+      "eval_steps_per_second": 1.748,
+      "step": 2085
+    },
+    {
+      "epoch": 0.0418,
+      "eval_loss": 2.4471774101257324,
+      "eval_runtime": 33.7879,
+      "eval_samples_per_second": 3.463,
+      "eval_steps_per_second": 1.746,
+      "step": 2090
+    },
+    {
+      "epoch": 0.0419,
+      "eval_loss": 2.447988986968994,
+      "eval_runtime": 33.6878,
+      "eval_samples_per_second": 3.473,
+      "eval_steps_per_second": 1.751,
+      "step": 2095
+    },
+    {
+      "epoch": 0.042,
+      "grad_norm": 0.033838990669225626,
+      "learning_rate": 4.198e-06,
+      "loss": 2.4386,
+      "step": 2100
+    },
+    {
+      "epoch": 0.042,
+      "eval_loss": 2.4477100372314453,
+      "eval_runtime": 33.6345,
+      "eval_samples_per_second": 3.479,
+      "eval_steps_per_second": 1.754,
+      "step": 2100
+    },
+    {
+      "epoch": 0.0421,
+      "eval_loss": 2.447394847869873,
+      "eval_runtime": 33.6221,
+      "eval_samples_per_second": 3.48,
+      "eval_steps_per_second": 1.755,
+      "step": 2105
+    },
+    {
+      "epoch": 0.0422,
+      "eval_loss": 2.4470951557159424,
+      "eval_runtime": 33.6689,
+      "eval_samples_per_second": 3.475,
+      "eval_steps_per_second": 1.752,
+      "step": 2110
+    },
+    {
+      "epoch": 0.0423,
+      "eval_loss": 2.4467623233795166,
+      "eval_runtime": 33.6979,
+      "eval_samples_per_second": 3.472,
+      "eval_steps_per_second": 1.751,
+      "step": 2115
+    },
+    {
+      "epoch": 0.0424,
+      "eval_loss": 2.4469833374023438,
+      "eval_runtime": 33.8632,
+      "eval_samples_per_second": 3.455,
+      "eval_steps_per_second": 1.742,
+      "step": 2120
+    },
+    {
+      "epoch": 0.0425,
+      "grad_norm": 0.0382703849144026,
+      "learning_rate": 4.248000000000001e-06,
+      "loss": 2.4313,
+      "step": 2125
+    },
+    {
+      "epoch": 0.0425,
+      "eval_loss": 2.447753667831421,
+      "eval_runtime": 33.7269,
+      "eval_samples_per_second": 3.469,
+      "eval_steps_per_second": 1.749,
+      "step": 2125
+    },
+    {
+      "epoch": 0.0426,
+      "eval_loss": 2.447281837463379,
+      "eval_runtime": 33.7037,
+      "eval_samples_per_second": 3.471,
+      "eval_steps_per_second": 1.751,
+      "step": 2130
+    },
+    {
+      "epoch": 0.0427,
+      "eval_loss": 2.4472267627716064,
+      "eval_runtime": 33.6873,
+      "eval_samples_per_second": 3.473,
+      "eval_steps_per_second": 1.751,
+      "step": 2135
+    },
+    {
+      "epoch": 0.0428,
+      "eval_loss": 2.446859836578369,
+      "eval_runtime": 33.6738,
+      "eval_samples_per_second": 3.475,
+      "eval_steps_per_second": 1.752,
+      "step": 2140
+    },
+    {
+      "epoch": 0.0429,
+      "eval_loss": 2.446655035018921,
+      "eval_runtime": 33.6536,
+      "eval_samples_per_second": 3.477,
+      "eval_steps_per_second": 1.753,
+      "step": 2145
+    },
+    {
+      "epoch": 0.043,
+      "grad_norm": 0.027126678960545086,
+      "learning_rate": 4.298e-06,
+      "loss": 2.4298,
+      "step": 2150
+    },
+    {
+      "epoch": 0.043,
+      "eval_loss": 2.4463651180267334,
+      "eval_runtime": 33.6454,
+      "eval_samples_per_second": 3.477,
+      "eval_steps_per_second": 1.754,
+      "step": 2150
+    },
+    {
+      "epoch": 0.0431,
+      "eval_loss": 2.4461581707000732,
+      "eval_runtime": 33.6166,
+      "eval_samples_per_second": 3.48,
+      "eval_steps_per_second": 1.755,
+      "step": 2155
+    },
+    {
+      "epoch": 0.0432,
+      "eval_loss": 2.4461660385131836,
+      "eval_runtime": 33.5484,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 1.759,
+      "step": 2160
+    },
+    {
+      "epoch": 0.0433,
+      "eval_loss": 2.4458513259887695,
+      "eval_runtime": 33.6579,
+      "eval_samples_per_second": 3.476,
+      "eval_steps_per_second": 1.753,
+      "step": 2165
+    },
+    {
+      "epoch": 0.0434,
+      "eval_loss": 2.4454855918884277,
+      "eval_runtime": 33.5647,
+      "eval_samples_per_second": 3.486,
+      "eval_steps_per_second": 1.758,
+      "step": 2170
+    },
+    {
+      "epoch": 0.0435,
+      "grad_norm": 0.030565328679921875,
+      "learning_rate": 4.3480000000000006e-06,
+      "loss": 2.4387,
+      "step": 2175
+    },
+    {
+      "epoch": 0.0435,
+      "eval_loss": 2.445688009262085,
+      "eval_runtime": 33.5164,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.76,
+      "step": 2175
+    },
+    {
+      "epoch": 0.0436,
+      "eval_loss": 2.4456729888916016,
+      "eval_runtime": 33.4724,
+      "eval_samples_per_second": 3.495,
+      "eval_steps_per_second": 1.763,
+      "step": 2180
+    },
+    {
+      "epoch": 0.0437,
+      "eval_loss": 2.4460015296936035,
+      "eval_runtime": 33.3984,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 1.767,
+      "step": 2185
+    },
+    {
+      "epoch": 0.0438,
+      "eval_loss": 2.4460256099700928,
+      "eval_runtime": 33.4582,
+      "eval_samples_per_second": 3.497,
+      "eval_steps_per_second": 1.763,
+      "step": 2190
+    },
+    {
+      "epoch": 0.0439,
+      "eval_loss": 2.4456872940063477,
+      "eval_runtime": 33.444,
+      "eval_samples_per_second": 3.498,
+      "eval_steps_per_second": 1.764,
+      "step": 2195
+    },
+    {
+      "epoch": 0.044,
+      "grad_norm": 0.03864046787827566,
+      "learning_rate": 4.398000000000001e-06,
+      "loss": 2.445,
+      "step": 2200
+    },
+    {
+      "epoch": 0.044,
+      "eval_loss": 2.4454870223999023,
+      "eval_runtime": 33.4474,
+      "eval_samples_per_second": 3.498,
+      "eval_steps_per_second": 1.764,
+      "step": 2200
+    },
+    {
+      "epoch": 0.0441,
+      "eval_loss": 2.4453113079071045,
+      "eval_runtime": 33.4062,
+      "eval_samples_per_second": 3.502,
+      "eval_steps_per_second": 1.766,
+      "step": 2205
+    },
+    {
+      "epoch": 0.0442,
+      "eval_loss": 2.4448771476745605,
+      "eval_runtime": 33.3542,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 1.769,
+      "step": 2210
+    },
+    {
+      "epoch": 0.0443,
+      "eval_loss": 2.444946765899658,
+      "eval_runtime": 33.3997,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 1.766,
+      "step": 2215
+    },
+    {
+      "epoch": 0.0444,
+      "eval_loss": 2.445194959640503,
+      "eval_runtime": 33.3669,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 2220
+    },
+    {
+      "epoch": 0.0445,
+      "grad_norm": 0.026792091668494698,
+      "learning_rate": 4.4480000000000004e-06,
+      "loss": 2.4339,
+      "step": 2225
+    },
+    {
+      "epoch": 0.0445,
+      "eval_loss": 2.445009469985962,
+      "eval_runtime": 33.4467,
+      "eval_samples_per_second": 3.498,
+      "eval_steps_per_second": 1.764,
+      "step": 2225
+    },
+    {
+      "epoch": 0.0446,
+      "eval_loss": 2.4450981616973877,
+      "eval_runtime": 33.4513,
+      "eval_samples_per_second": 3.498,
+      "eval_steps_per_second": 1.764,
+      "step": 2230
+    },
+    {
+      "epoch": 0.0447,
+      "eval_loss": 2.444899082183838,
+      "eval_runtime": 33.3869,
+      "eval_samples_per_second": 3.504,
+      "eval_steps_per_second": 1.767,
+      "step": 2235
+    },
+    {
+      "epoch": 0.0448,
+      "eval_loss": 2.4448494911193848,
+      "eval_runtime": 33.486,
+      "eval_samples_per_second": 3.494,
+      "eval_steps_per_second": 1.762,
+      "step": 2240
+    },
+    {
+      "epoch": 0.0449,
+      "eval_loss": 2.444640636444092,
+      "eval_runtime": 33.4202,
+      "eval_samples_per_second": 3.501,
+      "eval_steps_per_second": 1.765,
+      "step": 2245
+    },
+    {
+      "epoch": 0.045,
+      "grad_norm": 0.027104711228224686,
+      "learning_rate": 4.498e-06,
+      "loss": 2.4326,
+      "step": 2250
+    },
+    {
+      "epoch": 0.045,
+      "eval_loss": 2.444633722305298,
+      "eval_runtime": 33.4154,
+      "eval_samples_per_second": 3.501,
+      "eval_steps_per_second": 1.766,
+      "step": 2250
+    },
+    {
+      "epoch": 0.0451,
+      "eval_loss": 2.44467830657959,
+      "eval_runtime": 33.4237,
+      "eval_samples_per_second": 3.501,
+      "eval_steps_per_second": 1.765,
+      "step": 2255
+    },
+    {
+      "epoch": 0.0452,
+      "eval_loss": 2.444413900375366,
+      "eval_runtime": 33.3694,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 2260
+    },
+    {
+      "epoch": 0.0453,
+      "eval_loss": 2.444222927093506,
+      "eval_runtime": 33.3585,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.769,
+      "step": 2265
+    },
+    {
+      "epoch": 0.0454,
+      "eval_loss": 2.444108724594116,
+      "eval_runtime": 33.3346,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.77,
+      "step": 2270
+    },
+    {
+      "epoch": 0.0455,
+      "grad_norm": 0.033569645173308425,
+      "learning_rate": 4.548e-06,
+      "loss": 2.4342,
+      "step": 2275
+    },
+    {
+      "epoch": 0.0455,
+      "eval_loss": 2.443859577178955,
+      "eval_runtime": 33.3636,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.768,
+      "step": 2275
+    },
+    {
+      "epoch": 0.0456,
+      "eval_loss": 2.4441120624542236,
+      "eval_runtime": 33.2442,
+      "eval_samples_per_second": 3.519,
+      "eval_steps_per_second": 1.775,
+      "step": 2280
+    },
+    {
+      "epoch": 0.0457,
+      "eval_loss": 2.4439260959625244,
+      "eval_runtime": 33.2924,
+      "eval_samples_per_second": 3.514,
+      "eval_steps_per_second": 1.772,
+      "step": 2285
+    },
+    {
+      "epoch": 0.0458,
+      "eval_loss": 2.4439032077789307,
+      "eval_runtime": 33.4004,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 1.766,
+      "step": 2290
+    },
+    {
+      "epoch": 0.0459,
+      "eval_loss": 2.443621873855591,
+      "eval_runtime": 33.3314,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.77,
+      "step": 2295
+    },
+    {
+      "epoch": 0.046,
+      "grad_norm": 0.02648413187023774,
+      "learning_rate": 4.598e-06,
+      "loss": 2.4368,
+      "step": 2300
+    },
+    {
+      "epoch": 0.046,
+      "eval_loss": 2.4436306953430176,
+      "eval_runtime": 33.372,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 2300
+    },
+    {
+      "epoch": 0.0461,
+      "eval_loss": 2.4436404705047607,
+      "eval_runtime": 33.3039,
+      "eval_samples_per_second": 3.513,
+      "eval_steps_per_second": 1.772,
+      "step": 2305
+    },
+    {
+      "epoch": 0.0462,
+      "eval_loss": 2.44333815574646,
+      "eval_runtime": 33.3059,
+      "eval_samples_per_second": 3.513,
+      "eval_steps_per_second": 1.771,
+      "step": 2310
+    },
+    {
+      "epoch": 0.0463,
+      "eval_loss": 2.443415880203247,
+      "eval_runtime": 33.4065,
+      "eval_samples_per_second": 3.502,
+      "eval_steps_per_second": 1.766,
+      "step": 2315
+    },
+    {
+      "epoch": 0.0464,
+      "eval_loss": 2.443068742752075,
+      "eval_runtime": 33.2818,
+      "eval_samples_per_second": 3.515,
+      "eval_steps_per_second": 1.773,
+      "step": 2320
+    },
+    {
+      "epoch": 0.0465,
+      "grad_norm": 0.0351440602227012,
+      "learning_rate": 4.648e-06,
+      "loss": 2.4381,
+      "step": 2325
+    },
+    {
+      "epoch": 0.0465,
+      "eval_loss": 2.443199634552002,
+      "eval_runtime": 33.3538,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 1.769,
+      "step": 2325
+    },
+    {
+      "epoch": 0.0466,
+      "eval_loss": 2.4433047771453857,
+      "eval_runtime": 33.4816,
+      "eval_samples_per_second": 3.494,
+      "eval_steps_per_second": 1.762,
+      "step": 2330
+    },
+    {
+      "epoch": 0.0467,
+      "eval_loss": 2.443272113800049,
+      "eval_runtime": 33.5015,
+      "eval_samples_per_second": 3.492,
+      "eval_steps_per_second": 1.761,
+      "step": 2335
+    },
+    {
+      "epoch": 0.0468,
+      "eval_loss": 2.443246603012085,
+      "eval_runtime": 33.5753,
+      "eval_samples_per_second": 3.485,
+      "eval_steps_per_second": 1.757,
+      "step": 2340
+    },
+    {
+      "epoch": 0.0469,
+      "eval_loss": 2.4432363510131836,
+      "eval_runtime": 33.2869,
+      "eval_samples_per_second": 3.515,
+      "eval_steps_per_second": 1.772,
+      "step": 2345
+    },
+    {
+      "epoch": 0.047,
+      "grad_norm": 0.02695670446644145,
+      "learning_rate": 4.698000000000001e-06,
+      "loss": 2.4303,
+      "step": 2350
+    },
+    {
+      "epoch": 0.047,
+      "eval_loss": 2.4429421424865723,
+      "eval_runtime": 33.3556,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 1.769,
+      "step": 2350
+    },
+    {
+      "epoch": 0.0471,
+      "eval_loss": 2.4427566528320312,
+      "eval_runtime": 33.3612,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.769,
+      "step": 2355
+    },
+    {
+      "epoch": 0.0472,
+      "eval_loss": 2.4425995349884033,
+      "eval_runtime": 33.353,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 1.769,
+      "step": 2360
+    },
+    {
+      "epoch": 0.0473,
+      "eval_loss": 2.4426395893096924,
+      "eval_runtime": 33.4669,
+      "eval_samples_per_second": 3.496,
+      "eval_steps_per_second": 1.763,
+      "step": 2365
+    },
+    {
+      "epoch": 0.0474,
+      "eval_loss": 2.4425301551818848,
+      "eval_runtime": 33.3803,
+      "eval_samples_per_second": 3.505,
+      "eval_steps_per_second": 1.768,
+      "step": 2370
+    },
+    {
+      "epoch": 0.0475,
+      "grad_norm": 0.031232764672567994,
+      "learning_rate": 4.748e-06,
+      "loss": 2.4284,
+      "step": 2375
+    },
+    {
+      "epoch": 0.0475,
+      "eval_loss": 2.4426214694976807,
+      "eval_runtime": 33.3013,
+      "eval_samples_per_second": 3.513,
+      "eval_steps_per_second": 1.772,
+      "step": 2375
+    },
+    {
+      "epoch": 0.0476,
+      "eval_loss": 2.442599296569824,
+      "eval_runtime": 33.3419,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.77,
+      "step": 2380
+    },
+    {
+      "epoch": 0.0477,
+      "eval_loss": 2.442364454269409,
+      "eval_runtime": 33.3677,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 2385
+    },
+    {
+      "epoch": 0.0478,
+      "eval_loss": 2.4425458908081055,
+      "eval_runtime": 33.3892,
+      "eval_samples_per_second": 3.504,
+      "eval_steps_per_second": 1.767,
+      "step": 2390
+    },
+    {
+      "epoch": 0.0479,
+      "eval_loss": 2.4425549507141113,
+      "eval_runtime": 33.4202,
+      "eval_samples_per_second": 3.501,
+      "eval_steps_per_second": 1.765,
+      "step": 2395
+    },
+    {
+      "epoch": 0.048,
+      "grad_norm": 0.027127721086561404,
+      "learning_rate": 4.7980000000000005e-06,
+      "loss": 2.4291,
+      "step": 2400
+    },
+    {
+      "epoch": 0.048,
+      "eval_loss": 2.4425251483917236,
+      "eval_runtime": 33.3802,
+      "eval_samples_per_second": 3.505,
+      "eval_steps_per_second": 1.768,
+      "step": 2400
+    },
+    {
+      "epoch": 0.0481,
+      "eval_loss": 2.4424123764038086,
+      "eval_runtime": 33.3283,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.77,
+      "step": 2405
+    },
+    {
+      "epoch": 0.0482,
+      "eval_loss": 2.4421849250793457,
+      "eval_runtime": 33.4172,
+      "eval_samples_per_second": 3.501,
+      "eval_steps_per_second": 1.766,
+      "step": 2410
+    },
+    {
+      "epoch": 0.0483,
+      "eval_loss": 2.4419970512390137,
+      "eval_runtime": 33.4642,
+      "eval_samples_per_second": 3.496,
+      "eval_steps_per_second": 1.763,
+      "step": 2415
+    },
+    {
+      "epoch": 0.0484,
+      "eval_loss": 2.4419567584991455,
+      "eval_runtime": 33.3663,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.768,
+      "step": 2420
+    },
+    {
+      "epoch": 0.0485,
+      "grad_norm": 0.026032952013136927,
+      "learning_rate": 4.848000000000001e-06,
+      "loss": 2.4256,
+      "step": 2425
+    },
+    {
+      "epoch": 0.0485,
+      "eval_loss": 2.441688299179077,
+      "eval_runtime": 33.3169,
+      "eval_samples_per_second": 3.512,
+      "eval_steps_per_second": 1.771,
+      "step": 2425
+    },
+    {
+      "epoch": 0.0486,
+      "eval_loss": 2.4417548179626465,
+      "eval_runtime": 33.3476,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 1.769,
+      "step": 2430
+    },
+    {
+      "epoch": 0.0487,
+      "eval_loss": 2.441769599914551,
+      "eval_runtime": 33.4488,
+      "eval_samples_per_second": 3.498,
+      "eval_steps_per_second": 1.764,
+      "step": 2435
+    },
+    {
+      "epoch": 0.0488,
+      "eval_loss": 2.4415283203125,
+      "eval_runtime": 33.4555,
+      "eval_samples_per_second": 3.497,
+      "eval_steps_per_second": 1.764,
+      "step": 2440
+    },
+    {
+      "epoch": 0.0489,
+      "eval_loss": 2.4416847229003906,
+      "eval_runtime": 33.2459,
+      "eval_samples_per_second": 3.519,
+      "eval_steps_per_second": 1.775,
+      "step": 2445
+    },
+    {
+      "epoch": 0.049,
+      "grad_norm": 0.02804626155591942,
+      "learning_rate": 4.898e-06,
+      "loss": 2.4334,
+      "step": 2450
+    },
+    {
+      "epoch": 0.049,
+      "eval_loss": 2.4414188861846924,
+      "eval_runtime": 33.2989,
+      "eval_samples_per_second": 3.514,
+      "eval_steps_per_second": 1.772,
+      "step": 2450
+    },
+    {
+      "epoch": 0.0491,
+      "eval_loss": 2.4416472911834717,
+      "eval_runtime": 33.3676,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 1.768,
+      "step": 2455
+    },
+    {
+      "epoch": 0.0492,
+      "eval_loss": 2.4414844512939453,
+      "eval_runtime": 33.4116,
+      "eval_samples_per_second": 3.502,
+      "eval_steps_per_second": 1.766,
+      "step": 2460
+    },
+    {
+      "epoch": 0.0493,
+      "eval_loss": 2.441408395767212,
+      "eval_runtime": 33.6104,
+      "eval_samples_per_second": 3.481,
+      "eval_steps_per_second": 1.755,
+      "step": 2465
+    },
+    {
+      "epoch": 0.0494,
+      "eval_loss": 2.4413650035858154,
+      "eval_runtime": 33.3838,
+      "eval_samples_per_second": 3.505,
+      "eval_steps_per_second": 1.767,
+      "step": 2470
+    },
+    {
+      "epoch": 0.0495,
+      "grad_norm": 0.025351866385684634,
+      "learning_rate": 4.948000000000001e-06,
+      "loss": 2.4356,
+      "step": 2475
+    },
+    {
+      "epoch": 0.0495,
+      "eval_loss": 2.4411768913269043,
+      "eval_runtime": 33.3857,
+      "eval_samples_per_second": 3.504,
+      "eval_steps_per_second": 1.767,
+      "step": 2475
+    },
+    {
+      "epoch": 0.0496,
+      "eval_loss": 2.441201686859131,
+      "eval_runtime": 33.4117,
+      "eval_samples_per_second": 3.502,
+      "eval_steps_per_second": 1.766,
+      "step": 2480
+    },
+    {
+      "epoch": 0.0497,
+      "eval_loss": 2.4408698081970215,
+      "eval_runtime": 33.3015,
+      "eval_samples_per_second": 3.513,
+      "eval_steps_per_second": 1.772,
+      "step": 2485
+    },
+    {
+      "epoch": 0.0498,
+      "eval_loss": 2.440950393676758,
+      "eval_runtime": 33.379,
+      "eval_samples_per_second": 3.505,
+      "eval_steps_per_second": 1.768,
+      "step": 2490
+    },
+    {
+      "epoch": 0.0499,
+      "eval_loss": 2.4407267570495605,
+      "eval_runtime": 33.2561,
+      "eval_samples_per_second": 3.518,
+      "eval_steps_per_second": 1.774,
+      "step": 2495
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 0.029743600833546286,
+      "learning_rate": 4.998e-06,
+      "loss": 2.4369,
+      "step": 2500
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.4408068656921387,
+      "eval_runtime": 33.3807,
+      "eval_samples_per_second": 3.505,
+      "eval_steps_per_second": 1.767,
+      "step": 2500
+    },
+    {
+      "epoch": 0.0501,
+      "eval_loss": 2.4407401084899902,
+      "eval_runtime": 33.2295,
+      "eval_samples_per_second": 3.521,
+      "eval_steps_per_second": 1.776,
+      "step": 2505
+    },
+    {
+      "epoch": 0.0502,
+      "eval_loss": 2.4409286975860596,
+      "eval_runtime": 33.3925,
+      "eval_samples_per_second": 3.504,
+      "eval_steps_per_second": 1.767,
+      "step": 2510
+    },
+    {
+      "epoch": 0.0503,
+      "eval_loss": 2.4407782554626465,
+      "eval_runtime": 33.4498,
+      "eval_samples_per_second": 3.498,
+      "eval_steps_per_second": 1.764,
+      "step": 2515
+    },
+    {
+      "epoch": 0.0504,
+      "eval_loss": 2.4407856464385986,
+      "eval_runtime": 33.4899,
+      "eval_samples_per_second": 3.494,
+      "eval_steps_per_second": 1.762,
+      "step": 2520
+    },
+    {
+      "epoch": 0.0505,
+      "grad_norm": 0.027292319342276494,
+      "learning_rate": 5.048000000000001e-06,
+      "loss": 2.4263,
+      "step": 2525
+    },
+    {
+      "epoch": 0.0505,
+      "eval_loss": 2.440830945968628,
+      "eval_runtime": 33.3428,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.769,
+      "step": 2525
+    },
+    {
+      "epoch": 0.0506,
+      "eval_loss": 2.44069504737854,
+      "eval_runtime": 33.2895,
+      "eval_samples_per_second": 3.515,
+      "eval_steps_per_second": 1.772,
+      "step": 2530
+    },
+    {
+      "epoch": 0.0507,
+      "eval_loss": 2.4408159255981445,
+      "eval_runtime": 33.3488,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 1.769,
+      "step": 2535
+    },
+    {
+      "epoch": 0.0508,
+      "eval_loss": 2.440523386001587,
+      "eval_runtime": 33.3582,
+      "eval_samples_per_second": 3.507,
+      "eval_steps_per_second": 1.769,
+      "step": 2540
+    },
+    {
+      "epoch": 0.0509,
+      "eval_loss": 2.4403724670410156,
+      "eval_runtime": 33.5287,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 2545
+    },
+    {
+      "epoch": 0.051,
+      "grad_norm": 0.02495087994166461,
+      "learning_rate": 5.098000000000001e-06,
+      "loss": 2.428,
+      "step": 2550
+    },
+    {
+      "epoch": 0.051,
+      "eval_loss": 2.440495252609253,
+      "eval_runtime": 34.4575,
+      "eval_samples_per_second": 3.395,
+      "eval_steps_per_second": 1.712,
+      "step": 2550
+    },
+    {
+      "epoch": 0.0511,
+      "eval_loss": 2.440384864807129,
+      "eval_runtime": 34.0144,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 1.735,
+      "step": 2555
+    },
+    {
+      "epoch": 0.0512,
+      "eval_loss": 2.4405176639556885,
+      "eval_runtime": 34.5852,
+      "eval_samples_per_second": 3.383,
+      "eval_steps_per_second": 1.706,
+      "step": 2560
+    },
+    {
+      "epoch": 0.0513,
+      "eval_loss": 2.4402472972869873,
+      "eval_runtime": 34.2689,
+      "eval_samples_per_second": 3.414,
+      "eval_steps_per_second": 1.722,
+      "step": 2565
+    },
+    {
+      "epoch": 0.0514,
+      "eval_loss": 2.440459966659546,
+      "eval_runtime": 33.3821,
+      "eval_samples_per_second": 3.505,
+      "eval_steps_per_second": 1.767,
+      "step": 2570
+    },
+    {
+      "epoch": 0.0515,
+      "grad_norm": 0.029728034222700407,
+      "learning_rate": 5.1480000000000005e-06,
+      "loss": 2.439,
+      "step": 2575
+    },
+    {
+      "epoch": 0.0515,
+      "eval_loss": 2.440525531768799,
+      "eval_runtime": 34.3072,
+      "eval_samples_per_second": 3.41,
+      "eval_steps_per_second": 1.72,
+      "step": 2575
+    },
+    {
+      "epoch": 0.0516,
+      "eval_loss": 2.440373420715332,
+      "eval_runtime": 33.5748,
+      "eval_samples_per_second": 3.485,
+      "eval_steps_per_second": 1.757,
+      "step": 2580
+    },
+    {
+      "epoch": 0.0517,
+      "eval_loss": 2.4405770301818848,
+      "eval_runtime": 35.2655,
+      "eval_samples_per_second": 3.318,
+      "eval_steps_per_second": 1.673,
+      "step": 2585
+    },
+    {
+      "epoch": 0.0518,
+      "eval_loss": 2.4402198791503906,
+      "eval_runtime": 34.9918,
+      "eval_samples_per_second": 3.344,
+      "eval_steps_per_second": 1.686,
+      "step": 2590
+    },
+    {
+      "epoch": 0.0519,
+      "eval_loss": 2.440136194229126,
+      "eval_runtime": 33.4873,
+      "eval_samples_per_second": 3.494,
+      "eval_steps_per_second": 1.762,
+      "step": 2595
+    },
+    {
+      "epoch": 0.052,
+      "grad_norm": 0.02473354917836018,
+      "learning_rate": 5.198000000000001e-06,
+      "loss": 2.427,
+      "step": 2600
+    },
+    {
+      "epoch": 0.052,
+      "eval_loss": 2.440282106399536,
+      "eval_runtime": 33.4628,
+      "eval_samples_per_second": 3.496,
+      "eval_steps_per_second": 1.763,
+      "step": 2600
+    },
+    {
+      "epoch": 0.0521,
+      "eval_loss": 2.440448045730591,
+      "eval_runtime": 33.4191,
+      "eval_samples_per_second": 3.501,
+      "eval_steps_per_second": 1.765,
+      "step": 2605
+    },
+    {
+      "epoch": 0.0522,
+      "eval_loss": 2.440248966217041,
+      "eval_runtime": 33.4911,
+      "eval_samples_per_second": 3.493,
+      "eval_steps_per_second": 1.762,
+      "step": 2610
+    },
+    {
+      "epoch": 0.0523,
+      "eval_loss": 2.440030336380005,
+      "eval_runtime": 33.4921,
+      "eval_samples_per_second": 3.493,
+      "eval_steps_per_second": 1.762,
+      "step": 2615
+    },
+    {
+      "epoch": 0.0524,
+      "eval_loss": 2.4397685527801514,
+      "eval_runtime": 33.4491,
+      "eval_samples_per_second": 3.498,
+      "eval_steps_per_second": 1.764,
+      "step": 2620
+    },
+    {
+      "epoch": 0.0525,
+      "grad_norm": 0.026533778128592735,
+      "learning_rate": 5.248000000000001e-06,
+      "loss": 2.4214,
+      "step": 2625
+    },
+    {
+      "epoch": 0.0525,
+      "eval_loss": 2.43971848487854,
+      "eval_runtime": 33.3975,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 1.767,
+      "step": 2625
+    },
+    {
+      "epoch": 0.0526,
+      "eval_loss": 2.4398951530456543,
+      "eval_runtime": 33.4912,
+      "eval_samples_per_second": 3.493,
+      "eval_steps_per_second": 1.762,
+      "step": 2630
+    },
+    {
+      "epoch": 0.0527,
+      "eval_loss": 2.43975830078125,
+      "eval_runtime": 33.4071,
+      "eval_samples_per_second": 3.502,
+      "eval_steps_per_second": 1.766,
+      "step": 2635
+    },
+    {
+      "epoch": 0.0528,
+      "eval_loss": 2.439666271209717,
+      "eval_runtime": 33.4208,
+      "eval_samples_per_second": 3.501,
+      "eval_steps_per_second": 1.765,
+      "step": 2640
+    },
+    {
+      "epoch": 0.0529,
+      "eval_loss": 2.439816951751709,
+      "eval_runtime": 33.5111,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.761,
+      "step": 2645
+    },
+    {
+      "epoch": 0.053,
+      "grad_norm": 0.024723120971366967,
+      "learning_rate": 5.298000000000001e-06,
+      "loss": 2.4241,
+      "step": 2650
+    },
+    {
+      "epoch": 0.053,
+      "eval_loss": 2.4398183822631836,
+      "eval_runtime": 33.506,
+      "eval_samples_per_second": 3.492,
+      "eval_steps_per_second": 1.761,
+      "step": 2650
+    },
+    {
+      "epoch": 0.0531,
+      "eval_loss": 2.4402668476104736,
+      "eval_runtime": 34.1298,
+      "eval_samples_per_second": 3.428,
+      "eval_steps_per_second": 1.729,
+      "step": 2655
+    },
+    {
+      "epoch": 0.0532,
+      "eval_loss": 2.4400885105133057,
+      "eval_runtime": 33.436,
+      "eval_samples_per_second": 3.499,
+      "eval_steps_per_second": 1.765,
+      "step": 2660
+    },
+    {
+      "epoch": 0.0533,
+      "eval_loss": 2.439871311187744,
+      "eval_runtime": 33.3874,
+      "eval_samples_per_second": 3.504,
+      "eval_steps_per_second": 1.767,
+      "step": 2665
+    },
+    {
+      "epoch": 0.0534,
+      "eval_loss": 2.4393365383148193,
+      "eval_runtime": 33.5258,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 2670
+    },
+    {
+      "epoch": 0.0535,
+      "grad_norm": 0.02173239513971497,
+      "learning_rate": 5.348000000000001e-06,
+      "loss": 2.4295,
+      "step": 2675
+    },
+    {
+      "epoch": 0.0535,
+      "eval_loss": 2.439133405685425,
+      "eval_runtime": 33.4962,
+      "eval_samples_per_second": 3.493,
+      "eval_steps_per_second": 1.761,
+      "step": 2675
+    },
+    {
+      "epoch": 0.0536,
+      "eval_loss": 2.439093589782715,
+      "eval_runtime": 33.4708,
+      "eval_samples_per_second": 3.496,
+      "eval_steps_per_second": 1.763,
+      "step": 2680
+    },
+    {
+      "epoch": 0.0537,
+      "eval_loss": 2.439096212387085,
+      "eval_runtime": 33.4284,
+      "eval_samples_per_second": 3.5,
+      "eval_steps_per_second": 1.765,
+      "step": 2685
+    },
+    {
+      "epoch": 0.0538,
+      "eval_loss": 2.4389584064483643,
+      "eval_runtime": 33.4749,
+      "eval_samples_per_second": 3.495,
+      "eval_steps_per_second": 1.763,
+      "step": 2690
+    },
+    {
+      "epoch": 0.0539,
+      "eval_loss": 2.438805103302002,
+      "eval_runtime": 33.478,
+      "eval_samples_per_second": 3.495,
+      "eval_steps_per_second": 1.762,
+      "step": 2695
+    },
+    {
+      "epoch": 0.054,
+      "grad_norm": 0.023851331909406925,
+      "learning_rate": 5.398e-06,
+      "loss": 2.4302,
+      "step": 2700
+    },
+    {
+      "epoch": 0.054,
+      "eval_loss": 2.4386403560638428,
+      "eval_runtime": 33.4276,
+      "eval_samples_per_second": 3.5,
+      "eval_steps_per_second": 1.765,
+      "step": 2700
+    },
+    {
+      "epoch": 0.0541,
+      "eval_loss": 2.438568115234375,
+      "eval_runtime": 33.528,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 2705
+    },
+    {
+      "epoch": 0.0542,
+      "eval_loss": 2.438894510269165,
+      "eval_runtime": 33.5228,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 2710
+    },
+    {
+      "epoch": 0.0543,
+      "eval_loss": 2.4387168884277344,
+      "eval_runtime": 33.4663,
+      "eval_samples_per_second": 3.496,
+      "eval_steps_per_second": 1.763,
+      "step": 2715
+    },
+    {
+      "epoch": 0.0544,
+      "eval_loss": 2.4385879039764404,
+      "eval_runtime": 33.513,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.761,
+      "step": 2720
+    },
+    {
+      "epoch": 0.0545,
+      "grad_norm": 0.02728082451264937,
+      "learning_rate": 5.448e-06,
+      "loss": 2.4308,
+      "step": 2725
+    },
+    {
+      "epoch": 0.0545,
+      "eval_loss": 2.4388349056243896,
+      "eval_runtime": 33.4525,
+      "eval_samples_per_second": 3.497,
+      "eval_steps_per_second": 1.764,
+      "step": 2725
+    },
+    {
+      "epoch": 0.0546,
+      "eval_loss": 2.438887357711792,
+      "eval_runtime": 33.428,
+      "eval_samples_per_second": 3.5,
+      "eval_steps_per_second": 1.765,
+      "step": 2730
+    },
+    {
+      "epoch": 0.0547,
+      "eval_loss": 2.438713312149048,
+      "eval_runtime": 33.5229,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 2735
+    },
+    {
+      "epoch": 0.0548,
+      "eval_loss": 2.438657283782959,
+      "eval_runtime": 33.4169,
+      "eval_samples_per_second": 3.501,
+      "eval_steps_per_second": 1.766,
+      "step": 2740
+    },
+    {
+      "epoch": 0.0549,
+      "eval_loss": 2.438544988632202,
+      "eval_runtime": 33.4944,
+      "eval_samples_per_second": 3.493,
+      "eval_steps_per_second": 1.761,
+      "step": 2745
+    },
+    {
+      "epoch": 0.055,
+      "grad_norm": 0.025461121075693184,
+      "learning_rate": 5.498e-06,
+      "loss": 2.4379,
+      "step": 2750
+    },
+    {
+      "epoch": 0.055,
+      "eval_loss": 2.4386098384857178,
+      "eval_runtime": 33.6782,
+      "eval_samples_per_second": 3.474,
+      "eval_steps_per_second": 1.752,
+      "step": 2750
+    },
+    {
+      "epoch": 0.0551,
+      "eval_loss": 2.438521146774292,
+      "eval_runtime": 33.5161,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.76,
+      "step": 2755
+    },
+    {
+      "epoch": 0.0552,
+      "eval_loss": 2.438474178314209,
+      "eval_runtime": 33.4773,
+      "eval_samples_per_second": 3.495,
+      "eval_steps_per_second": 1.762,
+      "step": 2760
+    },
+    {
+      "epoch": 0.0553,
+      "eval_loss": 2.4382379055023193,
+      "eval_runtime": 33.4869,
+      "eval_samples_per_second": 3.494,
+      "eval_steps_per_second": 1.762,
+      "step": 2765
+    },
+    {
+      "epoch": 0.0554,
+      "eval_loss": 2.438157796859741,
+      "eval_runtime": 33.543,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 1.759,
+      "step": 2770
+    },
+    {
+      "epoch": 0.0555,
+      "grad_norm": 0.0234055445054481,
+      "learning_rate": 5.548e-06,
+      "loss": 2.4326,
+      "step": 2775
+    },
+    {
+      "epoch": 0.0555,
+      "eval_loss": 2.438048839569092,
+      "eval_runtime": 33.5073,
+      "eval_samples_per_second": 3.492,
+      "eval_steps_per_second": 1.761,
+      "step": 2775
+    },
+    {
+      "epoch": 0.0556,
+      "eval_loss": 2.4379706382751465,
+      "eval_runtime": 33.4567,
+      "eval_samples_per_second": 3.497,
+      "eval_steps_per_second": 1.763,
+      "step": 2780
+    },
+    {
+      "epoch": 0.0557,
+      "eval_loss": 2.4379332065582275,
+      "eval_runtime": 33.5172,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.76,
+      "step": 2785
+    },
+    {
+      "epoch": 0.0558,
+      "eval_loss": 2.4380111694335938,
+      "eval_runtime": 33.5913,
+      "eval_samples_per_second": 3.483,
+      "eval_steps_per_second": 1.756,
+      "step": 2790
+    },
+    {
+      "epoch": 0.0559,
+      "eval_loss": 2.4379403591156006,
+      "eval_runtime": 33.5223,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 2795
+    },
+    {
+      "epoch": 0.056,
+      "grad_norm": 0.024691045411267393,
+      "learning_rate": 5.5980000000000004e-06,
+      "loss": 2.4297,
+      "step": 2800
+    },
+    {
+      "epoch": 0.056,
+      "eval_loss": 2.43778657913208,
+      "eval_runtime": 33.524,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 2800
+    },
+    {
+      "epoch": 0.0561,
+      "eval_loss": 2.4376559257507324,
+      "eval_runtime": 33.58,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.757,
+      "step": 2805
+    },
+    {
+      "epoch": 0.0562,
+      "eval_loss": 2.437596559524536,
+      "eval_runtime": 33.5756,
+      "eval_samples_per_second": 3.485,
+      "eval_steps_per_second": 1.757,
+      "step": 2810
+    },
+    {
+      "epoch": 0.0563,
+      "eval_loss": 2.437690496444702,
+      "eval_runtime": 33.5056,
+      "eval_samples_per_second": 3.492,
+      "eval_steps_per_second": 1.761,
+      "step": 2815
+    },
+    {
+      "epoch": 0.0564,
+      "eval_loss": 2.437558174133301,
+      "eval_runtime": 33.4948,
+      "eval_samples_per_second": 3.493,
+      "eval_steps_per_second": 1.761,
+      "step": 2820
+    },
+    {
+      "epoch": 0.0565,
+      "grad_norm": 0.02500330428035899,
+      "learning_rate": 5.648e-06,
+      "loss": 2.4281,
+      "step": 2825
+    },
+    {
+      "epoch": 0.0565,
+      "eval_loss": 2.437875747680664,
+      "eval_runtime": 33.4492,
+      "eval_samples_per_second": 3.498,
+      "eval_steps_per_second": 1.764,
+      "step": 2825
+    },
+    {
+      "epoch": 0.0566,
+      "eval_loss": 2.438183546066284,
+      "eval_runtime": 33.5208,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 2830
+    },
+    {
+      "epoch": 0.0567,
+      "eval_loss": 2.4375228881835938,
+      "eval_runtime": 33.5319,
+      "eval_samples_per_second": 3.489,
+      "eval_steps_per_second": 1.76,
+      "step": 2835
+    },
+    {
+      "epoch": 0.0568,
+      "eval_loss": 2.437365770339966,
+      "eval_runtime": 33.4734,
+      "eval_samples_per_second": 3.495,
+      "eval_steps_per_second": 1.763,
+      "step": 2840
+    },
+    {
+      "epoch": 0.0569,
+      "eval_loss": 2.4376399517059326,
+      "eval_runtime": 33.4578,
+      "eval_samples_per_second": 3.497,
+      "eval_steps_per_second": 1.763,
+      "step": 2845
+    },
+    {
+      "epoch": 0.057,
+      "grad_norm": 0.023953363978697285,
+      "learning_rate": 5.698e-06,
+      "loss": 2.4341,
+      "step": 2850
+    },
+    {
+      "epoch": 0.057,
+      "eval_loss": 2.437318801879883,
+      "eval_runtime": 33.4551,
+      "eval_samples_per_second": 3.497,
+      "eval_steps_per_second": 1.764,
+      "step": 2850
+    },
+    {
+      "epoch": 0.0571,
+      "eval_loss": 2.437349319458008,
+      "eval_runtime": 33.4482,
+      "eval_samples_per_second": 3.498,
+      "eval_steps_per_second": 1.764,
+      "step": 2855
+    },
+    {
+      "epoch": 0.0572,
+      "eval_loss": 2.437500476837158,
+      "eval_runtime": 33.5179,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.76,
+      "step": 2860
+    },
+    {
+      "epoch": 0.0573,
+      "eval_loss": 2.4371414184570312,
+      "eval_runtime": 33.4246,
+      "eval_samples_per_second": 3.5,
+      "eval_steps_per_second": 1.765,
+      "step": 2865
+    },
+    {
+      "epoch": 0.0574,
+      "eval_loss": 2.4371588230133057,
+      "eval_runtime": 33.5686,
+      "eval_samples_per_second": 3.485,
+      "eval_steps_per_second": 1.758,
+      "step": 2870
+    },
+    {
+      "epoch": 0.0575,
+      "grad_norm": 0.023037224733864405,
+      "learning_rate": 5.748e-06,
+      "loss": 2.4201,
+      "step": 2875
+    },
+    {
+      "epoch": 0.0575,
+      "eval_loss": 2.4373178482055664,
+      "eval_runtime": 33.4813,
+      "eval_samples_per_second": 3.494,
+      "eval_steps_per_second": 1.762,
+      "step": 2875
+    },
+    {
+      "epoch": 0.0576,
+      "eval_loss": 2.4371204376220703,
+      "eval_runtime": 33.5096,
+      "eval_samples_per_second": 3.492,
+      "eval_steps_per_second": 1.761,
+      "step": 2880
+    },
+    {
+      "epoch": 0.0577,
+      "eval_loss": 2.43719482421875,
+      "eval_runtime": 33.4709,
+      "eval_samples_per_second": 3.496,
+      "eval_steps_per_second": 1.763,
+      "step": 2885
+    },
+    {
+      "epoch": 0.0578,
+      "eval_loss": 2.4369635581970215,
+      "eval_runtime": 33.5125,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 1.761,
+      "step": 2890
+    },
+    {
+      "epoch": 0.0579,
+      "eval_loss": 2.4367122650146484,
+      "eval_runtime": 33.5349,
+      "eval_samples_per_second": 3.489,
+      "eval_steps_per_second": 1.759,
+      "step": 2895
+    },
+    {
+      "epoch": 0.058,
+      "grad_norm": 0.023843041578218274,
+      "learning_rate": 5.798e-06,
+      "loss": 2.4322,
+      "step": 2900
+    },
+    {
+      "epoch": 0.058,
+      "eval_loss": 2.436885118484497,
+      "eval_runtime": 33.5038,
+      "eval_samples_per_second": 3.492,
+      "eval_steps_per_second": 1.761,
+      "step": 2900
+    },
+    {
+      "epoch": 0.0581,
+      "eval_loss": 2.4368388652801514,
+      "eval_runtime": 33.4337,
+      "eval_samples_per_second": 3.499,
+      "eval_steps_per_second": 1.765,
+      "step": 2905
+    },
+    {
+      "epoch": 0.0582,
+      "eval_loss": 2.436776638031006,
+      "eval_runtime": 33.5783,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.757,
+      "step": 2910
+    },
+    {
+      "epoch": 0.0583,
+      "eval_loss": 2.4369046688079834,
+      "eval_runtime": 33.5764,
+      "eval_samples_per_second": 3.485,
+      "eval_steps_per_second": 1.757,
+      "step": 2915
+    },
+    {
+      "epoch": 0.0584,
+      "eval_loss": 2.4369351863861084,
+      "eval_runtime": 33.5715,
+      "eval_samples_per_second": 3.485,
+      "eval_steps_per_second": 1.757,
+      "step": 2920
+    },
+    {
+      "epoch": 0.0585,
+      "grad_norm": 0.030212978437899864,
+      "learning_rate": 5.848000000000001e-06,
+      "loss": 2.4318,
+      "step": 2925
+    },
+    {
+      "epoch": 0.0585,
+      "eval_loss": 2.4367170333862305,
+      "eval_runtime": 33.455,
+      "eval_samples_per_second": 3.497,
+      "eval_steps_per_second": 1.764,
+      "step": 2925
+    },
+    {
+      "epoch": 0.0586,
+      "eval_loss": 2.4367101192474365,
+      "eval_runtime": 33.3973,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 1.767,
+      "step": 2930
+    },
+    {
+      "epoch": 0.0587,
+      "eval_loss": 2.436723470687866,
+      "eval_runtime": 33.4183,
+      "eval_samples_per_second": 3.501,
+      "eval_steps_per_second": 1.766,
+      "step": 2935
+    },
+    {
+      "epoch": 0.0588,
+      "eval_loss": 2.4368371963500977,
+      "eval_runtime": 33.5269,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 2940
+    },
+    {
+      "epoch": 0.0589,
+      "eval_loss": 2.436763286590576,
+      "eval_runtime": 33.4623,
+      "eval_samples_per_second": 3.496,
+      "eval_steps_per_second": 1.763,
+      "step": 2945
+    },
+    {
+      "epoch": 0.059,
+      "grad_norm": 0.024293450378328845,
+      "learning_rate": 5.898e-06,
+      "loss": 2.4221,
+      "step": 2950
+    },
+    {
+      "epoch": 0.059,
+      "eval_loss": 2.436692714691162,
+      "eval_runtime": 33.523,
+      "eval_samples_per_second": 3.49,
+      "eval_steps_per_second": 1.76,
+      "step": 2950
+    },
+    {
+      "epoch": 0.0591,
+      "eval_loss": 2.436657667160034,
+      "eval_runtime": 34.902,
+      "eval_samples_per_second": 3.352,
+      "eval_steps_per_second": 1.69,
+      "step": 2955
+    },
+    {
+      "epoch": 0.0592,
+      "eval_loss": 2.436432123184204,
+      "eval_runtime": 33.4808,
+      "eval_samples_per_second": 3.495,
+      "eval_steps_per_second": 1.762,
+      "step": 2960
+    },
+    {
+      "epoch": 0.0593,
+      "eval_loss": 2.436782121658325,
+      "eval_runtime": 34.5166,
+      "eval_samples_per_second": 3.39,
+      "eval_steps_per_second": 1.709,
+      "step": 2965
+    },
+    {
+      "epoch": 0.0594,
+      "eval_loss": 2.4366602897644043,
+      "eval_runtime": 33.7416,
+      "eval_samples_per_second": 3.468,
+      "eval_steps_per_second": 1.749,
+      "step": 2970
+    },
+    {
+      "epoch": 0.0595,
+      "grad_norm": 0.028294127858427973,
+      "learning_rate": 5.9480000000000005e-06,
+      "loss": 2.4196,
+      "step": 2975
+    },
+    {
+      "epoch": 0.0595,
+      "eval_loss": 2.436668872833252,
+      "eval_runtime": 35.1904,
+      "eval_samples_per_second": 3.325,
+      "eval_steps_per_second": 1.677,
+      "step": 2975
+    },
+    {
+      "epoch": 0.0596,
+      "eval_loss": 2.436310052871704,
+      "eval_runtime": 33.583,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.757,
+      "step": 2980
+    },
+    {
+      "epoch": 0.0597,
+      "eval_loss": 2.4361066818237305,
+      "eval_runtime": 34.1148,
+      "eval_samples_per_second": 3.43,
+      "eval_steps_per_second": 1.729,
+      "step": 2985
+    },
+    {
+      "epoch": 0.0598,
+      "eval_loss": 2.436128854751587,
+      "eval_runtime": 33.7895,
+      "eval_samples_per_second": 3.463,
+      "eval_steps_per_second": 1.746,
+      "step": 2990
+    },
+    {
+      "epoch": 0.0599,
+      "eval_loss": 2.436457872390747,
+      "eval_runtime": 34.0525,
+      "eval_samples_per_second": 3.436,
+      "eval_steps_per_second": 1.733,
+      "step": 2995
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.02242795270420928,
+      "learning_rate": 5.998000000000001e-06,
+      "loss": 2.4245,
+      "step": 3000
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.436203718185425,
+      "eval_runtime": 33.6471,
+      "eval_samples_per_second": 3.477,
+      "eval_steps_per_second": 1.753,
+      "step": 3000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 8.355905264309764e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null