{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.881844380403458,
  "eval_steps": 10,
  "global_step": 1000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01440922190201729,
      "grad_norm": 0.888121485710144,
      "learning_rate": 0.0002988472622478386,
      "loss": 2.4115,
      "step": 5
    },
    {
      "epoch": 0.02881844380403458,
      "grad_norm": 0.8970298767089844,
      "learning_rate": 0.00029740634005763684,
      "loss": 2.23,
      "step": 10
    },
    {
      "epoch": 0.02881844380403458,
      "eval_loss": 2.165903091430664,
      "eval_runtime": 1.8407,
      "eval_samples_per_second": 84.207,
      "eval_steps_per_second": 10.865,
      "step": 10
    },
    {
      "epoch": 0.043227665706051875,
      "grad_norm": 1.078068494796753,
      "learning_rate": 0.00029596541786743513,
      "loss": 2.0155,
      "step": 15
    },
    {
      "epoch": 0.05763688760806916,
      "grad_norm": 1.2069385051727295,
      "learning_rate": 0.0002945244956772334,
      "loss": 1.9346,
      "step": 20
    },
    {
      "epoch": 0.05763688760806916,
      "eval_loss": 1.7943660020828247,
      "eval_runtime": 1.7809,
      "eval_samples_per_second": 87.035,
      "eval_steps_per_second": 11.23,
      "step": 20
    },
    {
      "epoch": 0.07204610951008646,
      "grad_norm": 1.3408102989196777,
      "learning_rate": 0.0002930835734870317,
      "loss": 1.7434,
      "step": 25
    },
    {
      "epoch": 0.08645533141210375,
      "grad_norm": 1.4849472045898438,
      "learning_rate": 0.00029164265129682994,
      "loss": 1.5409,
      "step": 30
    },
    {
      "epoch": 0.08645533141210375,
      "eval_loss": 1.5225533246994019,
      "eval_runtime": 1.7657,
      "eval_samples_per_second": 87.784,
      "eval_steps_per_second": 11.327,
      "step": 30
    },
    {
      "epoch": 0.10086455331412104,
      "grad_norm": 2.2489142417907715,
      "learning_rate": 0.0002902017291066282,
      "loss": 1.4702,
      "step": 35
    },
    {
      "epoch": 0.11527377521613832,
      "grad_norm": 2.169492244720459,
      "learning_rate": 0.00028876080691642647,
      "loss": 1.398,
      "step": 40
    },
    {
      "epoch": 0.11527377521613832,
      "eval_loss": 1.3084412813186646,
      "eval_runtime": 1.7715,
      "eval_samples_per_second": 87.495,
      "eval_steps_per_second": 11.29,
      "step": 40
    },
    {
      "epoch": 0.12968299711815562,
      "grad_norm": 2.665741205215454,
      "learning_rate": 0.00028731988472622475,
      "loss": 1.2839,
      "step": 45
    },
    {
      "epoch": 0.1440922190201729,
      "grad_norm": 2.9897077083587646,
      "learning_rate": 0.00028587896253602304,
      "loss": 1.0893,
      "step": 50
    },
    {
      "epoch": 0.1440922190201729,
      "eval_loss": 1.0865856409072876,
      "eval_runtime": 1.7767,
      "eval_samples_per_second": 87.241,
      "eval_steps_per_second": 11.257,
      "step": 50
    },
    {
      "epoch": 0.1585014409221902,
      "grad_norm": 2.3380894660949707,
      "learning_rate": 0.0002844380403458213,
      "loss": 1.0454,
      "step": 55
    },
    {
      "epoch": 0.1729106628242075,
      "grad_norm": 2.571589469909668,
      "learning_rate": 0.00028299711815561957,
      "loss": 0.8605,
      "step": 60
    },
    {
      "epoch": 0.1729106628242075,
      "eval_loss": 0.8586989641189575,
      "eval_runtime": 1.7853,
      "eval_samples_per_second": 86.822,
      "eval_steps_per_second": 11.203,
      "step": 60
    },
    {
      "epoch": 0.1873198847262248,
      "grad_norm": 3.0408358573913574,
      "learning_rate": 0.00028155619596541786,
      "loss": 0.8101,
      "step": 65
    },
    {
      "epoch": 0.2017291066282421,
      "grad_norm": 2.4773292541503906,
      "learning_rate": 0.0002801152737752161,
      "loss": 0.7769,
      "step": 70
    },
    {
      "epoch": 0.2017291066282421,
      "eval_loss": 0.6477732062339783,
      "eval_runtime": 1.781,
      "eval_samples_per_second": 87.029,
      "eval_steps_per_second": 11.23,
      "step": 70
    },
    {
      "epoch": 0.21613832853025935,
      "grad_norm": 2.5505621433258057,
      "learning_rate": 0.0002786743515850144,
      "loss": 0.6286,
      "step": 75
    },
    {
      "epoch": 0.23054755043227665,
      "grad_norm": 2.5216686725616455,
      "learning_rate": 0.00027723342939481267,
      "loss": 0.5306,
      "step": 80
    },
    {
      "epoch": 0.23054755043227665,
      "eval_loss": 0.4904349446296692,
      "eval_runtime": 1.7712,
      "eval_samples_per_second": 87.51,
      "eval_steps_per_second": 11.292,
      "step": 80
    },
    {
      "epoch": 0.24495677233429394,
      "grad_norm": 3.0844411849975586,
      "learning_rate": 0.00027579250720461096,
      "loss": 0.5331,
      "step": 85
    },
    {
      "epoch": 0.25936599423631124,
      "grad_norm": 1.8952299356460571,
      "learning_rate": 0.0002743515850144092,
      "loss": 0.4093,
      "step": 90
    },
    {
      "epoch": 0.25936599423631124,
      "eval_loss": 0.40096166729927063,
      "eval_runtime": 1.773,
      "eval_samples_per_second": 87.422,
      "eval_steps_per_second": 11.28,
      "step": 90
    },
    {
      "epoch": 0.2737752161383285,
      "grad_norm": 3.3445639610290527,
      "learning_rate": 0.0002729106628242075,
      "loss": 0.3654,
      "step": 95
    },
    {
      "epoch": 0.2881844380403458,
      "grad_norm": 1.9506555795669556,
      "learning_rate": 0.0002714697406340057,
      "loss": 0.3458,
      "step": 100
    },
    {
      "epoch": 0.2881844380403458,
      "eval_loss": 0.32525885105133057,
      "eval_runtime": 1.7918,
      "eval_samples_per_second": 86.503,
      "eval_steps_per_second": 11.162,
      "step": 100
    },
    {
      "epoch": 0.3025936599423631,
      "grad_norm": 1.9951375722885132,
      "learning_rate": 0.000270028818443804,
      "loss": 0.2672,
      "step": 105
    },
    {
      "epoch": 0.3170028818443804,
      "grad_norm": 2.8618788719177246,
      "learning_rate": 0.0002685878962536023,
      "loss": 0.3316,
      "step": 110
    },
    {
      "epoch": 0.3170028818443804,
      "eval_loss": 0.29092785716056824,
      "eval_runtime": 1.7704,
      "eval_samples_per_second": 87.549,
      "eval_steps_per_second": 11.297,
      "step": 110
    },
    {
      "epoch": 0.3314121037463977,
      "grad_norm": 2.436544179916382,
      "learning_rate": 0.00026714697406340053,
      "loss": 0.3176,
      "step": 115
    },
    {
      "epoch": 0.345821325648415,
      "grad_norm": 1.1800215244293213,
      "learning_rate": 0.0002657060518731988,
      "loss": 0.2378,
      "step": 120
    },
    {
      "epoch": 0.345821325648415,
      "eval_loss": 0.25983747839927673,
      "eval_runtime": 1.7719,
      "eval_samples_per_second": 87.476,
      "eval_steps_per_second": 11.287,
      "step": 120
    },
    {
      "epoch": 0.36023054755043227,
      "grad_norm": 1.0937371253967285,
      "learning_rate": 0.0002642651296829971,
      "loss": 0.2617,
      "step": 125
    },
    {
      "epoch": 0.3746397694524496,
      "grad_norm": 1.5132169723510742,
      "learning_rate": 0.0002628242074927954,
      "loss": 0.2669,
      "step": 130
    },
    {
      "epoch": 0.3746397694524496,
      "eval_loss": 0.2434806078672409,
      "eval_runtime": 1.7851,
      "eval_samples_per_second": 86.831,
      "eval_steps_per_second": 11.204,
      "step": 130
    },
    {
      "epoch": 0.38904899135446686,
      "grad_norm": 1.4011964797973633,
      "learning_rate": 0.00026138328530259363,
      "loss": 0.2684,
      "step": 135
    },
    {
      "epoch": 0.4034582132564842,
      "grad_norm": 1.3246668577194214,
      "learning_rate": 0.0002599423631123919,
      "loss": 0.2377,
      "step": 140
    },
    {
      "epoch": 0.4034582132564842,
      "eval_loss": 0.2348952293395996,
      "eval_runtime": 1.7807,
      "eval_samples_per_second": 87.042,
      "eval_steps_per_second": 11.231,
      "step": 140
    },
    {
      "epoch": 0.41786743515850144,
      "grad_norm": 2.753978967666626,
      "learning_rate": 0.0002585014409221902,
      "loss": 0.2716,
      "step": 145
    },
    {
      "epoch": 0.4322766570605187,
      "grad_norm": 0.8502065539360046,
      "learning_rate": 0.00025706051873198844,
      "loss": 0.2282,
      "step": 150
    },
    {
      "epoch": 0.4322766570605187,
      "eval_loss": 0.23007912933826447,
      "eval_runtime": 1.766,
      "eval_samples_per_second": 87.771,
      "eval_steps_per_second": 11.325,
      "step": 150
    },
    {
      "epoch": 0.44668587896253603,
      "grad_norm": 1.0703223943710327,
      "learning_rate": 0.00025561959654178673,
      "loss": 0.2374,
      "step": 155
    },
    {
      "epoch": 0.4610951008645533,
      "grad_norm": 0.7980679869651794,
      "learning_rate": 0.00025417867435158497,
      "loss": 0.2151,
      "step": 160
    },
    {
      "epoch": 0.4610951008645533,
      "eval_loss": 0.23066848516464233,
      "eval_runtime": 1.7821,
      "eval_samples_per_second": 86.978,
      "eval_steps_per_second": 11.223,
      "step": 160
    },
    {
      "epoch": 0.4755043227665706,
      "grad_norm": 1.1535905599594116,
      "learning_rate": 0.00025273775216138326,
      "loss": 0.2086,
      "step": 165
    },
    {
      "epoch": 0.4899135446685879,
      "grad_norm": 0.9484102725982666,
      "learning_rate": 0.00025129682997118155,
      "loss": 0.2127,
      "step": 170
    },
    {
      "epoch": 0.4899135446685879,
      "eval_loss": 0.2209121137857437,
      "eval_runtime": 1.7727,
      "eval_samples_per_second": 87.439,
      "eval_steps_per_second": 11.283,
      "step": 170
    },
    {
      "epoch": 0.5043227665706052,
      "grad_norm": 0.9559063911437988,
      "learning_rate": 0.0002498559077809798,
      "loss": 0.2134,
      "step": 175
    },
    {
      "epoch": 0.5187319884726225,
      "grad_norm": 0.66960209608078,
      "learning_rate": 0.00024841498559077807,
      "loss": 0.2555,
      "step": 180
    },
    {
      "epoch": 0.5187319884726225,
      "eval_loss": 0.21855449676513672,
      "eval_runtime": 1.7887,
      "eval_samples_per_second": 86.654,
      "eval_steps_per_second": 11.181,
      "step": 180
    },
    {
      "epoch": 0.5331412103746398,
      "grad_norm": 0.6968249082565308,
      "learning_rate": 0.00024697406340057636,
      "loss": 0.2199,
      "step": 185
    },
    {
      "epoch": 0.547550432276657,
      "grad_norm": 0.6100601553916931,
      "learning_rate": 0.00024553314121037465,
      "loss": 0.2348,
      "step": 190
    },
    {
      "epoch": 0.547550432276657,
      "eval_loss": 0.21677546203136444,
      "eval_runtime": 1.7784,
      "eval_samples_per_second": 87.156,
      "eval_steps_per_second": 11.246,
      "step": 190
    },
    {
      "epoch": 0.5619596541786743,
      "grad_norm": 0.6942987442016602,
      "learning_rate": 0.00024409221902017288,
      "loss": 0.2165,
      "step": 195
    },
    {
      "epoch": 0.5763688760806917,
      "grad_norm": 0.8180645704269409,
      "learning_rate": 0.00024265129682997117,
      "loss": 0.2141,
      "step": 200
    },
    {
      "epoch": 0.5763688760806917,
      "eval_loss": 0.21652507781982422,
      "eval_runtime": 1.7751,
      "eval_samples_per_second": 87.319,
      "eval_steps_per_second": 11.267,
      "step": 200
    },
    {
      "epoch": 0.590778097982709,
      "grad_norm": 0.6298684477806091,
      "learning_rate": 0.00024121037463976943,
      "loss": 0.2261,
      "step": 205
    },
    {
      "epoch": 0.6051873198847262,
      "grad_norm": 2.6468467712402344,
      "learning_rate": 0.0002397694524495677,
      "loss": 0.245,
      "step": 210
    },
    {
      "epoch": 0.6051873198847262,
      "eval_loss": 0.2188318818807602,
      "eval_runtime": 1.7737,
      "eval_samples_per_second": 87.389,
      "eval_steps_per_second": 11.276,
      "step": 210
    },
    {
      "epoch": 0.6195965417867435,
      "grad_norm": 0.6621644496917725,
      "learning_rate": 0.00023832853025936598,
      "loss": 0.1866,
      "step": 215
    },
    {
      "epoch": 0.6340057636887608,
      "grad_norm": 0.5494632124900818,
      "learning_rate": 0.00023688760806916425,
      "loss": 0.2128,
      "step": 220
    },
    {
      "epoch": 0.6340057636887608,
      "eval_loss": 0.21284270286560059,
      "eval_runtime": 1.787,
      "eval_samples_per_second": 86.739,
      "eval_steps_per_second": 11.192,
      "step": 220
    },
    {
      "epoch": 0.6484149855907781,
      "grad_norm": 0.5896772146224976,
      "learning_rate": 0.00023544668587896253,
      "loss": 0.2266,
      "step": 225
    },
    {
      "epoch": 0.6628242074927954,
      "grad_norm": 0.45764079689979553,
      "learning_rate": 0.0002340057636887608,
      "loss": 0.2393,
      "step": 230
    },
    {
      "epoch": 0.6628242074927954,
      "eval_loss": 0.21253199875354767,
      "eval_runtime": 1.7769,
      "eval_samples_per_second": 87.232,
      "eval_steps_per_second": 11.256,
      "step": 230
    },
    {
      "epoch": 0.6772334293948127,
      "grad_norm": 0.699612557888031,
      "learning_rate": 0.00023256484149855909,
      "loss": 0.2517,
      "step": 235
    },
    {
      "epoch": 0.69164265129683,
      "grad_norm": 0.42438164353370667,
      "learning_rate": 0.00023112391930835732,
      "loss": 0.2016,
      "step": 240
    },
    {
      "epoch": 0.69164265129683,
      "eval_loss": 0.21218827366828918,
      "eval_runtime": 1.7865,
      "eval_samples_per_second": 86.762,
      "eval_steps_per_second": 11.195,
      "step": 240
    },
    {
      "epoch": 0.7060518731988472,
      "grad_norm": 0.5191032886505127,
      "learning_rate": 0.00022968299711815558,
      "loss": 0.2218,
      "step": 245
    },
    {
      "epoch": 0.7204610951008645,
      "grad_norm": 0.5536476969718933,
      "learning_rate": 0.00022824207492795387,
      "loss": 0.2145,
      "step": 250
    },
    {
      "epoch": 0.7204610951008645,
      "eval_loss": 0.2105206400156021,
      "eval_runtime": 1.8096,
      "eval_samples_per_second": 85.654,
      "eval_steps_per_second": 11.052,
      "step": 250
    },
    {
      "epoch": 0.7348703170028819,
      "grad_norm": 0.5729750394821167,
      "learning_rate": 0.00022680115273775213,
      "loss": 0.2356,
      "step": 255
    },
    {
      "epoch": 0.7492795389048992,
      "grad_norm": 0.442891389131546,
      "learning_rate": 0.00022536023054755042,
      "loss": 0.203,
      "step": 260
    },
    {
      "epoch": 0.7492795389048992,
      "eval_loss": 0.20932228863239288,
      "eval_runtime": 1.77,
      "eval_samples_per_second": 87.57,
      "eval_steps_per_second": 11.299,
      "step": 260
    },
    {
      "epoch": 0.7636887608069164,
      "grad_norm": 0.556273341178894,
      "learning_rate": 0.00022391930835734868,
      "loss": 0.2092,
      "step": 265
    },
    {
      "epoch": 0.7780979827089337,
      "grad_norm": 0.461923211812973,
      "learning_rate": 0.00022247838616714695,
      "loss": 0.2116,
      "step": 270
    },
    {
      "epoch": 0.7780979827089337,
      "eval_loss": 0.2080857753753662,
      "eval_runtime": 1.7792,
      "eval_samples_per_second": 87.12,
      "eval_steps_per_second": 11.241,
      "step": 270
    },
    {
      "epoch": 0.792507204610951,
      "grad_norm": 0.5841118693351746,
      "learning_rate": 0.00022103746397694523,
      "loss": 0.2244,
      "step": 275
    },
    {
      "epoch": 0.8069164265129684,
      "grad_norm": 0.5412226319313049,
      "learning_rate": 0.0002195965417867435,
      "loss": 0.1943,
      "step": 280
    },
    {
      "epoch": 0.8069164265129684,
      "eval_loss": 0.208485409617424,
      "eval_runtime": 1.7916,
      "eval_samples_per_second": 86.515,
      "eval_steps_per_second": 11.163,
      "step": 280
    },
    {
      "epoch": 0.8213256484149856,
      "grad_norm": 0.5236246585845947,
      "learning_rate": 0.00021815561959654179,
      "loss": 0.2243,
      "step": 285
    },
    {
      "epoch": 0.8357348703170029,
      "grad_norm": 0.48271429538726807,
      "learning_rate": 0.00021671469740634002,
      "loss": 0.2123,
      "step": 290
    },
    {
      "epoch": 0.8357348703170029,
      "eval_loss": 0.20807716250419617,
      "eval_runtime": 1.7753,
      "eval_samples_per_second": 87.308,
      "eval_steps_per_second": 11.266,
      "step": 290
    },
    {
      "epoch": 0.8501440922190202,
      "grad_norm": 0.4914911985397339,
      "learning_rate": 0.0002152737752161383,
      "loss": 0.2252,
      "step": 295
    },
    {
      "epoch": 0.8645533141210374,
      "grad_norm": 0.46419402956962585,
      "learning_rate": 0.00021383285302593657,
      "loss": 0.1999,
      "step": 300
    },
    {
      "epoch": 0.8645533141210374,
      "eval_loss": 0.20786339044570923,
      "eval_runtime": 1.7845,
      "eval_samples_per_second": 86.858,
      "eval_steps_per_second": 11.208,
      "step": 300
    },
    {
      "epoch": 0.8789625360230547,
      "grad_norm": 0.540306568145752,
      "learning_rate": 0.00021239193083573483,
      "loss": 0.1856,
      "step": 305
    },
    {
      "epoch": 0.8933717579250721,
      "grad_norm": 0.46772050857543945,
      "learning_rate": 0.00021095100864553312,
      "loss": 0.2185,
      "step": 310
    },
    {
      "epoch": 0.8933717579250721,
      "eval_loss": 0.20842696726322174,
      "eval_runtime": 1.7693,
      "eval_samples_per_second": 87.604,
      "eval_steps_per_second": 11.304,
      "step": 310
    },
    {
      "epoch": 0.9077809798270894,
      "grad_norm": 0.5399373173713684,
      "learning_rate": 0.00020951008645533138,
      "loss": 0.2108,
      "step": 315
    },
    {
      "epoch": 0.9221902017291066,
      "grad_norm": 0.5167156457901001,
      "learning_rate": 0.00020806916426512967,
      "loss": 0.2364,
      "step": 320
    },
    {
      "epoch": 0.9221902017291066,
      "eval_loss": 0.2061736136674881,
      "eval_runtime": 1.7797,
      "eval_samples_per_second": 87.095,
      "eval_steps_per_second": 11.238,
      "step": 320
    },
    {
      "epoch": 0.9365994236311239,
      "grad_norm": 0.5894590616226196,
      "learning_rate": 0.00020662824207492793,
      "loss": 0.2185,
      "step": 325
    },
    {
      "epoch": 0.9510086455331412,
      "grad_norm": 0.4573725163936615,
      "learning_rate": 0.00020518731988472622,
      "loss": 0.2109,
      "step": 330
    },
    {
      "epoch": 0.9510086455331412,
      "eval_loss": 0.20550554990768433,
      "eval_runtime": 1.787,
      "eval_samples_per_second": 86.736,
      "eval_steps_per_second": 11.192,
      "step": 330
    },
    {
      "epoch": 0.9654178674351584,
      "grad_norm": 0.4973134696483612,
      "learning_rate": 0.00020374639769452449,
      "loss": 0.2354,
      "step": 335
    },
    {
      "epoch": 0.9798270893371758,
      "grad_norm": 0.5064740180969238,
      "learning_rate": 0.00020230547550432275,
      "loss": 0.2263,
      "step": 340
    },
    {
      "epoch": 0.9798270893371758,
      "eval_loss": 0.20669177174568176,
      "eval_runtime": 1.7751,
      "eval_samples_per_second": 87.32,
      "eval_steps_per_second": 11.267,
      "step": 340
    },
    {
      "epoch": 0.9942363112391931,
      "grad_norm": 0.6807605028152466,
      "learning_rate": 0.00020086455331412104,
      "loss": 0.1868,
      "step": 345
    },
    {
      "epoch": 1.0086455331412103,
      "grad_norm": 0.551680326461792,
      "learning_rate": 0.00019942363112391927,
      "loss": 0.2149,
      "step": 350
    },
    {
      "epoch": 1.0086455331412103,
      "eval_loss": 0.2055429071187973,
      "eval_runtime": 1.7741,
      "eval_samples_per_second": 87.371,
      "eval_steps_per_second": 11.274,
      "step": 350
    },
    {
      "epoch": 1.0230547550432276,
      "grad_norm": 0.4975515902042389,
      "learning_rate": 0.00019798270893371756,
      "loss": 0.2046,
      "step": 355
    },
    {
      "epoch": 1.037463976945245,
      "grad_norm": 0.55193692445755,
      "learning_rate": 0.00019654178674351582,
      "loss": 0.2091,
      "step": 360
    },
    {
      "epoch": 1.037463976945245,
      "eval_loss": 0.20510512590408325,
      "eval_runtime": 1.785,
      "eval_samples_per_second": 86.835,
      "eval_steps_per_second": 11.205,
      "step": 360
    },
    {
      "epoch": 1.0518731988472623,
      "grad_norm": 0.4859946668148041,
      "learning_rate": 0.0001951008645533141,
      "loss": 0.2124,
      "step": 365
    },
    {
      "epoch": 1.0662824207492796,
      "grad_norm": 0.5230706334114075,
      "learning_rate": 0.00019365994236311237,
      "loss": 0.2044,
      "step": 370
    },
    {
      "epoch": 1.0662824207492796,
      "eval_loss": 0.20450517535209656,
      "eval_runtime": 1.7787,
      "eval_samples_per_second": 87.14,
      "eval_steps_per_second": 11.244,
      "step": 370
    },
    {
      "epoch": 1.080691642651297,
      "grad_norm": 0.4757685363292694,
      "learning_rate": 0.00019221902017291063,
      "loss": 0.2041,
      "step": 375
    },
    {
      "epoch": 1.0951008645533142,
      "grad_norm": 0.47648361325263977,
      "learning_rate": 0.00019077809798270892,
      "loss": 0.2186,
      "step": 380
    },
    {
      "epoch": 1.0951008645533142,
      "eval_loss": 0.2045309692621231,
      "eval_runtime": 1.7831,
      "eval_samples_per_second": 86.927,
      "eval_steps_per_second": 11.216,
      "step": 380
    },
    {
      "epoch": 1.1095100864553313,
      "grad_norm": 0.6783398985862732,
      "learning_rate": 0.00018933717579250719,
      "loss": 0.2279,
      "step": 385
    },
    {
      "epoch": 1.1239193083573487,
      "grad_norm": 0.6662940382957458,
      "learning_rate": 0.00018789625360230547,
      "loss": 0.1721,
      "step": 390
    },
    {
      "epoch": 1.1239193083573487,
      "eval_loss": 0.2042209804058075,
      "eval_runtime": 1.7959,
      "eval_samples_per_second": 86.307,
      "eval_steps_per_second": 11.136,
      "step": 390
    },
    {
      "epoch": 1.138328530259366,
      "grad_norm": 0.5504616498947144,
      "learning_rate": 0.00018645533141210374,
      "loss": 0.2167,
      "step": 395
    },
    {
      "epoch": 1.1527377521613833,
      "grad_norm": 0.400045782327652,
      "learning_rate": 0.00018501440922190203,
      "loss": 0.1859,
      "step": 400
    },
    {
      "epoch": 1.1527377521613833,
      "eval_loss": 0.20452381670475006,
      "eval_runtime": 1.7689,
      "eval_samples_per_second": 87.624,
      "eval_steps_per_second": 11.306,
      "step": 400
    },
    {
      "epoch": 1.1671469740634006,
      "grad_norm": 0.4646718502044678,
      "learning_rate": 0.00018357348703170026,
      "loss": 0.1954,
      "step": 405
    },
    {
      "epoch": 1.181556195965418,
      "grad_norm": 0.4777772128582001,
      "learning_rate": 0.00018213256484149852,
      "loss": 0.2099,
      "step": 410
    },
    {
      "epoch": 1.181556195965418,
      "eval_loss": 0.2040420025587082,
      "eval_runtime": 1.7756,
      "eval_samples_per_second": 87.293,
      "eval_steps_per_second": 11.264,
      "step": 410
    },
    {
      "epoch": 1.195965417867435,
      "grad_norm": 0.5278341174125671,
      "learning_rate": 0.0001806916426512968,
      "loss": 0.1911,
      "step": 415
    },
    {
      "epoch": 1.2103746397694524,
      "grad_norm": 0.459689199924469,
      "learning_rate": 0.00017925072046109507,
      "loss": 0.1766,
      "step": 420
    },
    {
      "epoch": 1.2103746397694524,
      "eval_loss": 0.20372864603996277,
      "eval_runtime": 1.7739,
      "eval_samples_per_second": 87.38,
      "eval_steps_per_second": 11.275,
      "step": 420
    },
    {
      "epoch": 1.2247838616714697,
      "grad_norm": 0.5434823036193848,
      "learning_rate": 0.00017780979827089336,
      "loss": 0.186,
      "step": 425
    },
    {
      "epoch": 1.239193083573487,
      "grad_norm": 0.4612482488155365,
      "learning_rate": 0.00017636887608069162,
      "loss": 0.2171,
      "step": 430
    },
    {
      "epoch": 1.239193083573487,
      "eval_loss": 0.20268237590789795,
      "eval_runtime": 1.7749,
      "eval_samples_per_second": 87.328,
      "eval_steps_per_second": 11.268,
      "step": 430
    },
    {
      "epoch": 1.2536023054755043,
      "grad_norm": 0.5373527407646179,
      "learning_rate": 0.0001749279538904899,
      "loss": 0.2306,
      "step": 435
    },
    {
      "epoch": 1.2680115273775217,
      "grad_norm": 0.6169385313987732,
      "learning_rate": 0.00017348703170028817,
      "loss": 0.2243,
      "step": 440
    },
    {
      "epoch": 1.2680115273775217,
      "eval_loss": 0.2024766057729721,
      "eval_runtime": 1.7891,
      "eval_samples_per_second": 86.635,
      "eval_steps_per_second": 11.179,
      "step": 440
    },
    {
      "epoch": 1.282420749279539,
      "grad_norm": 0.49312788248062134,
      "learning_rate": 0.00017204610951008644,
      "loss": 0.1845,
      "step": 445
    },
    {
      "epoch": 1.2968299711815563,
      "grad_norm": 0.4392940402030945,
      "learning_rate": 0.00017060518731988473,
      "loss": 0.2133,
      "step": 450
    },
    {
      "epoch": 1.2968299711815563,
      "eval_loss": 0.20215217769145966,
      "eval_runtime": 1.7855,
      "eval_samples_per_second": 86.811,
      "eval_steps_per_second": 11.201,
      "step": 450
    },
    {
      "epoch": 1.3112391930835736,
      "grad_norm": 0.5321723818778992,
      "learning_rate": 0.000169164265129683,
      "loss": 0.1973,
      "step": 455
    },
    {
      "epoch": 1.3256484149855907,
      "grad_norm": 0.46987223625183105,
      "learning_rate": 0.00016772334293948128,
      "loss": 0.1694,
      "step": 460
    },
    {
      "epoch": 1.3256484149855907,
      "eval_loss": 0.20472992956638336,
      "eval_runtime": 1.7828,
      "eval_samples_per_second": 86.942,
      "eval_steps_per_second": 11.218,
      "step": 460
    },
    {
      "epoch": 1.340057636887608,
      "grad_norm": 0.5288825631141663,
      "learning_rate": 0.0001662824207492795,
      "loss": 0.1892,
      "step": 465
    },
    {
      "epoch": 1.3544668587896254,
      "grad_norm": 0.5629428029060364,
      "learning_rate": 0.0001648414985590778,
      "loss": 0.189,
      "step": 470
    },
    {
      "epoch": 1.3544668587896254,
      "eval_loss": 0.20317500829696655,
      "eval_runtime": 1.7746,
      "eval_samples_per_second": 87.341,
      "eval_steps_per_second": 11.27,
      "step": 470
    },
    {
      "epoch": 1.3688760806916427,
      "grad_norm": 0.4766279458999634,
      "learning_rate": 0.00016340057636887606,
      "loss": 0.1788,
      "step": 475
    },
    {
      "epoch": 1.38328530259366,
      "grad_norm": 0.43711772561073303,
      "learning_rate": 0.00016195965417867432,
      "loss": 0.2054,
      "step": 480
    },
    {
      "epoch": 1.38328530259366,
      "eval_loss": 0.20241950452327728,
      "eval_runtime": 1.7822,
      "eval_samples_per_second": 86.97,
      "eval_steps_per_second": 11.222,
      "step": 480
    },
    {
      "epoch": 1.397694524495677,
      "grad_norm": 0.6571159958839417,
      "learning_rate": 0.0001605187319884726,
      "loss": 0.1953,
      "step": 485
    },
    {
      "epoch": 1.4121037463976944,
      "grad_norm": 0.5928535461425781,
      "learning_rate": 0.00015907780979827087,
      "loss": 0.2118,
      "step": 490
    },
    {
      "epoch": 1.4121037463976944,
      "eval_loss": 0.20221129059791565,
      "eval_runtime": 1.7713,
      "eval_samples_per_second": 87.504,
      "eval_steps_per_second": 11.291,
      "step": 490
    },
    {
      "epoch": 1.4265129682997117,
      "grad_norm": 0.5120033025741577,
      "learning_rate": 0.00015763688760806916,
      "loss": 0.2251,
      "step": 495
    },
    {
      "epoch": 1.440922190201729,
      "grad_norm": 0.5128481388092041,
      "learning_rate": 0.00015619596541786743,
      "loss": 0.2221,
      "step": 500
    },
    {
      "epoch": 1.440922190201729,
      "eval_loss": 0.20349927246570587,
      "eval_runtime": 1.7928,
      "eval_samples_per_second": 86.457,
      "eval_steps_per_second": 11.156,
      "step": 500
    },
    {
      "epoch": 1.4553314121037464,
      "grad_norm": 0.4616795480251312,
      "learning_rate": 0.0001547550432276657,
      "loss": 0.2036,
      "step": 505
    },
    {
      "epoch": 1.4697406340057637,
      "grad_norm": 0.5091164112091064,
      "learning_rate": 0.00015331412103746398,
      "loss": 0.2036,
      "step": 510
    },
    {
      "epoch": 1.4697406340057637,
      "eval_loss": 0.2018601894378662,
      "eval_runtime": 1.8038,
      "eval_samples_per_second": 85.928,
      "eval_steps_per_second": 11.088,
      "step": 510
    },
    {
      "epoch": 1.484149855907781,
      "grad_norm": 0.48645836114883423,
      "learning_rate": 0.0001518731988472622,
      "loss": 0.2059,
      "step": 515
    },
    {
      "epoch": 1.4985590778097984,
      "grad_norm": 0.46957656741142273,
      "learning_rate": 0.0001504322766570605,
      "loss": 0.2032,
      "step": 520
    },
    {
      "epoch": 1.4985590778097984,
      "eval_loss": 0.2017858922481537,
      "eval_runtime": 1.7969,
      "eval_samples_per_second": 86.26,
      "eval_steps_per_second": 11.13,
      "step": 520
    },
    {
      "epoch": 1.5129682997118157,
      "grad_norm": 0.47207146883010864,
      "learning_rate": 0.00014899135446685876,
      "loss": 0.2121,
      "step": 525
    },
    {
      "epoch": 1.527377521613833,
      "grad_norm": 0.4411737024784088,
      "learning_rate": 0.00014755043227665705,
      "loss": 0.2045,
      "step": 530
    },
    {
      "epoch": 1.527377521613833,
      "eval_loss": 0.20163200795650482,
      "eval_runtime": 1.7919,
      "eval_samples_per_second": 86.499,
      "eval_steps_per_second": 11.161,
      "step": 530
    },
    {
      "epoch": 1.54178674351585,
      "grad_norm": 0.5532639026641846,
      "learning_rate": 0.0001461095100864553,
      "loss": 0.2184,
      "step": 535
    },
    {
      "epoch": 1.5561959654178674,
      "grad_norm": 0.3798025846481323,
      "learning_rate": 0.0001446685878962536,
      "loss": 0.1842,
      "step": 540
    },
    {
      "epoch": 1.5561959654178674,
      "eval_loss": 0.20085880160331726,
      "eval_runtime": 1.7882,
      "eval_samples_per_second": 86.68,
      "eval_steps_per_second": 11.185,
      "step": 540
    },
    {
      "epoch": 1.5706051873198847,
      "grad_norm": 0.37717685103416443,
      "learning_rate": 0.00014322766570605186,
      "loss": 0.18,
      "step": 545
    },
    {
      "epoch": 1.585014409221902,
      "grad_norm": 0.3843863606452942,
      "learning_rate": 0.00014178674351585013,
      "loss": 0.1884,
      "step": 550
    },
    {
      "epoch": 1.585014409221902,
      "eval_loss": 0.20081885159015656,
      "eval_runtime": 1.7697,
      "eval_samples_per_second": 87.587,
      "eval_steps_per_second": 11.302,
      "step": 550
    },
    {
      "epoch": 1.5994236311239192,
      "grad_norm": 0.44589126110076904,
      "learning_rate": 0.00014034582132564841,
      "loss": 0.2239,
      "step": 555
    },
    {
      "epoch": 1.6138328530259365,
      "grad_norm": 0.47011956572532654,
      "learning_rate": 0.00013890489913544668,
      "loss": 0.1746,
      "step": 560
    },
    {
      "epoch": 1.6138328530259365,
      "eval_loss": 0.20064498484134674,
      "eval_runtime": 1.7785,
      "eval_samples_per_second": 87.153,
      "eval_steps_per_second": 11.246,
      "step": 560
    },
    {
      "epoch": 1.6282420749279538,
      "grad_norm": 0.4640989899635315,
      "learning_rate": 0.00013746397694524494,
      "loss": 0.1897,
      "step": 565
    },
    {
      "epoch": 1.6426512968299711,
      "grad_norm": 0.4140304625034332,
      "learning_rate": 0.00013602305475504323,
      "loss": 0.2143,
      "step": 570
    },
    {
      "epoch": 1.6426512968299711,
      "eval_loss": 0.20059892535209656,
      "eval_runtime": 1.7771,
      "eval_samples_per_second": 87.22,
      "eval_steps_per_second": 11.254,
      "step": 570
    },
    {
      "epoch": 1.6570605187319885,
      "grad_norm": 0.5634166598320007,
      "learning_rate": 0.0001345821325648415,
      "loss": 0.1838,
      "step": 575
    },
    {
      "epoch": 1.6714697406340058,
      "grad_norm": 0.4056183993816376,
      "learning_rate": 0.00013314121037463975,
      "loss": 0.1843,
      "step": 580
    },
    {
      "epoch": 1.6714697406340058,
      "eval_loss": 0.20035365223884583,
      "eval_runtime": 1.7767,
      "eval_samples_per_second": 87.241,
      "eval_steps_per_second": 11.257,
      "step": 580
    },
    {
      "epoch": 1.685878962536023,
      "grad_norm": 0.4725261628627777,
      "learning_rate": 0.00013170028818443804,
      "loss": 0.2345,
      "step": 585
    },
    {
      "epoch": 1.7002881844380404,
      "grad_norm": 0.4181499481201172,
      "learning_rate": 0.0001302593659942363,
      "loss": 0.2028,
      "step": 590
    },
    {
      "epoch": 1.7002881844380404,
      "eval_loss": 0.2000962197780609,
      "eval_runtime": 1.781,
      "eval_samples_per_second": 87.028,
      "eval_steps_per_second": 11.229,
      "step": 590
    },
    {
      "epoch": 1.7146974063400577,
      "grad_norm": 0.5479499101638794,
      "learning_rate": 0.00012881844380403456,
      "loss": 0.2121,
      "step": 595
    },
    {
      "epoch": 1.729106628242075,
      "grad_norm": 0.49796512722969055,
      "learning_rate": 0.00012737752161383283,
      "loss": 0.1993,
      "step": 600
    },
    {
      "epoch": 1.729106628242075,
      "eval_loss": 0.2000320702791214,
      "eval_runtime": 1.7839,
      "eval_samples_per_second": 86.888,
      "eval_steps_per_second": 11.211,
      "step": 600
    },
    {
      "epoch": 1.7435158501440924,
      "grad_norm": 0.4585292339324951,
      "learning_rate": 0.00012593659942363111,
      "loss": 0.1885,
      "step": 605
    },
    {
      "epoch": 1.7579250720461095,
      "grad_norm": 0.5045236945152283,
      "learning_rate": 0.00012449567723342938,
      "loss": 0.2005,
      "step": 610
    },
    {
      "epoch": 1.7579250720461095,
      "eval_loss": 0.19937343895435333,
      "eval_runtime": 1.7792,
      "eval_samples_per_second": 87.119,
      "eval_steps_per_second": 11.241,
      "step": 610
    },
    {
      "epoch": 1.7723342939481268,
      "grad_norm": 0.4200640022754669,
      "learning_rate": 0.00012305475504322767,
      "loss": 0.2043,
      "step": 615
    },
    {
      "epoch": 1.7867435158501441,
      "grad_norm": 0.44112369418144226,
      "learning_rate": 0.00012161383285302593,
      "loss": 0.2055,
      "step": 620
    },
    {
      "epoch": 1.7867435158501441,
      "eval_loss": 0.19952693581581116,
      "eval_runtime": 1.7818,
      "eval_samples_per_second": 86.993,
      "eval_steps_per_second": 11.225,
      "step": 620
    },
    {
      "epoch": 1.8011527377521612,
      "grad_norm": 0.4573463499546051,
      "learning_rate": 0.00012017291066282419,
      "loss": 0.1886,
      "step": 625
    },
    {
      "epoch": 1.8155619596541785,
      "grad_norm": 0.4851074516773224,
      "learning_rate": 0.00011873198847262246,
      "loss": 0.1967,
      "step": 630
    },
    {
      "epoch": 1.8155619596541785,
      "eval_loss": 0.19990864396095276,
      "eval_runtime": 1.7816,
      "eval_samples_per_second": 87.0,
      "eval_steps_per_second": 11.226,
      "step": 630
    },
    {
      "epoch": 1.8299711815561959,
      "grad_norm": 0.4560496509075165,
      "learning_rate": 0.00011729106628242074,
      "loss": 0.2134,
      "step": 635
    },
    {
      "epoch": 1.8443804034582132,
      "grad_norm": 0.5062277317047119,
      "learning_rate": 0.00011585014409221902,
      "loss": 0.1999,
      "step": 640
    },
    {
      "epoch": 1.8443804034582132,
      "eval_loss": 0.19952501356601715,
      "eval_runtime": 1.7865,
      "eval_samples_per_second": 86.762,
      "eval_steps_per_second": 11.195,
      "step": 640
    },
    {
      "epoch": 1.8587896253602305,
      "grad_norm": 0.5651894807815552,
      "learning_rate": 0.00011440922190201728,
      "loss": 0.203,
      "step": 645
    },
    {
      "epoch": 1.8731988472622478,
      "grad_norm": 0.4294355809688568,
      "learning_rate": 0.00011296829971181555,
      "loss": 0.1899,
      "step": 650
    },
    {
      "epoch": 1.8731988472622478,
      "eval_loss": 0.19932051002979279,
      "eval_runtime": 1.7807,
      "eval_samples_per_second": 87.044,
      "eval_steps_per_second": 11.231,
      "step": 650
    },
    {
      "epoch": 1.8876080691642652,
      "grad_norm": 0.49073395133018494,
      "learning_rate": 0.00011152737752161383,
      "loss": 0.1719,
      "step": 655
    },
    {
      "epoch": 1.9020172910662825,
      "grad_norm": 0.5511584877967834,
      "learning_rate": 0.00011008645533141209,
      "loss": 0.1819,
      "step": 660
    },
    {
      "epoch": 1.9020172910662825,
      "eval_loss": 0.19900086522102356,
      "eval_runtime": 1.7807,
      "eval_samples_per_second": 87.044,
      "eval_steps_per_second": 11.232,
      "step": 660
    },
    {
      "epoch": 1.9164265129682998,
      "grad_norm": 0.5805220007896423,
      "learning_rate": 0.00010864553314121037,
      "loss": 0.2017,
      "step": 665
    },
    {
      "epoch": 1.9308357348703171,
      "grad_norm": 0.44642174243927,
      "learning_rate": 0.00010720461095100864,
      "loss": 0.1737,
      "step": 670
    },
    {
      "epoch": 1.9308357348703171,
      "eval_loss": 0.19866690039634705,
      "eval_runtime": 1.7717,
      "eval_samples_per_second": 87.485,
      "eval_steps_per_second": 11.288,
      "step": 670
    },
    {
      "epoch": 1.9452449567723344,
      "grad_norm": 0.42899489402770996,
      "learning_rate": 0.0001057636887608069,
      "loss": 0.1939,
      "step": 675
    },
    {
      "epoch": 1.9596541786743515,
      "grad_norm": 0.4786996841430664,
      "learning_rate": 0.00010432276657060518,
      "loss": 0.2328,
      "step": 680
    },
    {
      "epoch": 1.9596541786743515,
      "eval_loss": 0.1981932669878006,
      "eval_runtime": 1.7915,
      "eval_samples_per_second": 86.522,
      "eval_steps_per_second": 11.164,
      "step": 680
    },
    {
      "epoch": 1.9740634005763689,
      "grad_norm": 0.44985663890838623,
      "learning_rate": 0.00010288184438040345,
      "loss": 0.1819,
      "step": 685
    },
    {
      "epoch": 1.9884726224783862,
      "grad_norm": 0.42518705129623413,
      "learning_rate": 0.00010144092219020172,
      "loss": 0.2063,
      "step": 690
    },
    {
      "epoch": 1.9884726224783862,
      "eval_loss": 0.19816331565380096,
      "eval_runtime": 1.778,
      "eval_samples_per_second": 87.175,
      "eval_steps_per_second": 11.248,
      "step": 690
    },
    {
      "epoch": 2.0028818443804033,
      "grad_norm": 0.4421190619468689,
      "learning_rate": 9.999999999999999e-05,
      "loss": 0.2381,
      "step": 695
    },
    {
      "epoch": 2.0172910662824206,
      "grad_norm": 0.44720008969306946,
      "learning_rate": 9.855907780979825e-05,
      "loss": 0.1827,
      "step": 700
    },
    {
      "epoch": 2.0172910662824206,
      "eval_loss": 0.1987195909023285,
      "eval_runtime": 1.8003,
      "eval_samples_per_second": 86.095,
      "eval_steps_per_second": 11.109,
      "step": 700
    },
    {
      "epoch": 2.031700288184438,
      "grad_norm": 0.5390461683273315,
      "learning_rate": 9.711815561959653e-05,
      "loss": 0.2097,
      "step": 705
    },
    {
      "epoch": 2.0461095100864553,
      "grad_norm": 0.4617297947406769,
      "learning_rate": 9.56772334293948e-05,
      "loss": 0.2101,
      "step": 710
    },
    {
      "epoch": 2.0461095100864553,
      "eval_loss": 0.19854187965393066,
      "eval_runtime": 1.7961,
      "eval_samples_per_second": 86.299,
      "eval_steps_per_second": 11.135,
      "step": 710
    },
    {
      "epoch": 2.0605187319884726,
      "grad_norm": 0.4737541079521179,
      "learning_rate": 9.423631123919308e-05,
      "loss": 0.208,
      "step": 715
    },
    {
      "epoch": 2.07492795389049,
      "grad_norm": 0.582775354385376,
      "learning_rate": 9.279538904899135e-05,
      "loss": 0.1854,
      "step": 720
    },
    {
      "epoch": 2.07492795389049,
      "eval_loss": 0.19860170781612396,
      "eval_runtime": 1.7927,
      "eval_samples_per_second": 86.464,
      "eval_steps_per_second": 11.157,
      "step": 720
    },
    {
      "epoch": 2.089337175792507,
      "grad_norm": 0.532686173915863,
      "learning_rate": 9.135446685878962e-05,
      "loss": 0.1972,
      "step": 725
    },
    {
      "epoch": 2.1037463976945245,
      "grad_norm": 0.5368837714195251,
      "learning_rate": 8.991354466858788e-05,
      "loss": 0.1933,
      "step": 730
    },
    {
      "epoch": 2.1037463976945245,
      "eval_loss": 0.1989794820547104,
      "eval_runtime": 1.787,
      "eval_samples_per_second": 86.738,
      "eval_steps_per_second": 11.192,
      "step": 730
    },
    {
      "epoch": 2.118155619596542,
      "grad_norm": 0.4096311032772064,
      "learning_rate": 8.847262247838615e-05,
      "loss": 0.216,
      "step": 735
    },
    {
      "epoch": 2.132564841498559,
      "grad_norm": 0.565958559513092,
      "learning_rate": 8.703170028818443e-05,
      "loss": 0.2091,
      "step": 740
    },
    {
      "epoch": 2.132564841498559,
      "eval_loss": 0.1991860717535019,
      "eval_runtime": 1.7801,
      "eval_samples_per_second": 87.076,
      "eval_steps_per_second": 11.236,
      "step": 740
    },
    {
      "epoch": 2.1469740634005765,
      "grad_norm": 0.49229133129119873,
      "learning_rate": 8.55907780979827e-05,
      "loss": 0.1869,
      "step": 745
    },
    {
      "epoch": 2.161383285302594,
      "grad_norm": 0.4366638660430908,
      "learning_rate": 8.414985590778098e-05,
      "loss": 0.1694,
      "step": 750
    },
    {
      "epoch": 2.161383285302594,
      "eval_loss": 0.1993846446275711,
      "eval_runtime": 1.7803,
      "eval_samples_per_second": 87.063,
      "eval_steps_per_second": 11.234,
      "step": 750
    },
    {
      "epoch": 2.175792507204611,
      "grad_norm": 0.5318723320960999,
      "learning_rate": 8.270893371757926e-05,
      "loss": 0.1953,
      "step": 755
    },
    {
      "epoch": 2.1902017291066285,
      "grad_norm": 0.4861218333244324,
      "learning_rate": 8.12680115273775e-05,
      "loss": 0.1721,
      "step": 760
    },
    {
      "epoch": 2.1902017291066285,
      "eval_loss": 0.19942361116409302,
      "eval_runtime": 1.8023,
      "eval_samples_per_second": 86.001,
      "eval_steps_per_second": 11.097,
      "step": 760
    },
    {
      "epoch": 2.2046109510086453,
      "grad_norm": 0.5396477580070496,
      "learning_rate": 7.982708933717578e-05,
      "loss": 0.1927,
      "step": 765
    },
    {
      "epoch": 2.2190201729106627,
      "grad_norm": 0.4643673598766327,
      "learning_rate": 7.838616714697405e-05,
      "loss": 0.1883,
      "step": 770
    },
    {
      "epoch": 2.2190201729106627,
      "eval_loss": 0.19924961030483246,
      "eval_runtime": 1.7928,
      "eval_samples_per_second": 86.457,
      "eval_steps_per_second": 11.156,
      "step": 770
    },
    {
      "epoch": 2.23342939481268,
      "grad_norm": 0.4864201545715332,
      "learning_rate": 7.694524495677233e-05,
      "loss": 0.1801,
      "step": 775
    },
    {
      "epoch": 2.2478386167146973,
      "grad_norm": 0.41535478830337524,
      "learning_rate": 7.55043227665706e-05,
      "loss": 0.1779,
      "step": 780
    },
    {
      "epoch": 2.2478386167146973,
      "eval_loss": 0.19901590049266815,
      "eval_runtime": 1.7833,
      "eval_samples_per_second": 86.917,
      "eval_steps_per_second": 11.215,
      "step": 780
    },
    {
      "epoch": 2.2622478386167146,
      "grad_norm": 0.4977608025074005,
      "learning_rate": 7.406340057636887e-05,
      "loss": 0.1801,
      "step": 785
    },
    {
      "epoch": 2.276657060518732,
      "grad_norm": 0.4228823781013489,
      "learning_rate": 7.262247838616714e-05,
      "loss": 0.1992,
      "step": 790
    },
    {
      "epoch": 2.276657060518732,
      "eval_loss": 0.19835665822029114,
      "eval_runtime": 1.7963,
      "eval_samples_per_second": 86.289,
      "eval_steps_per_second": 11.134,
      "step": 790
    },
    {
      "epoch": 2.2910662824207493,
      "grad_norm": 0.5940558314323425,
      "learning_rate": 7.118155619596542e-05,
      "loss": 0.1877,
      "step": 795
    },
    {
      "epoch": 2.3054755043227666,
      "grad_norm": 0.5785874724388123,
      "learning_rate": 6.974063400576368e-05,
      "loss": 0.1987,
      "step": 800
    },
    {
      "epoch": 2.3054755043227666,
      "eval_loss": 0.19842053949832916,
      "eval_runtime": 1.7908,
      "eval_samples_per_second": 86.553,
      "eval_steps_per_second": 11.168,
      "step": 800
    },
    {
      "epoch": 2.319884726224784,
      "grad_norm": 0.4548996388912201,
      "learning_rate": 6.829971181556196e-05,
      "loss": 0.1903,
      "step": 805
    },
    {
      "epoch": 2.3342939481268012,
      "grad_norm": 0.5720356106758118,
      "learning_rate": 6.685878962536023e-05,
      "loss": 0.1817,
      "step": 810
    },
    {
      "epoch": 2.3342939481268012,
      "eval_loss": 0.19885385036468506,
      "eval_runtime": 1.7713,
      "eval_samples_per_second": 87.505,
      "eval_steps_per_second": 11.291,
      "step": 810
    },
    {
      "epoch": 2.3487031700288186,
      "grad_norm": 0.6115606427192688,
      "learning_rate": 6.541786743515849e-05,
      "loss": 0.1793,
      "step": 815
    },
    {
      "epoch": 2.363112391930836,
      "grad_norm": 0.5724362134933472,
      "learning_rate": 6.397694524495677e-05,
      "loss": 0.2322,
      "step": 820
    },
    {
      "epoch": 2.363112391930836,
      "eval_loss": 0.19859647750854492,
      "eval_runtime": 1.7959,
      "eval_samples_per_second": 86.31,
      "eval_steps_per_second": 11.137,
      "step": 820
    },
    {
      "epoch": 2.377521613832853,
      "grad_norm": 0.5599442720413208,
      "learning_rate": 6.253602305475504e-05,
      "loss": 0.2018,
      "step": 825
    },
    {
      "epoch": 2.39193083573487,
      "grad_norm": 0.5310724377632141,
      "learning_rate": 6.10951008645533e-05,
      "loss": 0.1891,
      "step": 830
    },
    {
      "epoch": 2.39193083573487,
      "eval_loss": 0.19837234914302826,
      "eval_runtime": 1.7902,
      "eval_samples_per_second": 86.584,
      "eval_steps_per_second": 11.172,
      "step": 830
    },
    {
      "epoch": 2.4063400576368874,
      "grad_norm": 0.49322766065597534,
      "learning_rate": 5.9654178674351575e-05,
      "loss": 0.1905,
      "step": 835
    },
    {
      "epoch": 2.4207492795389047,
      "grad_norm": 0.5298819541931152,
      "learning_rate": 5.821325648414985e-05,
      "loss": 0.1884,
      "step": 840
    },
    {
      "epoch": 2.4207492795389047,
      "eval_loss": 0.19790256023406982,
      "eval_runtime": 1.7729,
      "eval_samples_per_second": 87.428,
      "eval_steps_per_second": 11.281,
      "step": 840
    },
    {
      "epoch": 2.435158501440922,
      "grad_norm": 0.4365543723106384,
      "learning_rate": 5.6772334293948125e-05,
      "loss": 0.19,
      "step": 845
    },
    {
      "epoch": 2.4495677233429394,
      "grad_norm": 0.5986719131469727,
      "learning_rate": 5.533141210374639e-05,
      "loss": 0.2034,
      "step": 850
    },
    {
      "epoch": 2.4495677233429394,
      "eval_loss": 0.197686105966568,
      "eval_runtime": 1.7835,
      "eval_samples_per_second": 86.908,
      "eval_steps_per_second": 11.214,
      "step": 850
    },
    {
      "epoch": 2.4639769452449567,
      "grad_norm": 0.4506608247756958,
      "learning_rate": 5.389048991354466e-05,
      "loss": 0.1498,
      "step": 855
    },
    {
      "epoch": 2.478386167146974,
      "grad_norm": 0.4216344654560089,
      "learning_rate": 5.244956772334294e-05,
      "loss": 0.1995,
      "step": 860
    },
    {
      "epoch": 2.478386167146974,
      "eval_loss": 0.19728927314281464,
      "eval_runtime": 1.7891,
      "eval_samples_per_second": 86.636,
      "eval_steps_per_second": 11.179,
      "step": 860
    },
    {
      "epoch": 2.4927953890489913,
      "grad_norm": 0.5227183103561401,
      "learning_rate": 5.100864553314121e-05,
      "loss": 0.1796,
      "step": 865
    },
    {
      "epoch": 2.5072046109510087,
      "grad_norm": 0.5168836712837219,
      "learning_rate": 4.9567723342939476e-05,
      "loss": 0.1684,
      "step": 870
    },
    {
      "epoch": 2.5072046109510087,
      "eval_loss": 0.1969619244337082,
      "eval_runtime": 1.7718,
      "eval_samples_per_second": 87.481,
      "eval_steps_per_second": 11.288,
      "step": 870
    },
    {
      "epoch": 2.521613832853026,
      "grad_norm": 0.4830915629863739,
      "learning_rate": 4.812680115273775e-05,
      "loss": 0.1791,
      "step": 875
    },
    {
      "epoch": 2.5360230547550433,
      "grad_norm": 0.46774524450302124,
      "learning_rate": 4.668587896253602e-05,
      "loss": 0.1686,
      "step": 880
    },
    {
      "epoch": 2.5360230547550433,
      "eval_loss": 0.1968482881784439,
      "eval_runtime": 1.7701,
      "eval_samples_per_second": 87.564,
      "eval_steps_per_second": 11.299,
      "step": 880
    },
    {
      "epoch": 2.5504322766570606,
      "grad_norm": 0.5271076560020447,
      "learning_rate": 4.524495677233429e-05,
      "loss": 0.2292,
      "step": 885
    },
    {
      "epoch": 2.564841498559078,
      "grad_norm": 0.5477223992347717,
      "learning_rate": 4.3804034582132564e-05,
      "loss": 0.2002,
      "step": 890
    },
    {
      "epoch": 2.564841498559078,
      "eval_loss": 0.19697827100753784,
      "eval_runtime": 1.7775,
      "eval_samples_per_second": 87.202,
      "eval_steps_per_second": 11.252,
      "step": 890
    },
    {
      "epoch": 2.5792507204610953,
      "grad_norm": 0.5050249695777893,
      "learning_rate": 4.236311239193083e-05,
      "loss": 0.1842,
      "step": 895
    },
    {
      "epoch": 2.5936599423631126,
      "grad_norm": 0.4689369201660156,
      "learning_rate": 4.09221902017291e-05,
      "loss": 0.1989,
      "step": 900
    },
    {
      "epoch": 2.5936599423631126,
      "eval_loss": 0.19711896777153015,
      "eval_runtime": 1.7779,
      "eval_samples_per_second": 87.181,
      "eval_steps_per_second": 11.249,
      "step": 900
    },
    {
      "epoch": 2.60806916426513,
      "grad_norm": 0.4809912145137787,
      "learning_rate": 3.948126801152737e-05,
      "loss": 0.1896,
      "step": 905
    },
    {
      "epoch": 2.6224783861671472,
      "grad_norm": 0.5310996174812317,
      "learning_rate": 3.8040345821325645e-05,
      "loss": 0.1837,
      "step": 910
    },
    {
      "epoch": 2.6224783861671472,
      "eval_loss": 0.19707301259040833,
      "eval_runtime": 1.7997,
      "eval_samples_per_second": 86.127,
      "eval_steps_per_second": 11.113,
      "step": 910
    },
    {
      "epoch": 2.636887608069164,
      "grad_norm": 0.5194202065467834,
      "learning_rate": 3.6599423631123914e-05,
      "loss": 0.1965,
      "step": 915
    },
    {
      "epoch": 2.6512968299711814,
      "grad_norm": 0.5268927812576294,
      "learning_rate": 3.515850144092219e-05,
      "loss": 0.1978,
      "step": 920
    },
    {
      "epoch": 2.6512968299711814,
      "eval_loss": 0.19690388441085815,
      "eval_runtime": 1.7802,
      "eval_samples_per_second": 87.069,
      "eval_steps_per_second": 11.235,
      "step": 920
    },
    {
      "epoch": 2.6657060518731988,
      "grad_norm": 0.43076756596565247,
      "learning_rate": 3.371757925072046e-05,
      "loss": 0.1616,
      "step": 925
    },
    {
      "epoch": 2.680115273775216,
      "grad_norm": 0.4744175374507904,
      "learning_rate": 3.2276657060518727e-05,
      "loss": 0.2015,
      "step": 930
    },
    {
      "epoch": 2.680115273775216,
      "eval_loss": 0.1967049390077591,
      "eval_runtime": 1.7776,
      "eval_samples_per_second": 87.198,
      "eval_steps_per_second": 11.251,
      "step": 930
    },
    {
      "epoch": 2.6945244956772334,
      "grad_norm": 0.5074586868286133,
      "learning_rate": 3.0835734870317e-05,
      "loss": 0.2332,
      "step": 935
    },
    {
      "epoch": 2.7089337175792507,
      "grad_norm": 0.6548565030097961,
      "learning_rate": 2.939481268011527e-05,
      "loss": 0.1998,
      "step": 940
    },
    {
      "epoch": 2.7089337175792507,
      "eval_loss": 0.19677585363388062,
      "eval_runtime": 1.7853,
      "eval_samples_per_second": 86.821,
      "eval_steps_per_second": 11.203,
      "step": 940
    },
    {
      "epoch": 2.723342939481268,
      "grad_norm": 0.47033998370170593,
      "learning_rate": 2.7953890489913543e-05,
      "loss": 0.1756,
      "step": 945
    },
    {
      "epoch": 2.7377521613832854,
      "grad_norm": 0.4205470383167267,
      "learning_rate": 2.6512968299711815e-05,
      "loss": 0.1866,
      "step": 950
    },
    {
      "epoch": 2.7377521613832854,
      "eval_loss": 0.1967228651046753,
      "eval_runtime": 1.7804,
      "eval_samples_per_second": 87.058,
      "eval_steps_per_second": 11.233,
      "step": 950
    },
    {
      "epoch": 2.7521613832853027,
      "grad_norm": 0.47508129477500916,
      "learning_rate": 2.5072046109510083e-05,
      "loss": 0.1741,
      "step": 955
    },
    {
      "epoch": 2.76657060518732,
      "grad_norm": 0.412384569644928,
      "learning_rate": 2.3631123919308355e-05,
      "loss": 0.2009,
      "step": 960
    },
    {
      "epoch": 2.76657060518732,
      "eval_loss": 0.1967916190624237,
      "eval_runtime": 1.7727,
      "eval_samples_per_second": 87.439,
      "eval_steps_per_second": 11.282,
      "step": 960
    },
    {
      "epoch": 2.7809798270893373,
      "grad_norm": 0.6153486371040344,
      "learning_rate": 2.2190201729106624e-05,
      "loss": 0.2123,
      "step": 965
    },
    {
      "epoch": 2.795389048991354,
      "grad_norm": 0.4739130139350891,
      "learning_rate": 2.07492795389049e-05,
      "loss": 0.1686,
      "step": 970
    },
    {
      "epoch": 2.795389048991354,
      "eval_loss": 0.19692417979240417,
      "eval_runtime": 1.7768,
      "eval_samples_per_second": 87.234,
      "eval_steps_per_second": 11.256,
      "step": 970
    },
    {
      "epoch": 2.8097982708933715,
      "grad_norm": 0.5100451707839966,
      "learning_rate": 1.9308357348703168e-05,
      "loss": 0.1524,
      "step": 975
    },
    {
      "epoch": 2.824207492795389,
      "grad_norm": 0.4990577697753906,
      "learning_rate": 1.786743515850144e-05,
      "loss": 0.189,
      "step": 980
    },
    {
      "epoch": 2.824207492795389,
      "eval_loss": 0.19698160886764526,
      "eval_runtime": 1.7793,
      "eval_samples_per_second": 87.113,
      "eval_steps_per_second": 11.24,
      "step": 980
    },
    {
      "epoch": 2.838616714697406,
      "grad_norm": 0.5253724455833435,
      "learning_rate": 1.6426512968299712e-05,
      "loss": 0.1804,
      "step": 985
    },
    {
      "epoch": 2.8530259365994235,
      "grad_norm": 0.4607682526111603,
      "learning_rate": 1.4985590778097981e-05,
      "loss": 0.174,
      "step": 990
    },
    {
      "epoch": 2.8530259365994235,
      "eval_loss": 0.19698897004127502,
      "eval_runtime": 1.7737,
      "eval_samples_per_second": 87.387,
      "eval_steps_per_second": 11.276,
      "step": 990
    },
    {
      "epoch": 2.867435158501441,
      "grad_norm": 0.525158166885376,
      "learning_rate": 1.3544668587896251e-05,
      "loss": 0.1927,
      "step": 995
    },
    {
      "epoch": 2.881844380403458,
      "grad_norm": 0.5077706575393677,
      "learning_rate": 1.2103746397694523e-05,
      "loss": 0.1794,
      "step": 1000
    },
    {
      "epoch": 2.881844380403458,
      "eval_loss": 0.19700436294078827,
      "eval_runtime": 1.8163,
      "eval_samples_per_second": 85.339,
      "eval_steps_per_second": 11.012,
      "step": 1000
    }
  ],
  "logging_steps": 5,
  "max_steps": 1041,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 10,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.2719566413103104e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}