{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 1250,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.04,
      "grad_norm": 2.4589810371398926,
      "learning_rate": 0.00029783999999999995,
      "loss": 4.4167,
      "step": 10
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.601901054382324,
      "learning_rate": 0.00029544,
      "loss": 2.9806,
      "step": 20
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.307953357696533,
      "learning_rate": 0.00029304,
      "loss": 1.8472,
      "step": 30
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.291213035583496,
      "learning_rate": 0.00029064,
      "loss": 1.2928,
      "step": 40
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.0303196907043457,
      "learning_rate": 0.00028824,
      "loss": 1.0627,
      "step": 50
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.6785004138946533,
      "learning_rate": 0.00028584,
      "loss": 0.9565,
      "step": 60
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.4240469932556152,
      "learning_rate": 0.00028344,
      "loss": 0.9233,
      "step": 70
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.694885492324829,
      "learning_rate": 0.00028104,
      "loss": 0.9178,
      "step": 80
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.5424692630767822,
      "learning_rate": 0.00027864,
      "loss": 0.7373,
      "step": 90
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.2910563945770264,
      "learning_rate": 0.00027623999999999997,
      "loss": 0.5325,
      "step": 100
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.6730836629867554,
      "learning_rate": 0.00027383999999999997,
      "loss": 0.645,
      "step": 110
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6389782428741455,
      "learning_rate": 0.00027144,
      "loss": 0.6097,
      "step": 120
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6809048652648926,
      "learning_rate": 0.00026904,
      "loss": 0.6643,
      "step": 130
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.6298333406448364,
      "learning_rate": 0.00026664,
      "loss": 0.5427,
      "step": 140
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.7878191471099854,
      "learning_rate": 0.00026424,
      "loss": 0.4609,
      "step": 150
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2301405668258667,
      "learning_rate": 0.00026184,
      "loss": 0.493,
      "step": 160
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.455725908279419,
      "learning_rate": 0.00025944,
      "loss": 0.4228,
      "step": 170
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4393802881240845,
      "learning_rate": 0.00025704,
      "loss": 0.4187,
      "step": 180
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.6263259649276733,
      "learning_rate": 0.00025464,
      "loss": 0.3775,
      "step": 190
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.6711273193359375,
      "learning_rate": 0.00025224,
      "loss": 0.4605,
      "step": 200
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.1692495346069336,
      "learning_rate": 0.00024984,
      "loss": 0.3824,
      "step": 210
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.0546035766601562,
      "learning_rate": 0.00024744,
      "loss": 0.3738,
      "step": 220
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.023163318634033,
      "learning_rate": 0.00024503999999999997,
      "loss": 0.415,
      "step": 230
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.9141480922698975,
      "learning_rate": 0.00024263999999999997,
      "loss": 0.3633,
      "step": 240
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.3228883743286133,
      "learning_rate": 0.00024023999999999996,
      "loss": 0.3342,
      "step": 250
    },
    {
      "epoch": 1.04,
      "grad_norm": 1.085424542427063,
      "learning_rate": 0.00023783999999999996,
      "loss": 0.327,
      "step": 260
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.8980942964553833,
      "learning_rate": 0.00023543999999999998,
      "loss": 0.3153,
      "step": 270
    },
    {
      "epoch": 1.12,
      "grad_norm": 1.6237972974777222,
      "learning_rate": 0.00023304,
      "loss": 0.3216,
      "step": 280
    },
    {
      "epoch": 1.16,
      "grad_norm": 1.7450311183929443,
      "learning_rate": 0.00023064,
      "loss": 0.2916,
      "step": 290
    },
    {
      "epoch": 1.2,
      "grad_norm": 1.0936298370361328,
      "learning_rate": 0.00022824,
      "loss": 0.3402,
      "step": 300
    },
    {
      "epoch": 1.24,
      "grad_norm": 1.0445630550384521,
      "learning_rate": 0.00022584,
      "loss": 0.2896,
      "step": 310
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.9999523758888245,
      "learning_rate": 0.00022344,
      "loss": 0.2906,
      "step": 320
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.7478229403495789,
      "learning_rate": 0.00022103999999999998,
      "loss": 0.2341,
      "step": 330
    },
    {
      "epoch": 1.3599999999999999,
      "grad_norm": 0.8095645904541016,
      "learning_rate": 0.00021863999999999998,
      "loss": 0.2704,
      "step": 340
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.9236629009246826,
      "learning_rate": 0.00021623999999999998,
      "loss": 0.273,
      "step": 350
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.8723985552787781,
      "learning_rate": 0.00021383999999999997,
      "loss": 0.2561,
      "step": 360
    },
    {
      "epoch": 1.48,
      "grad_norm": 1.017134666442871,
      "learning_rate": 0.00021143999999999997,
      "loss": 0.2452,
      "step": 370
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.9504234790802002,
      "learning_rate": 0.00020903999999999996,
      "loss": 0.2683,
      "step": 380
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.9547688364982605,
      "learning_rate": 0.00020663999999999996,
      "loss": 0.2303,
      "step": 390
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.8720774054527283,
      "learning_rate": 0.00020423999999999998,
      "loss": 0.2165,
      "step": 400
    },
    {
      "epoch": 1.6400000000000001,
      "grad_norm": 0.829677402973175,
      "learning_rate": 0.00020183999999999998,
      "loss": 0.2634,
      "step": 410
    },
    {
      "epoch": 1.6800000000000002,
      "grad_norm": 0.9081988334655762,
      "learning_rate": 0.00019943999999999997,
      "loss": 0.2684,
      "step": 420
    },
    {
      "epoch": 1.72,
      "grad_norm": 1.1975181102752686,
      "learning_rate": 0.00019704,
      "loss": 0.2569,
      "step": 430
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.8156276345252991,
      "learning_rate": 0.00019464,
      "loss": 0.2517,
      "step": 440
    },
    {
      "epoch": 1.8,
      "grad_norm": 1.7876633405685425,
      "learning_rate": 0.00019224,
      "loss": 0.2152,
      "step": 450
    },
    {
      "epoch": 1.8399999999999999,
      "grad_norm": 1.1335052251815796,
      "learning_rate": 0.00018983999999999998,
      "loss": 0.2251,
      "step": 460
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.9554877877235413,
      "learning_rate": 0.00018743999999999998,
      "loss": 0.2704,
      "step": 470
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.8539214134216309,
      "learning_rate": 0.00018503999999999998,
      "loss": 0.2451,
      "step": 480
    },
    {
      "epoch": 1.96,
      "grad_norm": 1.0320229530334473,
      "learning_rate": 0.00018264,
      "loss": 0.2366,
      "step": 490
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.2586992979049683,
      "learning_rate": 0.00018024,
      "loss": 0.2272,
      "step": 500
    },
    {
      "epoch": 2.04,
      "grad_norm": 1.2709358930587769,
      "learning_rate": 0.00017784,
      "loss": 0.2441,
      "step": 510
    },
    {
      "epoch": 2.08,
      "grad_norm": 1.0727570056915283,
      "learning_rate": 0.00017544,
      "loss": 0.2462,
      "step": 520
    },
    {
      "epoch": 2.12,
      "grad_norm": 1.1682066917419434,
      "learning_rate": 0.00017303999999999998,
      "loss": 0.2517,
      "step": 530
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.7411966323852539,
      "learning_rate": 0.00017063999999999998,
      "loss": 0.2102,
      "step": 540
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.991942286491394,
      "learning_rate": 0.00016823999999999997,
      "loss": 0.2511,
      "step": 550
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.9176041483879089,
      "learning_rate": 0.00016583999999999997,
      "loss": 0.2126,
      "step": 560
    },
    {
      "epoch": 2.2800000000000002,
      "grad_norm": 0.672929584980011,
      "learning_rate": 0.00016343999999999997,
      "loss": 0.2239,
      "step": 570
    },
    {
      "epoch": 2.32,
      "grad_norm": 1.1830034255981445,
      "learning_rate": 0.00016104,
      "loss": 0.2076,
      "step": 580
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.8063239455223083,
      "learning_rate": 0.00015864,
      "loss": 0.2207,
      "step": 590
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.8704922795295715,
      "learning_rate": 0.00015624,
      "loss": 0.2303,
      "step": 600
    },
    {
      "epoch": 2.44,
      "grad_norm": 1.1888242959976196,
      "learning_rate": 0.00015384,
      "loss": 0.2216,
      "step": 610
    },
    {
      "epoch": 2.48,
      "grad_norm": 1.1730883121490479,
      "learning_rate": 0.00015144,
      "loss": 0.2131,
      "step": 620
    },
    {
      "epoch": 2.52,
      "grad_norm": 1.1808068752288818,
      "learning_rate": 0.00014904,
      "loss": 0.225,
      "step": 630
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7983546853065491,
      "learning_rate": 0.00014664,
      "loss": 0.2187,
      "step": 640
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6871852278709412,
      "learning_rate": 0.00014424,
      "loss": 0.2035,
      "step": 650
    },
    {
      "epoch": 2.64,
      "grad_norm": 1.1353809833526611,
      "learning_rate": 0.00014183999999999998,
      "loss": 0.2463,
      "step": 660
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.8931046724319458,
      "learning_rate": 0.00013943999999999998,
      "loss": 0.214,
      "step": 670
    },
    {
      "epoch": 2.7199999999999998,
      "grad_norm": 0.815696656703949,
      "learning_rate": 0.00013703999999999998,
      "loss": 0.2207,
      "step": 680
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7078017592430115,
      "learning_rate": 0.00013463999999999997,
      "loss": 0.2252,
      "step": 690
    },
    {
      "epoch": 2.8,
      "grad_norm": 1.1375844478607178,
      "learning_rate": 0.00013224,
      "loss": 0.2328,
      "step": 700
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.8798996210098267,
      "learning_rate": 0.00012984,
      "loss": 0.2234,
      "step": 710
    },
    {
      "epoch": 2.88,
      "grad_norm": 1.7571476697921753,
      "learning_rate": 0.00012743999999999999,
      "loss": 0.2102,
      "step": 720
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.9208499789237976,
      "learning_rate": 0.00012503999999999998,
      "loss": 0.2184,
      "step": 730
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.889255166053772,
      "learning_rate": 0.00012263999999999998,
      "loss": 0.2058,
      "step": 740
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.1631639003753662,
      "learning_rate": 0.00012023999999999999,
      "loss": 0.209,
      "step": 750
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.8798847794532776,
      "learning_rate": 0.00011783999999999998,
      "loss": 0.2166,
      "step": 760
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.8016518950462341,
      "learning_rate": 0.00011543999999999998,
      "loss": 0.2186,
      "step": 770
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.8691723942756653,
      "learning_rate": 0.00011304,
      "loss": 0.2125,
      "step": 780
    },
    {
      "epoch": 3.16,
      "grad_norm": 1.184218168258667,
      "learning_rate": 0.00011064,
      "loss": 0.212,
      "step": 790
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.866477906703949,
      "learning_rate": 0.00010824,
      "loss": 0.2205,
      "step": 800
    },
    {
      "epoch": 3.24,
      "grad_norm": 1.0902718305587769,
      "learning_rate": 0.00010583999999999999,
      "loss": 0.2059,
      "step": 810
    },
    {
      "epoch": 3.2800000000000002,
      "grad_norm": 0.8657406568527222,
      "learning_rate": 0.00010343999999999999,
      "loss": 0.2029,
      "step": 820
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.8469038009643555,
      "learning_rate": 0.00010103999999999998,
      "loss": 0.1962,
      "step": 830
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.8991608023643494,
      "learning_rate": 9.863999999999999e-05,
      "loss": 0.2101,
      "step": 840
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.8037230372428894,
      "learning_rate": 9.623999999999999e-05,
      "loss": 0.2179,
      "step": 850
    },
    {
      "epoch": 3.44,
      "grad_norm": 1.2116085290908813,
      "learning_rate": 9.384e-05,
      "loss": 0.2074,
      "step": 860
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.741066038608551,
      "learning_rate": 9.143999999999999e-05,
      "loss": 0.2037,
      "step": 870
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.6873167753219604,
      "learning_rate": 8.904e-05,
      "loss": 0.1982,
      "step": 880
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.9071510434150696,
      "learning_rate": 8.664e-05,
      "loss": 0.1845,
      "step": 890
    },
    {
      "epoch": 3.6,
      "grad_norm": 1.968781590461731,
      "learning_rate": 8.423999999999999e-05,
      "loss": 0.2108,
      "step": 900
    },
    {
      "epoch": 3.64,
      "grad_norm": 1.3130139112472534,
      "learning_rate": 8.183999999999999e-05,
      "loss": 0.2176,
      "step": 910
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.9878791570663452,
      "learning_rate": 7.943999999999998e-05,
      "loss": 0.197,
      "step": 920
    },
    {
      "epoch": 3.7199999999999998,
      "grad_norm": 0.9072703123092651,
      "learning_rate": 7.703999999999998e-05,
      "loss": 0.2099,
      "step": 930
    },
    {
      "epoch": 3.76,
      "grad_norm": 1.2311550378799438,
      "learning_rate": 7.463999999999999e-05,
      "loss": 0.2047,
      "step": 940
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.8542098999023438,
      "learning_rate": 7.223999999999999e-05,
      "loss": 0.2004,
      "step": 950
    },
    {
      "epoch": 3.84,
      "grad_norm": 1.6090209484100342,
      "learning_rate": 6.984e-05,
      "loss": 0.2256,
      "step": 960
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.7759498953819275,
      "learning_rate": 6.743999999999999e-05,
      "loss": 0.206,
      "step": 970
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.7972224950790405,
      "learning_rate": 6.503999999999999e-05,
      "loss": 0.2178,
      "step": 980
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.9668699502944946,
      "learning_rate": 6.264e-05,
      "loss": 0.1974,
      "step": 990
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.7296855449676514,
      "learning_rate": 6.024e-05,
      "loss": 0.2144,
      "step": 1000
    },
    {
      "epoch": 4.04,
      "grad_norm": 0.7582198977470398,
      "learning_rate": 5.7839999999999995e-05,
      "loss": 0.1918,
      "step": 1010
    },
    {
      "epoch": 4.08,
      "grad_norm": 1.1084424257278442,
      "learning_rate": 5.543999999999999e-05,
      "loss": 0.2049,
      "step": 1020
    },
    {
      "epoch": 4.12,
      "grad_norm": 0.9411384463310242,
      "learning_rate": 5.304e-05,
      "loss": 0.2063,
      "step": 1030
    },
    {
      "epoch": 4.16,
      "grad_norm": 0.9459522366523743,
      "learning_rate": 5.0639999999999996e-05,
      "loss": 0.2157,
      "step": 1040
    },
    {
      "epoch": 4.2,
      "grad_norm": 1.0647608041763306,
      "learning_rate": 4.823999999999999e-05,
      "loss": 0.2022,
      "step": 1050
    },
    {
      "epoch": 4.24,
      "grad_norm": 0.660747766494751,
      "learning_rate": 4.5839999999999995e-05,
      "loss": 0.1817,
      "step": 1060
    },
    {
      "epoch": 4.28,
      "grad_norm": 1.1960012912750244,
      "learning_rate": 4.344e-05,
      "loss": 0.2063,
      "step": 1070
    },
    {
      "epoch": 4.32,
      "grad_norm": 0.7440004348754883,
      "learning_rate": 4.104e-05,
      "loss": 0.1964,
      "step": 1080
    },
    {
      "epoch": 4.36,
      "grad_norm": 0.788646399974823,
      "learning_rate": 3.8639999999999996e-05,
      "loss": 0.2203,
      "step": 1090
    },
    {
      "epoch": 4.4,
      "grad_norm": 0.9700394868850708,
      "learning_rate": 3.624e-05,
      "loss": 0.2147,
      "step": 1100
    },
    {
      "epoch": 4.44,
      "grad_norm": 0.7296751737594604,
      "learning_rate": 3.3839999999999994e-05,
      "loss": 0.2054,
      "step": 1110
    },
    {
      "epoch": 4.48,
      "grad_norm": 0.9951635599136353,
      "learning_rate": 3.144e-05,
      "loss": 0.2089,
      "step": 1120
    },
    {
      "epoch": 4.52,
      "grad_norm": 1.1070553064346313,
      "learning_rate": 2.9039999999999996e-05,
      "loss": 0.2179,
      "step": 1130
    },
    {
      "epoch": 4.5600000000000005,
      "grad_norm": 0.8714380860328674,
      "learning_rate": 2.664e-05,
      "loss": 0.191,
      "step": 1140
    },
    {
      "epoch": 4.6,
      "grad_norm": 0.8615785241127014,
      "learning_rate": 2.424e-05,
      "loss": 0.2161,
      "step": 1150
    },
    {
      "epoch": 4.64,
      "grad_norm": 0.8865022659301758,
      "learning_rate": 2.1839999999999998e-05,
      "loss": 0.2086,
      "step": 1160
    },
    {
      "epoch": 4.68,
      "grad_norm": 0.9342474341392517,
      "learning_rate": 1.9439999999999997e-05,
      "loss": 0.1927,
      "step": 1170
    },
    {
      "epoch": 4.72,
      "grad_norm": 0.87253737449646,
      "learning_rate": 1.704e-05,
      "loss": 0.2026,
      "step": 1180
    },
    {
      "epoch": 4.76,
      "grad_norm": 1.2108485698699951,
      "learning_rate": 1.464e-05,
      "loss": 0.2249,
      "step": 1190
    },
    {
      "epoch": 4.8,
      "grad_norm": 0.7751704454421997,
      "learning_rate": 1.224e-05,
      "loss": 0.1984,
      "step": 1200
    },
    {
      "epoch": 4.84,
      "grad_norm": 1.0439895391464233,
      "learning_rate": 9.84e-06,
      "loss": 0.1959,
      "step": 1210
    },
    {
      "epoch": 4.88,
      "grad_norm": 1.0067217350006104,
      "learning_rate": 7.439999999999999e-06,
      "loss": 0.2912,
      "step": 1220
    },
    {
      "epoch": 4.92,
      "grad_norm": 1.2053248882293701,
      "learning_rate": 5.039999999999999e-06,
      "loss": 0.2027,
      "step": 1230
    },
    {
      "epoch": 4.96,
      "grad_norm": 0.8404466509819031,
      "learning_rate": 2.64e-06,
      "loss": 0.2035,
      "step": 1240
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.7507134079933167,
      "learning_rate": 2.4e-07,
      "loss": 0.2137,
      "step": 1250
    }
  ],
  "logging_steps": 10,
  "max_steps": 1250,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1318917242880000.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}