MMLU-PRO: 總分:63.08
根據我們的評估扣除掉部分因為思維鏈導致的格式錯誤,無法判別外,正確率與原始模型相比更高。
PS:
由於我們不知道原始模型如何評估,所以我們重新檢查了,原始模型得分,發現性能比之原始模型更強,根據我們的測試開啟思考模式下,分數比之原版高上三分達到70以上
原版採用(5-shot CoT)評估,我們僅評估zero-shot
- Downloads last month
- -
Model tree for win10/MagKr-3.2-24B-thinking
Base model
mistralai/Mistral-Small-3.1-24B-Base-2503