评测

保留评测主张,但明确它们是历史数据

由于源输入只有 README,站点会把所有评测主张都绑定到原始表格,而不会把它们包装成实时排行榜结果。

带 OpenCompass 来源README 支撑历史快照

如何阅读这些数字

上游 README 明确说明,对比模型的分数取官方结果与 OpenCompass 结果中的最佳值。

这让表格适合作为产品面证据,但并不能替代最新的基准研究。

  • 自然语言理解
  • 数学与推理
  • 代码生成
  • 中文评测覆盖

代表性性能表

模型MMLUC-EvalGSM8KMATHHumanEvalMBPPBBHCMMLU
LLaMA2-7B46.832.516.73.312.820.838.231.8
InternLM-20B62.158.852.67.925.635.652.559.0
Yi-34B76.381.867.915.926.238.266.482.6
Qwen-1.8B45.356.132.32.315.214.222.352.1
Qwen-7B58.263.551.711.629.931.645.062.2
Qwen-14B66.372.161.324.832.340.853.471.0
Qwen-72B77.483.378.935.235.452.267.783.6

上游 README 说明,对比模型分数取官方结果与 OpenCompass 结果中的最佳值。

时效性说明

这些分数来自原始 Qwen README 和技术备忘录,而不是实时 benchmark feed。

站点保留它们,是因为这些数字构成了历史版 Qwen 的公开产品面。

来源锚点

评测结果 | Qwen Code