评测
保留评测主张,但明确它们是历史数据
由于源输入只有 README,站点会把所有评测主张都绑定到原始表格,而不会把它们包装成实时排行榜结果。
带 OpenCompass 来源README 支撑历史快照
如何阅读这些数字
上游 README 明确说明,对比模型的分数取官方结果与 OpenCompass 结果中的最佳值。
这让表格适合作为产品面证据,但并不能替代最新的基准研究。
- 自然语言理解
- 数学与推理
- 代码生成
- 中文评测覆盖
代表性性能表
| 模型 | MMLU | C-Eval | GSM8K | MATH | HumanEval | MBPP | BBH | CMMLU |
|---|---|---|---|---|---|---|---|---|
| LLaMA2-7B | 46.8 | 32.5 | 16.7 | 3.3 | 12.8 | 20.8 | 38.2 | 31.8 |
| InternLM-20B | 62.1 | 58.8 | 52.6 | 7.9 | 25.6 | 35.6 | 52.5 | 59.0 |
| Yi-34B | 76.3 | 81.8 | 67.9 | 15.9 | 26.2 | 38.2 | 66.4 | 82.6 |
| Qwen-1.8B | 45.3 | 56.1 | 32.3 | 2.3 | 15.2 | 14.2 | 22.3 | 52.1 |
| Qwen-7B | 58.2 | 63.5 | 51.7 | 11.6 | 29.9 | 31.6 | 45.0 | 62.2 |
| Qwen-14B | 66.3 | 72.1 | 61.3 | 24.8 | 32.3 | 40.8 | 53.4 | 71.0 |
| Qwen-72B | 77.4 | 83.3 | 78.9 | 35.2 | 35.4 | 52.2 | 67.7 | 83.6 |
上游 README 说明,对比模型分数取官方结果与 OpenCompass 结果中的最佳值。
时效性说明
这些分数来自原始 Qwen README 和技术备忘录,而不是实时 benchmark feed。
站点保留它们,是因为这些数字构成了历史版 Qwen 的公开产品面。
来源锚点