评测

保留评测主张，但明确它们是历史数据

由于源输入只有 README，站点会把所有评测主张都绑定到原始表格，而不会把它们包装成实时排行榜结果。

带 OpenCompass 来源README 支撑历史快照

如何阅读这些数字

上游 README 明确说明，对比模型的分数取官方结果与 OpenCompass 结果中的最佳值。

这让表格适合作为产品面证据，但并不能替代最新的基准研究。

自然语言理解
数学与推理
代码生成
中文评测覆盖

代表性性能表

模型	MMLU	C-Eval	GSM8K	MATH	HumanEval	MBPP	BBH	CMMLU
LLaMA2-7B	46.8	32.5	16.7	3.3	12.8	20.8	38.2	31.8
InternLM-20B	62.1	58.8	52.6	7.9	25.6	35.6	52.5	59.0
Yi-34B	76.3	81.8	67.9	15.9	26.2	38.2	66.4	82.6
Qwen-1.8B	45.3	56.1	32.3	2.3	15.2	14.2	22.3	52.1
Qwen-7B	58.2	63.5	51.7	11.6	29.9	31.6	45.0	62.2
Qwen-14B	66.3	72.1	61.3	24.8	32.3	40.8	53.4	71.0
Qwen-72B	77.4	83.3	78.9	35.2	35.4	52.2	67.7	83.6

上游 README 说明，对比模型分数取官方结果与 OpenCompass 结果中的最佳值。

时效性说明

这些分数来自原始 Qwen README 和技术备忘录，而不是实时 benchmark feed。

站点保留它们，是因为这些数字构成了历史版 Qwen 的公开产品面。

完整文档路线

文档页之间按固定顺序镜像，当前页面会在列表中高亮。

安装

安装与快速开始

围绕历史版 Qwen 产品线整理的运行环境、快速开始与部署相关安装说明。

模型

模型与变体

原始 Qwen 模型家族的上下文长度、显存信息与公开检查点入口。

评测

当前页面

评测结果

为历史版 Qwen 产品线保留的性能表格，并明确给出来源。

演示

Demo 与部署路径

原始 README 中的 Web UI、CLI、vLLM 与 FastChat 等运行面。

API

API 能力

原始 Qwen 产品线的类 OpenAI 本地 API、函数调用与托管 API 入口。

工具调用

工具调用与 System Prompt

原始 README 中关于 system prompt、ReAct、函数调用与 Code Interpreter 的公开内容。

长上下文

长上下文

原始 Qwen 产品线中的长上下文方法说明与评测结果。

FAQ

常见问题

基于 README 公开信息与蓝图边界条件整理的公共 FAQ。

协议

许可与引用

镜像原始 Qwen README 中的源代码授权、模型协议说明与引用信息。

来源锚点

README: performance 章节技术备忘录 PDF OpenCompass 排行榜

评测结果 | Qwen Code