长上下文

长上下文能力同时由方法说明和结果表格支撑

上游 README 将更长上下文能力与 NTK 插值、窗口注意力、LogN 缩放，以及 72B 的更大 rotary base 联系起来。

NTK-awareWindow Attention32K 上下文

方法概览

对于 Qwen-14B，README 说明通过 NTK-aware interpolation、window attention 与 LogN scaling 将上下文从 2K 扩展到 8K 以上。

对于 Qwen-1.8B 与 Qwen-7B，长上下文方案把原生 8K 设置扩展到了 32K；对于 Qwen-72B，则通过更大的 rotary base 来适配更长上下文。

长上下文 PPL 快照

模型	1024	2048	4096	8192	16384	32768
Qwen-7B (original)	4.23	3.78	39.35	469.81	2645.09	-
+ dynamic_ntk	4.23	3.78	3.59	3.66	5.71	-
Qwen-1.8B	5.00	4.48	4.13	3.89	17.42	433.85
Qwen-1.8B + dynamic_ntk + logn + window_attn	5.00	4.48	4.14	3.93	3.82	3.83
Qwen-7B	4.23	3.81	3.52	3.31	7.27	181.49
Qwen-7B + dynamic_ntk + logn + window_attn	4.23	3.81	3.52	3.33	3.22	3.17
Qwen-14B + dynamic_ntk + logn + window_attn	-	3.46	3.29	3.18	3.42	-
Qwen-72B	-	-	-	2.83	2.73	2.72

这些 PPL 结果来自上游 README 中的 arXiv 长上下文评测表。

L-Eval 对比

模型	输入长度	平均分	Coursera	GSM	QuALITY	TOEFL	CodeU	SFiction
ChatGPT-3.5-16k	16K	60.73	63.51	84.00	61.38	78.43	12.22	64.84
Qwen-72B-Chat	32K	62.30	58.13	76.00	77.22	86.24	6.66	69.53

该表对应上游 README 中的 L-Eval 客观题结果块。

大海捞针实验说明

上游 README 还展示了 Qwen-72B-Chat 的大海捞针实验，并说明模型能在 32K 输入长度内从不同位置准确检索信息。

完整文档路线

文档页之间按固定顺序镜像，当前页面会在列表中高亮。

安装

安装与快速开始

围绕历史版 Qwen 产品线整理的运行环境、快速开始与部署相关安装说明。

模型

模型与变体

原始 Qwen 模型家族的上下文长度、显存信息与公开检查点入口。

评测

评测结果

为历史版 Qwen 产品线保留的性能表格，并明确给出来源。

演示

Demo 与部署路径

原始 README 中的 Web UI、CLI、vLLM 与 FastChat 等运行面。

API

API 能力

原始 Qwen 产品线的类 OpenAI 本地 API、函数调用与托管 API 入口。

工具调用

工具调用与 System Prompt

原始 README 中关于 system prompt、ReAct、函数调用与 Code Interpreter 的公开内容。

长上下文

当前页面

长上下文

原始 Qwen 产品线中的长上下文方法说明与评测结果。

FAQ

常见问题

基于 README 公开信息与蓝图边界条件整理的公共 FAQ。

协议

许可与引用

镜像原始 Qwen README 中的源代码授权、模型协议说明与引用信息。

来源锚点

README: long-context understanding L-Eval 论文

长上下文 | Qwen Code