长上下文

长上下文能力同时由方法说明和结果表格支撑

上游 README 将更长上下文能力与 NTK 插值、窗口注意力、LogN 缩放,以及 72B 的更大 rotary base 联系起来。

NTK-awareWindow Attention32K 上下文

方法概览

对于 Qwen-14B,README 说明通过 NTK-aware interpolation、window attention 与 LogN scaling 将上下文从 2K 扩展到 8K 以上。

对于 Qwen-1.8B 与 Qwen-7B,长上下文方案把原生 8K 设置扩展到了 32K;对于 Qwen-72B,则通过更大的 rotary base 来适配更长上下文。

长上下文 PPL 快照

模型10242048409681921638432768
Qwen-7B (original)4.233.7839.35469.812645.09-
+ dynamic_ntk4.233.783.593.665.71-
Qwen-1.8B5.004.484.133.8917.42433.85
Qwen-1.8B + dynamic_ntk + logn + window_attn5.004.484.143.933.823.83
Qwen-7B4.233.813.523.317.27181.49
Qwen-7B + dynamic_ntk + logn + window_attn4.233.813.523.333.223.17
Qwen-14B + dynamic_ntk + logn + window_attn-3.463.293.183.42-
Qwen-72B---2.832.732.72

这些 PPL 结果来自上游 README 中的 arXiv 长上下文评测表。

L-Eval 对比

模型输入长度平均分CourseraGSMQuALITYTOEFLCodeUSFiction
ChatGPT-3.5-16k16K60.7363.5184.0061.3878.4312.2264.84
Qwen-72B-Chat32K62.3058.1376.0077.2286.246.6669.53

该表对应上游 README 中的 L-Eval 客观题结果块。

大海捞针实验说明

上游 README 还展示了 Qwen-72B-Chat 的大海捞针实验,并说明模型能在 32K 输入长度内从不同位置准确检索信息。

来源锚点

长上下文 | Qwen Code