长上下文
长上下文能力同时由方法说明和结果表格支撑
上游 README 将更长上下文能力与 NTK 插值、窗口注意力、LogN 缩放,以及 72B 的更大 rotary base 联系起来。
NTK-awareWindow Attention32K 上下文
方法概览
对于 Qwen-14B,README 说明通过 NTK-aware interpolation、window attention 与 LogN scaling 将上下文从 2K 扩展到 8K 以上。
对于 Qwen-1.8B 与 Qwen-7B,长上下文方案把原生 8K 设置扩展到了 32K;对于 Qwen-72B,则通过更大的 rotary base 来适配更长上下文。
长上下文 PPL 快照
| 模型 | 1024 | 2048 | 4096 | 8192 | 16384 | 32768 |
|---|---|---|---|---|---|---|
| Qwen-7B (original) | 4.23 | 3.78 | 39.35 | 469.81 | 2645.09 | - |
| + dynamic_ntk | 4.23 | 3.78 | 3.59 | 3.66 | 5.71 | - |
| Qwen-1.8B | 5.00 | 4.48 | 4.13 | 3.89 | 17.42 | 433.85 |
| Qwen-1.8B + dynamic_ntk + logn + window_attn | 5.00 | 4.48 | 4.14 | 3.93 | 3.82 | 3.83 |
| Qwen-7B | 4.23 | 3.81 | 3.52 | 3.31 | 7.27 | 181.49 |
| Qwen-7B + dynamic_ntk + logn + window_attn | 4.23 | 3.81 | 3.52 | 3.33 | 3.22 | 3.17 |
| Qwen-14B + dynamic_ntk + logn + window_attn | - | 3.46 | 3.29 | 3.18 | 3.42 | - |
| Qwen-72B | - | - | - | 2.83 | 2.73 | 2.72 |
这些 PPL 结果来自上游 README 中的 arXiv 长上下文评测表。
L-Eval 对比
| 模型 | 输入长度 | 平均分 | Coursera | GSM | QuALITY | TOEFL | CodeU | SFiction |
|---|---|---|---|---|---|---|---|---|
| ChatGPT-3.5-16k | 16K | 60.73 | 63.51 | 84.00 | 61.38 | 78.43 | 12.22 | 64.84 |
| Qwen-72B-Chat | 32K | 62.30 | 58.13 | 76.00 | 77.22 | 86.24 | 6.66 | 69.53 |
该表对应上游 README 中的 L-Eval 客观题结果块。
大海捞针实验说明
上游 README 还展示了 Qwen-72B-Chat 的大海捞针实验,并说明模型能在 32K 输入长度内从不同位置准确检索信息。
来源锚点