工具调用
工具调用被当作核心能力,而不是附加功能
原始 Qwen README 为工具调用、ReAct Prompting、system prompt 和 Code Interpreter 都提供了独立章节与评测表。
System PromptReAct PromptingCode Interpreter
System Prompt 说明
上游 README 说明 Qwen-1.8B-Chat 与 Qwen-72B-Chat 在多样 system prompt 和多轮复杂交互上做了额外训练。
这些增强被用于上下文中的角色扮演、风格迁移、任务设定与行为设定。
中文工具调用评测
| 模型 | Tool Selection | Tool Input | False Positive Error |
|---|---|---|---|
| GPT-4 | 98.0% | 0.953 | 23.9% |
| GPT-3.5 | 74.5% | 0.807 | 80.6% |
| Qwen-1.8B-Chat | 85.0% | 0.839 | 27.6% |
| Qwen-7B-Chat | 95.5% | 0.900 | 11.6% |
| Qwen-14B-Chat | 96.9% | 0.917 | 5.6% |
| Qwen-72B-Chat | 98.2% | 0.927 | 1.1% |
该表来自上游 README 中的 20231206 中文工具调用评测基准。
Code Interpreter 评测
| 模型 | Math | Visualization-Hard | Visualization-Easy | Executable Rate |
|---|---|---|---|---|
| GPT-4 | 82.8 | 66.7 | 60.8 | 82.8 |
| GPT-3.5 | 47.3 | 33.3 | 55.7 | 74.1 |
| Qwen-1.8B-Chat | 25.6 | 21.4 | 22.8 | 65.5 |
| Qwen-7B-Chat | 41.9 | 23.8 | 38.0 | 67.2 |
| Qwen-14B-Chat | 58.4 | 31.0 | 45.6 | 65.5 |
| Qwen-72B-Chat | 72.7 | 41.7 | 43.0 | 82.8 |
该表镜像自上游 README 中的 20231206 Code Interpreter 评测。
实现思路
上游文档把工具调用实现与 ReAct Prompting 示例关联起来,同时在 `openai_api.py` 中给出了 function calling 支持。
如果需要更深入的 Agent 工作流与 Code Interpreter 评测资产,则进一步指向 Qwen-Agent。
来源锚点