演示

记录运行面，但不让网站服务器承担推理职责

公共站点应把用户引向 Web UI、CLI、vLLM、FastChat 等运行路径，同时保持文档服务器与模型服务解耦。

Web UICLI DemovLLM + FastChat

上游建议的部署路径

先用 vLLM 做高吞吐推理
上游部署章节首先推荐 vLLM，适合偏服务化的推理场景。
再用 FastChat 挂 Web UI 或类 OpenAI API
FastChat 负责 controller、worker、Gradio Web Server 与兼容 API Server 的那一层编排。
觉得太重就回退到简单 Demo
README 也保留了更轻量的 Web UI、CLI 和 API 入口，方便直接做本地演示。

vLLM + FastChat 命令流

pip install "fschat[model_worker,webui]"
python -m fastchat.serve.controller
python -m fastchat.serve.vllm_worker --model-path $MODEL_PATH --trust-remote-code --dtype bfloat16
python -m fastchat.serve.gradio_web_server
python -m fastchat.serve.openai_api_server --host localhost --port 8000

文档中的 Demo 形态

Gradio 导向

Web UI

原始仓库提供 `web_demo.py` 作为快速浏览器演示路径。

终端优先

CLI Demo

CLI 路径强调流式输出，适合在终端直接验证 prompt 与输出行为。

公共 Studio

托管演示

上游 README 还链接到了 ModelScope Studio 上的 72B Chat 在线演示。

完整文档路线

文档页之间按固定顺序镜像，当前页面会在列表中高亮。

安装

安装与快速开始

围绕历史版 Qwen 产品线整理的运行环境、快速开始与部署相关安装说明。

模型

模型与变体

原始 Qwen 模型家族的上下文长度、显存信息与公开检查点入口。

评测

评测结果

为历史版 Qwen 产品线保留的性能表格，并明确给出来源。

演示

当前页面

Demo 与部署路径

原始 README 中的 Web UI、CLI、vLLM 与 FastChat 等运行面。

API

API 能力

原始 Qwen 产品线的类 OpenAI 本地 API、函数调用与托管 API 入口。

工具调用

工具调用与 System Prompt

原始 README 中关于 system prompt、ReAct、函数调用与 Code Interpreter 的公开内容。

长上下文

长上下文

原始 Qwen 产品线中的长上下文方法说明与评测结果。

FAQ

常见问题

基于 README 公开信息与蓝图边界条件整理的公共 FAQ。

协议

许可与引用

镜像原始 Qwen README 中的源代码授权、模型协议说明与引用信息。

来源锚点

README: deployment、Web UI、CLI demo README_CN: deployment、Web UI、CLI demo

Demo 与部署路径 | Qwen Code