演示

记录运行面,但不让网站服务器承担推理职责

公共站点应把用户引向 Web UI、CLI、vLLM、FastChat 等运行路径,同时保持文档服务器与模型服务解耦。

Web UICLI DemovLLM + FastChat

上游建议的部署路径

  1. 先用 vLLM 做高吞吐推理

    上游部署章节首先推荐 vLLM,适合偏服务化的推理场景。

  2. 再用 FastChat 挂 Web UI 或类 OpenAI API

    FastChat 负责 controller、worker、Gradio Web Server 与兼容 API Server 的那一层编排。

  3. 觉得太重就回退到简单 Demo

    README 也保留了更轻量的 Web UI、CLI 和 API 入口,方便直接做本地演示。

vLLM + FastChat 命令流

pip install "fschat[model_worker,webui]"
python -m fastchat.serve.controller
python -m fastchat.serve.vllm_worker --model-path $MODEL_PATH --trust-remote-code --dtype bfloat16
python -m fastchat.serve.gradio_web_server
python -m fastchat.serve.openai_api_server --host localhost --port 8000

文档中的 Demo 形态

Gradio 导向

Web UI

原始仓库提供 `web_demo.py` 作为快速浏览器演示路径。

终端优先

CLI Demo

CLI 路径强调流式输出,适合在终端直接验证 prompt 与输出行为。

公共 Studio

托管演示

上游 README 还链接到了 ModelScope Studio 上的 72B Chat 在线演示。

查看链接

来源锚点

Demo 与部署路径 | Qwen Code