上游建议的部署路径
先用 vLLM 做高吞吐推理
上游部署章节首先推荐 vLLM,适合偏服务化的推理场景。
再用 FastChat 挂 Web UI 或类 OpenAI API
FastChat 负责 controller、worker、Gradio Web Server 与兼容 API Server 的那一层编排。
觉得太重就回退到简单 Demo
README 也保留了更轻量的 Web UI、CLI 和 API 入口,方便直接做本地演示。
vLLM + FastChat 命令流
pip install "fschat[model_worker,webui]"
python -m fastchat.serve.controller
python -m fastchat.serve.vllm_worker --model-path $MODEL_PATH --trust-remote-code --dtype bfloat16
python -m fastchat.serve.gradio_web_server
python -m fastchat.serve.openai_api_server --host localhost --port 8000
文档中的 Demo 形态
Web UI
原始仓库提供 `web_demo.py` 作为快速浏览器演示路径。
CLI Demo
CLI 路径强调流式输出,适合在终端直接验证 prompt 与输出行为。
托管演示
上游 README 还链接到了 ModelScope Studio 上的 72B Chat 在线演示。
查看链接