安装

从上游公开的 requirements 与 quickstart 开始

原始仓库以文档为主,因此安装面主要是环境约束、依赖版本基线,以及如何最快跑通第一轮对话。

Python 3.8+Transformers 4.32+可选 flash-attention

运行环境基线

上游 README 给出的基线环境包括 Python 3.8+、PyTorch 1.12+、Transformers 4.32+ 和 CUDA 11.4+。

Flash Attention 不是必选项,但对于支持 fp16 或 bf16 的设备,README 明确建议安装它来提升效率并降低显存占用。

  • Python 3.8 及以上
  • PyTorch 1.12 及以上,推荐 2.0+
  • Transformers 4.32 及以上
  • 面向 GPU 的路径建议使用 CUDA 11.4+

快速上手流程

  1. 先安装基础依赖

    如果你想尽量贴近上游路径,先执行 `pip install -r requirements.txt`。

  2. 只在硬件支持时再加 flash-attention

    把 flash-attention 当作优化层,而不是前置条件,因为上游 README 明确说明不安装也能正常运行。

  3. 用 `trust_remote_code=True` 加载 chat 模型

    官方 quickstart 直接通过公开模型仓库加载 tokenizer 和 chat 模型。

最小 Transformers 示例

上游 quickstart 把本地体验聚焦在直接调用 `model.chat()` 上。

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-7B-Chat", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen-7B-Chat",
    device_map="auto",
    trust_remote_code=True
).eval()

response, history = model.chat(tokenizer, "你好", history=None)
print(response)

常见的后续入口

模型仓库

Hugging Face

如果你需要标准开源模型卡与检查点下载流程,就从 Qwen 官方组织开始。

查看链接

模型仓库

ModelScope

原始文档大量使用的国内分发渠道,适合中文用户保持一致的获取路径。

查看链接

运行时捷径

Docker 镜像

README 也给出了预构建镜像,适合你不想从头搭环境时使用。

查看链接

来源锚点

安装与快速开始 | Qwen Code