Hugging Face
如果你需要标准开源模型卡与检查点下载流程,就从 Qwen 官方组织开始。
查看链接社区文档站,基于公开的 Qwen 上游材料整理,不应默认视为官方上游主页。
安装
原始仓库以文档为主,因此安装面主要是环境约束、依赖版本基线,以及如何最快跑通第一轮对话。
上游 README 给出的基线环境包括 Python 3.8+、PyTorch 1.12+、Transformers 4.32+ 和 CUDA 11.4+。
Flash Attention 不是必选项,但对于支持 fp16 或 bf16 的设备,README 明确建议安装它来提升效率并降低显存占用。
如果你想尽量贴近上游路径,先执行 `pip install -r requirements.txt`。
把 flash-attention 当作优化层,而不是前置条件,因为上游 README 明确说明不安装也能正常运行。
官方 quickstart 直接通过公开模型仓库加载 tokenizer 和 chat 模型。
上游 quickstart 把本地体验聚焦在直接调用 `model.chat()` 上。
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-7B-Chat", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
"Qwen/Qwen-7B-Chat",
device_map="auto",
trust_remote_code=True
).eval()
response, history = model.chat(tokenizer, "你好", history=None)
print(response)
来源锚点