本地模型 -

使用流程

1、下载模型

可以阅读下官方文档，写的很详细

下载模型

cd /mnt/vllm-models
mkdir gemma-3-27b-it            //创建一个目录用来存放模型权重，名字自定义
modelscope download --model 'LLM-Research/gemma-3-27b-it' --local_dir '/mnt/vllm-models/gemma-3-27b-it'    //从魔搭社区下载模型权重到本地指定路径下

2、启动模型

vllm serve /mnt/vllm-models/QwQ-32B   \
    --served-model-name QwQ-32B \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 2 \
    --max-model-len 8192

参数解释：

/mnt/vllm-models/QwQ-32B 是存放模型的路径

--served-model-name QwQ-32B 为模型指定一个名字，名字随便取，只是用来方便后面Dify进行调用的

--host 0.0.0.0 允许外部地址访问，0.0.0.0是允许所有

--port 8000 访问的接口

--tensor-parallel-size 2 调用的GPU数量，我们公司2两个，所以是2，有4个就写4

--max-model-len 8192 上下文长度限制，这也取决于硬件性能。

看到如下日志，说明模型已经成功运行起来了