低成本抗衡DeepSeek-R1！QwQ-32B本地部署教程：开源领域的“降维打击”-算家计算-ChinaUnix博客

算家计算的ChinaUnix博客

首页　| 　博文目录　| 　关于我

算家计算

博客访问： 1719
博文数量： 50
博客积分： 0
博客等级：民兵
技术积分： 511
用户组：普通用户
注册时间： 2025-03-05 10:20

文章分类

全部博文（50）

文章存档

2025年（50）

我的朋友

最近访客

推荐博文

低成本抗衡DeepSeek-R1！QwQ-32B本地部署教程：开源领域的“降维打击”

分类： IT业界

2025-03-18 18:15:38

QwQ-32B是阿里通义千问团队在3月6日发布的开源大模型，这款仅有320亿参数的模型，在数学、代码、通用能力等核心场景里，几乎跟满血版DeepSeek-R1（6710亿参数）不相上下。可以说实现了开源领域的降维打击。

参数规模与性能对标：QwQ-32B仅拥有320亿参数，但在多项基准测试中性能媲美DeepSeek-R1（6710亿参数，激活370亿），甚至在数学推理（AIME24评分79.5 vs. DeepSeek-R1的79.8）、编程能力（LiveCodeBench评分63.4 vs. 65.9）等任务中表现接近或略优48。其性能远超OpenAI的o1-mini及同尺寸蒸馏模型。
轻量化部署优势：该模型支持消费级GPU单卡（如RTX 3090 Ti）或Mac设备本地部署，量化后{BANNED}最佳低仅需13GB显存（Q4量化版本约20GB），显著降低了运行门槛。例如，苹果M4 Max笔记本可流畅运行，输出速度达30+ token/s。
强化学习驱动：通过多阶段强化学习（RL）技术优化：

{BANNED}中国第一阶段：基于数学准确性验证器和代码执行测试反馈，提升数学与编程能力；
第二阶段：引入通用奖励模型增强指令遵循、智能体协作等通用能力，同时保持数学/编程性能稳定。

此存储库包含 QwQ 32B 模型，该模型具有以下特点：
- 类型：因果语言模型
- 训练阶段：预训练和后训练（监督微调和强化学习）
- 架构：具有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的变压器
- 参数数量：32.5B
- 参数数（非嵌入）：31.0B
- 层数： 64
- 注意头数（GQA）：Q 为 40 个，KV 为 8 个
- 上下文长度：完整 131,072 个令牌
  - 对于长度超过 8,192 个令牌的提示，您必须启用 YaRN，如所述。
1、安装运行命令进行安装：
```
curl -fsSL  | sh 
```
1

1
设置模型下载地址、开放 ip 及端口：

（可选）如有模型地址更改需求，可用下命令：
```
export OLLAMA_MODELS=/root/sj-tmp/ollama/models 
```
1

1
设置 ip 地址及端口：
```
export OLLAMA_HOST=0.0.0.0:8080 
```
1

1
然后记得通过 vim /root/.bashrc 写入文件

2、运行 ollama

直接运行：
```
ollama serve 
```
1

1
等待运行成功后，可以在另一个终端通过 api 访问：
```
curl  
```
1

1
持久运行（后台模式）

如果你需要 ollama 在后台运行，可以使用：
```
nohup ollama serve > ollama.log 2>&1 & 
```
1

1
或者使用 tmux / screen 来保持会话。

3、下载并启动 QWQ 模型
```
ollama run qwq:32b-fp16 
```
1

1
等待下载完成后，可以直接进行对话：

如何 api 调用？

可以使用 PowerShell 或 Python 访问它。

? PowerShell

如果你想在 PowerShell 里调用 ollama run qwq:32b-fp16 进行推理：
```
Invoke-RestMethod -Uri "" -Method Post -Body (@{model="ollama run qwq:32b-fp16"; prompt="你好，介绍一下自己"} | ConvertTo-Json -Depth 10) -ContentType "application/json" 
```
1

1
? Python

如果你想在 Python 里调用：
```
import requests 
import json 
url = "" 
data = { 
"model": "qwq:32b-fp16", 
"prompt": "在数学中，3.11 和 3.8 谁大？请给出详细分析。", 
} 
response = requests.post(url, json=data) 
# 存储{BANNED}最佳终的文本结果 
text_output = "" 
# 逐行解析 JSON 
for line in response.text.strip().split("\n"): 
try: 
json_data = json.loads(line) # 解析每一行 JSON 
if "response" in json_data: 
text_output += json_data["response"] # 拼接文本 
if json_data.get("done", False): # 检查是否完成 
break 
except json.JSONDecodeError as e: 
print("JSON 解析错误:", e) 
print("{BANNED}最佳终结果:", text_output) 
```
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
4、下载界面

通过 Python pip 安装
Open WebUI 可以使用 Python 包安装程序 pip 进行安装。在继续之前，请确保您使用的是 Python 3.11 以避免兼容性问题。

(1)安装 Open WebUI：打开终端并运行以下命令以安装 Open WebUI：
```
pip install open-webui 
```
1

1
运行 Open WebUI：安装后，您可以通过执行以下命令来启动 Open WebUI：
```
open-webui serve 
```
1

1
等待服务启动之后，可以看到出现 0.0.0.0：8080 的地址，这时我们只需在平台开放端口即可进行访问 open webui 界面

{BANNED}中国第一次使用需要进行注册账号：

首次登录需要等待一会儿，进入以后界面如下：

注：如果忘记账号密码导致无法登入界面，可以删除账号信息，选择重新注册：

（1）点击文件管理，输入 /root/miniconda3/lib/python3.11/site-packages/open_webui/data/ 的路径并进入

（2）删除下面 webui.db 这个文件，然后重新启动即可

5、管理 Ollama 实例

正常情况下，进入 open webui 界面中就能自动获取模型，如果没有可以按照下面操作进行：

要在 Open WebUI 中管理您的 Ollama 实例，请执行以下步骤：
1. 转到 Open WebUI 中的管理员设置。
2. 导航到 Connections > Ollama > Manage （单击下载图标）。
  在这里，您可以下载模型、配置设置并管理与 Ollama 的连接。
管理屏幕如下所示：

然后返回对话界面即可进行对话：

还有快速有效的模型下载方式

可以直接从 Model Selector 下载模型。只需输入想要的模型的名称，如果它还不可用，Open WebUI 将提示从 Ollama 下载它。

下面是一个工作原理示例：

如果想跳过 Admin Settings 菜单的导航，直接使用的模型，则此方法非常理想。