Chinaunix首页 | 论坛 | 博客
  • 博客访问: 496
  • 博文数量: 21
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 221
  • 用 户 组: 普通用户
  • 注册时间: 2025-03-05 10:20
文章分类
文章存档

2025年(20)

我的朋友
最近访客

分类: IT业界

2025-03-18 18:15:38


QwQ-32B是阿里通义千问团队在3月6日发布的开源大模型,这款仅有320亿参数的模型,在数学、代码、通用能力等核心场景里,几乎跟满血版DeepSeek-R1(6710亿参数)不相上下。可以说实现了开源领域的降维打击。


参数规模与性能对标:QwQ-32B仅拥有320亿参数,但在多项基准测试中性能媲美DeepSeek-R1(6710亿参数,激活370亿),甚至在数学推理(AIME24评分79.5 vs. DeepSeek-R1的79.8)、编程能力(LiveCodeBench评分63.4 vs. 65.9)等任务中表现接近或略优48。其性能远超OpenAI的o1-mini及同尺寸蒸馏模型。
轻量化部署优势:该模型支持消费级GPU单卡(如RTX 3090 Ti)或Mac设备本地部署,量化后{BANNED}最佳低仅需13GB显存(Q4量化版本约20GB),显著降低了运行门槛。例如,苹果M4 Max笔记本可流畅运行,输出速度达30+ token/s。
强化学习驱动:通过多阶段强化学习(RL)技术优化:
  • {BANNED}中国第一阶段:基于数学准确性验证器和代码执行测试反馈,提升数学与编程能力;
  • 第二阶段:引入通用奖励模型增强指令遵循、智能体协作等通用能力,同时保持数学/编程性能稳定。

    image.png

    此存储库包含 QwQ 32B 模型 ,该模型具有以下特点:

    • 类型: 因果语言模型
    • 训练阶段:预训练和后训练(监督微调和强化学习)
    • 架构:具有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的变压器
    • 参数数量:32.5B
    • 参数数(非嵌入):31.0B
    • 层数: 64
    • 注意头数 (GQA):Q 为 40 个,KV 为 8 个
    • 上下文长度:完整 131,072 个令牌
      • 对于长度超过 8,192 个令牌的提示,您必须启用 YaRN,如所述。

    1、安装 运行命令进行安装:

    curl -fsSL  | sh 
    1
    1

    设置模型下载地址、开放 ip 及端口:

    (可选)如有模型地址更改需求,可用下命令:

    export OLLAMA_MODELS=/root/sj-tmp/ollama/models 
    1
    1

    设置 ip 地址及端口:

    export OLLAMA_HOST=0.0.0.0:8080 
    1
    1

    然后记得通过 vim /root/.bashrc 写入文件

    2、运行 ollama

    直接运行:

    ollama serve 
    1
    1

    等待运行成功后,可以在另一个终端通过 api 访问:

    curl  
    1
    1

    持久运行(后台模式)

    如果你需要 ollama 在后台运行,可以使用:

    nohup ollama serve > ollama.log 2>&1 & 
    1
    1

    或者使用 tmux / screen 来保持会话。

    3、下载并启动 QWQ 模型

    ollama run qwq:32b-fp16 
    1
    1

    等待下载完成后,可以直接进行对话:

    image.png

    如何 api 调用?

    可以使用 PowerShell 或 Python 访问它。

    ? PowerShell

    如果你想在 PowerShell 里 调用 ollama run qwq:32b-fp16 进行推理 :

    Invoke-RestMethod -Uri "" -Method Post -Body (@{model="ollama run qwq:32b-fp16"; prompt="你好,介绍一下自己"} | ConvertTo-Json -Depth 10) -ContentType "application/json" 
    1
    1

    ? Python

    如果你想在 Python 里调用 :

    import requests 
    import json 
    url = "" 
    data = { 
    "model": "qwq:32b-fp16", 
    "prompt": "在数学中,3.11 和 3.8 谁大?请给出详细分析。", 
    } 
    response = requests.post(url, json=data) 
    # 存储{BANNED}最佳终的文本结果 
    text_output = "" 
    # 逐行解析 JSON 
    for line in response.text.strip().split("\n"): 
    try: 
    json_data = json.loads(line) # 解析每一行 JSON 
    if "response" in json_data: 
    text_output += json_data["response"] # 拼接文本 
    if json_data.get("done", False): # 检查是否完成 
    break 
    except json.JSONDecodeError as e: 
    print("JSON 解析错误:", e) 
    print("{BANNED}最佳终结果:", text_output) 
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21

    4、下载  界面

    通过 Python pip 安装
    Open WebUI 可以使用 Python 包安装程序 pip 进行安装。在继续之前,请确保您使用的是 Python 3.11 以避免兼容性问题。

    (1)安装 Open WebUI: 打开终端并运行以下命令以安装 Open WebUI:

    pip install open-webui 
    1
    1

    运行 Open WebUI: 安装后,您可以通过执行以下命令来启动 Open WebUI:

    open-webui serve 
    1
    1

    等待服务启动之后,可以看到出现 0.0.0.0:8080 的地址,这时我们只需在平台开放端口即可进行访问 open webui 界面

    image.png

    {BANNED}中国第一次使用需要进行注册账号:

    image.png

    首次登录需要等待一会儿,进入以后界面如下:

    image.png

    注:如果忘记账号密码导致无法登入界面,可以删除账号信息,选择重新注册:

    (1)点击文件管理,输入 /root/miniconda3/lib/python3.11/site-packages/open_webui/data/ 的路径并进入

    (2)删除下面 webui.db 这个文件,然后重新启动即可

    image.png

    5、管理 Ollama 实例

    正常情况下,进入 open webui 界面中就能自动获取模型,如果没有可以按照下面操作进行:

    要在 Open WebUI 中管理您的 Ollama 实例,请执行以下步骤:

    1. 转到 Open WebUI 中的 管理员设置 。
      image.png
      image.png
    2. 导航到 Connections > Ollama > Manage (单击下载图标)。
      在这里,您可以下载模型、配置设置并管理与 Ollama 的连接。

    管理屏幕如下所示:

    image.png

    image.png

    然后返回对话界面即可进行对话:

    image.png

    还有快速有效的模型下载方式

    可以直接从 Model Selector 下载模型。只需输入想要的模型的名称,如果它还不可用,Open WebUI 将提示从 Ollama 下载它。

    下面是一个工作原理示例:

    Ollama 下载提示

    如果想跳过 Admin Settings 菜单的导航,直接使用的模型,则此方法非常理想。

阅读(55) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~