Chinaunix首页 | 论坛 | 博客
  • 博客访问: 7691446
  • 博文数量: 1774
  • 博客积分: 18684
  • 博客等级: 上将
  • 技术积分: 16382
  • 用 户 组: 普通用户
  • 注册时间: 2010-06-02 10:28
个人简介

啥也没写

文章分类

全部博文(1774)

文章存档

2025年(4)

2024年(16)

2023年(44)

2022年(39)

2021年(46)

2020年(43)

2019年(27)

2018年(44)

2017年(50)

2016年(47)

2015年(15)

2014年(21)

2013年(43)

2012年(143)

2011年(228)

2010年(263)

2009年(384)

2008年(246)

2007年(30)

2006年(38)

2005年(2)

2004年(1)

分类: 系统运维

2025-01-16 14:15:08

#安装llama.cpp
git clone https :// github.com/ggerganov/llama.cpp
cd llama.cpp
scl enable gcc-toolset-13 bash  #需要GCC13

#cpu
cmake -B build
cmake --build build --config Release
#gpu
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

获取GGUF
python convert_hf_to_gguf.py /data/qwen3b/Qwen/Qwen2___5-3B-Instruct/ --outfile qwen2.5-3b-instruct-f16.gguf
有时,可能{BANNED}最佳好将fp32作为量化的起点。在这种情况下,使用
python convert-hf-to-gguf.py/data/qwen3b/Qwen/Qwen2___5-3B-Instruct/ --outtype f32 --outfile qwen2.5-3b-instruct-f32.gguf

量化成Q8_0
build_gpu/bin/llama-quantize qwen2.5-3b-instruct-f16.gguf qwen2.5-3b-instruct-q8_0.gguf Q8_0

阅读(75) | 评论(0) | 转发(0) |
0

上一篇:几个AI CODE

下一篇:ssh over socks5代理

给主人留下些什么吧!~~