AutoGPTQ 量化-badb0y-ChinaUnix博客

个人简介

啥也没写

文章分类

文章存档

2024年（16）

2023年（44）

2022年（39）

2021年（46）

2020年（43）

2019年（27）

2018年（44）

2017年（50）

2016年（47）

2015年（15）

2014年（21）

2013年（43）

2012年（143）

2011年（228）

2010年（263）

2009年（384）

2008年（246）

2007年（30）

2006年（38）

我的朋友

相关博文

AutoGPTQ 量化

分类：系统运维

2025-02-21 10:01:46

安装
git clone https :/ / github.com/AutoGPTQ/AutoGPTQ
cd AutoGPTQ
pip install -vvv --no-build-isolation -e .

代码：

点击(此处)折叠或打开

from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
from transformers import AutoTokenizer
# Specify paths and hyperparameters for quantization
model_path = "/data/qwen3b/Qwen/Qwen2___5-3B-Instruct/"
quant_path = "/data/qwen3b/Qwen/Qwen2___5-3B-Instruct-4bit-gptq/"
quantize_config = BaseQuantizeConfig(
bits=4, # 4 or 8
group_size=128,
damp_percent=0.01,
desc_act=False, # set to False can significantly speed up inference but the perplexity may slightly bad
static_groups=False,
sym=True,
true_sequential=True,
model_name_or_path=None,
model_file_base_name="model"
)
max_len = 8192
# Load your tokenizer and model with AutoGPTQ
# To learn about loading model to multiple GPUs,
# visit https://github.com/AutoGPTQ/AutoGPTQ/blob/main/docs/tutorial/02-Advanced-Model-Loading-and-Best-Practice.md
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoGPTQForCausalLM.from_pretrained(model_path, quantize_config)
examples = [
tokenizer(
"Auto-GPTQ 是一个简单易用的模型量化库，基于 GPTQ 算法，具有用户友好的 API。"
)
]
#model.quantize(examples)
model.quantize(examples, cache_examples_on_gpu=False)
model.save_quantized(quant_path, use_safetensors=True)
tokenizer.save_pretrained(quant_path)

阅读(69) | 评论(0) | 转发(0) |

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们