AutoAWQ 量化-badb0y-ChinaUnix博客

个人简介

啥也没写

文章分类

文章存档

2025年（10）

2024年（16）

2023年（44）

2022年（39）

2021年（46）

2020年（43）

2019年（27）

2018年（44）

2017年（50）

2016年（47）

2015年（15）

2014年（21）

2013年（43）

2012年（143）

2011年（228）

2010年（263）

2009年（384）

2008年（246）

2007年（30）

2006年（38）

我的朋友

相关博文

AutoAWQ 量化

分类：系统运维

2025-02-21 10:04:14

安装
git clone https :/ / github.com/casper-hansen/AutoAWQ
cd AutoAWQ
pip install -vvv --no-build-isolation -e .

代码：

点击(此处)折叠或打开

from datasets import load_dataset
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
# Specify paths and hyperparameters for quantization
model_path = "/data/qwen3b/Qwen/Qwen2___5-3B-Instruct/"
quant_path = "/data/qwen3b/Qwen/Qwen2___5-3B-Instruct-AWQ/"
quant_config = { "zero_point": True, "q_group_size": 128, "w_bit": 4, "version": "GEMM" }
# Load model
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
# Define data loading methods
def load_dolly():
data = load_dataset('databricks/databricks-dolly-15k', split="train")
# concatenate data
def concatenate_data(x):
return {"text": x['instruction'] + '\n' + x['context'] + '\n' + x['response']}
concatenated = data.map(concatenate_data)
return [text for text in concatenated["text"]]
def load_wikitext():
data = load_dataset('wikitext', 'wikitext-2-raw-v1', split="train")
return [text for text in data["text"] if text.strip() != '' and len(text.split(' ')) > 20]
# Quantize
model.quantize(tokenizer, quant_config=quant_config, calib_data=load_wikitext())
# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)
print(f'Model is quantized and saved at "{quant_path}"')

运行：
export HF_ENDPOINT=https :// hf-mirror.com
python 1.py

阅读(93) | 评论(0) | 转发(0) |

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们