大模型量化部署：INT8/AWQ/GGUF 实战对比与性能调优

70B 大模型怎么塞进消费级显卡？量化技术是关键。本文对比 INT8/AWQ/GGUF 三种主流方案，附实测数据与部署代码，手把手教你用 4090 跑动千亿参数模型。

为什么需要量化？

大模型的参数规模爆炸式增长：

模型	参数量	FP16 显存	FP32 内存
——	——–	———-	———-
Qwen2.5-7B	72 亿	14 GB	28 GB
Qwen2.5-14B	140 亿	28 GB	56 GB
Qwen2.5-72B	720 亿	144 GB	288 GB
LLaMA3-70B	700 亿	138 GB	276 GB
GPT-4	~1.8 万亿	–	–

单卡 A100 80G，最多跑 30B 模型（FP16）。要跑 70B+，必须量化。

量化 = 用更少位数表示权重，显存降低 50-75%。

量化方案对比

核心技术对比

方案	精度损失	显存节省	速度	兼容性	推荐度
——	———	———	——	——–	——–
INT8	~1-2%	50%	1.2-1.5x	好	⭐⭐⭐
AWQ	~1-2%	60%	1.5-2x	好	⭐⭐⭐⭐⭐
GGUF	~1-3%	60-75%	1.3-1.8x	最好	⭐⭐⭐⭐
GPTQ	~1-2%	60%	1.3-1.5x	一般	⭐⭐⭐

精度 vs 性能权衡

FP16 (原始) ──────────────── 最高精度
   ↓ 50% 显存
INT8 ─────────────────────── 几乎无感知
   ↓ 额外 10% 显存
AWQ/GGUF ────────────────── 速度更快，精度相近
   ↓ 极致压缩
INT4 ─────────────────────── 显存最小，精度损失明显

INT8 量化实战

原理

INT8 用 8 位整数（-128 到 127）表示浮点数权重：

# 简化示例
import numpy as np

# FP16 权重
fp16_weights = np.array([0.1, -0.5, 1.2, -2.3, 0.8], dtype=np.float16)

# INT8 量化
# 1. 找最大值
max_val = np.max(np.abs(fp16_weights))  # 2.3

# 2. 计算缩放因子
scale = max_val / 127  # 0.018

# 3. 量化
int8_weights = np.round(fp16_weights / scale).astype(np.int8)
# [6, -28, 67, -127, 44]

# 4. 反量化验证
recovered = int8_weights * scale
# [0.108, -0.504, 1.206, -2.287, 0.792]
# 误差 < 2%

PyTorch 动态量化

# 最简单的方式：动态量化（不需要校准数据）
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载模型
model_id = "Qwen/Qwen2.5-7B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    device_map="auto"
)

# INT8 动态量化
model_int8 = torch.quantization.quantize_dynamic(
    model,  # 原模型
    {torch.nn.Linear},  # 只量化 Linear 层
    dtype=torch.qint8
)

# 保存
model_int8.save_pretrained("./qwen2.5-7b-int8")

transformers 加载 INT8

# 最简单的方式：加载时直接指定 load_in_8bit
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen2.5-7B-Instruct",
    load_in_8bit=True,  # 开启 INT8
    device_map="auto"
)

# 显存从 14GB → 7GB！

显存对比

import torch
from transformers import AutoModelForCausalLM

# 测试脚本
def measure_memory(model_id, dtype, load_int8=False):
    """测量模型显存占用"""
    import gc
    
    torch.cuda.empty_cache()
    gc.collect()
    
    if load_int8:
        model = AutoModelForCausalLM.from_pretrained(
            model_id,
            load_in_8bit=True,
            device_map="auto"
        )
    else:
        model = AutoModelForCausalLM.from_pretrained(
            model_id,
            torch_dtype=dtype,
            device_map="auto"
        )
    
    allocated = torch.cuda.memory_allocated() / 1024**3  # GB
    return allocated

# 测试结果
print("Qwen2.5-7B:")
print(f"  FP16: {measure_memory('Qwen/Qwen2.5-7B-Instruct', torch.float16):.1f} GB")
print(f"  INT8: {measure_memory('Qwen/Qwen2.5-7B-Instruct', None, True):.1f} GB")
# FP16: 14.2 GB
# INT8: 7.1 GB

AWQ 量化实战

原理

AWQ（Activation-Aware Weight Quantization）是一种权重量化方法：

AWQ 核心思想：
不是所有权重都一样重要！

重要性 = 权重对应的激活值大小
高激活值 → 高重要性 → 需要更高精度

所以：AWQ 只量化"不重要"的权重，保留"重要"权重的精度。

安装

pip install autoawq

模型量化

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_id = "Qwen/Qwen2.5-7B-Instruct"
save_path = "./qwen2.5-7b-awq"

# 1. 加载模型和分词器
print("加载模型...")
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoAWQForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    device_map="auto"
)

# 2. 量化配置
quant_config = {
    "zero_point": True,      # 使用非对称量化
    "q_group_size": 128,     # 分组大小（越小精度越高）
    "w_bit": 4,              # 权重位数（4/8）
    "version": "GEMM"        # GEMM / GEMV
}

# 3. 校准数据（用于确定缩放因子）
# 推荐用 100-1000 条真实数据
calibration_data = [
    "写一个快速排序算法",
    "解释什么是微服务架构",
    "如何优化数据库查询",
    # ... 更多数据
]

# 4. 执行量化
print("开始量化...")
model.quantize(
    tokenizer,
    quant_config=quant_config,
    calib_data=calibration_data
)

# 5. 保存
model.save_quantized(save_path)
tokenizer.save_pretrained(save_path)
print(f"量化完成，保存到 {save_path}")

加载 AWQ 模型

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer, AutoConfig

# 方式 1：使用 transformers（推荐）
model = AutoModelForCausalLM.from_pretrained(
    "./qwen2.5-7b-awq",
    torch_dtype=torch.float16,
    device_map="auto"
)

# 方式 2：使用 vLLM
# docker run -p 8000:8000 \
#   vllm/vllm-openai:latest \
#   --model ./qwen2.5-7b-awq \
#   --quantization awq

AWQ vs INT8 对比

# 性能测试脚本
import time
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

def benchmark(model_id, quant_type):
    """基准测试"""
    model = AutoModelForCausalLM.from_pretrained(
        model_id,
        torch_dtype=torch.float16,
        device_map="auto",
        load_in_8bit=(quant_type == "int8")
    )
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    
    # 测试提示
    prompt = "解释一下什么是 Kubernetes，用 200 字说明"
    
    # 预热
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    _ = model.generate(**inputs, max_new_tokens=50)
    
    # 正式测试
    times = []
    for _ in range(10):
        start = time.time()
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
        outputs = model.generate(**inputs, max_new_tokens=100)
        elapsed = time.time() - start
        times.append(elapsed)
    
    return {
        "avg_time": sum(times) / len(times),
        "tokens_per_sec": 100 / (sum(times) / len(times)),
        "memory": torch.cuda.memory_allocated() / 1024**3
    }

# 测试
print("Qwen2.5-7B 性能对比：")
print(f"FP16:  {benchmark('Qwen/Qwen2.5-7B-Instruct', 'fp16')}")
print(f"INT8:  {benchmark('Qwen/Qwen2.5-7B-Instruct', 'int8')}")

实测数据（A100 80G）：

量化方式	显存	吞吐量	首 Token 延迟	精度损失
———	——	——–	————–	———
FP16	14.2 GB	45 tok/s	120 ms	0%
INT8	7.1 GB	55 tok/s	95 ms	~1%
AWQ-4bit	4.2 GB	72 tok/s	80 ms	~2%

GGUF 量化实战

什么是 GGUF？

GGUF 是 llama.cpp 团队推出的量化格式：

GGUF = 专为 CPU + GPU 混合推理设计
     + 单文件分发（所有权重+元数据在一起）
     + 支持 INT2/INT4/INT8 等多种精度
     + 主流推理框架都支持（llama.cpp/vLLM/ollama）

模型转换

# 使用 huggingface_hub 下载并转换
from huggingface_hub import hf_hub_download

# 下载 Qwen2.5 GGUF 版本（别人已经量化好的）
# Q8_0 = 8bit 量化
# Q4_K_M = 4bit 量化（平衡精度和大小）
# Q2_K = 2bit 量化（最小体积）

model_file = hf_hub_download(
    repo_id="Qwen/Qwen2.5-7B-Instruct-GGUF",
    filename="qwen2.5-7b-instruct-q4_k_m.gguf",
    local_dir="./models/qwen2.5-7b"
)
print(f"下载完成: {model_file}")

ollama 部署（最简单）

# 1. 安装 ollama
# macOS/Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: 下载安装包

# 2. 创建 Modelfile
cat > Modelfile << EOF
FROM ./models/qwen2.5-7b-instruct-q4_k_m.gguf

# 设置参数
PARAMETER num_ctx 4096
PARAMETER temperature 0.7

# 系统提示
SYSTEM """
你是一个有帮助的AI助手。
"""
EOF

# 3. 创建模型
ollama create qwen2.5-7b -f Modelfile

# 4. 运行
ollama run qwen2.5-7b "你好，介绍一下自己"

# 5. REST API（应用接入）
# ollama 自动暴露 11434 端口

# Python 调用 ollama API
import requests

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "qwen2.5-7b",
    "prompt": "用 Python 写一个快速排序",
    "stream": False
})

print(response.json()["response"])

llama.cpp 部署

# 如果不想用 ollama，直接用 llama.cpp

# 1. 编译
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
mkdir build && cd build
cmake ..
make -j$(nproc)

# 2. 量化模型（可选，用已量化的更快）
# ./build/bin/llama-quantize ./models/qwen2.5-7b-f16.gguf \\
#     ./models/qwen2.5-7b-q4_k_m.gguf q4_k_m

# 3. 运行
./build/bin/llama-cli \
    -m ./models/qwen2.5-7b-q4_k_m.gguf \
    -n 512 \
    -p "解释什么是 RESTful API" \
    --temp 0.7 \
    -t 8  # 线程数

GGUF 文件大小对比

量化类型	压缩率	7B 模型大小	70B 模型大小
———	——–	————	————-
FP16	1x	14 GB	138 GB
Q8_0 (8bit)	2x	7 GB	69 GB
Q6_K	2.7x	5 GB	53 GB
Q5_K_M	3.2x	4.4 GB	43 GB
Q4_K_M	3.5x	4 GB	39 GB
Q3_K_M	4.5x	3.1 GB	30 GB
Q2_K	6x	2.3 GB	23 GB

推荐配置：

**性价比最高**：Q4_K_M（4bit），体积小、精度损失可接受

**极致压缩**：Q5_K_M，适合内存极度受限场景

**不推荐**：Q2_K，精度损失明显

消费级显卡实战（RTX 4090）

4090 能跑多大模型？

模型	FP16	INT8	AWQ-4bit	GGUF Q4
——	——	——	———-	———
7B	❌ 需优化	✅	✅	✅
13B	❌	❌ 勉强	✅	✅
14B	❌	❌	✅	✅
70B	❌	❌	❌	❌

4090 最佳选择：7B AWQ-4bit 或 14B GGUF Q4

RTX 4090 24G 部署脚本

#!/usr/bin/env python3
"""4090 24G 部署脚本"""
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

def deploy_model(model_id, method="awq"):
    """部署到 4090"""
    print(f"模型: {model_id}")
    print(f"方式: {method}")
    
    torch.cuda.empty_cache()
    
    if method == "int8":
        model = AutoModelForCausalLM.from_pretrained(
            model_id,
            load_in_8bit=True,
            device_map="auto"
        )
    elif method == "awq":
        # AWQ 量化模型
        model = AutoModelForCausalLM.from_pretrained(
            "./models/qwen-7b-awq",
            torch_dtype=torch.float16,
            device_map="auto"
        )
    elif method == "gguf":
        # 使用 llama.cpp Python binding
        from llama_cpp import Llama
        
        model = Llama(
            model_path="./models/qwen-7b-q4_k_m.gguf",
            n_ctx=4096,
            n_gpu_layers=35,  # 4090 用 35 层
            flash=True        # 启用 Flash Attention
        )
        return model
    
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    
    memory = torch.cuda.memory_allocated() / 1024**3
    print(f"显存占用: {memory:.1f} GB")
    
    return model, tokenizer

# 测试
model, tokenizer = deploy_model(
    "Qwen/Qwen2.5-7B-Instruct",
    method="awq"
)

# 推理测试
prompt = "什么是 Kubernetes？"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=200,
        temperature=0.7
    )

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

与腾讯云 GPU 集成

按需选择配置

模型规模	推荐配置	月费用（参考）
———	———	—————
7B FP16	GN7vwL (A100 40G)	~2000元
7B INT8	GN7.2XLARGE (T4 16G)	~800元
14B INT8	GN10Xp (V100 32G)	~1800元
14B AWQ	GN7vwL (A100 40G)	~2000元
70B TP4	GN7.14XLARGE (4xV100)	~7000元

成本优化建议

# 方案 1：AWQ 量化 + 小显卡
# 7B 模型用 T4 16G 跑 INT8，月费 800 元
# 14B 模型用 A100 40G 跑 AWQ，月费 2000 元

# 方案 2：按量付费（深夜便宜）
# A100 按秒计费：约 2.5 元/小时
# 深夜（22:00-08:00）5 折：约 1.25 元/小时

# 方案 3：Serverless 推理
# 腾讯云 ESCS（推理加速服务）
# 按调用计费，适合间歇性使用

总结：选型决策

模型规模判断：
│
├── 7B 模型？
│   ├── INT8 → T4 16G 够用
│   └── AWQ/GGUF Q4 → RTX 4090 也能跑
│
├── 14B 模型？
│   ├── AWQ → A100 40G
│   └── GGUF Q4 → V100 32G
│
└── 70B 模型？
    ├── 必须多卡 / 云服务
    └── 推荐用云服务商优化版（Qwen2.5-72B-Instruct）

量化效果总结：

方案	显存节省	速度提升	精度损失	推荐场景
——	———	———	———	———-
INT8	50%	20%	<1%	快速上手，通用场景
AWQ	60%	50%	~2%	生产部署首选
GGUF	60-75%	30%	~2%	CPU 推理、边缘部署

👤 作者简介

一枚在大中原腹地（河南）卖公有云的女/男士，主营腾讯云/阿里云/华为云，曾踩坑无数，现专注AI大模型应用落地。关注公众号「AI热点日报」，围观AI前沿动态~

博客：yunduancloud.icu