核心定义与背景
|
精度 / 量化等级 |
常见标识 | 核心特点 | 典型场景 |
|---|---|---|---|
| 16-bit(FP16/BF16) | F16/BF16 | 无压缩、精度最高,体积最大(685B 约 1.34TB) | 科研 / 高精度推理,高显存 GPU |
| 8-bit | Q8_0 | 平衡精度与体积,损失可控 | 中高端 GPU/CPU 本地部署 |
| 6-bit | Q6_K | 接近无损,体积低于 8-bit | 追求精度与效率平衡 |
| 5-bit | Q5_K_M/Q5_K_S | 体积更小,精度尚可 | 中端 CPU/GPU,日常对话 |
| 4-bit | Q4_K_M/Q4_K_S | 主流选择,体积约 FP16 的 1/4 | 消费级 GPU / 笔记本,通用推理 |
| 3-bit | Q3_K_M/Q3_K_S | 极致压缩,精度下降 | 低显存设备,轻量任务 |
| 2-bit | Q2_K_XS/Q2_K_L | 超小体积,精度明显损失 | 嵌入式 / 树莓派,仅演示用 |
| 1-bit | 极少官方 / 社区版 | 理论极限压缩,精度大幅损失 | 极限资源场景,仅验证用途 |
| 注:1-bit 多为实验性,主流实用版从 2-bit 起,后缀 K_S/K_M/K_L 对应量化方案的尺寸与精度偏好。 |
关键特性与取舍
本地部署关键步骤
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/ai/318715.html