GUFF_GGML大模型量化

bailin 发布于 2025-09-05 216 次阅读


⚠️本文最后更新于2025年9月7日,已超过 60天没有更新,可能文章内容已失效,请自行测试!

在本文中,我尽量会以最详细但是不涉及太多复杂理念让各位把GGML和GUFF大模型的量化等参数搞明白

大模型量化

相信在使用LMstudio的时候不少人都会遇到大模型参数以及量化程度上选择的难题,那么这些字母和数字的含义到底是什么呢?

这里举个例子,就以Q4_K_M为例子,这是一个大多数用户会选择的一个量化程度,尤其是针对只有8GB VRAM的用户在使用8B参数大模型的时候使用的,我们把Q4_K_M这个名字拆开看,看看每个部位分别都代表什么

Q:代表 Quantization(量化)。这是指通过减少模型中权重(weights)的精度来减小模型大小和计算量。

4:代表主要权重的量化位数。在这种情况下,模型的主体部分是使用 4 位来存储的。位数越低,模型就越小,推理速度也越快,但可能会牺牲一些精度。

K:代表 Kernel(内核)量化。这是一个相对较新的、更优化的量化方案,它使用了专门为现代 CPU 设计的高效内核。与旧的量化方法相比,K 系列的量化在保证性能的同时,能更好地保留模型精度。

M:代表 Medium(中等)。在 K 系列量化中,模型的一些关键层或不重要的层会使用不同的量化位数。M 表示这些层使用了中等精度,通常是 6 位。这种混合精度的方法可以在模型大小和性能之间找到一个很好的平衡点。

然后再展示一下比较常见的几种格式

量化类型 (Quantization Type) 平均位数 (Bits/Weight) 描述和使用场景 平衡点
Q4_K_M ~4.5 (强烈推荐)中等大小的 K-Quant 4 位量化。在模型性能和文件大小/内存占用之间取得了最佳平衡。适用于大多数通用场景。 最佳平衡 (性能 vs 资源)
Q5_K_M ~5.5 中等大小的 K-Quant 5 位量化。比 Q4_K_M 性能更好,精度损失更小,但文件也更大。如果你的硬件资源充足,这是一个很好的升级选择。 追求更高性能
Q8_0 8.0 8 位量化。非常接近原始 F16 模型的性能,几乎没有精度损失。文件大小和内存占用很大,通常用于评估模型性能基准或对质量有极高要求的场景。 最高质量,接近无损
Q3_K_M ~3.4 中等大小的 K-Quant 3 位量化。文件更小,但性能下降会比 4 位明显。适用于内存极度受限的设备。 优先考虑低资源占用
Q2_K ~2.6 K-Quant 2 位量化。量化程度非常高,文件极小,但模型性能会有显著下降,可能会出现“胡言乱语”的情况。仅在极端资源限制下或实验性使用。 极限压缩,性能损失大
Q6_K 6.0 K-Quant 6 位量化。性能优于 Q5_K_M,非常接近 Q8_0,但文件和内存占用比 Q8_0 小。是一个高质量和资源消耗之间的不错选择。 高质量与资源的折中
F16 16.0 半精度浮点数。未经整数量化的版本,通常作为量化的“原始”版本。文件最大,需要大量 VRAM,但能提供模型的完整性能。 原始性能,无损
F32 32.0 全精度浮点数。最原始的模型格式,很少直接用于推理,通常只用于模型训练。 训练或科研用途
🔎 补充说明:
S = Small(小规模,文件更小,速度快,但精度略低)
M = Medium(中等规模,性能和资源占用的折中,常用选择)
L = Large(大规模,精度更高,但文件更大,内存需求更高)

 

量化对比

为了能更直观的让各位看出来详细区别,这里我将会选取几个大模型并且抛出一些问题,然后来看一下准确度和速度,这里采用的是RTX4060Laptop显卡和32GB DDR5 4800频率的内存,CPU是i7的12650H,大模型采用的是Josiefied-DeepSeek-R1-0528-Qwen3-8B-abliterated-v1 8B

然后分别采用

Q2_K

Q3  S和L

Q4  S 和 M

Q5  S 和 M

Q6_K

Q8_0

其中选用的问题难度均采用最高等级的第三级,如果错误率80%以上将会降至Level2(点击题目即可展开)

第1题

飞机有100个座位,有100个乘客。第1个乘客没有登机牌,其余99个有。第一个乘客上机时随机选择一个座位。第二个乘客上机时,如果发现自己的座位没有被坐,就会坐到自己的座位上,否则他会在剩下的空座位上随机选择一个座位坐下。问第100个乘客上机时,能坐到自己座位的概率是多大?

  1. 1/2 ✅
  2. 1/3
  3. 1/4
  4. 1/5

第2题

一个三角形,三个端点上有三只蚂蚁,蚂蚁可以绕任意边走,问蚂蚁不相撞的概率是多少?

  1. 1/2
  2. 1/4 ✅
  3. 1/8
  4. 1/3

第3题

两个人扔硬币,先扔到正面者获胜,问在第n次的时候第一个人获胜的概率?

  1. 1/2
  2. 2/3 ✅
  3. 1/3
  4. 1/4

第4题

50名运动员按顺序排成一排,教练下令:“单数运动员出列!”剩下的运动员重新排列编号,教练又下令:“单数运动员出列!”如此下去,最后只剩下一个人,他是最开始的几号运动员?

  1. 1
  2. 16
  3. 32 ✅
  4. 50

第5题

一个人8块钱买了一只鸡,9块钱卖了,10块钱又买回来了,11块钱又卖了。 请问他挣了多少钱?

  1. 1
  2. 2 ✅
  3. 3
  4. 4

 

结果展示

📊 Q2_K 量化模型测试报告

以下测试均基于 Q2_K(最弱量化版本),整体表现严重退化。

题号 耗时 速度 Token 数 结果
1 4分51秒 42.72/s 5763 胡言乱语
2 36.10/s 10588 胡言乱语
3 41.20/s 1912 思考中止
4 未答对
5 未答对

结论:Q2_K 表现极差,几乎所有问题均失败,验证了其“极限压缩 = 极限崩坏”。

以下测试均基于Q5_K_M

题号 耗时 速度 Token 数 结果
1 11分13秒 19.41/s 13249 回答正确
2 7分41秒 19.11/s 12458 回答正确
3 41.20/s 1912 思考中止
4 未答对
5 未答对

结论:Q2_K 表现极差,几乎所有问题均失败,验证了其“极限压缩 = 极限崩坏”。

 

此作者没有提供个人介绍。
最后更新于 2025-09-07