Wink Pings

量化模型评测:我想为不同精度的模型做个基准测试

受社区讨论启发,计划建立一个量化模型基准测试,评估精度损失与VRAM、性能增益的关系,涵盖编程、数学、翻译、常识等领域。

前几天在社区里看到一个帖子,讨论大家是否能感知不同量化版本模型的质量差异。这让我萌生了一个想法:为各种量化模型建立一套基准测试。

目标是更清晰地量化精度损失与VRAM占用、推理速度提升之间的关系。

目前计划包含以下几个测试维度:

- 编程能力

- 数学推理

- 翻译质量

- 世界常识

![量化示意图](https://example.com/quantization.png)

有社区成员建议增加指令遵循能力的测试,这个很有必要,会加入测试清单。

在开始之前,有人推荐了[2025量化大战](https://www.reddit.com/r/LocalLLaMA/comments/1khwxal/the_great_quant_wars_of_2025/)这个帖子,里面的讨论很有参考价值。

你们觉得还应该测试哪些方面?什么样的测试指标最能体现不同量化版本之间的差异?欢迎提出建议。

(第一次发帖,请多指教)

发布时间: 2025-10-22 16:04