量化模型评测:我想为不同精度的模型做个基准测试
受社区讨论启发,计划建立一个量化模型基准测试,评估精度损失与VRAM、性能增益的关系,涵盖编程、数学、翻译、常识等领域。
前几天在社区里看到一个帖子,讨论大家是否能感知不同量化版本模型的质量差异。这让我萌生了一个想法:为各种量化模型建立一套基准测试。
目标是更清晰地量化精度损失与VRAM占用、推理速度提升之间的关系。
目前计划包含以下几个测试维度:
- 编程能力
- 数学推理
- 翻译质量
- 世界常识

有社区成员建议增加指令遵循能力的测试,这个很有必要,会加入测试清单。
在开始之前,有人推荐了[2025量化大战](https://www.reddit.com/r/LocalLLaMA/comments/1khwxal/the_great_quant_wars_of_2025/)这个帖子,里面的讨论很有参考价值。
你们觉得还应该测试哪些方面?什么样的测试指标最能体现不同量化版本之间的差异?欢迎提出建议。
(第一次发帖,请多指教)
发布时间: 2025-10-22 16:04