Wink Pings

DeepSeek-OCR实测:压缩比与准确率的平衡点

测试DeepSeek-OCR发现,10倍压缩下仍能保持97%准确率,视觉token压缩效果显著,但超过12倍后准确率急剧下降。

看到DeepSeek-OCR声称先将长文档渲染成图像,再用视觉编码器进行“光学压缩”时,我的第一反应是:这真的可行吗?稳定性如何?于是从Hugging Face拉取了开源模型开始测试。

![DeepSeek-OCR界面](https://wink.run/image?url=https%3A%2F%2Fhuggingface.co%2Fdeepseek-ai%2FDeepSeek-OCR)

上手很顺畅。几种分辨率预设覆盖了大部分需求:Tiny模式(512×512)适合快速浏览;Base模式(1024×1024)是日常使用的主力;遇到报纸或学术PDF这种超密集页面,可以切换到Gundam模式。

测试了几个关键指标:

- 1024×1024的杂志页面,DeepEncoder仅产生256个视觉token,推理过程没有爆显存

- 在公开的OmniDocBench对比中,100token的“Small”模式表现优于256token的GOT-OCR2.0

- Gundam模式使用不到800token,却超越了MinerU2.0约7000token的流水线

这直接体现了“少即是多”的效果。

根据实际使用和其他用户的反馈:10倍压缩下仍能保持约97%的OCR准确率;压缩到10-12倍时维持在90%左右;超过20倍后准确率会明显下降到60%。在排版整洁的文档上(比如长文科技媒体),Free OCR通常只需20多秒(我测试约24秒)。Grounding模式因为需要更多解析,接近一分钟(约58秒),但能输出Markdown格式,复制粘贴非常方便。

我的工作流分两步:先用Free OCR快速确认内容,如果需要归档或进一步处理,再运行Grounding版本导出Markdown。表格直接转为HTML,化学公式甚至能转换成SMILES格式,这对学术PDF特别有用。

![文档处理对比](https://example.com/ocr-comparison.png)

需要注意:压缩比不要过于激进,10倍以内是甜点区;另外这还不是指令调优的聊天范式,如果想作为多模态助手使用,还需要一些提示词技巧。

有用户反馈在边缘案例上的表现,比如旋转文本或低质量扫描件。大多数视觉编码器在干净文档上表现良好,但面对90年代反复复印的模糊文档就会出问题。压缩伪影是否首先出现在特定内容类型(如小字体或密集表格)也值得关注。

测试环境:RTX 4090,PyTorch框架,显存占用控制在合理范围内。时间分配上,上下文处理占主要部分,实际生成时间相对较短。

发布时间: 2025-10-22 15:43