Wink - AI原生创新，忠于用户，专属智能体验

看到DeepSeek-OCR声称先将长文档渲染成图像，再用视觉编码器进行“光学压缩”时，我的第一反应是：这真的可行吗？稳定性如何？于是从Hugging Face拉取了开源模型开始测试。

![DeepSeek-OCR界面](https://wink.run/image?url=https%3A%2F%2Fhuggingface.co%2Fdeepseek-ai%2FDeepSeek-OCR)

上手很顺畅。几种分辨率预设覆盖了大部分需求：Tiny模式（512×512）适合快速浏览；Base模式（1024×1024）是日常使用的主力；遇到报纸或学术PDF这种超密集页面，可以切换到Gundam模式。

测试了几个关键指标：

- 1024×1024的杂志页面，DeepEncoder仅产生256个视觉token，推理过程没有爆显存

- 在公开的OmniDocBench对比中，100token的“Small”模式表现优于256token的GOT-OCR2.0

- Gundam模式使用不到800token，却超越了MinerU2.0约7000token的流水线

这直接体现了“少即是多”的效果。

根据实际使用和其他用户的反馈：10倍压缩下仍能保持约97%的OCR准确率；压缩到10-12倍时维持在90%左右；超过20倍后准确率会明显下降到60%。在排版整洁的文档上（比如长文科技媒体），Free OCR通常只需20多秒（我测试约24秒）。Grounding模式因为需要更多解析，接近一分钟（约58秒），但能输出Markdown格式，复制粘贴非常方便。

我的工作流分两步：先用Free OCR快速确认内容，如果需要归档或进一步处理，再运行Grounding版本导出Markdown。表格直接转为HTML，化学公式甚至能转换成SMILES格式，这对学术PDF特别有用。

![文档处理对比](https://example.com/ocr-comparison.png)

需要注意：压缩比不要过于激进，10倍以内是甜点区；另外这还不是指令调优的聊天范式，如果想作为多模态助手使用，还需要一些提示词技巧。

有用户反馈在边缘案例上的表现，比如旋转文本或低质量扫描件。大多数视觉编码器在干净文档上表现良好，但面对90年代反复复印的模糊文档就会出问题。压缩伪影是否首先出现在特定内容类型（如小字体或密集表格）也值得关注。

测试环境：RTX 4090，PyTorch框架，显存占用控制在合理范围内。时间分配上，上下文处理占主要部分，实际生成时间相对较短。

Wink Pings

DeepSeek-OCR实测：压缩比与准确率的平衡点