Wink - AI原生创新，忠于用户，专属智能体验

当互联网网页数据即将耗尽时，我们终于对那个众所周知的「数据禁区」下手了——PDF。

![PDF处理流程图](https://wink.run/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FG0Oby1mXYAALARy%3Fformat%3Djpg%26name%3Dlarge)

### 被低估的数据金矿

所有人都知道PDF难处理：格式复杂、提取成本高、OCR精度飘忽。但正是这些特性让它成为最后的优质数据源——法律文书、学术论文、技术手册这些高价值内容，90%都锁在PDF里。现有最大的CC-PDF语料库，也不过触及了CommonCrawl中PDF资源的皮毛。

### 两段式开采方案

我们搭建了分级处理管道：

- **可提取文本的PDF**：用Docling处理（成本$，质量良好）

- **扫描件/复杂版式**：动用rolmOCR（成本$$，质量优秀）

![数据统计图](https://wink.run/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FG0Ob-KSW0AAZhkK%3Fformat%3Djpg%26name%3Dlarge)

### 反直觉的发现

经过LM过滤和去重后，最终得到的3万亿token展现出两个特质：

1. 平均文档长度是网页数据的2倍

2. 与HTML语料混合使用时，在多项基准测试中刷新SOTA

最讽刺的是，这个仅经过轻度过滤的数据集，质量竟接近经过严格清洗的FW-EDU&DCLM网页数据——那些我们曾经奉为圭臬的东西。

### 数据荒漠中的绿洲

在1733种语言中，66种语言的token量超过10亿。尤其值得注意的是：

- 法律文档占比超预期（32%）

- 学术论文的数学公式保留完整

- 多语言混排文档占比达17%

### 开源与局限

数据集遵循ODC-By 1.0协议开源，但要注意：

- 未做NSFW过滤（PDF的特性使然）

- OCR错误率约3%-7%

- 表格内容可能错位

这或许不是最完美的解决方案，但绝对是突破数据墙最现实的尝试。当所有人都在卷网页数据时，我们选择先砸开PDF这个硬核桃。

[下载数据集](https://huggingface.co/datasets/HuggingFaceFW/finepdfs)

Wink Pings