Wink Pings

FinePDFs:从PDF中解放3万亿token的隐秘宝藏

HuggingFace团队发布目前最大规模PDF数据集,覆盖4.75亿份文档、1733种语言,平均文本长度是网页数据的2倍。这个被长期忽视的数据源如何突破大模型训练的数据墙?

当互联网网页数据即将耗尽时,我们终于对那个众所周知的「数据禁区」下手了——PDF。

![PDF处理流程图](https://wink.run/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FG0Oby1mXYAALARy%3Fformat%3Djpg%26name%3Dlarge)

### 被低估的数据金矿

所有人都知道PDF难处理:格式复杂、提取成本高、OCR精度飘忽。但正是这些特性让它成为最后的优质数据源——法律文书、学术论文、技术手册这些高价值内容,90%都锁在PDF里。现有最大的CC-PDF语料库,也不过触及了CommonCrawl中PDF资源的皮毛。

### 两段式开采方案

我们搭建了分级处理管道:

- **可提取文本的PDF**:用Docling处理(成本$,质量良好)

- **扫描件/复杂版式**:动用rolmOCR(成本$$,质量优秀)

![数据统计图](https://wink.run/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FG0Ob-KSW0AAZhkK%3Fformat%3Djpg%26name%3Dlarge)

### 反直觉的发现

经过LM过滤和去重后,最终得到的3万亿token展现出两个特质:

1. 平均文档长度是网页数据的2倍

2. 与HTML语料混合使用时,在多项基准测试中刷新SOTA

最讽刺的是,这个仅经过轻度过滤的数据集,质量竟接近经过严格清洗的FW-EDU&DCLM网页数据——那些我们曾经奉为圭臬的东西。

### 数据荒漠中的绿洲

在1733种语言中,66种语言的token量超过10亿。尤其值得注意的是:

- 法律文档占比超预期(32%)

- 学术论文的数学公式保留完整

- 多语言混排文档占比达17%

### 开源与局限

数据集遵循ODC-By 1.0协议开源,但要注意:

- 未做NSFW过滤(PDF的特性使然)

- OCR错误率约3%-7%

- 表格内容可能错位

这或许不是最完美的解决方案,但绝对是突破数据墙最现实的尝试。当所有人都在卷网页数据时,我们选择先砸开PDF这个硬核桃。

[下载数据集](https://huggingface.co/datasets/HuggingFaceFW/finepdfs)

发布时间: 2025-09-07 15:02