FinePDFs:从PDF中解放3万亿token的隐秘宝藏
HuggingFace团队发布目前最大规模PDF数据集,覆盖4.75亿份文档、1733种语言,平均文本长度是网页数据的2倍。这个被长期忽视的数据源如何突破大模型训练的数据墙?
当互联网网页数据即将耗尽时,我们终于对那个众所周知的「数据禁区」下手了——PDF。

### 被低估的数据金矿
所有人都知道PDF难处理:格式复杂、提取成本高、OCR精度飘忽。但正是这些特性让它成为最后的优质数据源——法律文书、学术论文、技术手册这些高价值内容,90%都锁在PDF里。现有最大的CC-PDF语料库,也不过触及了CommonCrawl中PDF资源的皮毛。
### 两段式开采方案
我们搭建了分级处理管道:
- **可提取文本的PDF**:用Docling处理(成本$,质量良好)
- **扫描件/复杂版式**:动用rolmOCR(成本$$,质量优秀)

### 反直觉的发现
经过LM过滤和去重后,最终得到的3万亿token展现出两个特质:
1. 平均文档长度是网页数据的2倍
2. 与HTML语料混合使用时,在多项基准测试中刷新SOTA
最讽刺的是,这个仅经过轻度过滤的数据集,质量竟接近经过严格清洗的FW-EDU&DCLM网页数据——那些我们曾经奉为圭臬的东西。
### 数据荒漠中的绿洲
在1733种语言中,66种语言的token量超过10亿。尤其值得注意的是:
- 法律文档占比超预期(32%)
- 学术论文的数学公式保留完整
- 多语言混排文档占比达17%
### 开源与局限
数据集遵循ODC-By 1.0协议开源,但要注意:
- 未做NSFW过滤(PDF的特性使然)
- OCR错误率约3%-7%
- 表格内容可能错位
这或许不是最完美的解决方案,但绝对是突破数据墙最现实的尝试。当所有人都在卷网页数据时,我们选择先砸开PDF这个硬核桃。
[下载数据集](https://huggingface.co/datasets/HuggingFaceFW/finepdfs)
发布时间: 2025-09-07 15:02