科学家发布大规模科学文档基准数据集，助力解决科学语料稀缺问题

近期，上海人工智能实验室联合上海交通大学、浙江大学、复旦大学团队，发布了首个大规模多模态结构化科学文献基准数据集 DocGenome。

该数据集旨在训练和测试多模态大语言模型，并充分挖掘科学文献对于 AI 系统的价值。

与此同时，结构化的科学文献记录了研究成果和人类知识，构成了高质量数据的庞大语料库，为自动化多模态科学文档理解与 AI 科学问题发现等研究和应用提供了重要的支撑。

图丨DocGenome 特点介绍（来源：arXiv）

该数据集通过自动标注预印本网站 arXiv 开放获取社区的 50 万篇科学文档，使用自定义的自动标注管道，具有完整性、逻辑性、多样性和正确性的四个关键特征。

日前，相关论文以《DocGenome：一个用于训练和测试多模态大语言模型的大规模科学文档基准数据集》（DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models）为题发表在 arXiv 上 [1]。

图丨相关论文（来源：arXiv）

2016 年，美国斯坦福大学李飞飞教授团队提出了一种名为 Visual Genome 的大规模图片语义理解数据集，首次将视觉信息的标注从一元关系进阶到二元关系。

以此为启发，在该研究中，研究人员将数据集命名为 DocGenome。除了针对每个科学文献给出了一元区域级别的标注外，该数据集还标注了区域和区域之间的二元关系。

该论文通讯作者、上海人工智能实验室研究员张铂举例说道：“例如，不同段落之间的阅读顺序，不同区域的引用关系等，这对于缓解大模型幻觉、提升大模型写作逻辑很有帮助。”

图丨张铂（来源：张铂）

在以往的研究中，由于语料不足和对科学文档的逻辑推理能力不够，大语言模型对论文的理解通常只停留在直观的写作逻辑，而不是更为关键的实验逻辑。

为解决在科学文档理解中数据稀缺以及标注成本过高等问题，该课题组开发了一种自动化科学文档结构化标注工具 DocParser。

由于每篇论文的编译库、环境包都不尽相同，结构化标注的难点在于，需要针对不同作者撰写的、不同风格的论文，进行统一化、自动化处理。

研究人员对 DocParser 进行了四个关键模块设计，包括：语境和数据预处理、单元分割、属性分配和关系检索以及单元渲染，从而实现了从 arXiv 开源社区的原始数据中自动提取科学文献数据并进行结构化标注。

张铂表示，DocParser 作为数据集标注过程中的核心工具，自动标注了 50 万篇 arXiv 科学文献（带有一元关系和二元关系的标注结果），能够节省约 400 万-500 万元的人工标注成本。

图丨DocParser 自动标注工具框架图（来源：arXiv）

从一元关系来看，使用 DocGenome 数据集，可以实现不同复杂模态之间的切换，如视觉表格、公式转文本表格、公式的任务，为进一步丰富文档类型转换的应用场景提供了可能。

此外，DocGenome 还包含了多种复杂模态类别，如图表、方程式、表格、算法、代码和脚注等。

从二元关系来看，DocGenome 数据集构建了不同区域之间的 6 种二元逻辑关系。

包括：

等价关系（如跨页问题：一个文本段落出现在不同页面）。标题邻接关系（如两个相邻的章节标题或子章节标题）。次级关系（如介绍章节标题和介绍章节的内容）。非标题邻接关系（如两个相邻的自然段）。显示引用关系（如正文某句话对图、表、公式的引用，类似\ref{}）。隐式引用关系（如 Table 和 Table caption）。

DocGenome 实现了对 153 个二级学科的标注，包括计算机、量子力学、物理学、化学、经济学等。

并且，DocGenome 数据集中所包含的是从 2007 年到 2022 年期间的文献，不仅数据量比较大，而且是近期的、具有时效性的数据。

如果按照页数来算，该数据集标注了 680 万图片数据，与此前同类科学文献数据集相比属于质的提升。

表丨使用 DocGenome 序列扩展数据的实验，结果模型在方程和表转换任务进行评估（来源：arXiv）

如上表所示，研究人员在表格 Image-to-LaTeX 转换任务以及公式 Image-to-LaTeX 转换任务上，基于 Pix2Struct 模型进行微调。

“与付费闭源工具 Mathpix 的性能相比，我们的数据集有明显的提升，这也证明了该数据的实用性。”张铂表示。

此外，他们利用 DocGenome 训练集中多样的标签数据，在单元布局检测任务进行训练，性能也超越了 Mathpix 等闭源付费工具。

现在，每天新增的论文数量呈指数级上升，将海量的、重复性的查阅文献工作由视觉语言模型进行代替，有望将科研人员从繁重的阅读文献任务中解脱出来，并帮助他们找到价值比最高的研究点。

现在，该课题组正在将 DocGenome 接到大语言模型作为数据集合工具，以帮助更多科研人员利用该数据集，进行某个特定领域科学论文的总结和发展脉络梳理等。

张铂认为，针对某一个科学问题，大模型很有可能能够给出一些有意思的建议，从而让科研人员从中进行选择，提高创作效率。

另一方面，他们希望通过增强 DocParser 的泛化性，将数据集扩展到 Scihub 领域，以持续提升 DocGenome 数据集的数据量。

参考资料：

1.https://arxiv.org/abs/2406.11633

2.https://unimodal4reasoning.github.io/DocGenome_page/

排版：刘雅坤

魔女团新闻

科学家发布大规模科学文档基准数据集，助力解决科学语料稀缺问题

深科技利大千