集成大语言模型与产业数据智能，迈向“产业基础模型”

编者按：随着数据量和模型规模的增加，大语言模型在指令执行、知识存储、逻辑推理和编程技能等方面展现出了突破性的能力。然而，大语言模型在产业领域的潜能尚未得到充分挖掘，特别是在满足产业数据分析、推理、预测、决策等数据智能需求方面。如何有效地变革各行业的数据模型及智能的构建方法与应用范式，仍然面临诸多挑战。为应对这些挑战，微软亚洲研究院提出了构建产业基础模型的倡议，其核心理念在于通过持续预训练，将产业数据智能相关的知识与技能融入到大语言模型中。基于这一理念，微软亚洲研究院开发了生成式表数据学习（Generative Tabular Learning，GTL）框架，展示了如何在表数据这一广泛使用的数据表征上，构建具有跨行业、跨数据模式、跨任务的产业基础模型。

尽管大语言模在新闻撰写、文档总结、客服助理和虚拟助手等以语言为中心的任务上表现出色，但在深入理解和处理特定的行业数据时仍存在局限。为了应对大模型在产业界应用中所面临的挑战，微软亚洲研究院提出了构建产业基础模型（Industrial Foundation Models）的创新思路，并在表数据上成功验证了实现跨领域通用数据智能的可行性及其巨大潜力。研究员们设计的生成式表数据学习（Generative Tabular Learning，GTL）框架，成功地将多行业数据智能相关的知识融入大语言模型中，使其具备在新领域、新数据及新任务上的直接迁移和泛化能力，更加敏捷地响应不同的产业需求。现在，微软亚洲研究院正式开源这一技术范式，并希望通过此范式推动数据科学在各行业中的广泛应用，促使复杂的数据智能技术变得人人可及。

项目链接：

https://github.com/microsoft/Industrial-Foundation-Models

相关论文：From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models（已收录于KDD 2024）

https://dl.acm.org/doi/10.1145/3637528.3671975

产业数据的巨大潜力亟待挖掘

微软亚洲研究院的研究员们发现，大语言模型在利用产业数据这一关键资源方面，尚未充分发挥其潜力。产业数据通常以特定结构存储在不同行业和部门的数据仓库中，比如用于关系结构的表数据、记录时变信号的时间序列数据，以及用于复杂相互关联的图数据。这些结构中蕴含的丰富数据知识往往难以通过自然语言捕捉，因此当前以语义知识为核心的大语言模型在掌握数据智能相关的知识与能力方面存在不足。

更重要的是，产业数据及其蕴含的智能，为多个领域的重要应用奠定了基础。这种智能不仅来源于数值和结构化信息，还包括特定任务的需求和领域专有知识。例如，在医疗健康领域，来自患者的基本信息、生理信号和治疗历史的数据，可用于辅助精确诊断和预后分析。在能源存储领域，分析电池循环数据中的模式，可以加速材料筛选、优化充放电协议、指导电池回收中的价值评估。在商业领域，历史销售和需求数据可以辅助预测未来的市场趋势并制定定价策略。传统的数据智能方法通常依赖于特定的数据模式与任务需求，具体表现为各个垂直领域中独立开发及优化的小模型。

为应对这些挑战与机遇，微软亚洲研究院提出构建产业基础模型的新思路。其核心策略是以统一的方式表征产业数据，并在此基础上对大语言模型进行持续预训练，从而将通用的数据智能知识与能力整合到大语言模型中，创造出在新场景上可直接应用的产业基础模型。这种模型不仅能够在各行业部门中执行以语言指令为中心的任务，还可以提取跨任务和跨部门的产业知识，并进行数据驱动的预测和逻辑推理。

此外，通过提供一个以语言为中心、无需参数调优和编写代码的用户界面，产业基础模型还有潜力改变传统的数据科学应用范式。这个用户友好的界面将使各行业的领域专家具备全面的数据科学技能，推动先进数据分析技术的普及。

同时，产业基础模型强大的跨领域能力，也使其能够有效地进行知识迁移与技能泛化。这对在数据有限的领域进行有效地少样本上下文学习尤为关键。

图1：产业基础模型的架构概览

基于表数据开发产业基础模型

表数据（Tabular Data）通常存储于关系型数据库中，是众多产业领域中最普遍的数据格式之一，也是预测建模的基础。因此，微软亚洲研究院的研究员们从表数据着手，构建能够横跨不同产业领域的基础模型。

研究员们收集了来自不同产业领域的各种表数据集及其相应的预测任务，并将这些数据转换为面向指令的语言格式。这种转换使得大语言模型能够适应多样化的数据模式，例如不同特征的语义和数值含义，支持数值和类别特征的任意组合。此外，通过将大语言模型与数据样本及可选的背景信息结合，模型不仅能够处理回归和分类任务，还能够支持零样本（Zero-Shot）学习和少样本上下文学习（In-Context Learning）的场景。

图2：基于表数据的产业基础模型开发流程

然而，将大语言模型的语言处理能力融入表数据的学习中仍面临巨大的挑战。最主要的问题在于，大语言模型通常在自然语言数据上进行预训练，因此在处理格式化表数据的精细差别时显得力不从心，并且缺乏对特定领域知识的深入理解，而这些知识对于有效的表数据学习至关重要。

为了解决这些挑战，研究员们引入了一个持续预训练阶段，即生成式表数据学习（Generative Tabular Learning，GTL）。通过对特征和标签标记进行自回归式生成建模，GTL 框架可以将数据知识与统计学习能力有效整合到大语言模型中。经过 GTL 框架增强的大语言模型，可以通过调整指令提示，直接应用于新的产业数据和任务需求。这意味着，模型能够在无需复杂参数调优的情况下，实现高效的数据处理，并且在不同领域知识、数据模式和任务之间进行广泛迁移，从而推动大语言模型向产业模型的方向进化。

实验结果：GTL显著增强了LLaMA模型对表数据的理解能力

为了验证 GTL 的有效性，研究员们收集了来自超过400个不同领域的表数据集，经过严格的去重过滤和筛选，最终保留了384个独立的数据集。其中，44个数据集被用于模型评估，其余的数据集用于构建1000多个不同的预测任务，以支持 GTL 的持续预训练。研究员们选择 LLaMA 2 作为基础大语言模型，并将其与开源和私有的大语言模型，以及传统表数据机器学习算法进行了比较。

如图3所示，实验结果表明，GTL 显著增强了 LLaMA 模型对表数据的理解能力。这表明，表数据中所蕴含的行业知识尚未被开源的 LLaMA 模型充分掌握，而 GTL 则有效弥补了纯语言数据训练出的语言模型在产业数据智能上的不足。值得一提的是，尽管 GTL 增强的 LLaMA 模型参数规模较小，但其性能与 GPT-4 等更大规模的模型相比仍具有竞争力，甚至在某些情况下表现更为优异。不过需要注意的是，与 GPT-4 在公开表数据上的对比结果可能因其私有训练数据中潜在的“数据污染”问题而产生偏差。

此外，GTL 增强的 LLaMA 模型不仅在少样本学习场景中通过无须调参的上下文学习，超越了传统表数据机器学习方法的统计学习能力，还具备了这些方法所缺乏的零样本学习能力。

图3：GTL 增强的 LLaMA-2-13B 与其他基线模型的对比（更多详细结果请参阅论文）

研究员们还初步探究了 GTL 的规模定律。如图4所示，数据的多样性和模型参数规模都以幂律方式提升了新数据和新任务上的性能。这一发现表明了产业基础模型在跨多样任务和领域的广泛泛化潜力，有望使复杂的数据智能技术变得更加普及，即便在数据可得性有限的行业中也能发挥重要作用。

图4：初探 GTL 的规模定律

多维度拓展产业基础模型的潜力

生成式表数据学习（GTL）为会话式表数据深度学习打开了大门，使用户能够通过与模型对话来实现数据智能相关的分析、预测、推理和决策。通过将 GTL 与语言模型集成，模型不仅能够生成预测结果，还可以提供对相应结果的解释，从而为表数据学习的可解释性带来了新的机遇。基于这一范式所展现出的巨大潜力，微软亚洲研究院从两个角度展望了产业基础模型未来的研究和应用前景。

首先，产业基础模型本身的多维度扩展蕴含着巨大的潜力。这包括扩展数据集的种类和规模、增加模型规模、延长上下文长度，以及整合多样化的数据格式，如时间序列和图数据等。全面的扩展将使产业基础模型能够以更高的精度和更强的适应性，处理更多领域的更广泛任务。同时，产业数据知识与大语言模型生态系统的前沿进展相结合，如工具使用、智能体和对话交互，将进一步拓展产业基础模型的能力边界。这种协同作用可以打造更鲁棒和多功能的模型，将产业数据智能与大语言模型的复杂功能无缝融合。

其次，从用户视角来看，产业基础模型的发展将彻底革新产业数据智能的实现方式，重新定义数据科学的用户界面和工具链，进而催生出创新性的产品和服务。例如，领域专家无需掌握深厚的编程和数据科学知识，即可借助数据科学助手获得先进的数据分析和预测能力，从而推动前沿数据科学工具的普及。另外，产业基础模型可以作为决策支持工具，为行业领导者和从业者提供深刻的数据洞察和个性化分析，帮助企业做出更明智的战略决策，优化运营流程，并发掘新的增长机遇。

将大语言模型与产业数据智能相结合，是迈向产业基础模型的关键一步。通过持续扩展和创新，创建以用户为中心的工具，使前沿的数据智能技术更易于获取，能够释放出产业基础模型在各个行业中的更多潜能。微软亚洲研究院将持续推动这一进程，不断突破界限，让前沿的数据智能技术惠及更多的行业领域。

魔女团新闻

集成大语言模型与产业数据智能，迈向“产业基础模型”

程序员咋不秃头