评估智能体工作流程生成

摘要

大型语言模型（LLMs）凭借其处理各种任务的出色能力，在推理和规划任务方面取得了重大进展，其中将复杂问题分解为可执行工作流程是这一过程中的关键环节。现有的工作流程评估框架要么仅关注整体绩效，要么受限于场景覆盖不足、工作流程结构过于简单以及评估标准宽松等局限。为此，我们推出了WORFBENCH，一个统一的工作流程生成基准，具有多方面的场景和复杂的图形工作流程结构。此外，我们还提出了WORFEVAL，一个系统评估协议，利用子序列和子图匹配算法准确量化LLM代理的工作流程生成能力。通过对不同类型LLM的全面评估，我们发现LLM代理在序列规划能力和图形规划能力之间存在明显差距，即使是GPT-4也表现出约15%的差距。我们还训练了两个开源模型，并评估了它们在保留任务上的泛化能力。此外，我们观察到，生成的工作流程能够增强下游任务，使它们在推理时以更少的时间实现更优的性能。

研究背景

大型语言模型（LLMs）在处理复杂任务方面取得了显著进展，这些任务通常需要将复杂问题分解为可执行的工作流。现有的工作流评估框架要么只关注整体性能，要么存在场景覆盖有限、工作流结构简单和评估标准宽松等限制。为了解决这些问题，研究者们提出了WORFBENCH，一个包含多方面场景和复杂图结构工作流的统一基准。

主要贡献提出了WORFBENCH，一个包含多方面场景和复杂工作流结构的统一工作流生成基准。引入了WORFEVAL，一个使用子序列和子图匹配算法来评估LLM智能体工作流生成能力的系统性评估协议。在多种不同规模的闭源和开源模型上进行了综合评估，并进一步利用生成的工作流来促进下游任务，实现了更优越和高效的性能。研究方法

研究者们构建了一个包含18k训练样本、2146个测试样本和723个保留任务的数据集，以评估模型的泛化能力。他们使用有向无环图（DAG）来模拟工作流，并引入了节点链作为原始任务和工作流图之间的中间结构。此外，他们还提出了一种基于子序列和子图匹配的定量评估方法，以准确评估智能体生成的工作流。

实验结果

实验结果显示，大型语言模型（LLMs）在生成复杂工作流方面存在显著挑战。即使是先进的模型如GPT-4，在图规划能力上也比线性规划能力低约15%。研究者通过训练开源模型并评估其在保留任务上的泛化能力，发现LLMs与实际工作流规划专家相比还有很大差距。实验还表明，结构化工作流可以提升下游任务的性能，减少推理时间，并缩短规划步骤。这些发现强调了将世界知识整合到LLM智能体中以提高其规划能力的重要性。。

结论

WORFBENCH和WORFEVAL为评估和提高LLM智能体在生成复杂工作流方面的能力提供了一个有效的平台。研究者们的实验结果揭示了现有模型在图规划能力上的不足，并为未来的研究提供了有价值的见解。

一句话总结

这篇论文通过引入WORFBENCH和WORFEVAL，为评估和提升LLM智能体生成复杂工作流的能力提供了新的基准和评估方法，并揭示了现有模型在这一领域的局限性。

论文链接https://arxiv.org/abs/2410.07869

魔女团新闻

成天评科技文化