港大、camel-ai 等多家机构联合提出了一种名为新的名为 Workforce 的创新多智能体框架,以及配套的 OWL(Optimized Workforce Learning)训练方法,在通用 AI Assistant 的标杆基准测试 GAIA 上取得了 69.70% 的准确率,不仅刷新了开源系统的最佳纪录,更是超越了多家商业系统以及 OpenAI Deep Research 的开源方案。
该研究成果所有代码均已开源,目前已经在 github 上收获了 17k 的 star。
论文标题:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation
论文地址:abs/2505.23885
项目代码:camel-ai/owl
背景与挑战:多智能体系统的「领域壁垒」
随着 LLM 的飞速发展,单一智能体在处理复杂现实任务时逐渐暴露出局限性。为此,多智能体系统(MAS)应运而生,通过让多个专门化的智能体协作完成复杂任务,显著提升了系统的整体性能。然而,当前的多智能体系统普遍面临一个核心问题:跨领域迁移能力严重不足。现有系统往往针对特定领域深度定制,这种设计模式带来了两大弊端:
推理层面的限制:部署到新领域往往需要重新设计整个系统架构。例如,专为软件工程设计的 metaGPT 框架依赖于特定的标准操作程序,难以直接应用到其他领域。
训练层面的挑战:现有方法通常需要对所有智能体进行全量训练。以 MALT 为例,其固定的生成器 - 验证器 - 改进器流水线要求对每个组件分别进行训练,迁移成本极高。
这些局限性制约了多智能体系统的灵活性和可扩展性,迫切需要一种更加通用、模块化的解决方案。
创新突破:Workforce 架构的「解耦设计」
研究团队提出的 Workforce 框架通过创新的「解耦设计」理念,解决了跨领域迁移难题。该框架将系统分解为三个核心组件:
领域无关的规划器(Planner Agent),其负责分析输入任务并将其分解为若干子任务,基于高层目标生成抽象的任务分解策略。这个组件是整个系统的「大脑」,其设计完全独立于具体应用领域。
智能协调器(Coordinator Agent),作为中央协调机制,负责将子任务分配给最适合的工作节点,同时管理任务依赖关系并整合中间结果。协调器通过共享的 「任务通道」实现高效的通信管理。
专业工作节点(Worker Nodes),由一个或多个专门化智能体组成,配备特定的能力和工具包来执行分配的子任务。工作节点可以根据应用需求灵活替换或添加,无需修改核心规划机制。
这种模块化架构的最大优势在于实现了「稳定核心,可变外围」的设计哲学。当需要适应新领域时,只需更换或添加相应的工作节点,而规划器和协调器可以保持不变,大大降低了系统迁移的复杂度和成本。
技术创新:OWL 训练方法的「精准优化」
在 Workforce 架构基础上,研究团队进一步提出了 OWL(Optimized Workforce Learning)训练方法,专注于优化核心规划器的能力,而非对整个系统进行全量训练。整体采用两阶段训练策略:
第一阶段:监督微调(SFT),使用专家演示数据对规划器进行初始化训练,让其掌握基础的任务分解技能。研究团队精心构建了包含 1599 个高质量轨迹的训练数据集,涵盖在线信息搜索、推理、多模态处理等多个能力维度。
第二阶段:强化学习优化,采用直接偏好优化(DPO)算法进一步提升规划器的决策质量,使其能够发展出超越简单模仿的复杂决策能力。
这种精心设计的课程确保了规划器能够处理现实世界中的各种复杂任务类型。
实验验证:全面超越现有基准
研究团队在 GAIA 基准测试上进行了全面的实验验证。GAIA 是评估通用 AI 助手的权威基准,要求系统具备多模态理解、网络搜索、代码执行和复杂推理等综合能力。
在多智能体推理方面,Workforce 展现出了显著优势,在 GAIA 的 validation 集上 pass@1 达到了 69.70% 的准确率,大幅超越此前最好的开源系统,并超越了 OpenAI Deep Research(67.36%)等强大的商业系统。
在 OWL 训练方法效果验证方面,OWL 的训练设计使 Qwen2.5-32B-Instruct 模型在 GAIA 上的性能从 36.36% 提升到了 52.73%,超越了未训练的 72B 模型(49.09%),并在 Level 3 任务上达到了与 GPT-4o 相当的性能(26.92%)。
深入的分析实验揭示了 Workforce 框架的多项优势:
跨能力维度维持稳定:Workforce 框架在各个能力维度都展现出优势,无论任务需要 1 种、2 种还是 3 种以上的能力,Workforce 都能保持稳定的性能表现,而单智能体方法在多能力任务上出现显著性能下降。
测试时自我纠错:通过 Workforce 设计的任务失败时触发的自我反思与重新规划机制,系统能够在测试时动态调整策略,随着重新规划次数增加,性能持续提升,展现出强大的自我纠错和进化能力。
模块化训练优势:对比实验显示,仅训练规划器就能达到与训练全部组件相近的性能,同时大幅降低计算成本,验证了「规划器优先」设计理念的正确性。
实际应用:真实环境下的诸多挑战
由于真实世界任务的复杂性和不稳定性,在真实环境中解决问题会面临诸多挑战。对此,研究团队进行了深入分析,将挑战主要分为以下几类:
信息源差异:同一查询在不同信息源可能得到不同答案。
信息时效性:网络信息的动态变化可能导致预期答案失效。
语言歧义性:用户查询中的模糊表达需要系统进行智能推理和消歧。
网络环境限制:网络不稳定、访问权限限制等现实问题都需要系统妥善处理。
结论:通向通用人工智能的新路径
OWL 的成功为构建真正通用的人工智能系统开辟了一种新的路径。其中,Workforce 的模块化设计和跨领域迁移能力,带来了以下优势:
架构层面:通过解耦设计实现系统的高度模块化,既保证了核心能力的稳定性,又提供了外围功能的灵活性。
训练层面:专注于核心组件的优化而非全系统训练,显著提高了训练效率和迁移能力。
应用层面:为各种实际应用场景提供了即插即用的解决方案,大大降低了部署门槛。
通过将即插即用的工作节点与可泛化的规划核心相结合,该方法能够为通用 AI 助手提供可扩展的基础,加速通用 AI 助手的研究进程。