华为开源DeepDiver多Agent系统华为Agent系统报告生成可达万字
华为openPangu-DeepDiver开源,深度研究多Agent系统,支持百步以上工具推理,万字报告快速生成。
在主流DeepResearch Agent榜单上成绩亮眼:
- BrowseComp-zh任务中,38B模型拿到34.6分,超过了WebSailor-72B的30.1
- BrowseComp-en任务中,得分13.4,在同规模开源模型中最高
- 长文生成方面,平均报告长达24.6K tokens,是o3 DeepResearch的2倍以上,信息量、事实性和多样性都进入第一梯队
它的关键设计是Planner+Executors协同架构,用文件系统通信来支撑复杂任务:
- 训练方式是冷启动SFT→迭代RFT,配合轨迹级过滤、Planner驱动的Credit Assignment;
- 硬件上完全依托1000+ Ascend NPU集群,并用Agent Factory和StaleSync提升训练效率;
- 在线RFT阶段通过dynamic batching和partial rollout来稳定长轨迹优化。
一些有意思的发现:
- 性能瓶颈主要在Executors,而不是Planner;
- Planner“够用就行”,提升Executors效果更明显;
- 经协作训练的子Agent单独拿出来也很能打,比如38B的Information Seeker就能单挑跑赢WebSailor。
博主实测时让它调研中国蓝牙耳机细分市场,DeepDiver-V2输出的长文报告不仅覆盖品类、竞争格局,还包含消费者洞察与技术发展,条理清晰、信息丰富。
目前DeepDiver-V2已经开源,感兴趣的可以直接体验:
模型:ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver
报告:ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver/blob/main/docs/openpangu-deepdiver-v2-tech-report.pdf