「 Deep Research, WebDancer, WebSailor 」
- 问:“一部知名电视剧:女二 1993 年入行;女一现任丈夫是浙江湖州人;男一六年后登上春晚。剧名是什么?”
- 答案:父母爱情
这种题目来自 BrowseComp-ZH,是典型的检测模型 “超级深度” (Level-3) 的 Deep Research 能力的benchmark。
分享两篇文章 WebDancer 和 WebSailor 。
两篇文章介绍了如何端到端训练一个 Deep Research Agent ,以及,如何将这种 Web Agent 推向 BrowseComp - en/zh 等超深基准。
数据方面:
WebDancer 通过构建 CRAWLQA和E2HQA,扩大难度渐进的数据量。
WebSailor 则用 SailorFog-QA,人为构造 Level-3 任务。
训练方面:
WebDancer和WebSailor都采用ReAct框架,以及类似的post training recipe (SFT + On-policy RL)。
WebDancer 强在 GAIA/WebWalker 这类中等深度任务;而WebSailor 将优势推向 BrowseComp - en/zh 基准。
非常solid的工作!
点击图片查看原图