阿里巴巴自然语言处理团队推出开源多模态智能体 WebWatcher,旨在突破现有系统在多模态深度研究中的限制。WebWatcher 整合网页浏览、图像搜索、代码解释和 OCR 等工具,具备视觉理解、逻辑推理、知识调用和工具调度等能力。其全自动多模态数据生成流程和强化学习策略提升了模型的跨模态理解和复杂任务处理能力。在多项评测中,WebWatcher 表现优异,领先于多个主流多模态大模型。