腾讯混元开源OpenSearch-VL多模态深度搜索训练方案

时间：2026年5月7日

地点：中国

人物：腾讯混元团队、加州大学洛杉矶分校、香港中文大学

事件详情：腾讯混元携手加州大学洛杉矶分校、香港中文大学等学府，联合发布OpenSearch-VL开源多模态训练方案，通过强化学习技术，打造具备前沿能力的深度搜索智能体。该报告于5月6日在arXiv平台发表，介绍了OpenSearch-VL方案，用于训练前沿多模态深度搜索智能体。

背景：多模态搜索智能体指能够处理图像、文本等多种模态输入，并主动调用外部工具（如搜索引擎、图像处理工具）进行多步骤推理、证据验证与知识检索的智能体，旨在解决知识密集型的复杂视觉问答。研究构建了高质量数据管道，通过维基百科路径采样与模糊实体重写减少检索捷径，产出SearchVL-SFT-36k等数据集。

影响：
- 提供从数据、工具到训练算法的完整开源方案，降低多模态搜索智能体的开发门槛
- 构建高质量数据管道，平均每轨迹包含6.3次工具调用
- 工具环境超越仅检索的智能体，统一文本搜索、图像搜索、OCR、裁剪、锐化、超分辨率与透视校正等功能
- 为学术界和产业界提供前沿的多模态搜索研究资源

总结：腾讯混元此次开源OpenSearch-VL多模态深度搜索训练方案，为多模态AI搜索领域提供了完整的研究基础，将推动深度搜索智能体技术的发展与应用。

参考来源：
https://www.ithome.com/0/947/174.htm

热门AI工具推荐