时间:2026年6月21日(ACL 2026国际计算语言学会议期间)
地点:中国北京/美国(ACL 2026)
人物:美团LongCat团队
事件详情:美团LongCat团队正式发布并开源WBench,这是行业首个系统性多轮评估基准,专门用于评估交互式视频世界模型。WBench被比喻为AI模型的"CT扫描仪",能够深入诊断模型能力,识别从"被动观看"到"主动交互"转变过程中的技术瓶颈,帮助研究人员精准定位模型在交互序列中失败的位置。同时,美团技术团队在ACL 2026国际计算语言学会议上取得重大突破,共有6篇论文被接受,涵盖大模型评估、复杂过程推理、竞赛级数学思维优化、强化学习和生成式推荐系统等领域。
背景:交互式视频世界模型是AI领域的前沿方向,传统评估方法多为单轮评测,无法全面反映模型在多轮交互中的表现。美团的WBench填补了这一空白。ACL(Association for Computational Linguistics)是自然语言处理领域的顶级国际会议。
影响:
- WBench作为首个多轮交互视频评估基准,将推动视频世界模型从"单帧评判"向"多轮交互"方向发展
- 美团在ACL 2026上6篇论文被接受,显示了其在AI基础研究方面的技术积累
- 开源策略有助于吸引全球研究社区参与,加速交互式视频世界模型的技术迭代
总结:美团LongCat团队发布的WBench基准和ACL 2026的6篇论文成果,标志着美团在AI前沿研究领域的技术实力正在向学术界输出。WBench作为首个多轮交互式视频世界模型评估标准,有望成为该领域的标杆性评测工具。
参考来源:
- https://new.qq.com/rain/a/20260621A00B1V00









