2026-06-21 00:48

美团LongCat团队发布WBench 首个交互式视频世界模型多轮评估基准

时间：2026年6月21日（ACL 2026国际计算语言学会议期间）

地点：中国北京/美国（ACL 2026）

人物：美团LongCat团队

事件详情：美团LongCat团队正式发布并开源WBench，这是行业首个系统性多轮评估基准，专门用于评估交互式视频世界模型。WBench被比喻为AI模型的"CT扫描仪"，能够深入诊断模型能力，识别从"被动观看"到"主动交互"转变过程中的技术瓶颈，帮助研究人员精准定位模型在交互序列中失败的位置。同时，美团技术团队在ACL 2026国际计算语言学会议上取得重大突破，共有6篇论文被接受，涵盖大模型评估、复杂过程推理、竞赛级数学思维优化、强化学习和生成式推荐系统等领域。

背景：交互式视频世界模型是AI领域的前沿方向，传统评估方法多为单轮评测，无法全面反映模型在多轮交互中的表现。美团的WBench填补了这一空白。ACL（Association for Computational Linguistics）是自然语言处理领域的顶级国际会议。

影响：

WBench作为首个多轮交互视频评估基准，将推动视频世界模型从"单帧评判"向"多轮交互"方向发展
美团在ACL 2026上6篇论文被接受，显示了其在AI基础研究方面的技术积累
开源策略有助于吸引全球研究社区参与，加速交互式视频世界模型的技术迭代

总结：美团LongCat团队发布的WBench基准和ACL 2026的6篇论文成果，标志着美团在AI前沿研究领域的技术实力正在向学术界输出。WBench作为首个多轮交互式视频世界模型评估标准，有望成为该领域的标杆性评测工具。

参考来源：

https://new.qq.com/rain/a/20260621A00B1V00

热门AI工具推荐