时间:2026年5月17日
地点:CVPR 2026大会
人物:清华大学、阿里巴巴
事件详情:清华大学与阿里巴巴联合研究团队在CVPR 2026大会上发表Oral论文,正式发布视觉测试时训练模型ViT³(Vision Test-Time Training)。该模型创新性地将测试时训练(TTT)范式引入视觉领域,突破传统Transformer模型计算复杂度随序列长度平方增长的瓶颈,实现了线性计算复杂度的高效序列建模。论文第一作者为清华大学博士生韩东辰,通讯作者为黄高副教授。
背景:序列建模是大语言模型、计算机视觉等领域的基础共性问题。当前通用的Transformer模型计算复杂度随序列长度平方增长,在长序列任务中面临显著的计算挑战。测试时训练(TTT)模型是一种新兴的序列建模范式,它将注意力操作重新定义为一个在线学习过程,在每次推理时用Key-Value对构建一个轻量化的内部模型。然而,TTT灵活的设计空间是一把双刃剑,缺少系统性的理解和设计原则成为制约其发展的关键问题。
影响:
- 系统性总结视觉TTT模型的六条设计原则,为构建高效的视觉TTT模型明确了设计准则
- 在分类、检测、分割、生成等代表性视觉任务上超越各类先进的线性复杂度设计,包括线性注意力、视觉Mamba模型
- 为线性复杂度模型提供有力的基线,凸显测试时训练模型在高效、可扩展的视觉序列建模领域的突出潜力
总结:ViT³模型的发布标志着视觉序列建模领域的重大突破,通过系统性地探索测试时训练模型的设计空间,提出了面向视觉序列建模的纯TTT架构。该研究不仅解决了Transformer模型在长序列任务中的计算瓶颈问题,更为未来视觉TTT模型的后续研究工作提供了重要的理论支撑和实践指导。论文代码已开源,有望推动整个计算机视觉领域的技术进步。
参考来源:
http://finance.sina.com.cn/tech/roll/2026-05-17/doc-inhyevri1736752.shtml
https://arxiv.org/abs/2512.01643
https://github.com/LeapLabTHU/ViTTT








