热门AI工具推荐

AI编程订阅服务,支持多款国产主流编程模型自由切换。
Seedance 2.0AI视频生成
具备卓越的物理真实性和角色一致性,可生成电影级视频内容。
方舟 Agent PlanAI智能体订阅
火山引擎推出的全场景AI智能体订阅服务,通过一个订阅整合5大主流模型和10+AI工具
基于OpenClaw架构打造的AI助手平台,核心优势包括云端一键部署、沙箱隔离安全运行、全面接入企业微信/钉钉/飞书三大主流IM工具
SpeedAIAI内容检测降重
AI内容检测与降重工具,能有效帮助用户通过论文AI率检测
墨刀AIAI原型设计平台
墨刀AI是一款能通过一句话描述或图片,快速生成可交互原型、PRD文档及各类图表的一站式智能产品设计协作平台。
秒哒AI工具
不懂代码也能开发应用?百度秒哒:无需编程,快速搭建小程序与网站
有戏AIAI漫剧生成工具
全流程AI短剧创作工具,实现从剧本到成片的自动化生产,让“一人即剧组”成为现实。
沁言学术智能科研平台
一站式文献管理与科研写作工具,支持边写作边搜索文献,高效阅读,文献管理,

清华阿里联合发布ViT³模型,突破Transformer复杂度瓶颈入选CVPR 2026 Oral

时间:2026年5月17日

地点:CVPR 2026大会

人物:清华大学、阿里巴巴

事件详情:清华大学与阿里巴巴联合研究团队在CVPR 2026大会上发表Oral论文,正式发布视觉测试时训练模型ViT³(Vision Test-Time Training)。该模型创新性地将测试时训练(TTT)范式引入视觉领域,突破传统Transformer模型计算复杂度随序列长度平方增长的瓶颈,实现了线性计算复杂度的高效序列建模。论文第一作者为清华大学博士生韩东辰,通讯作者为黄高副教授。

背景:序列建模是大语言模型、计算机视觉等领域的基础共性问题。当前通用的Transformer模型计算复杂度随序列长度平方增长,在长序列任务中面临显著的计算挑战。测试时训练(TTT)模型是一种新兴的序列建模范式,它将注意力操作重新定义为一个在线学习过程,在每次推理时用Key-Value对构建一个轻量化的内部模型。然而,TTT灵活的设计空间是一把双刃剑,缺少系统性的理解和设计原则成为制约其发展的关键问题。

影响:
- 系统性总结视觉TTT模型的六条设计原则,为构建高效的视觉TTT模型明确了设计准则
- 在分类、检测、分割、生成等代表性视觉任务上超越各类先进的线性复杂度设计,包括线性注意力、视觉Mamba模型
- 为线性复杂度模型提供有力的基线,凸显测试时训练模型在高效、可扩展的视觉序列建模领域的突出潜力

总结:ViT³模型的发布标志着视觉序列建模领域的重大突破,通过系统性地探索测试时训练模型的设计空间,提出了面向视觉序列建模的纯TTT架构。该研究不仅解决了Transformer模型在长序列任务中的计算瓶颈问题,更为未来视觉TTT模型的后续研究工作提供了重要的理论支撑和实践指导。论文代码已开源,有望推动整个计算机视觉领域的技术进步。

参考来源:
http://finance.sina.com.cn/tech/roll/2026-05-17/doc-inhyevri1736752.shtml
https://arxiv.org/abs/2512.01643
https://github.com/LeapLabTHU/ViTTT