蚂蚁百灵发布Ling-2.6-flash模型,Token效率达同类十分之一定价每百万0.1美元

时间:2026年4月22日

地点:蚂蚁集团

人物:蚂蚁百灵大模型团队

事件详情:蚂蚁百灵正式推出Ling-2.6-flash,一款总参数量104B、激活参数7.4B的Instruct模型。该模型主打Token效率,在保持竞争力智能水平的同时,实现更快、更省、更适合大规模真实应用。此前一周,该模型以匿名版本Elephant Alpha登陆OpenRouter,连续多日位列Trending榜首,日均tokens调用量达100B级别,周增长超5000%。

背景:Ling-2.6-flash沿用Ling 2.5的混合线性架构设计,这是一种高度稀疏化的MoE架构。在4卡H20条件下推理速度最快可达340 tokens/s,Prefill吞吐达到Nemotron-3-Super的2.2倍。在Output Speed测评中以215 tokens/s的稳定输出速度位列同参数级别模型第一梯队。模型面向Agent场景进行了定向增强,在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench等Agent相关基准上达到同尺寸SOTA水平。

影响:
- 在Artificial Analysis完整评测中仅消耗15M tokens,约为Nemotron-3-Super等模型的1/10
- 定价极具竞争力:输入每百万tokens 0.1美元,输出0.3美元,缓存命中0.02美元
- 提供为期一周的限时免费试用,降低开发者体验门槛
- 后续将通过蚂蚁数科发布商业版本LingDT,服务全球开发者及中小企业
- 为开发者和企业提供更低的推理开销、更快的首字响应、更流畅的交互体验

总结:蚂蚁百灵Ling-2.6-flash的发布标志着大模型竞争进入新阶段,Token效率成为关键差异化要素。不同于部分依赖更长输出换取更高分数的模型,Ling-2.6-flash选择围绕推理效率、Token效率与Agent场景表现进行系统性优化,为真实业务场景提供了更具性价比的选择。其极具竞争力的定价策略和优异的Agent能力,将对大模型市场格局产生重要影响。

参考来源:
https://www.sohu.com/a/1012924011_122014422
http://www.iheima.com/article-396514.html
https://news.iresearch.cn/content/202604/552976.shtml
https://www.sohu.com/a/1012955028_121627717
https://new.qq.com/rain/a/20260422A05IAU00
http://tech.hexun.com/2026-04-22/224037202.html
https://c.m.163.com/news/a/KR439G7R0512B07B.html
http://www.sohu.com/a/1012815388_114760

热门AI工具推荐

AI编程订阅服务,支持多款国产主流编程模型自由切换。
Seedance 2.0AI视频生成
具备卓越的物理真实性和角色一致性,可生成电影级视频内容。
SpeedAIAI内容检测降重
AI内容检测与降重工具,能有效帮助用户通过论文AI率检测
MonkeyCodeAI编程平台
企业级AI编程平台,支持私有化部署和自然语言编程以及MiniMax-M2.7免费无限量使用
秒哒AI工具
不懂代码也能开发应用?百度秒哒:无需编程,快速搭建小程序与网站
有戏AIAI漫剧生成工具
全流程AI短剧创作工具,实现从剧本到成片的自动化生产,让“一人即剧组”成为现实。
沁言学术智能科研平台
一站式文献管理与科研写作工具,支持边写作边搜索文献,高效阅读,文献管理,