时间:2026年4月22日
地点:蚂蚁集团
人物:蚂蚁百灵大模型团队
事件详情:蚂蚁百灵正式推出Ling-2.6-flash,一款总参数量104B、激活参数7.4B的Instruct模型。该模型主打Token效率,在保持竞争力智能水平的同时,实现更快、更省、更适合大规模真实应用。此前一周,该模型以匿名版本Elephant Alpha登陆OpenRouter,连续多日位列Trending榜首,日均tokens调用量达100B级别,周增长超5000%。
背景:Ling-2.6-flash沿用Ling 2.5的混合线性架构设计,这是一种高度稀疏化的MoE架构。在4卡H20条件下推理速度最快可达340 tokens/s,Prefill吞吐达到Nemotron-3-Super的2.2倍。在Output Speed测评中以215 tokens/s的稳定输出速度位列同参数级别模型第一梯队。模型面向Agent场景进行了定向增强,在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench等Agent相关基准上达到同尺寸SOTA水平。
影响:
- 在Artificial Analysis完整评测中仅消耗15M tokens,约为Nemotron-3-Super等模型的1/10
- 定价极具竞争力:输入每百万tokens 0.1美元,输出0.3美元,缓存命中0.02美元
- 提供为期一周的限时免费试用,降低开发者体验门槛
- 后续将通过蚂蚁数科发布商业版本LingDT,服务全球开发者及中小企业
- 为开发者和企业提供更低的推理开销、更快的首字响应、更流畅的交互体验
总结:蚂蚁百灵Ling-2.6-flash的发布标志着大模型竞争进入新阶段,Token效率成为关键差异化要素。不同于部分依赖更长输出换取更高分数的模型,Ling-2.6-flash选择围绕推理效率、Token效率与Agent场景表现进行系统性优化,为真实业务场景提供了更具性价比的选择。其极具竞争力的定价策略和优异的Agent能力,将对大模型市场格局产生重要影响。
参考来源:
https://www.sohu.com/a/1012924011_122014422
http://www.iheima.com/article-396514.html
https://news.iresearch.cn/content/202604/552976.shtml
https://www.sohu.com/a/1012955028_121627717
https://new.qq.com/rain/a/20260422A05IAU00
http://tech.hexun.com/2026-04-22/224037202.html
https://c.m.163.com/news/a/KR439G7R0512B07B.html
http://www.sohu.com/a/1012815388_114760






