2026-04-23 23:35

蚂蚁百灵发布Ling-2.6-flash模型，Token效率达同类十分之一定价每百万0.1美元

时间：2026年4月22日

地点：蚂蚁集团

人物：蚂蚁百灵大模型团队

事件详情：蚂蚁百灵正式推出Ling-2.6-flash，一款总参数量104B、激活参数7.4B的Instruct模型。该模型主打Token效率，在保持竞争力智能水平的同时，实现更快、更省、更适合大规模真实应用。此前一周，该模型以匿名版本Elephant Alpha登陆OpenRouter，连续多日位列Trending榜首，日均tokens调用量达100B级别，周增长超5000%。

背景：Ling-2.6-flash沿用Ling 2.5的混合线性架构设计，这是一种高度稀疏化的MoE架构。在4卡H20条件下推理速度最快可达340 tokens/s，Prefill吞吐达到Nemotron-3-Super的2.2倍。在Output Speed测评中以215 tokens/s的稳定输出速度位列同参数级别模型第一梯队。模型面向Agent场景进行了定向增强，在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench等Agent相关基准上达到同尺寸SOTA水平。

影响：
- 在Artificial Analysis完整评测中仅消耗15M tokens，约为Nemotron-3-Super等模型的1/10
- 定价极具竞争力：输入每百万tokens 0.1美元，输出0.3美元，缓存命中0.02美元
- 提供为期一周的限时免费试用，降低开发者体验门槛
- 后续将通过蚂蚁数科发布商业版本LingDT，服务全球开发者及中小企业
- 为开发者和企业提供更低的推理开销、更快的首字响应、更流畅的交互体验

总结：蚂蚁百灵Ling-2.6-flash的发布标志着大模型竞争进入新阶段，Token效率成为关键差异化要素。不同于部分依赖更长输出换取更高分数的模型，Ling-2.6-flash选择围绕推理效率、Token效率与Agent场景表现进行系统性优化，为真实业务场景提供了更具性价比的选择。其极具竞争力的定价策略和优异的Agent能力，将对大模型市场格局产生重要影响。

参考来源：
https://www.sohu.com/a/1012924011_122014422
http://www.iheima.com/article-396514.html
https://news.iresearch.cn/content/202604/552976.shtml
https://www.sohu.com/a/1012955028_121627717
https://new.qq.com/rain/a/20260422A05IAU00
http://tech.hexun.com/2026-04-22/224037202.html
https://c.m.163.com/news/a/KR439G7R0512B07B.html
http://www.sohu.com/a/1012815388_114760

热门AI工具推荐