4月22日,蚂蚁百灵正式发布Ling-2.6-flash大模型!这款总参数量104B、激活参数7.4B的Instruct模型,主打Token效率,在保持竞争力智能水平的同时,更快、更省、更适合大规模真实应用。

三大核心亮点

1. Token效率惊人

据权威评测机构Artificial Analysis数据,Ling-2.6-flash以15M output tokens实现了26分Intelligence Index。而同类模型如Nemotron-3-Super等需要110M+ tokens才能完成相同评测。

这意味着:仅用约1/10的Token消耗就能完成同类任务,成本优势显著。

2. 推理速度第一梯队

  • 4卡H20条件下推理速度最快达340 tokens/s
  • Prefill吞吐量是Nemotron-3-Super的2.2倍
  • 稳定输出速度215 tokens/s,位列同参数级别模型第一梯队

3. Agent能力SOTA

在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench等Agent相关基准测试中,达到同尺寸模型的SOTA水平。这意味着模型在任务执行、工具调用、代码生成等Agent场景表现出色。

匿名测试爆火

一周前,代号为Elephant Alpha的匿名模型登陆OpenRouter。上线以来日均tokens调用量达100B级别,连续多日位列Trending榜首,周增长超5000%。

今天,蚂蚁百灵正式宣布:Elephant Alpha正是Ling-2.6-flash的匿名测试版本!

定价与免费试用

限时免费:即日起开放为期一周的免费API调用

收费后定价

  • OpenRouter端:输入0.1美元/百万tokens,输出0.3美元/百万tokens
  • 官方平台:每日保留50万tokens免费额度,超出部分输入0.6元/百万tokens,输出1.8元/百万tokens

这个价格相比GPT、Claude等主流模型,便宜了不止一个数量级!

技术架构

沿用Ling 2.5的混合线性架构,采用高度稀疏化的MoE(Mixture of Experts)架构。这种设计让模型在硬件性能上表现突出,同时大幅降低推理成本。

后续计划

蚂蚁数科后续将发布商业版本LingDT,面向全球开发者及中小企业提供服务。

如何使用

  • OpenRouter平台搜索Ling-2.6-flash
  • 百灵大模型tbox官网直接调用

如果你是开发者或企业用户,正在寻找高性价比的大模型API,Ling-2.6-flash绝对是近期最值得尝试的选择!