4月22日,蚂蚁百灵正式发布Ling-2.6-flash大模型!这款总参数量104B、激活参数7.4B的Instruct模型,主打Token效率,在保持竞争力智能水平的同时,更快、更省、更适合大规模真实应用。
三大核心亮点
1. Token效率惊人
据权威评测机构Artificial Analysis数据,Ling-2.6-flash以15M output tokens实现了26分Intelligence Index。而同类模型如Nemotron-3-Super等需要110M+ tokens才能完成相同评测。
这意味着:仅用约1/10的Token消耗就能完成同类任务,成本优势显著。
2. 推理速度第一梯队
- 4卡H20条件下推理速度最快达340 tokens/s
- Prefill吞吐量是Nemotron-3-Super的2.2倍
- 稳定输出速度215 tokens/s,位列同参数级别模型第一梯队
3. Agent能力SOTA
在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench等Agent相关基准测试中,达到同尺寸模型的SOTA水平。这意味着模型在任务执行、工具调用、代码生成等Agent场景表现出色。
匿名测试爆火
一周前,代号为Elephant Alpha的匿名模型登陆OpenRouter。上线以来日均tokens调用量达100B级别,连续多日位列Trending榜首,周增长超5000%。
今天,蚂蚁百灵正式宣布:Elephant Alpha正是Ling-2.6-flash的匿名测试版本!
定价与免费试用
限时免费:即日起开放为期一周的免费API调用
收费后定价:
- OpenRouter端:输入0.1美元/百万tokens,输出0.3美元/百万tokens
- 官方平台:每日保留50万tokens免费额度,超出部分输入0.6元/百万tokens,输出1.8元/百万tokens
这个价格相比GPT、Claude等主流模型,便宜了不止一个数量级!
技术架构
沿用Ling 2.5的混合线性架构,采用高度稀疏化的MoE(Mixture of Experts)架构。这种设计让模型在硬件性能上表现突出,同时大幅降低推理成本。
后续计划
蚂蚁数科后续将发布商业版本LingDT,面向全球开发者及中小企业提供服务。
如何使用
- OpenRouter平台搜索Ling-2.6-flash
- 百灵大模型tbox官网直接调用
如果你是开发者或企业用户,正在寻找高性价比的大模型API,Ling-2.6-flash绝对是近期最值得尝试的选择!