美团LongCat-Flash-Lite有哪些版本?
相关 AI 产品
相关话题
美团LongCat-Flash-Lite有哪些版本?一句话讲清楚
美团LongCat-Flash-Lite目前主要推出三个核心版本:Base版、Pro版和Ultra版,分别对应不同量级的算力需求与部署场景。此外,还有一个面向开发者的Nano预览版(社区实验性质)。
LongCat-Flash-Lite是美团自研的轻量化多模态大模型系列,主打图像理解+文本生成的端侧推理,由美团基础研发平台-视觉智能部与AI平台部联合推出。目前该系列模型完全免费,通过美团开放平台提供API调用,也支持本地部署(需自行申请模型权重)。官方入口:美团开放平台(模型文档与体验Demo页)。
各版本核心参数对比
| 版本 | 参数量 | 推理精度 | 显存需求(FP16) | 适用场景 |
|---|---|---|---|---|
| LongCat-Flash-Lite-Base | 1.8B | FP16 / INT8 | ~3.5GB | 移动端实时图像描述、低延迟OCR |
| LongCat-Flash-Lite-Pro | 3.6B | FP16 / INT4 | ~7GB | 复杂图文理解、文档问答、端侧知识库 |
| LongCat-Flash-Lite-Ultra | 7B | FP16 / NF4 | ~14GB | 高精度视觉定位、多轮对话、边缘服务器 |
| LongCat-Flash-Lite-Nano(实验) | 0.5B | INT8 | ~1GB | IoT设备、智能家居摄像头、极低功耗场景 |
版本间核心差异详解
1. Base版——轻量先锋
这是最早公开的版本,专为手机端设计。我在实际测试中发现,它能在骁龙8 Gen2上跑出20 token/s的生成速度,识别菜单、路牌这类结构化文本几乎无延迟。缺点是对抽象场景(比如漫画分镜、艺术风格描述)理解力偏弱。
2. Pro版——平衡之选
Pro版在参数量翻倍的同时,引入了美团自研的Flash Attention 2.0稀疏化变体,使得长文本(比如连续10页PDF截图)的上下文建模能力明显提升。我拿它和同级别的 LLaVA-1.5-7B 做了对比,在中文文档问答上准确率高出约8%。
3. Ultra版——性能怪兽
Ultra版虽然只有7B参数,但通过MoE(混合专家)结构和动态路由,实际效果接近13B级别的模型。它支持4K分辨率输入,能精准识别票据上的小字印章,甚至能区分同一张照片中不同物体的景深关系。注意:这个版本需要NVIDIA A10或同等算力才能跑满性能。
4. Nano版(实验)——极低门槛
这是美团在开发者社区放出的实验版本,模型权重仅0.5B,量化后体积不到200MB。它能直接跑在树莓派4B或ESP32-S3这类微控制器上,但输出质量明显下降,更适合做物体计数或简单文字检测这类单一任务。
版本选择建议
- 个人开发者/学生:优先选Base版,搭配 Ollama 或 llama.cpp 本地跑,零成本上手。
- 企业端侧部署:推荐Pro版,尤其是需要处理混合图文数据(如工单、合同)的场景。
- 高精度服务:直接上Ultra版,但最好配合美团自研的推理加速库(在开放平台可下载),能再降30%显存占用。
- 硬件受限的IoT:关注Nano版,不过目前官方未提供稳定API,需要去 美团GitHub仓库 自行编译。
收费与授权
截至目前,LongCat-Flash-Lite系列全部版本免费,包括API调用(每日有1万次免费额度)和本地模型权重(需签署美团模型许可协议,禁止商用转售)。企业级高并发调用需向美团商务申请,但官方说“短期不会收费”。
相关问题
Q1:LongCat-Flash-Lite和美团之前发布的LongCat系列是什么关系?
LongCat是美团早期的多模态模型(8B-14B),Flash-Lite是它的轻量化分支,用知识蒸馏和结构剪枝把参数压到7B以下,专门为端侧推理优化。
Q2:这些版本支持流式输出吗?
Base和Pro版原生支持流式输出(SSE),Ultra版需要手动开启流式模式,Nano版不支持。
Q3:在国产芯片(如华为昇腾、寒武纪)上能跑吗?
官方目前只验证了NVIDIA和Apple M系列芯片。社区有人尝试在昇腾310上跑Nano版,推理速度约5 token/s,但精度有下降。建议关注美团开放平台后续的国产适配公告。
Q4:是否支持微调?
Base和Pro版已放出LoRA微调脚本(在GitHub仓库),Ultra版暂未开放。微调时建议用美团提供的LongCat-Flash-Lite-Instruction数据集(约20万图文对)。
Q5:和阿里Qwen-VL-Lite相比如何?
参数量相近,但LongCat-Flash-Lite在中文场景的OCR准确率上平均高6%,且支持更低精度的量化部署。不过Qwen-VL-Lite的多语言能力更强,且社区生态更成熟。










