真可用!美团数字人模型开源,MV、电商等统统拿下
美团开源的数字人视频生成框架 LongCat-Video-Avatar 刚刚更新到 1.5 版本。是真能用。这版更新把音频编码器换了推理步数砍到8步在770人、13240条主观评分的大规模评测里雷达图面积全面领先。音频编码器换血8步出图LongCat-Video-Avatar 1.5 建立在 LongCat-Video 基础模型之上第一件事就是把音频编码器从 Wav2Vec2 换成了 Whisper-Large。这个替换让唇形动态明显更平滑、更自然。做过数字人视频的人都知道唇形同步是最容易穿帮的地方嘴皮子跟音频对不上观众一秒出戏。Whisper-Large 本身在语音识别领域已经是标杆级模型对音频时序信息的捕捉更细腻迁移到视频生成任务里唇形精度自然跟着上来。第二件事推理加速。v1.5 采用 DMD2Distribution Matching Distillation 2做步数蒸馏把推理压到 8 NFENeural Function Evaluations。原来动辄几十步的去噪过程现在8步搞定。推理成本下来了视觉保真度没怎么掉。对商业部署来说推理速度和生成质量之间的平衡直接决定能不能上线。8步推理让 LongCat-Video-Avatar 1.5 在服务端部署时更灵活成本更可控。原生支持的任务包括 AT2VAudio-Text-to-Video音频文本转视频、ATI2VAudio-Text-Image-to-Video音频文本图像转视频和视频续写同时兼容单流和多流音频输入。覆盖的场景也很广新闻播报、表演、唱歌、电商营销、多人对话、动画角色、动物角色基本把数字人视频的主流需求都包了。有一个很关键的点风格泛化。v1.5 不只在真人场景稳对动漫、动物、多人交互、手持物体等复杂条件也能扛住。一个模型打通多种风格商用时不用为不同风格各训一套部署成本进一步降低。770人打分性能全面领先LongCat-Video-Avatar 1.5 基于 EvalTalker 构建了一套综合评测基准覆盖新闻、教育、娱乐、商业等场景按音频维度语速、情绪和视觉维度人数、姿态、遮挡设置不同难度。770名评估者完成了13240条主观评分另有10名领域专家做结构化质量分析。雷达图面积全面领先。具体看四个维度物理合理性、时间稳定性、身份一致性、音视频协调性LongCat-Video-Avatar 1.5 的雷达图面积在所有对比模型中处于领先水平各维度表现更均衡。没有明显短板这对商用来说比单点突出更重要。用户偏好方面数据更有说服力。对比 Kling Avatar 2.0胜率 65.9%对比 OmniHuman-1.5胜率 61.1%对比 HeyGen胜率 54.3%。三个对手都是当前市场上能打的商业系统LongCat-Video-Avatar 1.5 全部胜出。数字人视频的难点其实分层。单人场景是基本功多人场景是分水岭。单人场景LongCat-Video-Avatar 1.5 得分 3.336显著高于 HeyGen、OmniHuman-1.5 等产品。单人场景比的是自然度和真实感嘴形对不对、表情自不自然、动作顺不顺观众一眼就能看出来。3.336 这个分数说明基础体验已经站稳。多人场景更考验模型的区分能力。谁在说话、谁在听、各自的动作和表情该怎么配合。LongCat-Video-Avatar 1.5 多人场景得分 2.730大幅领先 InfiniteTalk 的 2.339。差距主要来自说话者和聆听者的区分多人交互时谁该动、谁该静模型判断更准确画面才不会显得乱。数字人视频最常见的翻车场景人变形、背景变形、画面跳帧LongCat-Video-Avatar 1.5 在这些硬指标上也非常优异。主体变形问题率 23.1%低于所有对比模型。背景变形问题率 9.4%同样保持在低水平。背景变形是长视频生成里的老问题随着帧数增加背景容易出现扭曲、闪烁、色偏v1.5 把这个问题压到了个位数百分比。跳帧问题率 0.8%所有对比模型中最低。跳帧就是画面突然跳一下像卡顿又不像卡顿看起来很不舒服。0.8% 意味着在长视频连续生成中画面流畅性得到了很好的保障色调误差累积也控制得不错。音视频协调方面面部与身体同步问题率 5.1%唇形同步问题率 29.8%两项均低于其他对比模型。29.8% 的唇形同步问题率看着不低但在当前技术水平下已经是最低值说明音频、唇形、表情、动作的整体协同在 v1.5 上更自然。唇形同步本身是数字人视频最难啃的骨头全行业都在这个区间LongCat-Video-Avatar 1.5 已经走在了最前面。LongCat-Video-Avatar 1.5 在效率提升的同时没让生成质量打折。单人场景自然度和真实感保持 SOTA多人互动、长时序稳定性、物理合理性、音视频协调性这些商用关键维度上v1.5 也展现出更强的潜力。官方还贴心给开发者们贴出了使用技巧这么好的免费本地数字人又能省一笔Token费了。参考资料https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5https://github.com/meituan-longcat/LongCat-Videohttps://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/