Sand.ai曹越:每代模型押注非共识,视频模型是通往世界模型重要路径
曹越与Sand.ai的创业历程“每一代模型我们都在押注一个非共识。” Sand.ai创始人曹越不太关心自己站在共识的哪一边。Sand.ai是一家视频生成模型和产品公司成立于2024年1月。在上一段创业“光年之外”结束后曹越投入到Sand.ai的创业中做视频生成模型。彼时市场主流是Diffusion路线几乎没人认为曹越选择的自回归路线是正解。模型发展与创新2025年初发布基于自回归架构训练的模型Magi - 1后曹越意识到“只有画面是不够的”团队开始探索音画同出Sand.ai成为除Google VEO 3之外最早拿出音画同出模型的团队Magi - 1在Google DeepMind的Physics IQ benchmark上长期保持第一。2025年11月曹越决定带着团队将模型架构从Dense转向MoE“那个时间点国内应该几乎没有什么视频公司在全力推进这件事”。发布音画同出模型Gaga - 1之后发现在Dense架构下继续Scale Up成本会直线上升而MoE是突破视频模型成本、速度、效果不可能三角的答案。2026年Q3Sand.ai将发布新一代视频生成模型采用MoE架构兼顾高效推理与目前开源领域最大的参数规模曹越有信心做到头部水准并开源。融资情况这家公司刚刚完成两轮合计超亿美元融资投资方包括Look Capital、Lollapalooza Capital王慧文家办、九坤创投、经纬创投、和玉资本MSA Capital、创新工场、襄禾资本、源码资本、中科创星、洪泰基金、今日资本、华业天成、云晖资本、IDG、百度风投等一线机构联合投资星涵资本担任本轮融资财务顾问。底层思考与对世界模型的判断创业近三年曹越押注自回归路线、做音画同出、采用MoE架构的底层思考同源即让每个人能消费非常个性化的内容前提是降低内容生产成本。他不关心是否站在市场共识一边认为过于关心他人认知大概率没从第一性原理思考问题。对于世界模型曹越认为它还在“前GPT时代”数据不够、定义不清、技术路线未收敛。世界模型是2026年最说不清道不明的AI概念之一杨立昆、李飞飞等学术巨擘押注不同方向Sora已在3月暂时停运国内也有多家明星初创进入该领域。一方面世界模型寄托人们对未来模型路线的想象另一方面它成了fomo情绪的出口。但曹越确定视频模型是通往终局的重要路径因为视频数据距离世界的Observation最接近且体量足够大。应用探索与产品策略在推进基础模型训练同时Sand.ai已在应用侧落子探索过数字人、视频Agent等产品。今年1月上线的音乐Agent产品VidMuse三个月做到千万美元ARR的体量。曹越表示创业公司若没有训练出SOTA模型的能力易被模型厂商整合Sand.ai会继续边做模型边做应用。做模型的公司做垂直整合后成本和体验更好。在视频模型方向上必须模型和产品双轮驱动。Sand.ai以模型为核心采用多产品矩阵打法现阶段选了Agent方向VidMuse商业化已被验证成立。用户反馈有助于模型的后训练产品不局限于调用自己的模型收集的数据能让自身模型效果更好。视频领域过去两年是模型牵引产品模型解锁能力产品侧搭建的脚手架就减少。Sand.ai的开源模型持续贡献价值开源的MagiAttention算子库被国内几乎所有多模态模型团队使用英伟达官方也推荐用它训多模态模型。行业竞争与发展趋势Seedance 2.0的爆发证明多镜头叙事重要音画同出由Veo3先实现多镜头叙事由Sora2先实现但Sora在多主体参考、多镜头叙事细节效果上不足而Seedance 2.0补齐维度吃到红利。视频模型的垄断程度不会比语言模型更高目前竞争烈度没语言模型高领先窗口约两三个月行业最终可能留下三五家分市场。OpenAI关停Sora是合理的战略收缩一是为上市优化短期目标二是在Coding上落后将Sora算力平移到Codex模型更可能撑起上市业绩。中国能快速在视频模型上做到世界Tier 1与起步早晚有关国内外视频模型起步时间差距不大且国内短视频生态活跃加速了模型应用落地。