国内首家百亿估值纯推理GPU独角兽诞生!专访曦望联席CEO王湛:谁的推理成本更低谁就是赢家
金磊 发自 凹非寺量子位 | 公众号 QbitAI杭州速度这个词组的含金量还在上升。因为一家纯推理GPU公司在分拆独立仅1年多时间里竟已经完成了七轮融资累计40亿元而随着前几天最新一轮融资的曝光还以10亿元拿下今年这个赛道里最大单笔融资一举成为国内首家估值超百亿的纯推理GPU独角兽。它就是曦望。推理正在成为 AI 算力竞速的新风口。今年英伟达GTC直接拿收购来的Groq推出LPU而国内国产版Groq也在狂飙突进。加之在几乎所有国产GPU都在卷训推一体、拼峰值算力的大环境下曦望凭什么靠All in推理的路线受到资本市场如此的青睐带着这个问题量子位与曦望联席CEO王湛进行了一场深度对话。这位百度创始团队出身、亲历了中国互联网从泡沫到繁荣全过程的行业老兵不仅一语道破了资本追捧背后的核心逻辑更从行业趋势、技术路线、团队组织与未来判断四个维度向我们勾勒出了一幅清晰的AI推理时代新蓝图。算力需求的结构反转了时间拨回一两年前当百模大战打得火热时市场最关心的指标是大模型的参数量、训练集群的规模。但在2026年的当下风向已经彻底变了。访谈伊始王湛就抛出了这样的定调谁掌握最低的推理成本谁就是赢家。Agent的本质是让AI不再局限于一问一答的聊天机器人是要它成为能够自主分析、学习并执行复杂任务的智能实体。而驱动这一切运转的底层燃料就是推理算力或者更直白地说——Token。这就带来了一个巨大的行业拐点算力需求的结构性反转。市场上最热的就是推理算力需求呈现出了指数级的增长。训练算力的需求依然保持平稳但在我们目前看到的数据中整个2026年AI推理计算的需求量将达到训练算力需求的4-5倍。这是推理算力第一次全面超越训练算力而且超越得如此迅猛。为什么会产生这种反转答案藏在Agent的运行机制里。过去人跟AI交互是单次对话但在Agent时代为了完成一个任务智能体会进行高频的、多次的多轮调用和循环思考。就像前几天国外一个小哥只是跟龙虾说了一句“Hi”就烧掉了80美元的Token。△图片由AI生成对此王湛强调这种方式使得整个Token的消耗达到了过去人机交互方式的几十倍甚至上百倍。在这个背景下单位Token的成本就变得非常引人注目了。换句话说过去企业关心大模型“能不能用”现在企业最关心的是“好不好用”以及“用不用得起”。这也解释了为什么从英伟达在GTC上强调“每瓦Token吞吐量”到国内云厂商接连因为成本压力调整算力价格成本已经倒逼成为了技术演进的核心推手。在王湛看来降低成本不仅是商业诉求更是技术普及的前提你只有将单位Token的成本出现大幅度降低才能真正激活海量Agent的使用。不然这玩意儿再好用用起来成本极高大家也用不起。而这正是曦望在一开始就毅然决然选择All in 推理的根本原因——推理才是真正的AI工业化。百万Token一分钱怎么做到如果说All in 推理是方向那么如何在技术层面把成本真正打下来就是对团队工程化能力和供应链洞察力的极致大考。面对那些既要训练又要推理的客户疑问曦望的态度非常明确通用GPU如果用来做大集群训练是很好的但大规模推理场景其性价比往往不足。此外智能体广泛普及的趋势下推理算力还要能扛住高频调用的极低延迟、能支撑长上下文的极致稳定、能持续下降的单位Token成本。除了少数不计商业回报的特殊场景从正常商业化角度来看推理GPU是更有性价比优势的。被市场发展印证了战略前瞻性后曦望亮出了他们的底牌新一代推理GPU芯片——启望S3。这不仅仅是一次性能升级更是一次对AI推理成本曲线的系统级重构放弃训练能力专为大模型推理做原生深度定制。通过裁剪训练态所需的模块将节省出的晶体管与功耗预算集中投向推理让单位面积有效算力效率提升5倍以上。曦望为S3定下的目标极具野心要把百万Token的成本压至一分钱。为了适应Agent时代KV Cache暴增、控制流复杂、多模型协同等痛点S3在架构上进行了大刀阔斧的革新。首先是计算层的深度定制。通用GPU常常面临算力用不满的尴尬而S3专为推理而生的AI Core架构将GEMM和Flash Attention等核心算子的利用率硬生生拔高到了约99%与98%。同时S3原生支持从FP16到FP4的全链路低精度运算在模型效果接近无损的情况下吞吐量翻了数倍。其次是系统层的大胆创新两个国内第一也是专门为长上下文和智能体准备的S3是国内第一个用LPDDR6的推理GPU也兼容LPDDR5X显存最大可以做到接近600GB是国内显存容量最大的GPU而且也是目前已发布的国产GPU里第一个用上PCIe Gen6的系统通信带宽翻了一倍。这两个技术加起来解决了长上下文记忆的瓶颈S3能同时存更多用户的对话记忆处理更长的上下文而且速度也快、成本大幅降低。王湛对此解释道我们的目标非常明确把单位Token的成本降90%做出普惠的推理算力。当然能把LPDDR6和PCIe Gen6 这两个业界最前沿的技术能顺利调通、用起来用出极高的性能绝非易事这极度依赖全栈自研和超群的工程能力。王湛自豪地表示曦望的硬件AI Core和软件全栈都是100%自研。GPU要真正发挥效能必须是均衡的。你不能某一个地方极强但中间卡着瓶颈。正是因为我们具备全栈自研能力才能基于LPDDR6和PICe Gen6去做深度的调配与优化把它的效能真正压榨出来。但在坚持底层自主可控的同时曦望并没有封闭自己而是实现了对CUDA生态99%的兼容。在外界看来自主可控与兼容CUDA似乎存在天然的矛盾。但在王湛眼中这完全是路线选择的问题。我们选择了通用计算架构GPU而不是专用架构ASIC。通用架构保证了对各种客户需求、不同Agent的极强适配性。在这个基础上我们通过自己写底层代码来兼容CUDA生态。这既保证了客户零迁移成本的便利又守住了我们底层的自主可控。这两者并不矛盾。曦望目前保持了每一代芯片都实现一次性流片成功并点亮。这背后其实是一支极其庞大且低调的验证团队在默默支撑。据透露曦望团队自主开发了全套的仿真验证工具在芯片真正送去流片前就已经在仿真平台上跑过了海量算子哪里有瓶颈、怎么修早已胸有成竹。六边形战士和三位一体任何一次现象级融资的背后最核心的标的永远是人。在与王湛的对话中能强烈感受到他每天来上班时那种肾上腺素飙升的兴奋感。这种兴奋源于他身处一个极度同频且强大的铁血战队之中。曦望的顶层架构被业界戏称为“三位一体”董事长徐冰商汤联合创始人负责把控战略方向与融资有极强的AI发展趋势洞察力联席CEO王勇前AMD、昆仑芯核心架构师专注芯片研发拥有20多年硬核半导体经验是实打实的技术灵魂联席CEO王湛前百度资深副总裁操盘商业化、运营与市场将互联网大厂的敏锐嗅觉与产品打法注入这块硬科技的土壤。然而做AI基础设施光靠三个人是不够的。正如王湛所说AI芯片的竞争是一个全能赛就像体操里的全能项目吊环、双杠什么都得行。没有任何一个人能各方面都很强我们必须靠好的组织管理把优秀的人聚合在一起打造我们的六边形战士网络。目前的曦望团队规模已达400余人研发人员占比超80%核心技术骨干来自英伟达、AMD、华为海思、阿里、商汤等大厂平均行业经验超过15年。为了留住这些顶尖的六边形战士曦望在组织机制上做出了中国创企中极为罕见的让步。王湛向量子位透露了一个极具魄力的细节我们在所有中国GPU公司里给了团队和员工最大的ESOP员工持股计划池。徐冰在拉我入伙时就说过他要拿出最大的ESOP池来招募最优秀的人才。只要我们把这件事情做成人才的价值就会巨大。这种类似于早期华为、阿里的分享机制爆发出极强的组织战斗力。Agent是泡沫还是工业革命拿下百亿估值、超10亿融资置身于这场AI资本热潮中曾经亲历过2000年互联网泡沫破裂的王湛显得既清醒又坚定。现在的一二级市场对硬科技的估值确实非常乐观。不仅是芯片公司你看那些大模型公司的估值和收入比确实夸张。面对划时代的技术突破机会资本愿意去赌、去搏这是资本的特性。但这一次AI和当年的互联网泡沫有着本质的不同。王湛回忆2000年互联网叫得震天响时全中国的网民才几百万。即使发展了十年PC网民也不过一亿多。这需要一个漫长的时间去渗透。但AI呢ChatGPT出来后迅速成为人类历史上最快破亿用户的应用。而且它不是大家尝个鲜就走的淄博烧烤这几年来用户量在急速增加且越用越离不开。王湛认为AI底层的基础价值正在以远超人类过往任何一次产业革命的速度迅速上升。如果工业革命花了百年信息革命花了二三十年那么AI智能革命可能把社会的巨变压缩到短短几年。在这个时代它或许上个月还是很大的泡沫下个月就变成小泡沫了底层的价值正在飞速填补这些估值。对于今年下半年甚至更长远的算力市场规模王湛的判断只有四个字供不应求。限制算力规模增长的根本不是市场需求而是生产工具。光模块造不过来内存被抢光涨了十倍服务器都在抢。Seedance 2.0生成视频如果能从排队4小时缩短到1分钟使用量会增加多少倍只要瓶颈被打开体验变好需求就会成十倍百倍地暴涨。在商业化落地上曦望将目光瞄准了要求最苛刻的互联网大厂。大厂对产品的要求极其苛刻但我要求我们的团队必须去找最难服务、标准最高的客户。只有在最大压力下被打磨出来的产品才能真正立住根基。依托S3海量的交付能力和团队生态布局这块最难啃的骨头正是曦望接下来的主攻方向。在访谈的最后作为中国科技发展的见证者和亲历者王湛表示在这个时代AI本质上是在分发智能它给了人类一个机会去抹平信息鸿沟。只要你想清楚了你要干嘛AI就能给你前所未有的助力。而我们曦望要做的就是把这个极其厉害的东西成本彻底降下来。先知己再知AI方能百战不殆。这不仅是王湛给在这个狂飙突进的AI时代中感到迷茫的年轻人的建议或许这也是曦望这家年轻的独角兽企业能够在算力红海中精准破局、一路狂奔的真实写照。一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 点亮星标 科技前沿进展每日见