【全球大模型更新中国热闹非凡】这两天全球顶级大模型接连更新重磅消息不断。中国也迎来热闹的一周从周一开始Qwen、Kimi、小米、腾讯相继发布最新模型。周五千呼万唤的DeepSeek终于发布V4双版本引发国内AI圈的一波海啸。中国迈入万亿参数俱乐部并已开源的模型有DeepSeek和Kimi两家小米也预告将会开源最新的万亿模型。【多次偶遇背后的「合谋」】翻完DeepSeek V4近60页的技术报告发现这两个已开源万亿模型之间的默契很可怕。往前溯源DeepSeek和Kimi已经是第N次「偶遇」这可能源于梁文锋和杨植麟对Scaling Law的共同信仰和对AGI的竞逐。从DeepSeek - R1和Kimi K1.5仅隔两小时发布到Kimi K2.6与DeepSeek - V4在同一周发布两家公司不是互相厮杀而是以近乎「开源共享」的方式一起进步。引用车圈的话「好的设计总是心有灵犀」技术上的联动成为行业亮点。【MLA注意力机制DeepSeek创新Kimi复用】DeepSeek在V3中首创了MLA注意力机制通过低秩压缩技术有效减少显存占用让长上下文推理成为可能。这个创新很快被行业广泛认可Kimi K2在自己的注意力机制中也采用了MLA注意力机制。【二阶优化器Kimi大规模验证DeepSeek跟进】2025年2月Kimi发表论文在480亿参数的Moonlight系列模型上验证了Muon优化器的效果用来取代用了10年的行业标准技术Adam。2025年7月在万亿参数Kimi K2中二阶优化器Muon被首次大规模应用展示了其在大规模语言模型训练中的优势。如今DeepSeek V4也跟进用Muon优化器技术实现训练效率的稳定性。两家公司相互吸纳底层优化技术打破了技术壁垒展现出深度合作。【残差连接两种不同的解决方案】DeepSeek在V4中引入了mHC残差连接目标是提高信息传递的效率。通过改变多头注意力的拼接方式mHC提高了梯度流动的效率实测训练效率提高了约30%。Kimi提出的Attention Residuals注意力残差优化了信息流的传递效率提升了模型的表现。这一创新得到广泛认可Andrej Karpathy、OpenAI推理之父Jerry Tworek点评马斯克也点赞。这两种方案各有特色展现了两家公司在同一技术问题上不同的思路。【长上下文推理两种技术路线的探索】长上下文推理是AI模型的一大挑战Kimi和DeepSeek思路不同。Kimi在2024年实现了百万Token上下文的能力但成本问题大超长上下文的计算开销线性增长普通开发者难承受。2026年DeepSeek选择了稀疏注意力降低计算量让百万上下文成本更可接受但设计和调优难度较大。Kimi则推出了线性注意力架构降低了长上下文的计算成本。这两种方案各有优势Kimi和DeepSeek同时在这两条技术路线上发力为未来的长上下文推理提供多种选择。【从「两个公司」到「一套基础设施」】DeepSeek和Kimi的「偶遇」故事关乎中国AI产业格局。GPT - 4参数量未公布Claude 3.5 Opus闭源而中国这两家创业公司做出同等规模模型并全部开源。这意味着开发者、研究机构、企业可免费获取模型进行二次开发和部署企业私有化部署成本砍到原来的1/10中小企业能在自己服务器上跑万亿参数级模型。生态也在成形两者API调用量在OpenRouter平台上居中国前两名Kimi被海外爆款编程工具「套壳」接入DeepSeek被日本乐天集团包装成Rakuten AI 3.0。硅谷巨头也不得不正视这股力量Meta将Llama 4与DeepSeek - V3.1以及Kimi - K2进行性能对比黄仁勋在CES主题演讲上展示DeepSeek和Kimi K2 - Thinking模型。同时两家公司都在国产芯片适配上投入DeepSeek V4适配华为昇腾芯片Kimi的Prefill - as - a - Service方案提升了国产芯片推理性能为国产芯片进入大模型推理链条打开切入口。【结语两个广东人撑起中国AI的半边天】技术的高度取决于人的格局。2023年起步DeepSeek与Kimi双双叩开百亿美金十角兽大门保持业内人数精简、人才密度顶尖的配置。两位来自广东的创始人杨植麟与梁文锋既是技术狂热信徒也是中国AI国家队。他们在总理主持的座谈会上建言献策是中国AI发展史上的注脚。他们引领技术范式DeepSeek证明「思维链」威力Kimi引领「智能体」落地狂潮。在追逐AGI的马拉松里DeepSeek与Kimi有竞争也有共鸣中国AI的底气在于这种技术火花和互利共生。双峰并峙终将顶峰相见中国大模型的万亿级航海时代才刚刚拉开序幕。那么这两家公司未来还会带来怎样的惊喜呢