DeepSeek与Kimi多次「偶遇」，开源大模型改写中国AI产业格局！

张

张建站

2026/4/25 20:40:22

10分钟阅读

【全球大模型更新中国热闹非凡】这两天全球顶级大模型接连更新重磅消息不断。中国也迎来热闹的一周从周一开始Qwen、Kimi、小米、腾讯相继发布最新模型。周五千呼万唤的DeepSeek终于发布V4双版本引发国内AI圈的一波海啸。中国迈入万亿参数俱乐部并已开源的模型有DeepSeek和Kimi两家小米也预告将会开源最新的万亿模型。【多次偶遇背后的「合谋」】翻完DeepSeek V4近60页的技术报告发现这两个已开源万亿模型之间的默契很可怕。往前溯源DeepSeek和Kimi已经是第N次「偶遇」这可能源于梁文锋和杨植麟对Scaling Law的共同信仰和对AGI的竞逐。从DeepSeek - R1和Kimi K1.5仅隔两小时发布到Kimi K2.6与DeepSeek - V4在同一周发布两家公司不是互相厮杀而是以近乎「开源共享」的方式一起进步。引用车圈的话「好的设计总是心有灵犀」技术上的联动成为行业亮点。【MLA注意力机制DeepSeek创新Kimi复用】DeepSeek在V3中首创了MLA注意力机制通过低秩压缩技术有效减少显存占用让长上下文推理成为可能。这个创新很快被行业广泛认可Kimi K2在自己的注意力机制中也采用了MLA注意力机制。【二阶优化器Kimi大规模验证DeepSeek跟进】2025年2月Kimi发表论文在480亿参数的Moonlight系列模型上验证了Muon优化器的效果用来取代用了10年的行业标准技术Adam。2025年7月在万亿参数Kimi K2中二阶优化器Muon被首次大规模应用展示了其在大规模语言模型训练中的优势。如今DeepSeek V4也跟进用Muon优化器技术实现训练效率的稳定性。两家公司相互吸纳底层优化技术打破了技术壁垒展现出深度合作。【残差连接两种不同的解决方案】DeepSeek在V4中引入了mHC残差连接目标是提高信息传递的效率。通过改变多头注意力的拼接方式mHC提高了梯度流动的效率实测训练效率提高了约30%。Kimi提出的Attention Residuals注意力残差优化了信息流的传递效率提升了模型的表现。这一创新得到广泛认可Andrej Karpathy、OpenAI推理之父Jerry Tworek点评马斯克也点赞。这两种方案各有特色展现了两家公司在同一技术问题上不同的思路。【长上下文推理两种技术路线的探索】长上下文推理是AI模型的一大挑战Kimi和DeepSeek思路不同。Kimi在2024年实现了百万Token上下文的能力但成本问题大超长上下文的计算开销线性增长普通开发者难承受。2026年DeepSeek选择了稀疏注意力降低计算量让百万上下文成本更可接受但设计和调优难度较大。Kimi则推出了线性注意力架构降低了长上下文的计算成本。这两种方案各有优势Kimi和DeepSeek同时在这两条技术路线上发力为未来的长上下文推理提供多种选择。【从「两个公司」到「一套基础设施」】DeepSeek和Kimi的「偶遇」故事关乎中国AI产业格局。GPT - 4参数量未公布Claude 3.5 Opus闭源而中国这两家创业公司做出同等规模模型并全部开源。这意味着开发者、研究机构、企业可免费获取模型进行二次开发和部署企业私有化部署成本砍到原来的1/10中小企业能在自己服务器上跑万亿参数级模型。生态也在成形两者API调用量在OpenRouter平台上居中国前两名Kimi被海外爆款编程工具「套壳」接入DeepSeek被日本乐天集团包装成Rakuten AI 3.0。硅谷巨头也不得不正视这股力量Meta将Llama 4与DeepSeek - V3.1以及Kimi - K2进行性能对比黄仁勋在CES主题演讲上展示DeepSeek和Kimi K2 - Thinking模型。同时两家公司都在国产芯片适配上投入DeepSeek V4适配华为昇腾芯片Kimi的Prefill - as - a - Service方案提升了国产芯片推理性能为国产芯片进入大模型推理链条打开切入口。【结语两个广东人撑起中国AI的半边天】技术的高度取决于人的格局。2023年起步DeepSeek与Kimi双双叩开百亿美金十角兽大门保持业内人数精简、人才密度顶尖的配置。两位来自广东的创始人杨植麟与梁文锋既是技术狂热信徒也是中国AI国家队。他们在总理主持的座谈会上建言献策是中国AI发展史上的注脚。他们引领技术范式DeepSeek证明「思维链」威力Kimi引领「智能体」落地狂潮。在追逐AGI的马拉松里DeepSeek与Kimi有竞争也有共鸣中国AI的底气在于这种技术火花和互利共生。双峰并峙终将顶峰相见中国大模型的万亿级航海时代才刚刚拉开序幕。那么这两家公司未来还会带来怎样的惊喜呢

如何利用根隐藏模块实现Android系统安全增强终极指南

如何利用根隐藏模块实现Android系统安全增强终极指南【免费下载链接】susfs4ksu-module An addon root hiding service for KernelSU 项目地址: https://gitcode.com/gh_mirrors/su/susfs4ksu-module 在Android系统安全领域，内核级根隐藏模块已成为高级用户…...

2026/4/25 20:37:20 阅读更多 →

3步开启Windows系统定制之旅：Windhawk完全指南

3步开启Windows系统定制之旅：Windhawk完全指南【免费下载链接】windhawk The customization marketplace for Windows programs: https://windhawk.net/ 项目地址: https://gitcode.com/gh_mirrors/wi/windhawk 你是否厌倦了Windows系统千篇一律的界面和操作…...

2026/4/25 20:36:24 阅读更多 →

2026年必看｜90后程序员靠AI单干半年，8000万美元被收购，小白/程序员入局大模型必看指南

今天刷到一个震撼整个技术圈的创业传奇——90后程序员Shlomo打造的AI开发平台Base44，仅用半年时间，就被知名平台Wix以8000万美元全资收购！这不仅是一个草根逆袭的故事，更给所有程序员、想入局AI的小白，指明了AI时代个人…...

2026/4/25 20:34:07 阅读更多 →

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构在开发中大型Unity项目时，UI系统的复杂度往往随着功能迭代呈指数级增长。当项目包含多个场景、数十个界面和数百个交互元素时，开发者常会遇到以下典型问题&#…...

2026/4/21 20:14:59 阅读更多 →

C语言之整型常量后缀探秘：从1ULL/1UL/1L到跨平台编程(五十五)

1. 整型常量后缀的底层原理第一次看到1ULL这种写法时，我盯着屏幕愣了三秒——数字后面加字母是什么黑魔法？直到在32位系统上调试一个计数器溢出bug后，才真正理解这些后缀的重要性。整型常量后缀实际上是告诉编译器："别用默认…...

2026/4/20 7:00:24 阅读更多 →

VisionMaster企业实操训练系列课程

VisionMaster企业实操训练系列课程主要出于，快速会设计视觉引导定位项目引导定位原理原理演示 1.单相机带角度定位引导 2.12点标定 3.单点抓取 4.上下相机对位引导 5.单相机带角度定位引导（相机在机械手上）...

2026/4/20 0:14:41 阅读更多 →

C#怎么限制Task最大并发数_C#如何自定义TaskScheduler【进阶】

SemaphoreSlim 是控制 Task 并发数最直接轻量的选择，通过异步闸门限制同时执行任务数，需配对 WaitAsync() 和 Release() 并在 finally 中确保释放；自定义 TaskScheduler 适用场景极窄，ParallelOptions.MaxDegreeOfParallelism 仅适…...

2026/4/20 6:29:58 阅读更多 →