我之前一直用 Kimi 跑 Claude Code。Kimi 的编程能力其实还行——SWE-bench 能到 80.2%复杂重构和跨文件分析都撑得住。但它有一个让人头疼的问题响应延迟太高了。Kimi K2.6 是推理模型每次请求前要花大量时间”思考”。根据 Artificial Analysis 的实测数据Kimi 官方 API 的首 token 延迟TTFT平均 34 秒——这 34 秒里它在内部推理终端上什么动静都没有。放在 Agent 模式下尤其致命一个任务走 3 轮 tool call每轮都要重新推理一遍加起来干等两分钟是常事。更头疼的是稳定性。在高负载时段Kimi 会从 Thinking 模式偷偷降级到 Instant 模式——推理深度骤降输出质量跟着跳水。社区里还有人反馈某些框架下 Kimi 的 timeout 率高得离谱跑着跑着就断了。我自己的体感是坐下来想认真写会代码三分之一的时间花在等响应上。不是不能用是不够流畅。所以当 DeepSeek 在 4 月 24 日发布 V4 时我最关心的是两个问题快不快稳不稳结果比预期好。不仅延迟从 34 秒降到 2-3 秒SWE-bench 还拿了 80.6%——几乎打平 Claude Opus 4.6 的 80.8%。关键是同样兼容 Anthropic 协议从 Kimi 切过来只需改几行配置没有任何迁移成本。编程能力打平 Opus月费还只要 $73。我花了一个周末把这条路完整跑了一遍。结论先说在前面能打值得换。但有些坑你得提前知道。一、先看一张表排参数之前先看实测。我整理了 DeepSeek V4 在编程基准上跟几个主流模型的对比基准V4-ProOpus 4.6GPT-5.4Gemini 3.1LiveCodeBench93.5 88.8—91.7SWE-bench Verified80.6%80.8%——Codeforces3206 —31683052Terminal Bench 2.067.9%65.4%75.1%68.5%两条关键信息1.SWE-bench Verified——Agent 编程的黄金标准——V4-Pro 拿了 80.6%。Claude Opus 4.6 是 80.8%。差了 0.2 个百分点。差不多就是”同一道题 Claude 做对了但没写注释”的差距。2.LiveCodeBench 和 Codeforces 双料第一。这意味着在算法竞赛和实时编程任务上V4 已经不输任何模型。然后我们看价格模型输出 $/M tokens月费估算Claude Opus 4.6$75.00~$900GPT-5.4~$60~$600Gemini 3.1 Pro~$10.50~$120DeepSeek V4-Pro$3.48~$73DeepSeek V4-Flash$0.28~$6V4-Pro 的输出价格是 Claude Opus 的1/21。V4-Flash 是1/268。而且这个价格还在降——4 月底 DeepSeek 又做了一轮永久降价缓存命中后再打 1 折。实测编程成本比发布时又降了约 83%。速度呢这才是对我影响最大的提升。Kimi K2.6 的 TTFT 平均 34 秒V4-Pro 降到 2-3 秒——不是快了一点是等待模式完全不同了。以前发一个重构请求够我切出去回一条微信再回来。现在刚切到浏览器余光扫到终端已经开始吐结果了。TPS每秒输出 token也稳在 80跟 Claude Opus 持平。对 Agent 模式来说这更重要——每一轮 tool call 都快了整个任务的总耗时从”分钟级”压到了”秒级”。二、三步接入改完就走和在 Claude Code 里用 Kimi 一样DeepSeek V4 也兼容 Anthropic Messages API不需要任何中间件。编辑~/.claude/settings.json{”$schema”: “https://json.schemastore.org/claude-code-settings.json“,”env”: {”ANTHROPIC_BASE_URL”: “https://api.deepseek.com/anthropic“,”ANTHROPIC_AUTH_TOKEN”: “sk-你的DeepSeek-API-Key”,”ANTHROPIC_DEFAULT_OPUS_MODEL”: “deepseek-v4-pro”,”ANTHROPIC_DEFAULT_SONNET_MODEL”: “deepseek-v4-pro”,”ANTHROPIC_DEFAULT_HAIKU_MODEL”: “deepseek-v4-flash”,”CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC”: “1”,”CLAUDE_CODE_EFFORT_LEVEL”: “max”,”API_TIMEOUT_MS”: “600000”},”model”: “opus”}改完退出 Claude Code 重开搞定。有 6 个容易踩的配置坑我替你踩过了1. Base URL 别加 /v1。是 https://api.deepseek.com/anthropic不是 /anthropic/v1。2. Token 字段是 ANTHROPIC_AUTH_TOKEN不是 ANTHROPIC_API_KEY。写错会一直 401排查半天。3. [1m] 后缀需要才加不加也能用。这个后缀的作用是告诉 Claude Code 客户端该模型支持 1M 上下文。不加的话默认按 200K 处理超过 200K 触发自动压缩。日常使用中大部分会话根本碰不到 200K不加完全没问题。只有项目超大、需要一次性喂入整个代码仓库时才有必要加。4. 不要配 CLAUDE_CODE_SUBAGENT_MODEL。Claude Code 会自动按任务选 Haiku/Sonnet/Inherit手动锁定会破坏经济性机制。5. model 写 “opus” 而不是直接写模型名。通过 DEFAULT 映射体系按需切换即可。6. 改完必须重启 Claude Code。不退出重开不会加载新配置。这是排查”怎么配了没效果”时排第一的原因。三、实际用起来怎么样跟 Kimi 比呢先说结论Kimi 能干的它都能干Kimi 的两个主要短板——延迟和不稳定——它都补上了。比 Kimi 提升在哪响应延迟——体感差距最大的维度。Kimi 的 TTFT 34 秒在 Agent 模式下会逐轮叠加3 轮 tool call光等就要近两分钟。V4-Pro 的 TTFT 2-3 秒3 轮加起来不到 10 秒。同样的重构任务Kimi 够你起身倒杯水V4-Pro 你已经看到结果了。不是”快一点”是等待模式完全不同。稳定性明显更好。Kimi 有个让人头疼的问题——高负载时从 Thinking 模式偷偷降级到 Instant 模式推理深度骤降输出质量跟着跳水。某些框架下 timeout 率也很高。V4-Pro 跑了一周没遇到过类似问题输出质量稳定可预期。工具调用更可靠。这是从社区反馈和我自己体验交叉验证的——Kimi K2.6 偶尔在 tool call 上出问题参数遗漏、格式错误V4-Pro 对 Anthropic 协议的 tool_use / tool_choice 适配更到位结构化任务准确率高。代码生成体感接近 Claude Sonnet 4.6。跨文件分析能力强复杂重构能撑住。社区实测结论是”写代码、改 bug、跑 Skills、自动化部署全部丝滑。”申万金工的研究也验证了 Claude Code V4-Pro 在设计研究框架和自主性上表现出色。自修正能力不错。DSL 配置这种专业任务第一次不一定到位但把错误信息喂回去能自己修正。这在长任务里很实用。不能打的Kimi 也一样不支持图片输入。这是目前最大的短板——V4-Pro 和 V4-Flash 都是纯文本模型。发给它的截图、UI 设计稿、终端报错截图它看到的只是占位符。Kimi 在这方面同样是纯文本所以对我来说不算降级。如果你的工作流频繁涉及「看截图 → 改代码」暂时还需要一条 Claude 原生的后路。好消息4 月 29 日 DeepSeek 已经在 Web 端灰度推送了识图模式API 端预计两周内开放。超长上下文偶现不稳定。标称 1M tokens但超长上下文 复杂推理 多轮工具调用叠加时偶尔会出现输出质量下降。建议长任务拆成短会话。Max effort 模式推理时间较长。V4-Pro 在深度推理模式下可能会等比较久API_TIMEOUT_MS 建议设 60000010 分钟。不过这跟 Kimi 的延迟不是一回事——Kimi 是每次请求都要等 30 秒V4-Pro 只有 max effort 深度推理时才慢一些日常任务响应依然很快。四、路由策略Pro 和 Flash 怎么分工V4 有两个版本V4-Pro1.6T 参数每 token 激活 49B和 V4-Flash284B激活 13B。我的分工逻辑很简单任务类型用哪个理由复杂代码生成、跨文件架构分析V4-Pro需要深度推理工具调用、文件读写、简单问答V4-Flash够快够省钱SubAgent 辅助任务V4-FlashClaude Code 自动路由一句话重量级推理给 Pro轻量执行给 Flash。既保住能力上限又控制成本。思考强度也有讲究• 简单修改/问答 → none 或 low够用且快• 中等复杂任务 → high平衡质量与速度• 复杂架构/重构 → max但记得调大 timeout• 第一次接入建议从 medium 开始验证稳定性五、账算清楚从 $900 到 $73我们按典型 Claude Code 使用场景算一笔账——每天 50K 输入 10K 输出发 20 次请求模型日成本月成本V4-Flash~$0.20~$6V4-Pro~$2.43~$73Claude Opus 4.6~$30~$900月费从 $900 压到 $73降了92%。如果你同时用 Flash 处理轻量任务实际账单还会更低。还有一个容易被忽略的点Claude Code 的真实工作负载中92.4% 是 cache_read来自 sites.diy 的代理日志实测。DeepSeek V4 的缓存命中定价极低——V4-Pro 缓存命中后仅 $0.145/M tokens——所以真实世界的成本优势比标价看起来更大。再想想多套订阅叠付、API overflow、上下文喂养这些隐性成本DeepSeek V4 堵住了其中最大的两个口子。六、”中国底座 海外 harness” 的时代来了这篇文章写到这里我想聊一个更大的判断。“我用 Claude Code 但不一定用 Claude 模型”——这已经是高级用户的默认姿势。现在 DeepSeek V4 把这句话又往前推了一步。“中国底座 海外 harness” 正在成为 AI 编码的主流省钱方案。底座是 DeepSeek V4 / GLM / Kimi / MiniMax——价格越来越低能力越来越强。Harness 是 Claude Code / Codex CLI——产品体验已经打磨到很难被替代的程度。这个组合不是”退而求其次”而是最优解。你用着地球上最好的 AI 编程交互界面跑着价格只有 1/21 但能力几乎一样的模型。这不是省钱这是套利。而且对国内用户来说还有一个隐藏红利没有 Anthropic 封号焦虑。DeepSeek 是国内主体计费透明、合规清晰。你再也不用担心某天醒来发现 Claude 账号被批量封禁。七、唯一缺的那块拼图如果你读到这里已经在改 settings.json 了——等一下。我需要非常诚实地告诉你 V4 目前最大的短板以及它什么时候会被补上。Vision多模态识图——缺失。这意味着任何涉及图片的工作流——前端 UI 调试、设计稿还原、报错截图分析——你暂时还需要 Anthropic 原生 API 兜底。但好消息是DeepSeek 已经在 4 月 29 日于 Web 端灰度推送了识图功能。按照 DeepSeek 以往的节奏API 端预计在两周内开放。所以我目前的策略是第一阶段现在├─ 纯代码/文本任务全部走 DeepSeek V4├─ 涉及图片的任务临时去掉 ANTHROPIC_BASE_URL回退 Anthropic 原生└─ 改 bugs、跑脚本、日常开发放心用第二阶段Vision API 开放后├─ 全面切换 DeepSeek V4└─ Anthropic 纯当 backup八、最后的建议如果你是一个重度 Claude Code 用户——尤其是现在还在用 Kimi、对延迟和稳定性不太满意的——我建议你这周花 30 分钟做个实验1. 去platform.deepseek.com注册账号充 $202. 改几行 settings.json3. 用 V4-Pro 跑一天日常开发跟 Kimi 对比一下体感4. 如果满意把 Haiku 映射到 Flash、Sonnet/Opus 映射到 Pro5. 月度账单降了响应快了稳定性好了——三赢如果你是一个团队的技术负责人这件事更该做。一个团队一年 AI 编码订阅花 $12,000切换到 DeepSeek V4 后可以被压到 $1,000 以内——省下来的 $11,000够给团队每人买一张顶配显卡。AI 编码的军备竞赛比的不是谁买的模型最贵比的是谁的路由策略最好。Kimi 到 DeepSeek V4 这个切换是我今年在开发效率上花得最值的 30 分钟。你现在用哪个模型跑 Claude Code有没有遇到过延迟太高或被卡住的情况如果已经换了 DeepSeek V4你的体感怎么样欢迎留言聊聊。本文数据来源DeepSeek 官方 API 文档、Artificial Analysis 独立评测、sites.diy blended pricing 实测、社区多篇上手评测。V4-Pro 和 V4-Flash 的 benchmark 分数来自 DeepSeek 官方技术报告及第三方独立评测。