开卷视觉编程!GLM-5V-Turbo上线,一张草图搞定前端
听雨 发自 凹非寺量子位 | 公众号 QbitAI国产大模型开卷视觉编程主打一个AI看着草图就能vibe coding。前脚千问刚发完Qwen3.5-Omni后脚智谱就上新了多模态Coding基座模型——GLM-5V-Turbo。给它一个链接它能直接复刻整个网页前端还是能理解页面结构和背后交互逻辑的内种或者给它一个草图、设计稿或者网站截图它也能立刻生成完整可运行的前端工程还准确还原版式和配色这波产品经理狂喜完全可以自己零门槛做出demo再拿去跟开发讨论。要不Vibe Coding换个词以后改叫Vision CodingdogeGLM-5V-Turbo还让龙虾长出了眼睛可以解读复杂图表。配合AutoClaw已上线的“股票分析师”Skill龙虾能直接看懂K线走势、估值区间图和券商研报图表还能生成图文并茂的报告。跑分上GLM-5V-Turbo也是表现突出在多模态Coding、Agentic任务以及纯文本Coding上都实现了对Claude Opus 4.6的超越。在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上GLM-5V-Turbo都相当领先。而在衡量真实GUI环境操控能力的AndroidWorld、WebVoyager等基准上同样表现突出。在纯文本Coding能力方面GLM-5V-Turbo的表现同样保持稳定。这说明视觉能力引入后纯文本编程与推理能力保持了同等水准。重点是价格也很可观。也难怪有网友锐评Claude Code的时代结束了。一张草图画出前端话不多说上一手实测。先来考考GLM-5V-Turbo的Vision Coding能力给它一张草图让它画出产品前端。图是真的随手画的非常简单。不过看不懂没关系我们再加上提示词根据草图设计一个音乐播放器的前端界面左侧是音乐播放页面右侧是好歌推荐和音乐播放列表深色背景古典风格。GLM-5V-Turbo的反应很快大概十几秒的时间它已经给我写出了HTML和CSS代码。在vision coding的过程中你也可以不断与它交互让它按你的要求修改。比如一开始它做出的效果我不太满意又让它修改了两三次。最后得到了这样一个前端页面左侧是音乐播放器点击“播放”键会有唱片播放或停止的效果左右也可以切歌。右侧上方是好歌推荐下方是播放列表和我画的草图基本一致。点击播放列表的每一首歌左侧的播放页面也会相应切换基本的交互功能已经有了页面色调和风格也比较符合提示词要求。美中不足的是左下角不起眼的“顺序/随机”播放按钮点击后不会真的按照逻辑切歌还处于摆设的状态。接下来如果想优化可以进一步给模型提需求。我们再来看看另一个case——让GLM-5V-Turbo解读论文。这是一篇来自马萨诸塞大学的经济学实证研究论文里面复杂的公式和图表很多。但是GLM-5V-Turbo的优势就在于——可视化。它直接帮我们拆解了整篇论文的结构把核心发现、主要结论和相应图表都提炼了出来还生成了一个图文并茂的报告。这对于外行来说太友好了扫一眼就能大概看懂这篇研究在做什么每个图表对应的含义是怎样的。转念一想这其实也相当于另一个形式的ppt学生党做论文pre都可以直接拿来用了。给龙虾安上“眼睛”智谱这次还特别拓展了龙虾的任务边界给自家澳龙安上了“眼睛”。在AutoClaw中选择GLM-5V-Turbo模型你就可以让它浏览网页和文档做报告和PPT还可以解读复杂图表。澳龙已经上线了“股票分析师”skill完美适配GLM-5V-Turbo解读复杂图表的能力。我在飞书上给它截图了一张英伟达股票图让它帮我分析一下。没过多久它就给我生成了一份图文并茂的分析报告整体内容还是挺详细的还给出了基本面分析和操作建议简单作为一个参考是足够了的。这么强咋做到的据官方介绍GLM-5V-Turbo在模型架构、训练方法、数据构造、工具链四个层面都做了升级第一原生多模态融合。GLM-5V-Turbo从预训练阶段就把文本和图像能力一起训练后面再通过进一步优化让两者配合更默契。同时他们做了一个新的视觉编码器CogViT在识别物体、理解细节、空间关系这些能力上都更强。再加上一个更适合多模态推理的结构MTP整体推理效率也更高。第二30 任务协同强化学习。在强化学习阶段模型同时训练了30多个任务覆盖STEM推理、图像定位grounding、视频理解、GUI操作等多个方向。这样带来的好处是模型不只是某一项能力强而是感知、推理、执行整体更均衡也更稳定避免了只在单一领域“偏科”。第三专门为Agent能力设计数据。Agent最大的难点是数据少、而且很难验证对不对。智谱的做法是搭了一套从“看懂元素”到“预测一连串动作”的训练体系用合成环境大规模生成可控、可验证的数据甚至在预训练阶段就提前加入Agent相关能力比如GUI操作数据减少模型幻觉。另外还用了类似“以评估反推能力”的方法用多模态任务去倒逼模型变得更像一个能干活的Agent。第四把工具链从“纯文本”升级到“能看能操作”。除了原有的文本工具GLM-5V-Turbo新增支持多模态搜索、画框、截图、读网页等多模态tools。这意味着模型能真正做到一整套闭环看懂环境 → 规划步骤 → 动手执行。而且它和Claude Code、AutoClaw这些工具的配合也更好了整体更接近一个能实际完成任务的智能体。目前新模型在Z.ai和AutoClaw上都可以体验也支持API调用感兴趣的朋友快去试试吧~体验地址AutoClaw澳龙https://autoglm.zhipuai.cn/autoclaw/Z.aihttps://chat.z.aiAPI接入https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 谁会代表2026年的AI龙虾爆火带动一波Agent与衍生产品浪潮。但真正值得长期关注的AI公司和产品或许不止于此。如果你正在做或见证着这些变化欢迎申报。让更多人看见你。 https://wj.qq.com/s2/25829730/09xz/一键关注 点亮星标