本报讯 2026年4月30日正当五一假期临近之际中国人工智能企业DeepSeek却给科技圈送上了一个大彩蛋。这家近年来在AI领域异军突起的公司正式发布了全新的多模态技术范式——以视觉原语思考Thinking with Visual Primitives引发了业界的广泛关注和讨论。一石激起千层浪视觉原语是什么简单来说视觉原语技术就是要让AI像人类一样在看图思考的过程中能够精准地用坐标点边界框等视觉元素来标注和思考。传统的AI模型往往存在指代鸿沟——当被要求分析图片时它们无法准确定位具体是哪个区域、哪个物体只能笼统地给出回答。而DeepSeek提出的解决方案就是将边界框|box|和点坐标|point|变成AI推理的基本单位让它们穿插在思维链中作为消除自然语言模糊性的锚点。这就好比人类在分析复杂图片时会用手指指着某个位置说这里有个问题DeepSeek的AI现在也能做同样的事了。一位AI行业观察者表示。硬核技术7056倍压缩与混合专家模型据DeepSeek官方技术报告披露这项技术的核心架构相当硬核。语言主干采用DeepSeek V4-Flash模型拥有284B总参数在推理时能够激活13B参数的混合专家模型MoE结构。这种设计既保证了模型的大脑容量又实现了推理效率的优化。更引人注目的是其视觉编码能力。DeepSeek自主研发的ViT视觉Transformer支持任意分辨率的图像输入并通过3×3空间压缩和压缩稀疏注意力CSA机制实现了7056倍的视觉压缩。这意味着一张800×800的图片仅需约90个KV缓存条目即可处理远少于主流模型。训练有素4000万条数据炼就火眼金睛工欲善其事必先利其器。DeepSeek在训练数据上的投入同样令人印象深刻。项目包含计数、空间推理、视觉问答、迷宫导航、路径追踪四类核心任务从3.17万个高质量数据源中筛选最终生成了超过4000万条训练样本。在训练流程上DeepSeek采用了先分家再合体的策略。首先训练边界框和点坐标的专家模型进行强化学习采用GRPO算法然后进行统一强化微调最后通过在线策略蒸馏来弥合不同阶段的能力差距。这种分阶段、分层次的设计思路在业内被认为是一种高效且稳健的方法论。实战表现吊打主流模型那么这项技术在实战中的表现如何根据官方发布的数据DeepSeek在多个基准测试上展现了强劲实力Pixmo-Count密集物体计数89.2%DS_Maze_Navigation迷宫导航66.9%DS_Path_Tracing路径追踪56.7%更为重要的是在这些测试中DeepSeek超越了GPT-5.4、Gemini-3-Flash、Claude Sonnet 4.6等主流模型。这一消息在AI社区引发了不小的震动。应用场景从实验室走向现实DeepSeek表示视觉原语技术在实际应用中有广阔的落地空间。目前可以想到的场景包括密集人群计数如大型活动现场、交通枢纽的人流量统计复杂电路图分析电子工程领域的故障诊断和线路优化迷宫导航与路径追踪机器人移动规划、自动驾驶场景复杂视觉问答医疗影像分析、工业质检等高精度需求场景这项技术一旦成熟将极大提升AI在复杂视觉任务中的实用性和可靠性。行业分析师指出。冷静看待技术仍有局限当然DeepSeek方面也在技术报告中坦诚了当前存在的局限性。首先视觉原语机制需要明确的触发词才会启用这意味着用户需要有一定的提示词设计能力。其次受输入分辨率限制在极细粒度场景下的指代偶尔不够精准。最后复杂拓扑推理的跨场景泛化能力目前仍有限。这些不足也为后续的技术迭代指明了方向。开源态度GitHub项目正式开放值得关注的是DeepSeek将这一技术以开源形式发布。项目已正式在GitHub上线地址https://github.com/deepseek-ai/Thinking-with-Visual-Primitives 技术报告也已同步公开。这一开放姿态显示了中国AI企业在技术生态建设上的自信。记者手记在人工智能领域技术突破往往是弯道超车的关键。DeepSeek此次的多模态技术发布不仅展示了中国在AI基础研究领域的进步更重要的是它提供了一种解决行业共性问题的新思路。视觉原语思考这个概念或许将成为AI视觉理解发展史上的一个重要里程碑。当然从实验室到大规模商用还有很长的路要走。但至少在今天DeepSeek给AI行业递上了一份值得期待的作业。