这项由中国科学院自动化研究所与香港科学与创新研究院联合开展的研究以预印本形式发布于2026年4月论文编号为arXiv:2604.23941有兴趣深入了解的读者可通过该编号查询完整论文。每天我们打开手机、点击按钮、填写表单、滑动页面这些看似平常的操作背后藏着一个让计算机科学家头疼多年的难题如果要让AI帮我们自动操作手机它首先得认识屏幕上的每一个按钮和图标——不是靠读懂代码而是像人类一样通过眼睛看到界面、理解自然语言指令然后精准地找到目标位置。这个能力研究者称之为GUI元素定位GUI Element Grounding你可以把它理解为AI在手机屏幕上的视力和理解力。问题在于拥有这种视力的AI模型通常体型庞大动辄需要数十亿个参数才能运转就像一台专业级别的医疗扫描仪效果极好但体积惊人根本塞不进你的手机。研究团队面对的核心挑战正是如何打造一台口袋里的医疗扫描仪——既精准、又轻巧。他们给出的答案叫做GoClick一个只有2.3亿个参数的小模型却能在多个权威评测中与拥有七十亿参数的大模型一较高下甚至在某些测试上直接碾压对方。这是怎么做到的答案藏在两个关键决策里选对了身材结构以及在训练前认真筛选了食谱。---一、为什么手机上的AI导航员那么难造以一个具体场景开头假设你是一位视力障碍用户你对手机说帮我在亚马逊上搜索《孙子兵法》。AI助手需要先理解你的意图然后在屏幕上找到搜索框的具体位置精确地点击它再输入文字。这一系列动作里最难的其实是找到搜索框这一步——屏幕上可能有几十个可交互的元素搜索框可能在顶部也可能被遮挡而且不同的App界面设计各不相同。人类依靠眼睛和经验可以在零点几秒内完成这个判断但AI需要同时处理一张高分辨率的截图、理解自然语言指令再输出精确坐标。更麻烦的是GUI界面与日常照片差异极大屏幕上的按钮通常非常小可能只占整个图像面积的极小比例同一屏幕上可能有几十个看起来相似的图标文字密度也远高于普通照片。这些特点对AI的视觉理解能力提出了极高要求。现有的解决方案基本上是把大型视觉语言模型Vision-Language Model简称VLM你可以把它理解为既能看图又能读文字的AI大脑直接用于这个任务。这些模型效果不错但参数量普遍在25亿以上有的甚至超过180亿部署在服务器上还好但若要在手机本地运行则完全不现实——手机的内存和算力根本承受不住。这个矛盾催生了GoClick这项研究。研究团队的目标很明确打造一个能在手机上实时运行的界面导航专家延迟低、精度高、体积小。---二、瘦身方案选错了为什么简单缩小不管用直觉上最简单的做法是把那些已经很厉害的大模型按比例缩小。好比你有一辆豪华越野车把它等比例缩成玩具车造型一样但能力也大幅缩水。研究团队确实做了这个实验他们取来了当前流行的两款大模型——Qwen2-VL和InternVL2的小尺寸版本分别是10亿和20亿参数规模用同样的训练数据对它们进行微调期待它们在缩小后依然能胜任GUI定位任务。结果令人失望。这两款缩水版大模型在GUI定位任务上的表现只能用中规中矩来形容远没有达到预期。以一个关键测试集FuncPred为例Qwen2-VL的20亿参数版本只得到了51.1分的准确率而研究团队最终的GoClick小版本仅有2亿参数在同样测试上得到了64.4分大版本GoClick更是达到了69.5分全面超越这些参数量多出数倍的对手。原因在于这些流行大模型在设计之初就是为了全能它们要能回答问题、写文章、描述图片、做多轮对话因此架构上选择了一种解码器优先的设计Decoder-Only本质上像是一个擅长写作文的大脑需要维持大量的对话和生成能力。但GUI定位任务根本不需要这些它只需要精准地找到位置并输出坐标是一个更窄、更专的任务。把一个擅长写议论文的人缩成一个小版本后让他当精密仪器的操作员效果自然差强人意。---三、找对身材结构编码器-解码器架构为何更适合小模型研究团队选择了一条不同的路用一种叫做编码器-解码器架构Encoder-Decoder的模型作为基础具体来说是微软研究院提出的Florence-2模型。这种架构的设计逻辑可以用一个分工明确的团队来理解——编码器负责看图读文把屏幕截图和用户指令理解消化提取出有意义的视觉和语言特征解码器则专注于输出坐标只需要把位置信息以数字形式写出来。与那些需要维持大量文字生成能力的解码器优先架构相比这种分工合作的结构把有限的参数用在了刀刃上编码部分专心做视觉语言融合解码部分只做一件事——精准地预测坐标不需要对话、不需要讲故事、不需要写诗只需要说目标在屏幕横坐标500、纵坐标80的位置。学术界此前已有研究表明在参数规模较小、任务范围相对聚焦的场景下编码器-解码器架构通常优于解码器优先架构。GoClick的实验验证了这一结论在GUI定位任务上的适用性。面对相同的训练数据Florence-20.8B参数微调后的GoClick在几乎所有测试基准上都显著超越了参数量两倍多的Qwen2-VL2.2B和SLiME-Gemma2.8B更大幅领先于同等参数量的InternVL-20.9B。在速度方面GoClick的优势更加突出。研究团队在模拟手机设备使用条件的环境下进行了测速实验GoClick-L0.8B版本的首个输出token出现时间TTFT为91.1毫秒每个后续token的生成时间TPOT仅需8.3毫秒而那些70亿参数的竞争对手TPOT往往高达20至30毫秒。GoClick-B0.2B版本更快TTFT仅37.7毫秒TPOT仅4.1毫秒速度优势十分明显。---四、食谱决定水准如何从海量数据中提炼精华确定了架构之后下一个问题是用什么数据来训练训练AI模型就像教一个孩子教材的质量和选择至关重要。研究团队首先大规模收集了GUI元素的描述-位置数据对构建了一个总量高达1080万条样本的原始数据集。这些数据来源非常多样有涵盖各种网页分辨率的截图有来自多种安卓设备模拟器的手机界面截图有各类App操作任务的标注数据。针对每个界面元素研究团队生成了四种不同类型的描述方式。第一种是文本定位——直接说出元素上显示的文字比如找到写着搜索的按钮。第二种是简短描述定位——描述元素的外观、类别和位置比如顶部左侧那个房子形状的返回主页按钮。第三种是操作意图定位——用用户的意图来描述比如我想聚焦到密码输入框请找到对应元素。第四种是功能描述定位——描述元素能做什么比如这个元素允许用户输入文字搜索商品。收集完这些原始数据后研究团队意识到一个关键问题数据多并不代表数据好。这就像准备一桌宴席食材堆得再多如果包含了过期食品和重复菜肴最终端上桌的菜肴质量反而会下降。研究团队因此设计了一套渐进式数据精炼流程Progressive Data RefinementPDR分两个阶段对数据进行筛选。第一个阶段是粗粒度筛选。研究团队发现有两类数据对模型提升毫无帮助、甚至有害。其一是来自过时界面设计的截图——比如某个数据集包含了2011年安卓4.0时代的界面截图与当前评测基准所使用的现代界面风格相差甚远用这些数据训练就像让厨师用1980年代的食谱来应对现代米其林评审南辕北辙。其二是所谓的逆向生成任务样本REG任务——这类样本要求模型根据元素位置反过来生成描述文字而非根据描述找位置。实验证明这类数据不仅对定位能力没有帮助其中的功能描述逆向生成任务甚至对模型造成了明显伤害原因在于小模型本身不具备生成高质量功能描述文字的能力强行让它学习这个任务反而扰乱了其他能力。剔除这两类数据后数据集从1080万条缩减到了680万条但模型性能不降反升。第二个阶段是细粒度调整。研究团队进一步针对六个主要数据来源逐步降低各类任务样本的纳入比例同时观察模型在定位评测上的表现变化通过这种系统性实验来判断哪些数据真正有用。结果出现了一些出人意料的规律来自AutoGUI、MobileViews、MultiUI和WebUI四个数据源的样本基本上是用得越多效果越好但来自AndroidControl数据源的文本定位样本在全量纳入时反而让模型表现变差原因可能是这个数据源的界面模式不够多样而对比之下MobileViews的数据来自两万多款不同App多样性更为充分。最令人意外的是SeeClick-Web这个数据源——它提供了超过200万条简短描述定位样本看起来是个宝库但研究团队发现当全量纳入时模型性能出现了断崖式下跌极大可能是因为这个数据源包含过多纯文字网页界面模式单一全量训练后模型发生了过拟合类似于学生只刷一套题遇到新题就懵了。经过两轮筛选最终得到的精华核心数据集只有380万条样本——仅相当于原始数据量的35%但训练出的模型在各项评测上的平均准确率比使用全量数据提高了整整4个百分点。---五、实战成绩小身材大能耐GoClick在七个权威GUI定位评测基准上接受了全面检验覆盖手机、网页、桌面三类界面场景涵盖功能描述定位、简短描述定位、操作意图定位、文本定位等多种指令类型。以其中最具挑战性的FuncPred测试为例这个测试要求模型只根据元素的功能描述来找到目标位置不会提示任何外观或位置信息——就像有人告诉你找到那个能让你调整最高价格过滤的元素你得在满屏元素中找到它。GoClick-L0.8B版本在这个测试上得到了69.5分不仅远超同等参数量的InternVL-221.9分和参数量两倍多的Qwen2-VL-2B51.1分甚至超越了参数量超过自身十倍的Qwen2-VL-7B56.1分。在更综合的ScreenSpot和ScreenSpot-v2测试上GoClick-L分别获得78.5分和81.1分超越了SeeClick53.4分/54.0分、Ferret-UI7.1分/7.8分以及4B参数的OS-ATLAS66.8分/68.7分并接近8B参数的OS-ATLAS82.5分/84.1分和Aguvis83.8分/85.6分。即便是只有2000万参数的GoClick-B在VWB EG网页元素定位测试上也拿到了90.3分与GoClick-L并列在这项测试上超越了几乎所有竞争对手包括70亿参数量级的模型。值得一提的是GoClick的训练数据量也远少于竞争对手OS-ATLAS使用了1360万条数据UGround使用了1000万条而GoClick只用了380万条——用更少的食材做出了更好的菜这正是数据精炼策略的价值所在。---六、装进手机与云端大脑合作小眼睛如何帮助大脑更好地操控手机GoClick最令人期待的应用场景是与大型语言模型组成云端-设备协作团队来完成复杂任务。研究团队设计了这样一套方案复杂的任务规划交给运行在远程服务器上的大型专有模型如GPT-4o或Gemini-2-Flash它负责读懂用户意图并制定操作计划而元素定位这个高度专业化的视觉任务则下放给安装在手机上的GoClick来完成。这个分工逻辑清晰大型专有模型擅长推理和规划但定位屏幕元素并非其强项——在实验中让GPT-4o直接输出点击坐标准确率很低而GoClick是一个专注于定位的专家逻辑推理不是它的职责但找准目标是它的拿手好戏。两者各司其职如同侦探负责分析案情、提出方向而现场搜证专家负责在现场精确找到关键证物。为了验证这套方案的效果研究团队在四个GUI操作任务基准上进行了全面测试包括Android-in-The-Wild覆盖350多款App、AndroidControl涵盖833款App的15000个独特任务、GUIAct-Mobile和GUIAct-Web。这些测试评估的核心指标是步骤成功率AI在操作手机的每一步中点击、输入、滑动等动作有多少比例与人类标注的正确操作完全吻合。在Android-in-The-Wild测试上使用GPT-4o单独既做规划又做定位时整体步骤成功率只有27.2%引入GoClick专门负责定位后这个数字跃升至48.9%点击动作的准确率更从29.9%飙升至59.7%几乎翻了一番。对比另一种流行的方案——标记集Set-of-Marks提示策略这种方法通过在屏幕截图上标注所有元素的边框和编号让大模型从候选列表中选择——GPT-4o配合这种方法的成功率只有42.1%仍然低于GoClick方案的48.9%。在更难的GUIAct-Web测试上同样是GPT-4o配合GoClick的组合成功率从18.2%纯GPT-4o提升到50.5%配合GoClick的意图定位远超GPT-4o配合标记集方案的42.3%。Gemini-2-Flash配合GoClick在Android-in-The-Wild上的整体成功率达到47.2%同样大幅优于单独使用Gemini或配合标记集的方案。研究还发现用操作意图来引导GoClick定位比如我想点击搜索框来聚焦它略微优于用功能描述来引导比如找到允许用户输入搜索内容的元素前者在大多数测试上的得分略高。研究团队认为这是因为功能描述是一种相对间接的描述方式要求模型通过更多推断才能确定目标难度更高。---七、这个研究还没解决什么研究团队对GoClick的局限性保持坦诚。其一GoClick的架构优势是专门针对GUI定位任务优化的编码器-解码器架构在这个窄任务上的优势不一定能迁移到更复杂的任务比如多步骤规划、思维链推理等这些场景下大型解码器模型的优势可能会回归。其二数据精炼流程目前仍有一定的经验性成分实验中调整数据比例时需要手动观察性能变化缺乏更加系统化的理论支撑。如果用不同的随机种子来抽取数据子集结果可能存在细微差异。研究团队也指出未来可以借助元学习方法或博弈论中的沙普利值技术来更精确地量化每条样本的训练价值但计算代价巨大——对1080万条样本进行全量影响分析即便是0.8B的小模型也需要消耗惊人的计算资源。其三实验评测是在L20 GPU上进行的而非在真实手机硬件上。目前还没有成熟的VLM嵌入式设备部署框架研究团队的实测速度数据代表了模拟条件下的结果真实手机的内存限制、能耗约束和系统级优化可能带来与测试条件不同的实际表现。其四GoClick的训练数据存在时效性问题。研究发现使用2011年安卓4.0时代的截图数据会损害模型在现代界面上的表现这意味着随着界面设计风格的演化GoClick可能需要定期使用新数据重新训练才能保持竞争力。---说到底GoClick这项研究回答了一个看似矛盾的问题能不能在极小的体积内塞进足够好的界面理解力答案是肯定的但前提是既要选对架构又要精心打磨数据。编码器-解码器的分工设计让有限的参数发挥了最大效用而渐进式数据精炼则去除了那些表面上看起来有用、实际上是噪音的训练样本。两个思路缺一不可缺了哪个都会让最终的模型差一大截。这项研究对于AI助手走进日常生活有实质意义当你的手机AI助手能够真正看懂屏幕、精确操作每一个按钮而不依赖服务器的高延迟处理很多需要实时响应的场景才真正变得可行——比如为视障用户实时导航界面比如在地铁上低延迟地自动处理日程提醒比如在没有良好网络的环境下仍然流畅运行的智能助手。GoClick提供的不仅是一个小模型更是一套关于如何在资源受限环境下做好专项AI任务的方法论。如果你对技术细节感兴趣完整论文可通过arXiv编号2604.23941查阅。思考一个有趣的问题可以留作延伸当AI模型同时兼顾轻量和专业时哪些日常任务会最先受益答案可能比你想象的更丰富。---QAQ1GoClick为什么选择编码器-解码器架构而不是像ChatGPT那样的解码器架构AGUI定位任务的核心是看图找位置输出的只是一组坐标并不需要生成长篇文字或进行多轮对话。编码器-解码器架构中编码器专门负责理解图像和文字解码器只负责输出坐标分工明确、参数利用率高。而像ChatGPT那样的解码器架构需要维持大量文字生成能力在参数规模缩小后这部分能力的成本反而拖累了定位精度。实验证明同等参数量下编码器-解码器架构的定位准确率显著更高。Q2渐进式数据精炼PDR为什么能用更少的数据得到更好的效果A核心原因是去除了有害数据。数据量多并不代表质量高研究发现过时界面截图和逆向描述生成类任务不仅无益还会干扰模型学习正确的定位能力。同时某些来源的数据过于单一重复全量纳入会让模型偏科遇到新场景就失效。筛掉这些干扰项后模型能更专注地从高质量样本中学习用380万条精华数据超越了使用1080万条原始数据的结果。Q3GoClick和Set-of-MarksSoM提示方法相比有什么优势ASoM方法需要先用一个检测模型把屏幕上所有元素标注出来、打上编号再让大型语言模型从这些候选项中选择目标整个流程依赖大型专有模型完成最终判断。GoClick直接输出目标坐标不需要额外的检测模型预处理也不依赖大模型做最终决策。实验数据显示GPT-4o配合SoM在Android-in-The-Wild上整体成功率为42.1%而GPT-4o配合GoClick达到48.9%差距明显而且GoClick可以直接在手机本地运行延迟更低。