UniAR:统一预测人类视觉注意力与主观反馈的多模态模型
1. 项目概述为什么我们需要一个预测人类视觉行为的统一模型在数字内容爆炸式增长的今天无论是设计师打磨一个App界面还是内容创作者优化一张海报一个核心问题始终萦绕“人”会怎么看更具体地说他们会先看哪里觉得哪里重要最终又会给出怎样的评价过去十几年学术界和工业界为解决这些问题发展出了两条泾渭分明的技术路线。一条路专注于预测“注意力”比如通过眼动追踪数据训练模型生成能模拟人眼注视点分布的“热力图”。这项技术非常有用能帮我们优化界面布局、减少视觉干扰甚至在渲染超大图像时优先加载用户可能关注的区域。另一条路则聚焦于预测“主观反馈”比如审美评分、偏好选择这些通常发生在用户仔细审视内容之后属于更深层次的认知决策。但问题在于人的视觉行为是一个连续、统一的整体。我们被某个区域吸引注意力然后进行认知加工最终形成判断反馈。将两者割裂研究就像只研究汽车发动机的轰鸣声却不去理解它如何驱动车轮前进得到的结论往往是片面的。更现实的是对于产品、设计团队而言他们需要的不是一个只能预测热力图的工具再加一个只能打分的工具他们需要的是一个能理解“从注意到反馈”全过程的智能伙伴能提供一站式的洞察。这就是我们启动“UniAR”项目最根本的出发点构建一个能够同时、统一地预测人类对视觉内容多种反应从隐性的注意到显性的评价的模型。这个想法并非凭空而来。在我们之前的工作中已经尝试用单一模型来预测生成式AI图片的多种人类反馈如图文对齐度、审美质量、瑕疵区域等并成功用于改进图像生成效果。这证明了统一建模的可行性。而近期大语言模型与视觉模型结合多模态大模型的突破性进展为我们提供了强大的技术底座。于是我们问自己能否将这种统一建模的思路从“生成图片的评价”扩展到更广泛的“人类对一切视觉内容的反应”这包括了真实的自然图片、平面设计、网页乃至移动端UI界面。UniAR便是我们对这个问题的回答——一个首次尝试统一建模人类早期知觉注意力与后期主观决策偏好的多模态模型。2. 模型架构设计如何用一套框架处理多种任务要让一个模型同时搞定热力图预测、扫视路径预测和评分预测听起来像让一个厨师同时做中餐、西餐和甜点。核心挑战在于这些任务的输出形式天差地别热力图是一张概率分布图扫视路径是一个坐标序列评分则是一个标量数值。我们的解决方案是借鉴并改造了当前最有效的多模态架构范式即“视觉编码器-文本编码器-解码器”的Transformer体系。2.1 核心组件与输入设计模型的输入有两部分图像和文本提示。这模仿了人类理解场景的方式我们不仅看画面还会结合上下文和任务意图。视觉编码器我们采用Vision Transformer模型来处理输入图像。它将图像分割成块转换为序列化的特征表示能够捕捉从局部细节到全局语义的丰富信息。文本编码器文本提示并非简单的描述而是承载了关键的“任务指令”和“领域信息”。我们使用一个词嵌入层将文本转换为向量然后通过一个T5 Transformer编码器进行深度理解。这个文本提示是模型实现“统一”和“可控”的关键。例如我们可以输入[DOMAIN: mobile UI] [TASK: predict attention heatmap] [SCENARIO: free-viewing][DOMAIN: natural image] [TASK: predict aesthetic score][DOMAIN: webpage] [TASK: predict scanpath] [QUESTION: “Where is the login button?”]通过这种方式我们明确告诉模型“现在请你以移动UI的视角执行自由浏览场景下的注意力热力图预测任务。” 这极大地增强了模型对不同领域和任务的适应与泛化能力。多模态融合与解码图像特征和文本特征在T5编码器中进行深度融合。之后模型根据文本提示指定的任务将融合后的特征路由到三个独立的预测头Decoder热力图预测头输出一张与输入图像同宽高的概率图表示每个像素被注意或被认为重要的可能性。扫视路径预测头输出一个坐标序列[(x1, y1), (x2, y2), ...]模拟人眼注视点的转移顺序。评分预测头输出一个或多个标量值例如审美分数0-10、偏好等级等。注意这种“共享主干任务特定头”的设计是平衡通用性与专业性的经典做法。主干网络学习通用的视觉-语言联合表征而每个预测头则专注于学习将通用表征映射到特定形式的输出。这比训练三个完全独立的模型更高效且能促进知识在任务间迁移。2.2 训练策略与数据准备构建这样一个模型数据是基石。我们采用了“预训练 多任务微调”的两阶段策略。第一阶段大规模跨领域预训练为了让模型具备广泛的视觉理解基础我们使用了两个大规模数据集进行预训练WebLI一个超大规模的自然图像-文本对数据集让模型学习将视觉内容与语言描述关联起来。网页与移动UI数据集包含大量网页截图和App界面截图并附带有屏幕内元素的标注如按钮、文本块的边界框和描述。 在预训练阶段我们主要使用图像描述生成任务给定图片生成描述文本和区域定位任务给定文本描述和截图预测对应区域的边界框坐标。后者对于后续预测注视坐标扫视路径尤为重要因为它教会模型理解“语言所指的屏幕位置”。第二阶段多任务混合微调预训练后模型已经是一个“见多识广”的视觉-语言理解模型。接下来我们用来自11个公开数据集的标注数据对其进行微调。这些数据集覆盖了三大领域自然图像尺寸多样内容广泛。平面设计海报、信息图等。移动用户界面各种App的截图。 这些数据集的标注类型正是我们的三个目标任务眼动热力图、扫视路径序列和主观评分。在训练时我们采用均匀采样的策略从所有数据集中随机抽取样本确保模型不会偏向于某个特定领域或任务。这种混合训练迫使模型学会根据文本提示动态调整其“思维模式”以应对不同的预测需求。3. 实验结果深度解读统一模型真的能打过“专家”吗提出一个统一模型最直接的质疑就是它会不会是“样样通样样松”为了回答这个问题我们设计了全面而严格的评测将UniAR与当前各个任务上表现最好的专用模型可视为“领域专家”进行对比。评测指标也因任务而异确保评估的公正性。3.1 注意力热力图预测对于热力图我们采用计算机视觉领域的标准指标皮尔逊相关系数衡量预测热力图与真实热力图在所有像素值上的线性相关程度值越高越好。KL散度衡量两个概率分布将热图视为分布的差异值越低越好。AUC-Judd将热力图预测视为二分类问题注视点 vs. 非注视点计算ROC曲线下面积值越高越好。标准化扫描路径显著性计算在真实注视点位置上预测热力图像素值的平均值值越高越好。结果在涵盖自然图像、平面设计和移动UI的七个公开基准测试中UniAR在总计27项指标对比中取得了17项最佳并在22项指标中排名前二。特别是在移动界面和平面设计数据集上UniAR在多项指标上超越了之前的最高纪录。这表明统一模型不仅没有牺牲性能反而通过跨领域知识的共享与互补在某些场景下表现更为出色。3.2 主观评分/偏好预测对于评分预测我们使用斯皮尔曼等级相关系数和皮尔逊线性相关系数来衡量模型预测分数与人类平均打分之间的一致性。结果在两个主要的评分数据集上UniAR在皮尔逊相关系数上均取得了最佳结果。这意味着模型能够较好地捕捉人类审美或偏好的线性趋势。虽然斯皮尔曼系数上可能与某些专用模型持平但综合来看统一模型在评分任务上具备了与顶尖专家模型竞争的实力。3.3 扫视路径预测预测连续的注视点序列是最具挑战性的任务。我们使用序列相似度、时间维度上的误差等指标进行评估。结果UniAR的表现与基线模型相当并在部分数据集的所有五项指标上超越了基线取得了四项最佳。更重要的是我们在任务间知识迁移的实验中观察到了令人鼓舞的现象。例如让模型去预测网页上的扫视路径而它在训练阶段从未见过“网页扫视路径”这个组合任务只分别学习过“网页”和“扫视路径”。结果显示模型展现出了一定的泛化能力能够将分别学到的知识组合起来应对新情况。这证明了统一建模带来的潜在优势学到的表征具有更强的可组合性和泛化性。实操心得如何解读这些结果对于从业者而言这些实验结果传递了几个关键信息性能代价极小采用统一模型并不会必然导致预测精度下降。在充足、多样化的数据和多任务训练的驱动下统一模型可以达到甚至超越多个专用模型组合的效果。效率大幅提升从工程部署角度看维护一个UniAR模型远比维护热力图模型、评分模型、扫视模型三个独立系统要简单。它减少了代码复杂度、部署资源和推理开销。涌现能力模型展示出的跨任务泛化潜力是专用模型不具备的。这意味着未来面对全新的“领域任务”组合时UniAR这类模型可能具备更好的零样本或少样本适应能力。4. 从模型到应用如何在实际工作中使用这类预测模型性能再好不能落地也是空中楼阁。UniAR这类统一预测模型的核心价值在于它能为人机交互设计、内容创作和用户体验评估提供一套高效、量化的洞察工具。下面我结合几个具体场景谈谈它的应用方式和实操要点。4.1 用户界面与交互设计优化场景你设计了一个新的电商App商品详情页。在投入大量开发资源前你想知道用户的注意力会如何分布“加入购物车”按钮是否足够醒目复杂的促销信息会不会造成视觉混乱应用流程生成设计稿截图将高保真原型图或视觉稿作为输入图像。构造文本提示根据你想探究的问题构造不同的提示词。整体注意力评估[DOMAIN: mobile UI] [TASK: predict attention heatmap] [SCENARIO: free-viewing]关键任务引导[DOMAIN: mobile UI] [TASK: predict scanpath] [SCENARIO: goal-oriented] [TARGET: “Find and click the ‘Add to Cart’ button”]获取预测结果模型会输出热力图或扫视路径序列。分析与迭代热力图分析如果热力图显示核心行动按钮如“购买”区域热度很低而旁边的装饰元素热度很高这可能意味着视觉层次出现了问题需要调整色彩、对比度或位置。扫视路径分析如果模拟的视线路径在几个信息块之间来回跳跃、杂乱无章说明信息布局可能不符合用户的认知习惯需要简化或重组信息流。注意事项模型预测的是“平均趋势”或“典型模式”。它不能替代真实用户的A/B测试但可以在设计初期快速筛选出明显存在问题的方案将迭代次数从“10次测试淘汰9个”减少到“3次测试淘汰2个”极大提升设计效率。4.2 视觉内容创作与评估场景你是社交媒体运营需要制作活动海报或者你是AI绘画工具的用户生成了几张图想知道哪张更吸引人、审美上更胜一筹。应用流程将待评估的图片输入模型。使用提示词[DOMAIN: graphic design] [TASK: predict aesthetic score]获取审美评分。同时使用[DOMAIN: graphic design] [TASK: predict attention heatmap]获取注意力分布。综合决策选择审美评分较高的图片。检查高分图片的注意力热力图确保视觉焦点落在你想要传达的核心信息如活动主题、品牌Logo上而不是无关的背景细节上。如果焦点偏离即使评分高也可能不是最优选择。实操心得评分模型的校准模型给出的审美评分是一个相对值其绝对数值比如7.5分本身意义不大。关键在于横向比较。建议内部建立一个“基准图库”包含历史上数据表现好如高点击率、高转化率的图片。每次评估新图时连同几张基准图一起输入模型打分。通过观察新图与基准图在分数上的相对位置来判断其潜力。这比单纯看一个孤立的分数要可靠得多。4.3 无障碍设计与可访问性评估这是一个极具社会价值的应用方向。模型可以辅助评估视觉内容对于低视力人群的可用性。模拟注视困难通过调整提示词或输入可以部分模拟视觉搜索效率较低的情况。评估信息优先级结合热力图和扫视路径可以分析关键信息如重要按钮、警示文字是否处于视觉流的早期位置这对于依赖屏幕阅读器或放大功能的用户至关重要。 未来如果能直接引入残障人士的交互数据训练模型将能打造更强大的无障碍设计辅助工具。5. 局限性与未来方向理性看待模型的边界在热情拥抱技术的同时我们必须清醒地认识到当前模型的局限性这是负责任地研究和应用的前提。5.1 模型预测的本质是参考非圣旨这是最重要的认知。UniAR或其他任何人类行为预测模型其输出都是基于历史数据学习到的统计规律。它预测的是“在给定条件下大多数人可能如何反应”。它无法捕捉个体独特的文化背景、瞬时情绪、特殊经历所带来的差异。因此模型的结果必须作为人类决策的参考和辅助而非不可置疑的最终答案。设计师的创意、产品经理对业务的理解、用户研究员对特定人群的洞察这些都无法被模型完全替代。模型的作用是提供数据驱动的洞察缩小决策的不确定性范围而不是做出决策本身。5.2 数据的局限与偏见我们的模型建立在现有的公开数据集之上。这些数据集虽然规模可观但在人口统计学多样性上仍有欠缺。例如可能过度代表了特定年龄、地域、文化背景的互联网用户。用这样的数据训练出的模型其预测可能无意中固化或放大某些群体偏好而对其他群体产生偏差。未来工作的一个重点就是持续扩展和多样化数据集特别是纳入更多来自不同地区、年龄、能力水平包括视障用户的数据让模型能更好地代表全人类。5.3 个性化与动态适应当前模型是一个“通用”模型。但人的偏好是高度个性化的且会随时间变化。一个可行的方向是开发轻量级的个性化微调机制。例如允许企业基于自己产品的用户交互数据对模型的某些层进行微调使其预测更贴合自己的用户群体。甚至在未来可以考虑在保护隐私的前提下为单个用户建立微型的偏好模型用于个性化内容推荐或界面适配。同时模型需要定期用新的数据更新以跟上审美和交互习惯的变迁。5.4 任务与领域的扩展目前UniAR聚焦于视觉注意力、扫视和评分。人类对视觉内容的反馈远不止这些。未来可以探索将更多任务纳入统一框架例如情感预测图片/UI带给人的情绪感受愉悦、紧张、信任等。可理解性预测信息图表或复杂界面是否容易被理解。交互意图预测用户接下来可能点击哪里或进行什么操作。 将更多维度的反馈统一起来才能构建真正全方位、深层次的“人工用户体验分析师”。6. 常见问题与实操排错指南在实际尝试使用或借鉴此类模型时你可能会遇到一些典型问题。以下是我根据经验总结的排查思路。6.1 预测结果不准确或反直觉可能原因1输入域不匹配。模型在训练时接触了自然图像、UI、设计图等。如果你输入一张医学X光片或抽象艺术画效果可能很差。因为它的特征与训练数据分布差异太大。解决方案确保输入内容与模型熟悉的领域大致相关。如果必须处理新领域考虑能否进行少量数据的微调。可能原因2文本提示词设计不当。提示词是指挥官模糊的指令会导致混乱的输出。例如只输入“预测注意力”而没有指定[SCENARIO: free-viewing]还是[SCENARIO: searching]模型可能默认一个而这不是你想要的。解决方案严格按照模型定义的提示词语法明确指定DOMAIN、TASK、SCENARIO等关键信息。进行简单的提示词AB测试观察输出变化。可能原因3图像预处理问题。模型训练时对输入图像尺寸、归一化方式有特定要求。解决方案严格复现论文或代码库中提到的预处理流程包括缩放、裁剪、归一化均值/标准差等步骤。6.2 模型推理速度慢可能原因完整的Transformer模型参数量大计算耗时。解决方案模型蒸馏用大模型教师训练一个更小、更快的模型学生尽可能保留性能。量化与加速使用TensorRT、OpenVINO等工具对模型进行量化如FP16, INT8并利用硬件加速。任务裁剪如果你只需要热力图预测可以在部署时移除扫视路径和评分预测头减少计算量。缓存与预热对于固定的常见查询如特定领域的标准提示词可以缓存预测结果。6.3 如何评估自己场景下的模型效果问题论文中的指标很高但用在自己的产品界面上感觉不准。解决方案建立自己的小型黄金标准数据集。选取10-20个具有代表性的自家设计稿或内容。组织一次小规模的、严谨的用户实验或利用现有的眼动/评分数据收集真实的注意力热力图或评分数据。这作为你的“地面真值”。用你的数据运行模型计算相同的评测指标如热力图的AUC评分的相关系数。将结果与论文公布的基准性能对比同时更重要的是观察模型预测与真实数据在案例层面的差异定性分析错误模式。这能帮你明确模型的适用边界。6.4 伦理与隐私考量问题使用用户行为数据训练模型是否存在隐私风险模型预测是否会被滥用实践建议数据脱敏训练使用的所有眼动、交互数据必须经过严格的匿名化和脱敏处理去除任何可识别个人身份的信息。知情同意如果自行收集数据必须确保参与者充分知情并同意其数据用于模型研究。结果解释明确告知使用模型预测结果的团队这只是群体概率的预测不能用于对个体用户进行评判或决策。防止滥用建立内部使用规范防止模型被用于设计诱导性、成瘾性或带有偏见的界面如利用注意力弱点进行过度营销。构建和应用预测人类反应的模型是一个在技术能力、实用价值和伦理责任之间不断寻找平衡的过程。UniAR代表了一种有前景的方向通过统一建模来更高效、更全面地理解人与视觉内容的互动。它的价值不在于提供一个终极答案而在于为我们打开了一扇窗让我们能以数据驱动的方式更深刻地洞察那些原本依赖直觉和经验的领域。最终工具的意义由使用者赋予。