生成式AI驱动用户体验研究:以空中出租车为例的设计思维革新
1. 项目概述当生成式AI遇见未来出行空中出租车这个听起来像是科幻电影里的概念正以前所未有的速度向我们驶来。然而任何一项颠覆性的技术从实验室走向大众市场都绕不开一个核心问题用户会接受它吗他们会觉得安全、舒适、好用吗这正是用户体验研究的价值所在。但研究一个尚未大规模商用的“未来产品”我们面临着一系列经典难题没有实体产品可供测试真实飞行测试成本高昂且风险巨大目标用户群体模糊且难以触达。传统的用户研究方法如焦点小组、问卷调查和实体原型测试在这里似乎有些“巧妇难为无米之炊”。正是在这个背景下生成式人工智能特别是以GPT-4为代表的大型语言模型和以Midjourney、Runway为代表的AI图像/视频生成器为我们打开了一扇全新的大门。它们不再仅仅是内容创作的辅助工具而是演变成了一个强大的“虚拟研究实验室”。这个实验室的核心能力在于它能够基于有限的先验知识和设计框架快速、低成本地构建出高度拟真的虚拟场景和虚拟用户让我们在产品的“胚胎期”就能进行深入的、可迭代的用户体验探索。我最近主导并深度参与了一个研究项目核心就是探索这套方法论。我们以空中出租车为具体案例将GPT-4与经典的设计思维流程深度融合构建了一套从需求洞察到原型验证的自动化研究管线。简单来说我们教会了AI如何扮演“设计师”和“用户”双重角色。通过精心设计的提示词GPT-4能够模拟设计师的思维产出用户痛点、需求定义、界面概念和故事板同时它也能模拟不同背景的虚拟用户对这些设计概念给出初步的反馈。最终我们不仅用虚拟用户进行了预测试还用真实的用户对AI生成的设计方案进行了验证。结果令人振奋AI生成的设计方案有效提升了用户对空中出租车的接受意愿并且我们发现不同教育背景和性别的用户对这项新技术的态度存在显著差异。这不仅仅是一次技术演示更是一次研究范式的革新尝试。它证明了在高风险、高不确定性的前沿领域生成式AI可以成为一个强大的“探路者”和“加速器”让用户体验研究跑在产品研发的前面。2. 核心方法论设计思维与生成式AI的融合框架传统的设计思维是一个以人为中心的迭代式问题解决方法论通常包含共情、定义、构思、原型和测试五个阶段。我们的创新之处在于将GPT-4深度嵌入到前四个阶段中使其成为每个阶段的“智能协作者”和“内容生成引擎”从而构建一个高度自动化的虚拟研究流程。2.1 设计思维阶段的GPT-4提示工程要让AI理解并执行设计思维关键在于将每个阶段抽象成AI能够理解和执行的具体任务并通过结构化的提示词来引导。这本身就是一个需要精心设计的“元任务”。2.1.1 共情阶段从零到一的用户洞察模拟在传统研究中共情阶段需要大量的一对一访谈和实地观察以理解用户的真实环境、行为和痛点。对于空中出租车这种尚无大规模用户基础的产品我们转而利用GPT-4内化的海量人类知识和社会认知来模拟这一过程。我们的“Prompt_Empathize”核心是赋予GPT-4一个明确的角色和场景。例如“你是一位专业的用户体验研究员正在研究未来城市空中出行服务。请基于你对城市通勤者、旅行者以及对新科技尝鲜者的普遍认知模拟并列出潜在用户在使用传统地面交通如打车、地铁和未来空中出租车时可能面临的三个最突出的痛点。请从心理感受如焦虑、不确定性、物理体验如舒适度、便捷性和认知负担如学习成本三个维度进行阐述。”通过这样的提示GPT-4能够生成诸如“对飞行安全的深度焦虑与不确定性”、“对高昂费用的担忧”、“对预订和搭乘流程的陌生感与困惑”、“对紧急情况下如何应对的未知恐惧”等非常具象的痛点。这些痛点虽然源于AI的推理但其根源是对人类普遍心理和社会现象的建模为后续的定义阶段提供了扎实的起点。注意AI生成的痛点是一个“最大公约数”式的集合它可能缺乏特定文化或极端场景下的细微差异。因此研究者必须将其视为“假设”而非“结论”并在后续的真实用户测试中重点验证这些痛点。2.1.2 定义与构思阶段从问题到解决方案的AI推演在定义阶段我们将共情阶段输出的痛点转化为明确的设计挑战。提示词如“基于上述痛点请将‘为首次使用空中出租车的用户设计一个安全、安心且直观的搭乘体验’定义为核心设计挑战。并进一步拆解出三个关键的设计需求1. 透明化的安全与状态告知2. 极简化的预订与支付流程3. 情景化的应急指引支持。”进入构思阶段GPT-4的创造力得以爆发。我们使用“Prompt_Ideate”引导其进行头脑风暴“针对‘透明化的安全与状态告知’这一需求请构思五种创新的交互设计方案可以涉及手机应用、车载屏幕或外部环境交互。方案描述应包括交互形式、信息内容和预期用户价值。” GPT-4可能会提出“基于增强现实的飞行路径与安全边界可视化”、“实时三维模型展示飞机当前状态如动力、平衡”、“与地面交通融合的实时ETA动态地图”、“乘客间共享的舒缓情绪界面”等大胆而具体的想法。2.1.3 原型阶段从文本描述到可视化蓝图这是将想法具象化的关键一步。我们利用GPT-4生成两种形式的原型文字原型详细描述关键用户界面UI模块的功能、布局和交互逻辑。例如生成一个包含“一键紧急连接客服”、“飞行全程生物传感器状态简图”、“目的地实景预览窗”等功能的座舱屏幕设计描述。故事板生成一个包含8-10个场景的序列化故事描述用户从产生需求、预订、等待、登机、飞行到抵达的全流程交互与情感变化。例如“场景1用户在拥堵的市中心会议室通过手机App查看空中出租车选项对比时间和价格后露出惊喜表情。场景2用户到达屋顶垂直起降场通过App解锁舱门舱内灯光柔和亮起语音欢迎……”这些详尽的文字描述为下一步利用AI图像/视频生成器如Midjourney, Runway创建视觉素材提供了精确的“脚本”。例如将故事板的场景描述输入Midjourney即可生成对应的静态画面将UI描述输入则可生成高保真的界面概念图。2.2 虚拟实验场景的构建从文本到多模态体验仅有文字和图片还不够为了进行有效的用户测试我们需要构建一个沉浸式的“虚拟体验”。这正是Midjourney和Runway等工具大显身手的地方。2.2.1 静态场景与界面可视化我们将GPT-4生成的故事板场景和UI描述转化为给Midjourney的提示词。这里有一个关键技巧需要添加风格化指令以确保视觉一致性。例如对于空中出租车内饰的生成提示词可能是“Ultra-realistic photo, interior of a futuristic air taxi cabin, minimalist design, soft ambient lighting, large transparent window showing city skyline, a digital display screen showing flight path and safety metrics, sleek seats with safety harnesses, cinematic lighting, 8K –ar 16:9”。通过批量生成我们可以得到一套风格统一、细节丰富的场景图它们共同构成了一个连贯的视觉故事。2.2.2 动态体验模拟对于关键的交互动画或飞行过程我们使用Runway这类AI视频生成工具。例如将“从空中出租车舱内视角观看飞机平稳垂直起飞穿越城市楼宇最终降落在另一个屋顶平台”这样的描述输入Runway它可以生成一段几秒钟的短视频。虽然当前AI生成视频在物理准确性和长时序一致性上仍有局限但对于传达核心的体验感受和氛围已经足够。最终我们将这些生成的图片和视频片段按照故事板的顺序整合成一个完整的“模拟飞行体验”视频或交互式PDF。这就是我们用于后续用户测试的核心材料——一个完全由生成式AI创造的、关于未来产品的“预告片”。3. 用户测试设计与实证分析有了虚拟体验材料下一步就是验证其效果。我们设计了两个层面的测试一是用真实的用户来评估AI生成的设计方案本身二是探索用AI模拟的虚拟用户其反馈能否逼近真实用户的反应。3.1 真实用户测试评估设计有效性我们招募了72名背景各异的真实参与者让他们观看上述“模拟飞行体验”材料并在观看前后分别填写问卷。问卷核心测量两个变量1) 对乘坐空中出租车的态度/意愿采用李克特5点量表从“非常不愿意”到“非常愿意”2) 对本次模拟体验的满意度。3.1.1 核心发现态度转变与群体差异配对样本T检验的结果显示参与者在观看AI生成的体验后对乘坐空中出租车的意愿有统计学上的显著提升p 0.001。这意味着一个设计良好的、由AI构建的虚拟体验确实能够缓解人们对未知技术的恐惧提升接受度。这为在产品开发早期利用低成本原型进行市场教育和信心建立提供了实证支持。更深入的数据分析揭示了有趣的群体差异教育水平的影响不同教育水平的参与者在意愿提升程度上存在显著差异p 0.008。事后分析发现低学历群体的意愿提升幅度最大而高学历群体如硕士、博士的变化则不明显。一种可能的解释是高学历群体可能对新技术有更复杂的认知框架和更高的初始期待简单的视觉化演示不足以显著改变其固有态度而低学历群体可能更依赖于直观、感性的体验来形成判断。这对市场推广的启示是早期面向大众的传播应侧重于情感化和体验化的内容。性别的影响在满意度维度上性别差异显著。女性参与者对模拟体验的整体满意度显著低于男性。这与许多关于交通技术接受度的研究结论一致女性通常对安全、隐私和细节体验更为敏感。这强烈提示在产品设计中必须格外关注女性用户的安全感知、环境控制感和沟通的清晰度。实操心得在设计问卷时除了核心的态度量表一定要收集详细的人口统计学信息年龄、性别、教育、职业、兴趣等。这些信息不仅是样本描述更是进行细分群体分析、发现差异化洞察的钥匙。我们的研究正是因为做了这些交叉分析才发现了教育水平和性别这两个关键影响因素。3.1.2 满意度的影响因素分析我们对满意度进行了更细致的剖析。独立样本T检验显示在年龄分组18-40岁 vs 40岁以上和就业状态分组在职 vs 失业上满意度并无显著差异。这意味着我们AI生成的设计方案在满足不同年龄和就业状态的用户基本体验期望上表现是相对均衡的。然而结合性别差异的发现我们可以得出一个初步的设计原则对于空中出租车这类新兴服务普适性的体验设计是基础但针对特定群体如女性用户的精细化、安全感导向的设计是提升整体满意度和市场渗透率的关键。例如可以考虑增加女性专属的“安全护航”功能如行程自动分享给紧急联系人、与客服的无声报警连接等或是在内饰设计中更多采用令人感到平静、可控的色彩和材质。3.2 虚拟用户模拟探索LLM的预测能力这是本项目最具前瞻性的探索能否用GPT-4、Gemini等大语言模型直接模拟一批虚拟用户来预测真实用户的反馈我们进行了一次“实验中的实验”。3.2.1 模拟方法我们为GPT-4和Gemini创建了72个虚拟用户档案每个档案包含与真实参与者对应的年龄、国籍、性别、教育、职业、兴趣等个人信息。然后我们将完全相同的问卷题目、选项以及之前生成的10个场景的关键图像给GPT-4或视频给Gemini提供给这两个模型并提问“如果你是档案中的‘参与者1’你会如何回答这份问卷” 从而收集了72套虚拟回答。3.2.2 结果对比与启示分析发现无论是GPT-4还是Gemini模拟的虚拟用户群体在观看体验后其“乘坐意愿”的得分也出现了显著的统计学提升GPT-4模拟组 p0.001Gemini模拟组 p0.001。这个趋势与真实用户测试的结果一致。这是一个非常重要的信号LLM在群体层面的态度变化趋势上展现出了与人类相似的“反应模式”。然而当我们逐题对比虚拟用户与真实用户的评分均值时发现了差异。在12个问题中GPT-4模拟的用户有8个问题的回答与真实用户存在显著差异Gemini更是有10个问题存在差异。这说明当前的大模型在模拟个体对具体、细微问题的判断时例如“你对座椅舒适度的预期满意度是多少”其准确性尚不稳定。3.2.3 虚拟用户模拟的价值与局限这项探索的实践意义在于低成本趋势预测在资源极度有限的项目初期研究者可以利用LLM快速模拟成百上千种用户画像的反馈虽然不能精确预测每道题的分数但可能捕捉到“哪个设计方向更受某类人群欢迎”的整体趋势。这可以作为决定设计资源投向的快速参考。问题发现与迭代虚拟用户与真实用户反馈差异最大的那些问题恰恰是需要研究者高度警惕和深入探究的地方。这些差异点可能指向了AI认知的盲区或是设计中存在歧义、需要进一步澄清的部分。安全与包容性测试可以轻松模拟极端用户如患有严重恐高症的用户、行动不便的老年用户的潜在反应提前发现设计中可能存在的排斥性或风险点而无需在现实中寻找这些难以招募的参与者。注意事项绝不能将虚拟用户的反馈等同于真实用户研究。它目前更适合作为传统研究方法的“前置探索工具”或“辅助分析视角”。其可靠性高度依赖于提示词的质量、提供给模型的上下文信息以及模型本身的能力。GPT-4在本研究中的表现略优于Gemini这也提示我们需要根据任务特性谨慎选择模型。4. 工程实践从提示词到可交付成果的完整链路理论和方法论之后让我们深入到实操层面看看如何将这一套想法落地为一个可执行的研究项目。这套流程可以看作一个标准化的“生产线”。4.1 第一阶段定义研究目标与构建提示词库一切始于清晰的目标。我们的目标是“评估并优化潜在用户对空中出租车核心旅程的体验并探索影响其接受度的关键因素。”基于此我们创建了一个结构化的提示词库这是驱动整个AI工作流的核心资产。这个库按设计思维阶段组织共情提示词专注于挖掘痛点。例如“列出城市高端商务人士在时间紧迫的跨城会议途中对交通服务的三大核心未满足需求并分别阐述其背后的情感动机如对掌控感的渴望、对疲惫的厌恶。”定义提示词将痛点转化为机会点。例如“将‘用户在飞行途中因无法感知外部环境而产生的不安感’定义为设计机会并提出三个可衡量的设计目标如在起飞后30秒内将用户的不安感自评分数降低20%。构思提示词激发解决方案。例如“围绕‘提升飞行过程中的环境感知与趣味性’这一目标构思三种基于舱内屏幕或个人设备的交互概念。描述其核心功能、用户操作流程以及所需的技术支持。”原型提示词生成具体产出物。这是最需要细化的一类。例如UI模块描述“生成一个空中出租车乘客端App的主页UI文字描述。要求包含1) 实时地图与车辆位置2) 一键呼叫按钮3) 预估费用与时间4) 安全认证状态显示5) 个人行程历史入口。请描述每个元素的布局、大小和交互反馈。”用户旅程故事板“生成一个包含8个场景的故事板描述一位首次使用的母亲带着孩子搭乘空中出租车去机场的全过程。每个场景需包括场景编号、场景地点、人物动作、系统反馈、人物情绪状态。”4.2 第二阶段多轮迭代与内容生成有了提示词库工作就进入了循环迭代。我们通常进行2-3轮迭代初稿生成使用基础提示词让GPT-4产出第一版痛点列表、设计需求和原型描述。批判性精炼研究者以“挑剔的专家”身份介入审查AI的产出。例如发现AI生成的某个痛点过于泛泛如“价格贵”则通过追加提示词进行深化“请从心理账户和感知价值的角度进一步细化‘价格贵’这一痛点。用户是与哪种交通方式对比他们愿意为哪些具体价值点如时间节省、独享空间、景观体验支付溢价”融合与整合将精炼后的各阶段产出进行整合。例如将共情阶段深化的痛点重新输入到定义和构思阶段的提示词中生成更具针对性的解决方案。这个过程中所有与GPT-4的对话、修改记录和不同版本的产出都需要被系统地保存下来。这不仅是项目文档更是未来优化提示词、复现或改进流程的宝贵资产。4.3 第三阶段多模态内容生产与合成当文本原型和故事板确定后便进入视觉化阶段。图像生成将故事板的每个场景描述和UI描述转化为给Midjourney或Stable Diffusion的提示词。关键技巧是创建并维护一个“风格指南提示后缀”例如“, photorealistic, clean futuristic design, soft lighting, cinematic, 8k –ar 16:9 –style raw”附加在所有提示词后以确保整体视觉风格的统一性。视频生成选取故事板中的关键动态场景如起飞、穿越城市、降落使用Runway或Pika Labs生成短视频片段。由于当前技术的限制视频通常较短更适合用于展示特定的瞬间体验而非完整叙事。体验合成使用视频编辑软件如Premiere Pro、Final Cut或交互式原型工具如Figma、ProtoPie将生成的图片、视频片段连同UI界面图整合起来加入必要的文字说明、过渡动画和简单的交互热点制作成一份可供测试的“体验原型”。这份原型可能是一个视频文件也可能是一个可点击的交互演示。4.4 第四阶段测试执行与数据分析我们通过在线问卷平台如Qualtrics, SurveyMonkey发布测试。问卷嵌入之前制作好的体验原型视频或交互链接并设置逻辑先测量基线态度然后让参与者体验原型最后再次测量态度并收集满意度及人口统计学信息。数据分析采用标准的统计软件如SPSS, R, Python的PandasSciPy。核心步骤包括数据清洗检查并处理无效答卷。信效度检验对量表进行信度分析如Cronbach‘s Alpha。描述性统计计算各项得分的均值、标准差。推断性统计使用配对样本T检验比较体验前后态度得分的差异。使用独立样本T检验或单因素方差分析检验不同人口学分组性别、年龄、教育等在态度或满意度上是否存在显著差异。结果可视化使用柱状图、折线图清晰展示不同组别的得分对比并用星号* ** ***标注显著性水平。5. 挑战、反思与未来展望尽管本次实践取得了积极成果但过程中遇到的挑战和暴露的局限性同样值得深思它们指明了未来改进的方向。5.1 当前方法的局限性交互深度不足目前的体验原型主要以“观看”为主缺乏真实的物理交互和决策点。用户是被动接受信息而非主动操作。这限制了我们对可用性、学习曲线等更深层次用户体验维度的评估。未来的原型需要向更高保真度、可交互的方向发展例如结合VR技术创建可“操作”的虚拟座舱。虚拟用户的“幻觉”与偏差LLM模拟的用户反馈基于其训练数据中的模式可能无法代表真实世界中某些小众或具有独特文化背景的群体。它可能放大社会主流观点而边缘化少数派的声音。此外LLM对情感细微差别和情境化矛盾心理的模拟仍不成熟。技术工具的碎片化与成本整个流程涉及多个AI工具GPT-4, Midjourney, Runway每个工具都需要单独学习、付费和管理。提示词工程本身也是一项专业技能。这为研究团队设置了不低的技术门槛和成本。伦理与隐私考量使用AI生成虚拟用户的形象和反馈涉及肖像权、数据真实性等伦理问题。在研究报告中有必要明确声明哪些部分由AI生成避免误导。同时用于训练和引导AI的数据集本身也可能存在偏见需要谨慎审视。5.2 优化建议与扩展应用构建领域特定的提示词框架针对自动驾驶、智能家居、医疗机器人等不同领域可以预先构建和优化一套专用的设计思维提示词库包含该领域特有的术语、常见用户画像和典型场景从而提升AI产出内容的相关性和专业性。人机协同的混合研究模式不应追求完全自动化而应建立“AI广撒网专家深聚焦”的模式。AI负责快速生成大量可能性和模拟海量用户初筛人类研究员则负责对AI产出的关键洞察进行深度解读、对矛盾点进行实地验证并最终做出设计决策。向高保真与多模态交互演进结合游戏引擎如Unity, Unreal Engine和VR设备将AI生成的3D模型、场景和交互逻辑导入构建沉浸式、可交互的虚拟体验环境。这能收集更丰富的用户行为数据如注视点、操作路径。扩展应用场景这套方法论不仅限于空中出租车。它非常适合任何高成本、高风险、高不确定性的领域前期探索。例如太空旅游体验设计在实体飞船造出来之前模拟失重环境下的用户界面和活动流程。灾难救援机器人交互在危险的真实环境测试前模拟救援人员与机器人的协同作业界面。新型外科手术设备培训在动物实验或临床前为医生提供虚拟的手术操作培训和体验反馈收集。这次将生成式AI与设计思维结合用于空中出租车用户体验研究的实践对我而言更像是一次“思想实验”的工程化实现。它最核心的价值不在于得出了某个具体的设计结论而在于验证了一条路径的可行性在实体产品远未成型时我们可以利用AI快速构建一个关于未来的、可感知、可讨论、可测试的“共识原型”。这极大地压缩了从概念到验证的周期降低了试错成本。它让用户体验研究从传统的“事后验证”更多地转向“事前预测”和“同步塑造”。当然工具再强大也无法替代研究者深刻的同理心、批判性思维和对人性的洞察。AI生成的是“模式”和“可能性”而人类负责理解“意义”和做出“选择”。未来的用户体验研究者或许需要兼具人类学家的敏锐和AI训练师的技艺才能在这个人机协同的新时代更好地驾驭技术服务于人。