T·R·ACE评测框架重构文档
Workflow RefactorSkillHubWorkflow RefactorClawHubT·R·ACE评测框架重构文档本文档记录了对 Skillhub Skill 质量评测框架的工作流重构全过程。原框架名称TRACETrust / Reliability / Adaptability / Convention / Effectiveness重构后框架名称T·R·ACE名字即流程一、重构背景1.1 原框架概述TRACE 评测框架覆盖 Skill 全生命周期质量评估定义了五个维度维度中文核心问题T — Trust信任用着放心吗R — Reliability可靠性每次都稳吗A — Adaptability适用性该出手时出得来吗C — Convention规范性写得清楚、改得动吗E — Effectiveness有效性最终交付的结果好用吗五个维度从左到右是一条因果依赖链安全是地基稳定是承重墙适配是水电通路规范是施工图纸有效是最终交付给住户的居住体验。1.2 重构触发原因TRACE 定义了评什么五个维度但没有定义怎么评评测引擎的执行流程。作为 AI 自动检测框架它需要一套可执行的评测工作流而非并列罗列的评测标准。二、重构判断条件阈值本案情况是否触发角色接力数≥31 个角色AI 评测引擎❌中间文档流转数≥312 份中间报告✅协调沟通耗时占比≥30%无协作❌返工率≥30%维度间存在隐含依赖无序评测导致重复工作✅结论触发重构。三、重构过程Step 1传统工作流识别R0-01目标领域AI 自动评测引擎对单个 Skill 执行质量评测TRACE 框架隐含的评测执行流程共 17 个环节#环节归属维度做什么中间产物1文件解析—读取 Skill 全部文件文件清单 内容索引2安全扫描T静态代码扫描、敏感信息检测、可疑注入检查安全报告3国内适配检测T检查外部依赖可达性、中文交互完整性适配报告4文档质量评估C评估 README 完整性、使用案例、输入输出样例文档评分5结构规范评估C检查目录规范、模块划分、命名一致性结构评分6渐进式披露评估C检查信息分层、首次接触体验披露评分7功能声明提取R(前提)从文档中提取 Skill 声明的所有功能点功能清单8功能完整性验证R对照功能清单逐项验证是否可用功能验证报告9运行稳定性测试R同一任务反复执行检查结果一致性稳定性报告10异常处理测试R输入空值/超长/特殊字符检查容错异常处理报告11触发精度评估A评估触发条件是否清晰、无歧义触发评分12能力边界评估A评估适用范围描述是否清晰边界评分13输出准确性评估E检查输出结果正确性、逻辑自洽性准确性评分14内容完整性评估E检查复杂场景下是否覆盖全面完整性评分15开箱即用度评估E检查输出能否直接使用即用度评分16创造力评估E评估是否提供额外洞察和增值增值评分17综合评分全部汇总各维度得分生成评测报告评测报告汇总17 个环节 / 1 个角色AI 评测引擎 / 12 份中间报告Step 2环节存在理由分析R0-02追问准则如果评测者是一个拥有全量知识和零损耗的 AI这个环节还需要吗#环节存在理由类型标记标记理由1文件解析事情本身需要✅核心评测的输入任何评测都从读文件开始2安全扫描事情本身需要⚡校验合规硬约束不可跳过3国内适配检测事情本身需要⚡校验合规硬约束不可跳过4文档质量评估人的局限需要❌传递人需要读文档才能判断质量AI 可直接从文件结构和内容密度量化5结构规范评估人的局限需要❌传递人需要浏览目录才能判断AI 可直接解析文件树6渐进式披露评估人的局限需要❌传递人需要翻阅才能判断分层AI 可直接解析信息架构7功能声明提取事情本身需要校准提取出的功能清单是后续验证的校准锚点——没有清单就不知道验什么8功能完整性验证事情本身需要✅核心R 维度的核心——声明的功能是否真能跑9运行稳定性测试事情本身需要✅核心R 维度的核心——重复执行是否一致10异常处理测试事情本身需要✅核心R 维度的核心——边界输入是否容错11触发精度评估事情本身需要✅核心A 维度的核心12能力边界评估事情本身需要✅核心A 维度的核心13输出准确性评估事情本身需要✅核心E 维度的核心14内容完整性评估事情本身需要✅核心E 维度的核心15开箱即用度评估事情本身需要✅核心E 维度的核心16创造力评估事情本身需要✅核心E 维度的核心17综合评分事情本身需要✅核心评测的最终输出统计✅核心 11 个 / 校准 1 个 / ❌消除 3 个 / ⚡精简 2 个Step 3人的局限补偿层消除R0-03消除清单#被消除环节原类型消除理由4文档质量评估独立环节传递C 维度的文档/结构/披露三项本质上都是对文件结构和内容的静态解析不需要分三步独立评估5结构规范评估独立环节传递同上合并到文件解析阶段6渐进式披露评估独立环节传递同上合并到文件解析阶段保留清单#保留环节保留理由类型重组位置1文件解析扩展合并原 4/5/6一次解析产出全部静态信息✅核心T 阶段2安全扫描合规硬约束⚡校验T 阶段3国内适配检测合规硬约束⚡校验T 阶段7功能声明提取后续验证的校准锚点校准T→R 传递8-10运行测试群组R 维度核心✅核心R 阶段11-12适配评估群组A 维度核心✅核心ACE 阶段13-16输出评估群组E 维度核心✅核心ACE 阶段17综合评分最终输出✅核心ACE 阶段Step 4重整为 IPO 基元链R0-044.1 命名决策原框架名称 TRACET→R→A→C→E的精妙之处在于名字本身就是执行顺序。重构后五个维度被重组到三个阶段中原字母顺序不再对应执行流。因此新框架名称T·R·ACE命名逻辑三个阶段的首字母/首字母组 T → R → ACETPhase 1 Trust — 静态解析阶段RPhase 2 Reliability — 动态验证阶段ACEPhase 3 Adaptability Convention Effectiveness — 综合判定阶段名字即流程T·R·ACE 不仅是五个维度的缩写更是评测引擎的三阶段流水线4.2 重构后工作流形态简短基元链3 个基元基元内并行子步骤T静态解析──校准点──→ R动态验证──校准点──→ ACE综合判定──校准点──→ 报告4.3 五维度 → 三阶段映射原维度归入阶段具体子步骤TTrustT 阶段安全扫描 国内适配检测RReliabilityR 阶段功能完整性 稳定性 异常处理AAdaptabilityT 阶段提取 ACE 阶段评分触发条件提取 → 适配评估CConventionT 阶段解析 ACE 阶段评分文件结构解析 → 规范评估EEffectivenessR 阶段采集 ACE 阶段评分输出样本采集 → 效果评估4.4 基元详细定义基元 T静态解析Phase 1ISkill 全部文件SKILL.md、scripts/、references/、assets/P6 个子步骤可并行执行子步骤做什么产出AI 自治度T.1 文件树解析解析目录结构、模块划分、命名规范结构评分 → C⬛ 全自动T.2 内容密度分析评估文档分层、首次接触体验、详细参考资料组织披露评分 → C⬛ 全自动T.3 文档覆盖度检查检查使用案例、输入输出样例、最佳实践、反模式、FAQ文档评分 → C⬛ 全自动T.4 安全扫描静态代码扫描、敏感信息检测、可疑注入检查安全报告 → T 硬门槛⬛ 全自动T.5 国内适配检测外部依赖可达性、中文交互完整性适配报告 → T 硬门槛⬛ 全自动T.6 功能声明提取从文档提取 Skill 声明的所有功能点和触发条件功能清单 触发条件 → R 输入 A 输入⬛ 全自动OT 阶段报告 {结构评分, 披露评分, 文档评分, 安全报告, 适配报告, 功能清单, 触发条件} 校准点 1T.6 功能声明提取完成后——功能清单是 R 阶段动态验证的靶子提取不准确则后续全部白验。人工确认功能清单覆盖度。T 阶段硬门槛T.4 安全扫描或 T.5 国内适配检测任一不通过 → 终止评测不再进入 R 阶段。基元 R动态验证Phase 2IT.O功能清单 触发条件P5 个子步骤可并行执行子步骤做什么产出AI 自治度R.1 测试用例生成基于功能清单自动生成标准测试用例 边界用例 异常用例测试用例集⬛ 全自动R.2 功能完整性执行对照功能清单逐项执行记录通过/失败功能验证报告⬛ 全自动R.3 稳定性执行同一任务反复执行 N 次检查结果一致性稳定性报告⬛ 全自动R.4 异常处理执行输入空值/超长/特殊字符记录容错行为异常处理报告⬛ 全自动R.5 输出质量采集收集各测试轮次的输出供后续评分使用输出样本集 → ACE 输入⬛ 全自动OR 阶段报告 {功能验证报告, 稳定性报告, 异常处理报告, 输出样本集} 校准点 2R.1 测试用例生成完成后——用例集是否覆盖了功能清单的所有关键场景。人工确认覆盖度。基元 ACE综合判定Phase 3IT.O结构评分, 披露评分, 文档评分, 触发条件 R.O功能验证报告, 稳定性报告, 异常处理报告, 输出样本集P4 个子步骤可并行执行子步骤做什么产出AI 自治度ACE.1 R 维度评分基于功能验证 稳定性 异常处理计算 Reliability 得分R 分 半自动ACE.2 A 维度评分基于触发条件清晰度 能力边界描述完整度计算 Adaptability 得分A 分 半自动ACE.3 C 维度评分基于 T 阶段的结构 披露 文档评分计算 Convention 得分C 分 半自动ACE.4 E 维度评分基于输出样本集评估准确性 / 完整性 / 开箱即用度 / 创造力E 分 半自动ACE.5 综合评分T(准入) R A C E → T·R·ACE 总分T·R·ACE 评测报告⬛ 全自动OT·R·ACE 评测报告 {T 安全报告, R 分, A 分, C 分, E 分, 总分, 维度明细, 改进建议} 校准点 3ACE.5 综合评分生成后——评分权重是否合理、各维度得分是否与直觉一致。人工确认评分结果。4.5 基元间传递关系T.O ──→ R.I功能清单作为验证靶子 T.O R.O ──→ ACE.I静态解析结果 动态验证结果作为评分输入 ACE.O ──→ T·R·ACE 评测报告最终交付物无需中间文档无需协调会议。每个基元的输出直接作为下一个基元的输入。Step 5重构验证R0-05#验证项通过说明1事情完整性✅T/R/A/C/E 五维度全部覆盖无遗漏2补偿层消除✅C 维度三个独立评估环节合并为 T 阶段三个并行子步骤3校准不丢失✅3 个校准点功能清单确认T→R、测试用例覆盖度确认R 内、评分结果确认ACE 内4端到端可执行✅AI 评测引擎从输入 Skill 文件到输出 T·R·ACE 报告全程可自动化5复杂度回归✅17 环节 → 3 基元 15 子步骤基元内并行执行时间从 17 步串行降至 3 轮6质量守恒✅五维度评估内容无丢失C 维度从 3 个串行环节变为 3 个并行子步骤评估深度不变7合规不跳过✅T 维度安全 适配在 Phase 1 作为硬门槛执行不通过则终止Step 6执行形态选择R0-06选定形态简短基元链3 基元串行 基元内并行子步骤形态适配理由单步 IPO❌评测有明确的静态 → 动态 → 判定三阶段依赖简短基元链✅3 基元每个基元内部子步骤可并行执行IPO人工决策❌校准点已嵌入基元内不需要独立的人工决策基元执行优化T 阶段 6 个子步骤互不依赖 → 并行执行R 阶段 4 组测试互不依赖 → 并行执行R.1 生成用例后 R.2/R.3/R.4 可并行ACE 阶段 4 个维度评分互不依赖 → 并行执行实际执行时间 ≈ max(最慢子步骤时间) × 3 轮四、重构前后对比维度重构前TRACE重构后T·R·ACE改善框架名称TRACE纯缩写T·R·ACE名字即流程语义升级环节数17 个串行环节3 基元 15 子步骤基元内并行-82% 串行步数执行顺序无序 / 并列T → R → ACE 因果链结构化C 维度评估3 个独立串行环节3 个并行子步骤T.1/T.2/T.3串行 → 并行功能声明 → 验证无显式依赖T.6 → R 显式传递校准锚点明确输出采集 → 评分隐含在各 E 子环节R.5 采集 → ACE.4 评分数据流清晰测试用例未定义怎么生成R.1 自动生成基于 T.6 功能清单自动化校准机制无3 个显式校准点质量可控硬门槛无明确终止条件T 阶段安全/适配不通过则终止风险前置执行模式17 步串行3 轮并行效率提升五、T·R·ACE 框架总结5.1 一句话定义T·R·ACE 是 Skillhub 的 Skill 质量自动评测框架——Pass the T · Run the R · Deliver the ACE。5.2 三阶段流水线阶段字母含义执行内容产出硬门槛Phase 1TTrust静态解析安全扫描 国内适配 文件结构 功能提取T 阶段报告安全/适配不通过 → 终止Phase 2RReliability动态验证功能完整性 稳定性 异常处理 输出采集R 阶段报告—Phase 3ACEACE综合判定适配评估 规范评估 效果评估 综合评分T·R·ACE 评测报告—5.3 三个校准点校准点位置校准内容#1T → R 交接功能清单覆盖度确认#2R 内部测试用例覆盖度确认#3ACE 内部综合评分合理性确认5.4 原 TRACE 用户担忧 → T·R·ACE 评测阶段对应用户担忧原维度T·R·ACE 阶段评测方式“不敢用”T — TrustPhase 1T 静态解析自动化安全扫描 网络适配检测“不稳定”R — ReliabilityPhase 2R 动态验证自动化多组测试 边界用例“找不到/用错了”A — AdaptabilityPhase 3ACE 综合判定触发条件解析 场景匹配分析“看不懂”C — ConventionPhase 3ACE 综合判定文件结构 文档覆盖度量化“没用”E — EffectivenessPhase 3ACE 综合判定输出质量评估 增值创造力分析Leave a T·R·ACE — Pass the T · Run the R · Deliver the ACE.