摘要单细胞扰动研究面临双重异质性瓶颈1语义异质性——相同生物概念在不同数据集的元数据schema下不兼容2统计异质性——生物变异引发的分布偏移需要数据集专属的归纳偏置。本文提出HarmonyCell端到端智能体框架通过专属机制解决上述挑战基于大语言模型LLM的语义统一器无需人工干预自动将异构元数据映射为标准接口自适应蒙特卡洛树搜索MCTS引擎在分层动作空间中构建最优统计归纳偏置的模型架构。在语义与分布偏移的各类扰动任务中验证HarmonyCell对异构输入数据集的有效执行率达95%通用智能体为0%在严格的分布外评估中性能匹配甚至超越专家设计基线。该双轨协同机制无需数据集专属工程即可实现规模化的自动化虚拟细胞建模。gaozhangyangailab.org.cnsiqisunfudan.edu.cn#单细胞扰动建模 #语义异质性 #分布偏移 #虚拟细胞 #大语言模型 #蒙特卡洛树搜索 #自动化机器学习引言图1HarmonyCell的独特性现有专用大语言模型智能体如CellForge等需刚性数据输入格式通用智能体则缺乏生物知识。HarmonyCell可通过生物先验增强能力同时解决数据异质性问题。方法统计异构求解器基于分层动作空间的自适应MCTS图2HarmonyCell架构系统整合3大模块1基于LLM的语义统一器将异构h5ad输入标准化2检索增强智能体利用历史策略完成元初始化3由分层动作空间MCTS引导的执行器智能体底部面板。该分层分解在完整执行前主动剪枝会引发错误「故障节点」的分支显著提升搜索稳定性。运行失败会触发ReAct式调试循环验证成功的流程会存入持久化知识库供后续复用。表1 能力对比通用智能体支持协同编码但缺乏生物先验、模型探索与异构数据处理能力专用细胞科学家智能体使用生物先验与模型探索却仅适配标准化数据。HarmonyCell整合全部4项功能可跨异构数据集完成端到端建模。实验语义异构求解器表2 语义异构处理的优越性通用编码智能体AIDE、RD Agent在20次虚拟细胞建模实验中全部失败即便提供详细人工指导仍无法处理异构数据HarmonyCell实现95%成功率凸显其在解决数据异质性、自动化预处理上的强大能力。从异构到可扩展性自动化数据统一图3HarmonyCell成功处理语义异构并实现协同数据集扩展对比基于单一来源Adamson、Replogle数据集训练的模型与经HarmonyCell语义统一器校准的联合数据集训练模型的泛化性能。所有模型在统一的独立交叉验证协议下于预留测试集完成评估。统计异构下的泛化能力表3统计异构下离散数据集的性能模型在具备不同统计异质性的数据集未见扰动、未见细胞上评估。HarmonyCell持续匹配或超越专家级基线性能尤其在分布偏移下保持相关性DeltaPCC稳定。下划线为基线最优结果加粗为HarmonyCell结果↑代表数值越高性能越好↓代表数值越低性能越好。消融实验图4消融实验语义统一器的必要性执行过程中搭载语义统一器的HarmonyCell相比无该模块的智能体工作流更稳定、错误更少。图5消融实验分层动作空间的必要性相比无分层的消融智能体HarmonyCell收敛速度更快、精度更高有效超越当前最优专用基线模型。案例研究进化式架构设计图6案例研究Norman数据集的MCTS探索每个节点内的数值代表该节点模型的DeltaPCC验证值。详细总结思维导图核心能力对比语义异构处理效果参考HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shiftshttps://doi.org/10.48550/arXiv.2603.01396260302HarmonyCell.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。