摘要同源搜索在计算生物学中具有核心作用,可用于识别生物序列间的进化关系与功能相似性。然而,包括BLAST、Foldseek和MMseqs2在内的现有同源搜索方法,难以高效、精准地处理超大规模生物数据库。本研究提出高效检索增强搜索工具ERAST,可在迄今规模最大的向量数据库中处理约10亿条生物序列。ERAST融合大语言模型与向量数据库技术,实现高效且精准的同源生物序列搜索,通过整合检索前、检索中与检索后优化阶段提升搜索质量,同时支持核苷酸与蛋白质序列。凭借先进索引技术、细粒度分段与元数据整合,ERAST精度更优,速度约为Foldseek的50倍、TM-align的5万倍,可在毫秒级完成数10亿生物序列的精准搜索。hebinghb@gmail.comhuajunsir@zju.edu.cnqiang.zhang.cs@zju.edu.cnjianhua.yao@gmail.com#同源检测#生物序列#向量数据库#蛋白质语言模型#长序列建模#检索增强#高通量搜索结果10亿级生物序列向量数据库构建图1ERAST总体框架a,向量数据库包含4大组件:编码模型、EHSM、存储模块与索引模块。采用2种编码模型将序列转换为嵌入向量;为提升同源蛋白检索质量,研发EHSM打分模型(含编码器与分类头),预测查询蛋白与候选序列的同源关系,输出数值标签作为重排序逻辑值。存储模块将向量数据库分段,以Arrow格式存储元数据;索引模块结合倒排文件乘积量化(IVFPQ)与层次可导航小世界(HNSW)算法