10亿+蛋白质、3000万核苷酸，全球最大生物向量库

张

张建站

2026/5/14 19:59:04

10分钟阅读

摘要同源搜索在计算生物学中具有核心作用，可用于识别生物序列间的进化关系与功能相似性。然而，包括BLAST、Foldseek和MMseqs2在内的现有同源搜索方法，难以高效、精准地处理超大规模生物数据库。本研究提出高效检索增强搜索工具ERAST，可在迄今规模最大的向量数据库中处理约10亿条生物序列。ERAST融合大语言模型与向量数据库技术，实现高效且精准的同源生物序列搜索，通过整合检索前、检索中与检索后优化阶段提升搜索质量，同时支持核苷酸与蛋白质序列。凭借先进索引技术、细粒度分段与元数据整合，ERAST精度更优，速度约为Foldseek的50倍、TM-align的5万倍，可在毫秒级完成数10亿生物序列的精准搜索。hebinghb@gmail.comhuajunsir@zju.edu.cnqiang.zhang.cs@zju.edu.cnjianhua.yao@gmail.com#同源检测#生物序列#向量数据库#蛋白质语言模型#长序列建模#检索增强#高通量搜索结果10亿级生物序列向量数据库构建图1ERAST总体框架a，向量数据库包含4大组件：编码模型、EHSM、存储模块与索引模块。采用2种编码模型将序列转换为嵌入向量；为提升同源蛋白检索质量，研发EHSM打分模型（含编码器与分类头），预测查询蛋白与候选序列的同源关系，输出数值标签作为重排序逻辑值。存储模块将向量数据库分段，以Arrow格式存储元数据；索引模块结合倒排文件乘积量化（IVFPQ）与层次可导航小世界（HNSW）算法

创业团队如何用Taotoken以最小成本验证AI产品想法

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度创业团队如何用Taotoken以最小成本验证AI产品想法对于创业团队而言，验证一个AI产品想法的核心在于快速、低成本地测试…...

2026/5/14 19:54:57 阅读更多 →

ArduRemoteID深度解析：基于ESP32的开源无人机远程识别方案实战指南

ArduRemoteID深度解析：基于ESP32的开源无人机远程识别方案实战指南【免费下载链接】ArduRemoteID RemoteID support using OpenDroneID 项目地址: https://gitcode.com/gh_mirrors/ar/ArduRemoteID 在全球无人机监管政策日益严格的背景下，Remote…...

2026/5/14 19:53:31 阅读更多 →

从L-J势到粘度计算：拆解Fluent分子动理论背后的物理公式（以氢气为例）

从L-J势到粘度计算：拆解Fluent分子动理论背后的物理公式（以氢气为例） 在计算流体动力学（CFD）领域，准确预测气体物性是模拟真实流动现象的关键。传统方法依赖实验数据表格或经验公式，但当温度范围…...

2026/5/14 19:50:22 阅读更多 →

OpenClaw智能模型路由：基于任务复杂度与成本约束的动态调度实践

1. 项目概述：一个聪明的AI模型调度器如果你正在使用OpenClaw，并且手头同时接入了多个不同能力、不同成本的AI模型（比如Kimi、GPT、Claude等），那么你很可能遇到过这样的困扰：一个简单的文本总结任务&#xf…...

2026/5/14 5:05:50 阅读更多 →

机器学习的数据合成（二）

原文：annas-archive.org/md5/9d5ab593b867c3a47f27572d629020aa 译者：飞龙协议：CC BY-NC-SA 4.0 第十四章：合成到真实领域自适应本章向您介绍了一个常见的问题，通常限制了合成数据的使用性，称为领域差距…...

2026/5/14 23:26:14 阅读更多 →

cann/catlass MX FP8批量矩阵乘

MXFP8BatchMatmulTla Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 功能介绍演示 Ascend 950 上的 MX FP8 矩阵乘：A、B …...

2026/5/12 17:56:15 阅读更多 →