为AI智能体构建长期记忆系统：OpenClaw集成EverMemOS实战指南

张

张建站

2026/5/11 10:58:31

10分钟阅读

1. 项目概述为AI智能体注入持久记忆的“大脑”如果你正在使用OpenClaw这类AI助手框架可能会发现一个痛点对话总是“从零开始”。每次交互AI都像一张白纸无法记住你昨天提到的项目细节、上周讨论的旅行计划或者你反复强调的个人偏好。这种“健忘症”严重限制了AI作为长期伙伴的潜力。这正是openclaw-EverMemOS插件要解决的核心问题——为你的AI助手安装一个结构化的、可进化的长期记忆系统。简单来说这个插件将EverMemOS这个先进的“记忆操作系统”无缝集成到OpenClaw中。它远不止一个简单的聊天记录存储器。想象一下你的AI助手不仅能记住对话的“情节”比如“我们周二讨论了项目A的架构”还能从中提炼出“事实”“项目A使用TypeScript和Next.js”甚至能预测“未来”“根据历史用户通常在周五下午安排代码评审”并逐步构建你的“个人画像”“该用户是资深全栈开发者偏好简洁的代码风格”。这就是EverMemOS带来的多维记忆能力。我花了些时间深度测试和集成这个插件发现它确实将AI交互从“一次性问答”提升到了“连续性协作”的层面。它通过自动化的记忆捕获与召回机制让AI在每次对话前都能“复习”相关背景在对话后又能“消化”新的信息从而实现记忆的持续积累和智能应用。对于开发者、项目经理或任何希望AI成为真正“第二大脑”的用户来说这无疑是一个游戏规则的改变者。2. 核心架构与工作原理拆解要理解这个插件如何工作我们需要先拆解它的两个核心组件OpenClaw插件本身以及它背后的记忆引擎EverMemOS。插件扮演着“桥梁”和“自动化管家”的角色而EverMemOS则是底层的“记忆仓库”与“智能检索中枢”。2.1 插件核心工作流自动化记忆循环插件的设计非常巧妙它并非被动等待调用而是主动介入OpenClaw的对话生命周期形成了一个“回忆-响应-记录”的自动化闭环。其工作流程可以清晰地分为三个层次自动回忆Auto-Recall这是对话开始前的“预热”阶段。当用户发送一条消息后在OpenClaw主智能体开始思考如何回复之前插件会立即启动。它会将用户的当前消息作为一个查询发送给EverMemOS服务器请求检索所有相关的历史记忆。这些被检索出来的记忆片段例如过去关于同一话题的讨论、用户的特定偏好、相关的待办事项等会被精心组织成一段文本然后“注入”到即将发送给大语言模型LLM的上下文Context中。这样LLM在生成回复时就已经“知道”了所有相关的历史背景从而能做出更连贯、更个性化的回应。自动捕获Auto-Capture这是对话结束后的“归档”阶段。当OpenClaw智能体生成回复并结束本次交互后插件会将被捕获。它会将刚刚完成的一轮完整的“用户消息-助手回复”对话对作为一个完整的交互单元发送给EverMemOS。EverMemOS的强大之处在此显现它不会简单地存储原始文本而是会运行一个结构化的提取流程。这个过程就像一个有经验的秘书在整理会议纪要它会自动识别对话的边界和主题从中提取出“情景记忆”整个对话的叙事、“事件日志”关键事实点、“前瞻性记忆”提到的未来计划或预测并利用这些信息更新“用户画像”总结用户的习惯、兴趣和模式。工具与命令Tools Slash Commands除了自动化流程插件还为智能体提供了五个可以直接调用的“记忆工具”memory_search,memory_store等以及在聊天界面中可用的快捷斜杠命令/remember,/recall。这赋予了用户和智能体在对话过程中进行显式记忆操作的主动权比如临时强调记住某件事或主动查询某个模糊的记忆。这个“自动化为主手动为辅”的设计确保了记忆系统在后台静默、高效地工作最大程度地减少了对主对话流程的干扰同时在需要时又能提供强大的手动控制能力。2.2 EverMemOS记忆操作系统的四大支柱插件的能力根基在于EverMemOS。你可以把它理解为一个专为AI智能体设计的“记忆数据库”但它比传统数据库聪明得多。它定义了四种核心的记忆类型构成了一个立体的记忆模型情景记忆Episodic Memory这是最接近人类自然记忆的形式以叙事的方式存储完整的对话或事件片段。例如“2023年10月26日用户与助手讨论了为个人博客项目选择静态站点生成器最终决定使用Hugo因为其渲染速度快。”事件日志Event Log这是从情景记忆中提炼出的原子事实。它更结构化类似于数据库中的一条条记录。例如{“action”: “decided”, “tool”: “Hugo”, “project”: “personal-blog”, “reason”: “fast rendering”}。这种格式便于精确检索和推理。前瞻性记忆Foresight这是一种面向未来的记忆用于存储从对话中提取出的计划、承诺或预测。例如“用户计划在下周五之前完成博客的首页设计。” 这能让AI在后续对话中主动提醒或跟进。用户画像Profile这是一个动态演进的用户模型。它通过分析长时间、多轮对话自动总结用户的技能、兴趣、行为模式和偏好。例如{“technical_level”: “advanced”, “preferred_languages”: [“Python”, “TypeScript”], “communication_style”: “concise”}。这使得AI的回复风格和内容推荐能越来越个性化。2.3 智能检索策略从关键词到AI代理有了结构化的记忆如何快速准确地找到它们EverMemOS提供了多达五种检索策略插件可以灵活配置关键词检索Keyword/BM25基于传统搜索引擎技术擅长精确匹配术语。当你查询“Hugo博客部署”它能快速找到包含“Hugo”、“博客”、“部署”这些词的记忆。向量检索Vector基于语义相似度。即使你的查询是“那个快速的静态网站工具”它也能找到关于“Hugo”的记忆因为它们在语义空间中是接近的。混合检索Hybrid结合关键词和向量的优点通常能提供最均衡、可靠的结果。这也是插件的默认设置。RRF融合Reciprocal Rank Fusion一种更先进的融合技术能更好地合并不同检索方法的结果列表提升召回率。智能体检索Agentic这是最强大的模式。它会让一个LLM小型模型作为“检索代理”先理解复杂的查询意图可能进行多轮拆解和搜索最终综合出一个最相关的记忆集合。适合处理复杂、多义的查询。实操心得在项目初期我建议从hybrid模式开始它在大多数场景下表现稳健。当处理非常复杂、需要深度推理的查询时例如“帮我回想一下我之前对项目架构有哪些不满以及我们讨论过的改进方案”再切换到agentic模式虽然速度稍慢但结果的相关性会有显著提升。3. 环境准备与EverMemOS部署详解要让插件跑起来首先需要搭建它的“大脑”——EverMemOS服务器。官方提供了两种方式本地自托管和云端服务。对于注重数据隐私和定制化的开发者自托管是首选。下面是我在Ubuntu 22.04系统上部署的完整过程记录。3.1 基础设施与服务依赖检查EverMemOS依赖Docker Compose来启动后端基础设施主要包括向量数据库用于向量检索和关系型数据库用于存储结构化记忆。确保你的系统已经安装了较新版本的Docker和Docker Compose。# 检查Docker和Docker Compose版本 docker --version docker-compose --version如果未安装请先安装。接着克隆仓库并启动基础设施# 克隆EverMemOS主仓库 git clone https://github.com/EverMind-AI/EverMemOS.git cd EverMemOS # 使用Docker Compose启动依赖服务如PostgreSQL, Qdrant等 # 这个命令会在后台启动必要的容器 docker compose up -d # 查看容器状态确认所有服务都正常运行状态应为Up docker compose ps3.2 项目依赖安装与环境配置EverMemOS使用uv作为快速的Python包管理器和安装器。如果你没有安装uv可以按照其官方文档安装。之后安装Python依赖并配置环境变量。# 使用uv同步并安装所有Python依赖uv会利用全局缓存速度极快 uv sync # 复制环境变量模板文件 cp env.template .env # 编辑.env文件填入必要的配置 # 你需要一个文本编辑器例如nano或vim nano .env关键的.env配置项通常包括LLM_API_KEY用于记忆提取和智能体检索的LLM API密钥如OpenAI, Anthropic等。VECTORIZE_API_KEY如果你使用特定的向量化服务如OpenAI的embeddings则需要此项。EverMemOS也可能内置本地向量化模型。数据库连接字符串通常由Docker Compose自动设置无需修改。注意事项.env文件包含敏感信息务必将其添加到你的.gitignore文件中避免泄露密钥。在团队协作中应通过安全的秘密管理工具如Vault, Doppler或CI/CD环境变量来传递这些配置。3.3 启动服务器与健康检查配置完成后就可以启动EverMemOS的主服务器了。# 使用uv运行主服务器脚本默认端口通常是1995 uv run python src/run.py如果一切顺利你将在终端看到服务器启动的日志。为了验证服务器是否正常运行打开另一个终端标签页执行健康检查curl http://localhost:1995/health一个成功的响应应该返回类似{status:ok}的JSON消息。至此你的私有记忆服务器就已经在localhost:1995上待命了。常见问题排查端口冲突如果1995端口被占用你可以在.env或启动命令中修改SERVER_PORT。容器启动失败运行docker compose logs查看具体容器的错误日志常见原因是端口占用或磁盘空间不足。依赖安装失败确保你的Python版本符合要求如3.10并尝试清理uv的缓存uv cache clean后重试。4. 插件安装与OpenClaw集成实战EverMemOS服务器就绪后下一步就是将其连接到你的OpenClaw助手。这个过程非常 straightforward。4.1 插件安装在OpenClaw项目的根目录下使用其内置的插件管理器进行安装# 使用openclaw的CLI工具安装插件 openclaw plugins install zhenhangtung/openclaw-evermemos这个命令会从npm仓库拉取插件包并自动将其注册到你的OpenClaw实例中。安装完成后你需要在OpenClaw的配置文件中启用并配置它。4.2 配置文件详解与个性化设置OpenClaw的配置通常位于openclaw.json或config.json中。我们需要在plugins.entries部分添加openclaw-evermemos的配置块。下面是一个兼顾功能与安全性的推荐配置// 在 openclaw.json 的 plugins.entries 部分添加 openclaw-evermemos: { enabled: true, config: { // 指向你刚刚启动的EverMemOS服务器API端点 // 注意URL必须包含版本路径如 /api/v1 baseUrl: http://localhost:1995/api/v1, // 如果是自托管apiKey通常可选或留空取决于服务器配置 // 如果使用EverMemOS云服务则必须填写 // 最佳实践通过环境变量引用避免硬编码 apiKey: ${EVERMEMOS_API_KEY}, // 用户标识符这是记忆的命名空间至关重要 // 用于区分不同用户的记忆。可以是用户名、邮箱或用户ID。 userId: developer_alex, // 群组标识符可选用于团队共享记忆的场景 // 例如一个项目组的所有成员可以共享项目相关的记忆 groupId: webapp-redesign-team, // 自动回忆强烈建议保持开启这是核心价值所在 autoRecall: true, // 自动捕获同样建议开启实现记忆的持续积累 autoCapture: true, // 检索方法根据场景调整。hybrid是很好的默认值。 retrieveMethod: hybrid, // 要检索的记忆类型默认情景记忆通常足够。 // 如果需要事实查询可加入event_log需要未来提醒可加入foresight memoryTypes: [episodic_memory, event_log], // 每次检索返回的最大记忆数量平衡上下文长度与相关性 // 太多会挤占LLM的上下文窗口太少可能遗漏关键信息。5-10是合理范围。 topK: 8 } }配置核心解析userId这是最重要的配置之一。它像是一个私人记忆保险箱的钥匙。确保为每个不同的用户或使用场景设置唯一的ID否则记忆会混在一起。例如你可以用github_username作为开发场景的ID。baseUrl确保路径正确。自托管版本通常是/api/v1而云服务可能是/api/v0务必查阅对应版本的EverMemOS文档。环境变量使用${VAR_NAME}语法引用环境变量是生产环境的最佳实践可以方便地在不同环境开发、测试、生产间切换配置也提高了安全性。4.3 验证集成效果配置保存后重启你的OpenClaw应用。现在你可以开始与助手对话来测试记忆功能了。初始对话告诉助手一些关于你的信息比如“我的名字是Alex我最喜欢的编程语言是Python目前正在开发一个个人知识管理系统。”记忆验证在后续对话中尝试询问“我之前提到过我喜欢的编程语言吗” 一个集成了记忆的助手应该能回答“是的你之前提到你最喜欢的编程语言是Python。”使用斜杠命令直接在聊天框输入/recall 知识管理系统插件会直接返回从EverMemOS中检索到的相关记忆片段并显示相关性分数这可以帮助你直观了解记忆检索的效果。如果助手能正确回忆起之前的信息恭喜你集成成功了如果不行请检查OpenClaw的日志查看插件加载是否有错误以及网络请求是否成功到达EverMemOS服务器。5. 高级功能与工具深度应用插件除了后台自动化还提供了丰富的前端工具和命令让你能精细化管理记忆。理解并善用这些工具能极大提升效率。5.1 智能体工具Agent Tools实战指南当插件启用后OpenClaw的智能体会自动获得五个新的函数调用能力。你可以在设计智能体“技能”Skills或“工具”Tools时直接利用它们也可以依靠智能体自主判断何时调用。以下是每个工具的典型使用场景和示例memory_search(记忆搜索)场景当用户问题模糊或需要深度背景时智能体主动搜索相关记忆。示例用户问“我们上次关于API设计的讨论有什么结论” 智能体可以内部调用memory_search(queryAPI design discussion conclusion, methodagentic)将找到的记忆融入回复。memory_store(记忆存储)场景用户明确要求记住某事或智能体判断某信息极具长期价值。示例用户说“请务必记住服务器的SSH密钥放在~/keys/prod_rsa这个路径。” 智能体可以调用memory_store(messageServer SSH key location: ~/keys/prod_rsa)进行显式存储。memory_get(获取记忆)场景按类型批量获取某用户的记忆用于生成摘要或分析。示例智能体准备生成“本周工作回顾”可以调用memory_get(userIdalex, memoryTypes[event_log])获取所有本周记录的事实日志。memory_list(列出记忆)场景调试或管理查看所有存储的记忆条目。示例开发者怀疑记忆未被正确捕获可让智能体调用memory_list(limit20)查看最近的记忆条目。memory_forget(遗忘记忆)场景修正错误信息或出于隐私需求删除特定记忆。示例用户说“我昨天告诉你的手机号是错的请忘记它。” 智能体可以调用memory_forget(queryphone number, userIdalex)来删除包含手机号的记忆。5.2 命令行界面CLI的运维价值插件还扩展了OpenClaw的CLI这对于运维和调试来说非常方便。你可以在终端直接与记忆系统交互无需启动完整的聊天界面。# 场景1调试检索效果 # 当你发现助手回忆不准时直接用CLI搜索看EverMemOS到底返回了什么。 openclaw evermemos search 用户Alex的部署偏好 --method hybrid # 场景2生成记忆报告 # 定期运行查看记忆系统的健康状况和数据统计。 openclaw evermemos stats # 输出可能包括记忆总数、各类型分布、最近活跃时间等。 # 场景3清理测试数据 # 在开发测试后清理用于测试的特定用户的记忆。 # 注意此操作需谨慎最好结合memory_list先确认。 openclaw evermemos search --userId test_bot --memoryTypes episodic_memory # 找到要删除的记忆ID后再通过API或工具进行删除。CLI工具是连接开发者与记忆黑盒的桥梁尤其在集成初期和问题排查阶段不可或缺。5.3 检索方法选型策略五种检索方法各有优劣选择哪一种取决于你的具体场景和对延迟、准确性的权衡检索方法优点缺点适用场景keyword速度快对精确术语匹配效果好资源消耗低。无法处理语义相似、同义词或抽象查询。查询中包含明确、具体的名词术语如“Hugo配置文档”、“错误代码502”。vector语义理解能力强能匹配概念相似的查询。对非常具体的字面匹配可能不如关键词依赖高质量的嵌入模型。查询意图是概念性或描述性的如“之前说的那个快的工具”、“关于用户反馈的总结”。hybrid兼顾精度与召回在多数场景下表现最均衡、可靠。性能开销和延迟略高于单一方法。默认选择适用于绝大多数通用对话场景。rrf比简单混合更智能的结果融合能提升高相关度结果的排名。计算更复杂延迟最高。当hybrid返回的结果排序不尽如人意时可以尝试此方法。agentic能理解复杂、多步的查询意图检索精度最高。速度最慢需要调用LLM有额外成本。复杂、需要推理的查询如“找出所有和我三月出差相关并且提到预算不足的记忆”。实操心得我的经验是建立一个简单的决策流对于常规对话坚持使用hybrid。如果对话涉及复杂规划或深度推理手动或让智能体自动切换到agentic模式。对于已知的确切关键词查找比如在记忆里找某个API密钥可以在工具调用中指定keyword模式以求最快速度。6. 性能调优、问题排查与安全考量将长期记忆集成到AI应用中会引入新的复杂性和需要考虑的因素。以下是一些在实际部署中积累的经验和常见问题的解决方案。6.1 性能优化与成本控制上下文窗口管理autoRecall会向LLM的上下文窗口注入记忆文本。如果topK设置过大或记忆内容冗长可能迅速耗尽上下文限额导致主要任务提示被截断。建议将topK设置为一个合理值如5-10并关注EverMemOS是否支持记忆内容的摘要或压缩功能。定期清理过时或低价值的记忆也很重要。检索延迟agentic检索虽然强大但延迟显著。建议在智能体工作流中将其设置为“异步”或“后台”任务不要让用户同步等待其完成。对于实时性要求高的对话优先使用hybrid或keyword。存储成本长期积累的记忆数据量会增长。建议规划记忆的留存策略。EverMemOS可能支持设置记忆的TTL生存时间或基于重要性的自动归档。对于事件日志类记忆可以考虑定期导出到冷存储如数据仓库进行分析然后从操作库中删除。6.2 常见问题排查速查表问题现象可能原因排查步骤与解决方案助手完全无法回忆之前对话1. 插件未正确启用或配置错误。2. EverMemOS服务器未运行或网络不通。3.autoRecall设置为false。1. 检查openclaw.json中插件enabled是否为true配置项尤其是baseUrl,userId是否正确。2. 运行curl http://localhost:1995/health确认服务器健康。检查OpenClaw日志中的网络错误。3. 确认配置中autoRecall: true。回忆的内容不相关或错误1. 检索方法retrieveMethod不适合当前查询。2. 记忆提取质量不高LLM提取效果差。3.topK值不合适。1. 尝试使用CLI手动用不同method搜索同一查询对比结果。2. 检查EverMemOS的提取LLM配置确保其能力足够。查看原始存储的记忆内容是否准确。3. 调整topK值并检查注入的记忆总长度是否超限。用户隐私数据被意外记忆1. 未对输入内容进行过滤。2. 记忆范围userId设置错误导致串号。1.重要在数据发送到EverMemOS之前在应用层或插件层添加过滤器剔除密码、密钥、身份证号等敏感信息。2. 确保每个对话会话或用户使用唯一的userId。插件导致OpenClaw启动变慢或崩溃1. 插件版本与OpenClaw核心版本不兼容。2. 初始化时连接EverMemOS服务器超时。1. 检查插件和OpenClaw的版本兼容性尝试安装指定版本。2. 为插件初始化增加超时和重试机制确保OpenClaw在EverMemOS暂时不可用时也能降级启动。6.3 安全与隐私最佳实践长期记忆系统存储了大量对话历史安全性和隐私保护是重中之重。数据隔离严格使用userId和可选的groupId进行数据隔离。确保生产环境中不同用户的数据绝不会因为配置错误而混淆。敏感信息过滤强烈建议在调用插件的autoCapture或memory_store之前实现一个预处理层。这个层应该使用正则表达式或更复杂的模型如专门训练的NER模型来检测和剔除电话号码、邮箱、密钥、令牌等敏感信息PII。记忆遗忘权为用户提供便捷的“遗忘”机制。除了插件自带的memory_forget工具应考虑在用户界面中提供“删除此段对话记忆”或“清除所有关于XX话题记忆”的功能。传输加密如果EverMemOS服务器部署在远程非本地localhost确保所有通信都通过HTTPSTLS加密防止中间人攻击窃取记忆数据。访问控制对于自托管的EverMemOS配置好防火墙规则和API密钥认证避免未授权访问。7. 与同类方案的对比及选型思考在OpenClaw生态中mem0是另一个流行的记忆插件。了解它们之间的差异有助于你做出正确的技术选型。特性维度openclaw-mem0 (Mem0)openclaw-evermemos (EverMemOS)选型建议记忆模型相对扁平主要是非结构化的文本记忆块。结构化、多维包含情景、事件、前瞻、画像四种类型。如果你需要复杂的记忆推理、用户画像构建或未来事件预测EverMemOS的结构化优势明显。如果只需要简单的“记住说过的话”Mem0更轻量。检索能力主要基于向量相似度搜索。多策略检索关键词、向量、混合、RRF、智能体可根据场景选择。EverMemOS的检索灵活性更高尤其agentic检索能处理复杂查询。Mem0的检索更简单直接。自动化程度提供自动存储和检索。同样提供自动化且增加了对话边界自动检测和渐进式画像构建。EverMemOS在自动化信息提取和整合上更智能能减少手动干预。部署模式支持使用Mem0云服务或自托管开源版本。主要面向自托管对私有化部署和控制更友好。对数据主权和控制权要求高的项目EverMemOS的自托管特性是首选。追求开箱即用和简单可考虑Mem0云服务。前瞻性记忆不支持。支持能提取和提醒未来的计划与承诺。如果你的应用场景涉及任务管理、日程跟进等未来导向的功能这是EverMemOS的独特卖点。基准性能未特别强调。宣称在LoCoMo长期对话记忆基准上达到93%的推理准确率。需要高精度记忆推理的场景EverMemOS的数据表现可能更优。个人体会选择哪一个最终取决于你的应用复杂度。对于个人助手、简单的聊天机器人Mem0可能绰绰有余部署更简单。但当你构建一个需要深度理解用户、进行复杂项目协作、或具备一定“预见性”的AI智能体时EverMemOS提供的结构化记忆和强大检索能力就像为智能体装备了一个更高级别的大脑皮层其长期价值会随着使用时间增长而愈发凸显。我的建议是如果你的项目有中长期规划且对AI的“记忆力”有较高要求直接从EverMemOS开始投入是值得的因为它提供了更坚实的架构来应对未来更复杂的需求。

茉莉花插件：重塑你的中文文献研究新范式

茉莉花插件：重塑你的中文文献研究新范式【免费下载链接】jasminum A Zotero add-on to retrive CNKI meta data. 一个简单的Zotero 插件，用于识别中文元数据项目地址: https://gitcode.com/gh_mirrors/ja/jasminum 作为一名学术研究者&#xff…...

2026/5/11 10:55:38 阅读更多 →

D3D8to9完整指南：让老游戏在现代Windows系统上完美运行的终极方案

D3D8to9完整指南：让老游戏在现代Windows系统上完美运行的终极方案【免费下载链接】d3d8to9 A D3D8 pseudo-driver which converts API calls and bytecode shaders to equivalent D3D9 ones. 项目地址: https://gitcode.com/gh_mirrors/d3/d3d8to9 你是否还…...

2026/5/11 10:55:34 阅读更多 →

Windows Cleaner：3步彻底解决C盘爆红问题的终极免费清理工具

Windows Cleaner：3步彻底解决C盘爆红问题的终极免费清理工具【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服！ 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 你是否曾经打开电脑时被C盘爆红的警告吓到…...

2026/5/11 10:52:03 阅读更多 →

OpenClaw智能模型路由：基于任务复杂度与成本约束的动态调度实践

1. 项目概述：一个聪明的AI模型调度器如果你正在使用OpenClaw，并且手头同时接入了多个不同能力、不同成本的AI模型（比如Kimi、GPT、Claude等），那么你很可能遇到过这样的困扰：一个简单的文本总结任务&#xf…...

2026/5/10 0:01:34 阅读更多 →

机器学习的数据合成（二）

原文：annas-archive.org/md5/9d5ab593b867c3a47f27572d629020aa 译者：飞龙协议：CC BY-NC-SA 4.0 第十四章：合成到真实领域自适应本章向您介绍了一个常见的问题，通常限制了合成数据的使用性，称为领域差距…...

2026/5/10 0:10:18 阅读更多 →

cann/catlass MX FP8批量矩阵乘

MXFP8BatchMatmulTla Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 功能介绍演示 Ascend 950 上的 MX FP8 矩阵乘：A、B …...

2026/5/11 13:10:58 阅读更多 →