Open Compute for Agentic AI专场亮相GOSIM Paris 2026
5月5日在法国巴黎举办的GOSIM Paris 2026大会上「Open Compute for Agentic AI」技术专场圆满举办。作为本届大会的重要议题之一本次专场以「Open Compute for Agentic AI」为核心主题设置了9大核心环节覆盖FlagOS技术体系、PanEval开源发布、KernelGen 2.0、SGLang技术路线图等全栈硬核内容并同步启动了面向全球开发者的KernelGen 24小时赏金挑战赛为全球AI系统开发者搭建了技术交流、实战竞技与生态共建的开放平台。本次专场由众智FlagOS社区、北京智源人工智能研究院主办联合Eclipse基金会、UNESCO、LF AI Data基金会等全球顶级机构重磅打造聚焦从模型能力走向系统能力的关键跃迁探索AI应用规模化落地背后的计算范式升级路径。01FlagOS亮相GOSIM Paris以开放计算筑牢智能体AI时代的底层底座随着大模型能力的持续提升AI正从“对话工具”逐步演进为具备自主规划与执行能力的Agent系统。多步骤推理、工具调用、复杂任务编排使得AI系统的运行方式发生本质变化。这一趋势下性能瓶颈正从“模型本身”转向“系统与计算基础设施”推理链条变长对调度与执行效率提出了更高要求GPU或多种加速器协同使用导致资源利用率成为核心问题 Kernel级优化、编译与运行时协同成为性能突破关键 ......在这一背景下“Open Compute”正在成为新的基础设施方向——通过开放、可组合的方式重构从框架到算子的计算栈实现性能与灵活性的统一。FlagOS正是在这一趋势下的系统性探索。本次专场的开篇分享中北京智源人工智能研究院副院长兼总工程师林咏华抛出了三个核心问题Agentic AI需要什么样的计算基础设施开源社区如何共同构建它如何在真实世界中评估、治理和部署Agentic系统她指出Agentic AI正在重塑计算形态——长上下文推理、多步工具调用、持久化记忆与状态、代码执行与沙箱、真实环境评估、持续推理负载等新范式使得推理成为智能的运行时。而开放计算的核心价值在于让AI系统能够运行在单一厂商栈之外的更多芯片之上让开发者能够为不同工作负载选择合适硬件让Agentic AI从演示走向真实部署。林咏华以DeepSeek V4为例展示了Agentic AI对计算基础设施提出的严峻挑战。DeepSeek V4具备百万Token上下文、MoE架构、工具调用与交错思考等能力其优化涉及混合注意力、异构KV缓存、FP4/FP8精度等前沿技术。然而当前仅有少数顶级AI芯片支持FP4/FP8精度单卡需超80GB显存且算子与特定硬件后端深度耦合。面对这一困境FlagOS 2.0交出了答卷作为面向多芯片时代的统一开源AI系统软件栈FlagOS通过FlagGems全算子替换、KernelGen快速算子生成、FlagTree/Triton-TLE一次编写跨芯编译、vLLM-plugin-FL多芯片推理集成、FlagCX通信与并行策略、FlagRelease一次发布跨芯运行等核心技术已将DeepSeek V4、MiniMax M2.7、Qwen3.6、MiniCPM-4-o等模型成功适配至多款AI芯片实现了从N×M碎片化适配到NM协作式开放的范式转变。同时林咏华宣布KernelGen 24小时赏金挑战赛正式启动邀请全球开发者共同参与构建开放计算基础设施。“开放模型需要开放计算开放智能体需要开放基础设施开放基础设施需要开放协作。”她以此向全球开发者发出共建邀请02干货议程全回顾从技术架构到生态治理解锁AI开放创新的多元路径本次专场设置了多场重磅分享与开放讨论环节覆盖AI开源工具链、合规治理、性能优化、社区共建等多个关键维度为参会者带来了一场AI开放计算的思想盛宴构建开源工具链与评估体系智源研究院开源工程负责人朱其罡介绍了PanEval开源项目。他首先指出当前AI评估面临的严峻挑战模型能力以每年3.3倍的速度增长但评估基础设施却呈现碎片化、以英语为中心、无法跟上模型演进的节奏。他强调评估之于AI如同临床试验之于医学——未经严格测试的系统不应部署。自2022年12月启动基础模型评估研究以来FlagEval已走过五年历程累计评估超343个模型覆盖40余项评估任务、13种评估器类型和4大模型品类发布了中国首个开源中文大模型排行榜与HuggingFace合作、全球首个多语言辩论评估FlagEval-Debate支持中、英、阿、韩四语并主导了IEEE P3419大模型评估国际标准。FlagEvalMM多模态评估框架也已被ACL 2025录用。智源将作为Eclipse基金会PanEval项目的核心共建单位以社区方式进行建设采用“双轨同步”治理模式BAAI轨道保留中文榜单、中文数据集和IEEE标准工作Eclipse轨道则面向全球提供欧盟AI法案合规、开放治理和Apache 2.0许可的评估框架。该架构实现了三大价值——区域风险隔离、共享核心与本地合规并行、以及通过Eclipse基金会的厂商中立治理确保公信力。PanEval已形成从“定义→服务→评估→评分→报告”的端到端可复现评估流水线并集成了包含13大类48子类风险标签的视频安全评估套件Video-SafetyBench其自动化生成的安全视频与人类判断一致性高达91%。朱其罡表示评估信任是一项社区工作五年的积累只是一个开始他邀请全球开发者共同参与PanEval的基准共建、工作组加入和生产环境采用让开源评估成为连接技术创新与真实信任的桥梁。推动评估走向真实场景部署联合国教科文组织匈牙利国家委员会的Gábor Soós博士以“连接AI评估与真实部署”为题发表演讲。他指出当前AI评估存在关键缺口基准测试能够衡量模型在定义任务上的表现和相对强弱但无法回答“系统是否能在真实场景中被信任”这一核心问题。真正的部署需要可追溯性、鲁棒性、文档完备性和上下文可靠性而这些都是现有评估体系未能充分覆盖的维度。他提出面向公众的AI系统应当在包含制度背景、用户多样性、语义歧义和问责机制的环境中接受评估——我们需要的不仅是评估指标更是评估环境。为此Soós博士引入“基于位置的评估测试方法”Place-Based Evaluation Testbeds的概念并以匈牙利蒂豪尼Tihany作为高信任参考环境进行演示。蒂豪尼汇聚了文化景观、多元机构与社区、多语言公众场景将文化、教育与自然环境融为一体是理想的真实场景测试床。该测试床采用可治理的部署模式包含受控检索、策展知识层、AI助手与监督反馈回路可系统测试系统在面对真实公众约束时的行为表现——不仅检验响应质量更评估部署就绪度。Soós博士强调开源评估体系的下一步不是更好的基准测试而是真实的场景化测试床让技术能力与社会信任能够在同一环境中被共同评估。他指出PanEval与Eclipse基金会等开源评估基础设施将受益于这类高信任真实用例并邀请社区共同参与这一方向的探索。“如果说数据是21世纪的石油那么信任就是基础设施能够运转的基础。”升级算子优化实战工具BAAI AI系统研究组算法工程师陶健介绍了KernelGen 2.0的最新进展。他介绍KernelGen是一个面向高性能Triton算子的自动化工具平台支持多芯片后端。相较于1.0版本的“LLM定制化工作流”模式KernelGen 2.0提出了基于code智能体的算子生成优化方案同时解决了智能体执行长任务时容易目标漂移的问题。在核心能力上KernelGen 2.0将芯片支持扩展至六家厂商覆盖华为昇腾、海光、摩尔线程、沐曦、天数智芯等主流国产AI芯片额外支持了Triton-TLE扩展可无缝集成至VS Code、Claude Code、OpenClaw等开发场景。KernelGen 2.0在 KernelGenBench 测试上相比 1.0 版本整体性能提升达到3.59倍。陶健还介绍了团队构建的KernelGenBench基准测试集涵盖110个ATen算子、50个cuBLAS算子和50个vLLM算子测试用例均来自真实LLM推理场景并支持多款非Nvidia芯片的评估。依托 KernelGen 的自动生成能力团队已向 FlagOS 社区最大的 Triton 算子库FlagGems贡献了近200个高质量PyTorch算子。在DeepSeek v4模型的FlagOS适配过程中KernelGen被用于生产级算子生成与自动优化。展望未来陶健表示团队将持续扩展KernelGenBench对多芯片的支持并为KernelGen增加多芯片内核级性能分析工具并通过不断扩充的知识库构建具备自我进化能力的智能体。随后陶健现场宣布KernelGen 24小时赏金挑战赛正式启动。LF开源生态与社区共建经验分享LF AI Data基金会董事会主席黄之鹏介绍了基金会的开源生态布局及Omni-AI社区的最新进展。他表示Omni-AI社区聚焦面向昇腾NPU的推理加速技术其核心项目Omni-infer通过KV存算分离、连续KV缓冲区、稀疏预取等创新技术可在长上下文推理场景中降低超80%的HBM内存需求。社区已吸引17名Committer累计贡献29万行代码并在国内多座城市成功举办线下Meetup。在AI Agent领域Omni-AI社区推出了基于Zig语言开发的轻量级Agent运行时Omni-Claw以及高性能递归AI Agent框架Omni-RLM。后者通过递归推理引擎和长上下文分割技术能够将复杂问题分解为多个步骤逐步求解并支持本地Python执行与沙盒环境双运行模式实现端到端的可观测与可复现。此外黄之鹏还介绍了LF AI Data基金会旗下的Open Model Initiative多模态SpeedRun系列包括图像生成赛道ImageGen SpeedRun和轻量级VLM赛道NanoVLM SpeedRun。他同时邀请全球开发者共同参与基准共建通过定义问题、制定规则、构建基线的方式协同推动AI开源生态的标准化进程。SGLang项目路线图与开放讨论SGLang开发者童心源分享了SGLang项目的最新技术进展与未来规划。他介绍SGLang是首个在PD分离与专家并行配置下几乎匹配DeepSeek官方性能的开源推理系统。截至2025年5月的数据显示SGLang实现了每节点5.23万输入tokens/秒的行业领先输入处理速度、每节点2.23万输出tokens/秒的生成吞吐量相比DeepSeek官方API定价可降低5倍成本已有超过10个团队成功复现了这些性能突破。目前SGLang已吸引1000多名贡献者被60多家机构广泛采用并在发布首月即有20多家企业将其作为DeepSeek推理引擎的默认选择。在技术创新方面童心源重点介绍了SGLang的多项核心能力。SGL Diffusion模块可加速扩散模型的图像与视频生成在Wan、Hunyuan、Qwen-Image、Flux等模型上实现了1.2至5.9倍的加速效果。SpecForge v0.2是原生集成SGLang的推测解码优化框架支持Llama 4、DeepSeek、Qwen3 MoE等主流模型已获得蚂蚁集团、美团等企业的生产部署。此外Mini-SGLang作为轻量级高性能推理框架继承了SGLang的核心系统架构。团队还在零开销CPU运行时、EPD分离等方面持续创新实现了推测解码场景下10%至20%的全方位加速。此外童心源公布了SGLang的三大技术方向一是持续推进各高级功能模块之间的兼容性与可靠性确保性能最优组合二是提升易用性实现跨NVIDIA、AMD、TPU、CPU的便捷安装与大规模部署三是面向下一代硬件GB300/GB200、B300/B200、MI350/MI355X、TPU进行内核级优化并扩展对扩散模型、全模态模型以及强化学习Rollout API的支持。他邀请全球开发者共同参与SGLang社区建设推动大模型推理基础设施迈向更高性能与更广硬件覆盖。在生态圆桌环节来自全球的AI与基础设施工程师围绕开放计算生态的建设、开发者参与路径、技术落地挑战等话题展开了热烈讨论为FlagOS及相关开源项目的发展提供了多元视角。03KernelGen 24小时全球赏金挑战赛启动3000美元奖金池即将开奖本次专场的重磅亮点之一是由众智 FlagOS 社区重磅开启的KernelGen 24 Hour Bounty ChallengeKernelGen 24 小时全球赏金挑战赛。这场面向全球 AI 系统开发者的实战竞技聚焦AI算子优化的核心难题邀请开发者以开源协作的方式突破智能体AI计算性能的瓶颈。活动现场主办方进行了赛事任务说明与规则解读为参会开发者讲解了优化方向与获胜策略并同步开放了答疑交流环节让参与者提前熟悉赛事机制赛事获奖结果将在GOSIM Paris 2026闭幕式进行官方颁奖。本次赛事奖金池高达3000美元实时展示排行榜动态线上线下双赛道为全球开发者提供了同台竞技、交流学习的平台。通过 KernelGen 挑战赛智源研究院希望汇聚全球开发者的智慧解决AI内核优化中的共性问题同时推动FlagOS生态的共建让更多开发者参与到开放计算技术的创新中来04共建开放计算新生态FlagOS 持续赋能智能体 AI 普惠创新本次FlagOS技术专场不仅是智源研究院面向全球开发者的一次技术分享更是推动智能体AI开放计算生态建设的重要一步。未来FlagOS将持续迭代技术架构完善开源工具链依托KernelGen挑战赛等活动吸引更多开发者参与共建打造开放、协同、普惠的AI计算生态。我们诚邀全球AI系统开发者、智能体AI从业者加入FlagOS开源社区共同探索开放计算的更多可能一起筑牢智能体AI时代的底层技术底座。