雅虎日本母公司将164个OpenStack集群整合为一个
LY Corporation是一家日本互联网巨头旗下业务涵盖即时通讯、电子商务和支付等领域在亚洲多个国家占据重要地位。该公司近日披露正计划将高度定制化的OpenStack云平台替换为更标准化的开源云架构并在此过程中推进大规模的资源整合。LY Corporation于2023年由雅虎日本与韩国即时通讯巨头LINE合并成立目前正致力于将双方的基础设施整合至一个名为Flava的全新统一云平台以支撑旗下各项服务的稳定运行。由于LINE即时通讯应用和雅虎门户网站的月活用户总量约达3亿该云平台需具备相当规模的承载能力。上周末该公司透露LINE的内部云平台Verda由运行在11,000台主机上、分布于4个OpenStack集群的130,000台虚拟机组成雅虎日本的YNW云平台则运行于27,000台服务器之上超过160,000台虚拟机分散在160多个OpenStack集群中。根据新Flava云平台的建设规划目标是实现500台以上主机、9,000余台虚拟机并统一整合至单一OpenStack集群。此外公司还采用了开源的Envoy代理、Linux操作系统、扩展型伯克利包过滤器eBPF、快速数据通道XDP、FRRoutingFRR以及Ceph存储系统。LY云基础设施部门负责人Ryuutarou Inoue表示旧有云平台对OpenStack进行了过多自定义修改导致升级工作举步维艰。Flava采用的架构紧跟OpenStack上游版本将定制补丁控制在最低限度若确实需要功能性变更我们会主动向上游社区贡献争取将其合并至主项目。他补充道通过消除升级障碍我们实现了常态化的更新节奏使安全防护和最新特性始终保持在线。Inoue还表示LY力求避免将可用性保障的过度投入集中在基础设施层转而以故障随时可能发生为前提进行设计。他介绍Flava的设计理念围绕以下三大支柱展开在可观测性方面LY同样高度重视。Inoue表示其团队借助Prometheus、Grafana及内部仪表盘持续监控云平台整体健康状况与趋势以便及早发现异常迹象。一旦上述工具发出预警我们会深入分析内核级追踪记录和数据包捕获等底层信号精准定位根本原因。Inoue坦言LY每天都会在某处发生硬件故障全靠人工处理根本无法实现。他写道目前我们已将大部分流程自动化从故障检测、发起现场数据中心操作请求到将替换后的硬件重新接入集群均已实现自动化处理。不过仍有部分任务和非常规故障模式需要工程师亲自介入。未来我们计划将大语言模型引入这些需要大量人工决策的工作流程进一步提升自动化水平。值得关注的背景是LY此前曾出现严重的信息安全事故导致用户数据泄露日本政府已就此要求该公司对技术架构进行整改以提升安全性与隐私保护水平。QAQ1LY Corporation的Flava云平台和原有云平台相比有哪些主要变化AFlava相比原有的Verda和YNW云平台有大幅简化。原有体系共涉及超过160个OpenStack集群、约27万台虚拟机和数万台服务器而Flava的目标是整合为单一OpenStack集群搭载500台以上主机和9,000余台虚拟机。此外Flava减少了对OpenStack的自定义修改采用更贴近上游版本的标准化架构以降低升级难度保持安全更新的持续供给。Q2LY Corporation为什么要推进云平台整合A主要有两方面原因。一是原有云平台对OpenStack进行了大量自定义修改导致版本升级极为困难安全和功能更新无法及时跟进。二是LY此前发生过严重的信息安全事故用户数据遭到泄露日本政府因此要求该公司对技术架构进行整改提升安全与隐私保护能力这也加速了Flava整合项目的推进。Q3LY Corporation如何处理每天发生的硬件故障ALY Corporation已将硬件故障处理流程高度自动化覆盖从故障检测、发起现场数据中心操作请求到将替换硬件重新接入集群的全流程。同时团队使用Prometheus、Grafana及内部仪表盘持续监控云平台健康状态发现异常时会深入分析内核级追踪和数据包捕获信息。对于仍需人工介入的复杂故障公司未来计划引入大语言模型辅助决策进一步推进自动化。