美国西部时间3月14日,在美国圣何塞举办的2019 OCP全球峰会上,百度宣布与Facebook、微软展开合作,联合制定OAM (OCP Accelerator Module) 标准。该标准用于指导AI硬件加速模块和系统设计。 不同于普通的CPU服...
巴南区美国西部时间3月14日,在美国圣何塞举办的2019 OCP全球峰会上,百度宣布与Facebook、微软展开合作,联合制定OAM (OCP Accelerator Module) 标准。该标准用于指导AI硬件加速模块和系统设计。
不同于普通的CPU服务器,AI硬件系统是一个深度定制化的系统,需要通过AI硬件加速模块之间的高速互联通信来实现纵向扩展,通过多节点之间的高速互联通信来实现横向扩展,通过新的高速信号、供电和散热技术来解决AI硬件加速模块和系统设计中的硬件挑战。
OAM标准,就是针对上述问题设计的一套指导AI硬件加速模块和系统设计的标准,它集合定义了AI硬件加速模块本身、主板、互联拓扑、机箱、供电、散热以及系统管理等系列设计规范,主要目标是通过模块化、标准化来增强不同AI硬件加速模块和系统的互操作性,加速新的AI硬件加速模块的落地和应用。本次发布的标准,主要是AI硬件加速模块本身、主板、互联拓扑等相关的基础规范。
随着AI技术的快速发展,众多AI芯片公司应运而生,AI芯片产业的格局正呈现多元化发展趋势。由于AI硬件系统设计的技术难度和复杂性,其研发周期通常长达一年,并且需要投入大量的研发资源,这严重阻碍了新AI加速芯片的落地和应用。通过OAM标准,可以统一AI硬件加速模块和系统,有效兼容多元化AI加速芯片,促进AI芯片多元化生态格局的健康持续发展。
当前公布的OAM标准,是由参与OCP开放计算项目的百度、微软、Facebook三家国际AI领先企业联合定义,已经得到包括Google、阿里、腾讯等互联网企业,英伟达、英特尔、AMD、高通、赛灵思等AI芯片企业,Graphcore、Habana Labs等AI芯片及处理器初创企业,以及IBM、联想、浪潮等ODM/OEM系统厂商的参与和支持。对此,百度副总裁侯震宇表示:“百度非常高兴能够与Facebook和微软围绕OAM标准的制定展开合作,该标准将极大提高不同AI硬件加速模块的互操作性,加速新AI硬件加速模块的大规模落地应用。我们相信,全球AI硬件生态系统都会从此中受益。”
OCP开放计算项目,是由Facebook携手英特尔、Rackspace等公司于2011年成立的一个非营利组织,也是全球云计算基础硬件技术领域覆盖面最广、最有影响力的开源组织。在人工智能行业蓬勃发展、全球AI科技巨头对于AI技术的探索日趋多元的背景下,百度加入OCP项目,并携手Facebook和微软制定OAM标准,将能够发挥自身在AI技术领域的优势,与全球AI领袖一起,推动构建开放的AI硬件生态系统。
对于迅猛发展中的百度AI而言,作为世界上最大的超大规模数据中心运营商之一,百度拥有先进的数据中心、网络和服务器技术,并通过百度智能云持续地将自身领先的AI技术能力提供给客户。作为百度AI基础架构的底层支撑,百度超级AI计算平台X-MAN在统一的基础架构之上,融合了硬件解耦、资源池化、液冷散热、模块标准化及灵活的互联拓扑等前沿设计理念,OAM标准是助力这一理念落地的关键一环。自2016年诞生以来,X-MAN历经三代发展、三次架构升级,创造了六项业界第一,同时期关键技术和性能保持领先,引领行业发展趋势,并已在百度大规模应用,助力百度AI战略快速落地。
此外,这不是百度第一次参与国际AI领域技术标准的制定了。2018年5月,在纽约人工智能大会上,百度、谷歌、斯坦福大学、哈佛大学等多家企业和高校联合发布了一套用于测量和提高机器学习软硬件性能的国际基准 MLPerf,旨在推动机器学习硬件+软件相关技术创新。而此次百度加入OCP并参与制定OAM标准,不仅将又一次推动AI新硬件技术全球范围内的创新与进步,还会进一步将自己在AI领域的最佳实践、专业能力和创新能力,贡献给国际AI社区,促进世界AI水平的进步。