中科院人工智能战队发布新一代智算平台
从去年 5 月份到今年 6 月份,大规模预训练 AI 模型的参数规模已经从千亿直接突破万亿。只有非常大型的超算或者人工智能计算中心才能支撑如此规模的 AI 模型,放眼中国,能支撑这样大模型预算的算力中心,还非常非常的少。专家预计,从千亿模型到万亿模型,模型训练费用可从千万美元级别跃升到数十亿美元级别。
另外,国内人工智能在部分行业应用已非常成熟,而在其它许多行业还处于碎片化状态,但发展迅猛。
无论从模型层面,还是从应用层面,国内对智能算力的需求都是非常庞大的。而开发“新一代人工智能计算平台”的动机,正是源于对中国人工智能应用现状的深刻认识。
新一代人工智能计算平台
7 月 8 日-10 日,2021 世界人工智能大会在上海召开,大会期间,中国科学院人工智能产学研创新联盟发布新一代人工智能计算平台。
中国科学院人工智能产学研创新联盟由中国科学院自动化所、计算所等 AI 相关研究机构,以及 26 家企业在 2018 年发起成立,目前已有 34 家成员单位。
“中科院在人工智能领域产出了一大批具备国际领先水平的重大科研成果,具备全链条的人工智能技术创新能力,应承担起建设人工智能技术服务体系,深化 AI 技术推广应用的责任。”国科控股党委副书记、副董事长、总经理杨建华认为,平台集诸多中科院人工智能技术成果于一体,拥有清晰的实施路径,可为区域智算中心建设提供标准的可复制范本。
中科院科技战略咨询研究院院长潘教峰表示,“智能化数字基础设施建设已成为新基建的主导方向,事关国家发展全局和长远利益,需以开放、安全、绿色、普惠为前瞻战略谋划,才能重塑数字产业化及产业数字化发展格局”。平台依托中科院顶层战略规划,汇聚算力、算法、数据、软件、人才、应用等资源要素,将为 AI 产业化发展、行业数智化转型和政府智慧化治理提供有力支撑。
据现场介绍,平台拥有四大优势,即:开放包容、通用融合、绿色高效、普惠可及。
其一:采用开放架构,可以兼容主流软件应用生态,具备使用面广、迁移灵活、编译开发难度低等特点;
其二:支持多元芯片组合,提供多样丰富算力,可胜任模拟、训练、推理等 AI 全链条应用需求;
其三:底层算力基础设施采用相变浸没式液冷技术,单位算力效率大幅提升且能耗成本降低 30%;
其四:通过透明化价格模型,为市场提供参考依据和建设标准,有效避免公共财政资源浪费。
其中,通用融合、开放包容、绿色高效是当前行业对智能计算中心的普遍要求,当然这也是平台在行业的基本优势,使其能成为顺应时代的新基建。而普惠可及则更加体现了平台的独特之处,为行业设立了新标准。
新平台:三大优势稳固基础
与会专家表示,新一代人工智能的平台,应该是以 AI 算力为主的、多种算力融合的综合型计算中心,而不是一个偏科的专用平台。“新一代人工智能平台不该只限于低精度计算,这偏离了目前人工智能行业真正的需求。”
平台的算力融合由多种芯片提供,“从高精度到低精度,覆盖人工智能训练和推理的全部流程。”
开放包容更多地体现在整个平台的软件和应用生态方面。平台支持国际和国内最主流的人工智能框架以及衍生算法库、工具软件等等。
专家还着重强调了多模态预训练大模型和科学人工智能等热门方向,“基于不同精度的覆盖和通用融合的设计,使得这个平台未来会成为这些研究方向的主要支撑平台。”
平台支持浸没式液体相变冷却,这使得它在效率上得到极大提升,单位计算密度相比传统可以提高到 10 倍,并能节省 90% 的冷却相关能耗。释放芯片更高的性能、提高整个系统的可靠性也是液冷技术的一大好处。结合液体冷却,还能实现算力设施的立体组装,把单位机房的密度达到传统的 30 倍,从而极大缩减基建投入成本。
新标准:树立智算中心价格标杆
据现场介绍,新一代的智算平台在设计的时候,就致力于提供普惠可及的 AI 算力。这个普惠可及怎么解读呢?据网络公开信息显示,以国内四个人工智能计算中心的折合单位算力建设成本投入为例,可以看到从最高的每 100P16 位算力投入 4.6 亿,到最低的 7500 万,差价达到了 6.2 倍。
“如果没有明确标准加以区别,区域建设方很容易误判算力供给造成资金和资源的浪费”,中科院计算所研究员、CCF 高性能计算专业委员会秘书长张云泉表示。
针对价格乱象,平台给出了算力价格标准方案:在综合存储、能耗、开发、定制、数据调度等一系列因子,并代入明确的算法标准后,得出在同时具备 5P 双精度算力(64 位)、25P 单精度算力(32 位)和 100P 半精度算力(16 位)的情况下,智能计算中心的基础设施价格约为 1 亿-1.5 亿。
重视价格标准,一方面是源于联盟做这个平台的初衷,即降低 AI 算力的使用门槛,另外在建设过程中,专家也指出,联盟有责任和义务为国家节省相关的资源。
张云泉补充道,“新一代人工智能平台有力推动了算力定价标准的建设,为区域智算产业发展提供了重要的参考依据,将有效解决智能计算中心存在价格混乱虚高的问题。”
除了建设阶段需要节省成本,其实平台后期的运维运营阶段也非常重要。除了通过液冷技术,还有一个很重要的方向:平台在设计的时候,不只是面向单一一个计算中心,而是考虑了跨地域的多个中心的资源协同。
通过统一认证、数据打通等技术,可以实现不同地域的人工智能计算中心的统一服务入口。同时在这个框架下,不同的计算中心也可以实现便捷的资源交易和结算。也就是说,为了降低建设成本、运营成本,集约化建设模式将成为风向标。
通过这种方式,可以搭建和形成具有不同地域特色或者行业特色的智能计算中心,然后通过平台,实现算力经济的共享,张云泉总结道,“这是从更大的层面实现了资源的整合,我们进一步提高了各个中心的资源利用率,减少了重复建设。”
此外,降低人工智能的应用门槛和技术门槛,以平台的形式向公众提供算力资源和算法服务,也是智能计算中心作为公共服务的必然趋势。“算力将越来越接近一种商品,首先它的价格会越来越便宜,其次通过网络,包括云计算技术等也使得我们可以在整个社会层面来供应各种各样的算力。”
在中科院人工智能产学研创新联盟、中国智能计算产业联盟等权威组织机构推动下,智能计算将树起价格标杆。各大算力供给方和区域算力中心建设方也应合力推进行业透明化、标准化发展,避免智算中心建设走弯路、花冤枉钱。
“新基建 新标准”,是对新一代人工智能计算平台的定位的精准总结。新基建决定了基础设施体系未来所承载的发展愿景与空间,而以平台为代表的智能新基建将顺应自然空间、机器物理空间、虚拟信息空间的融合趋势,成为现代化强国基础设施的内核。