记者实探:可容纳20个千亿级参数模型训练 新型数据中心如何参与算力迭代?
“比方说我们这个机柜里面,总共有10台服务器,根据功率,每个机柜会安装8到16台服务器,根据不同的需求和功能,实现计算和存储。”在位于安徽芜湖的中国电信云计算中心,总经理张运保向记者介绍数据中心的运营情况。
2022年初,随着国家发改委等四部门联合批复,十个国家数据中心集群规划正式公布,其中“芜湖集群”赫然在列。
(资料图)
政策引导下,芜湖市迅速启动算力“新基建”,一年多来,芜湖市累计招引重点项目11个、总投资接近2300亿元,其中不乏中国电信、联云世纪、华为云等投资超百亿的数据中心项目。
芜湖电信云计算中心,工作人员正在进行机房巡检
早在2017年,中国电信就将芜湖作为31个云资源骨干节点之一,规划建设集团级云计算中心。“目前已经建成的数据中心机架总规模有1.5万架,可容纳的服务器的话有15万台,算力资源有50万核。”芜湖云计算中心总经理张运保向记者介绍道,“我们目前部署的算力资源以通用算力为主,后续通过一些高性能的CPU,我们也在部署一些智算的能力。”
从通用算力到智能算力
数据中心建设赢来新机遇 新动能
当数据成为新的经济要素,算力也就成为了数据发挥价值的关键驱动力,引发了全球对于人工智能大模型的高度关注,在公众“围观吃瓜”之前,业内已经先行一步。
位于上海临港的商汤科技人工智能计算中心(AIDC),面向的正是人工智能时代爆发的大模型训练需求。
位于上海临港的商汤人工智能计算中心
“从硬件层面来说包含了我们各类服务器、各类芯片组成的一个计算集群,以及我们所有的AI计算平台、数据平台、网络等。” 在商汤科技大装置事业群智算中心总经理林海看来,AIDC是需要打通软件和硬件,组成可以进行模型生产的通用基础设施。“目前为止我们可以实现4000卡GPU的单项任务的训练,整个的并行效率可以达到91.5%,我们在这个园区里边可以容纳的训练任务,可以实现20个千亿级参数的模型的训练。”
据了解,商汤早在2018年便开始布局人工智能计算原型机的研制,去年初,AIDC正式在上海临港启动运营,在市场人士看来,商汤已拿到了智能算力时代的“船票”。
头部玩家群雄逐“数”
带动云、软件、芯片产业重塑
与商汤类似,作为国内领先的ICT企业,华为在2019年发布了由数千颗昇腾910处理器组成的AI训练集群Atlas 900。在上海超级中心的数据机房,记者见到了这台号称“全球最快”的服务器机柜。
“从体积上来说,它跟我们传统的机柜是同样的,采用42U的设计,但是通过我们对于网络、存储和人工智能计算算力的高度集成,它单机柜可以实现20P算力。” 上海昇腾人工智能生态创新中心COO张中阳告诉记者。
上海超算中心机房搭载的华为Atlas900服务器
立足于全栈自研的数据中心解决方案,华为推出了业界唯一覆盖“端、边、云”全场景的达芬奇架构处理器,发布了包括支持通用计算的鲲鹏系列,支持AI的昇腾系列,支持智能终端的麒麟系列及支持智慧屏的鸿鹄系列,“应该是把昇腾称之为NPU,实际上N它代表的就是神经网络计算,我们其实也是希望能够在人工智能领域里面,推出一款专用的AI计算的芯片。”张中阳谈到。
从芯片到软件到云平台,华为给出了支撑智能算力的国产答卷。
进入算力基建化时代
绿色+低碳成为数据中心建设新命题
来自国家网信办的数据显示,截至2022年底我国数据中心机架总规模已超过650万标准机架,近5年年均增速超过30%。
面对大规模数据计算产生的热能,传统方式是使用空调降温。而在中国电信芜湖云计算中心即将启用的机房内,“冷水主机+板换+冷却塔”的联合供冷模式让人耳目一新。
芜湖电信云计算中心水冷机房
“它跟我们早期的风冷相比,整个单位能耗就下降得非常多,通过冷水和热水的交换,实际上实现了制冷的效果。” 芜湖云计算中心总经理张运保向记者介绍道。
商汤的AIDC则运用了一整套智能决策的系统来降低PUE,“在我们的训练任务上来的时候,我们的IT功耗的水平,IT负载力的水平,跟外部的气候条件以及跟我们所有设备运行的参数,这三者之间实际上是一个联动关系。” 商汤科技大装置事业群智算中心总经理林海认为,解决能耗的问题,还需要借助AI管理的手段。
高能耗背后
隐含算力资源供需失衡的深层次矛盾
数据中心的投资可以带来较高的经济外部性、利润溢出效应。但算力要动起来,要与数据连同,才能将价值发挥出来。
在安永大中华区数字化与新兴科技合伙人王志远看来,当前我国算力供需存在“旱的旱死涝的涝死”这一结构不平衡现象。
“其实现在可能超过50%以上的IDC,CPU以及内存的使用比例非常低,存在算力的浪费,另外又有一些企业存在大量高并发的算力需求,由于缺少算力资源,无法响应客户需求。”他认为,要解决这个问题,需要借助一些AI算力分配的逻辑,满足企业对于算力的弹性需求。
由上海超算中心打造的算力调度平台
我国算力供需结构失衡的另一层面体现在通用算力资源过多,智算资源不足,这一点也在人工智能时代被放大。
上海超级计算中心主任李根国认为,在数字经济转型和国际市场竞争的背景下,当前我国的建设的智算资源还远远不够,在他看来,我国算力产业的发展离不开产业链各环节的共同努力。
“不论是芯片制造的,还是服务器制造的,还是提供算力的机构,在国家战略的推动下,携手打造良好的产业生态,每个环节各司其职,共同推动我国算力的发展。”李根国告诉记者。