2024 T-EDGE文章详情页顶部

算力底座升级,减碳、算力“全都要”丨ToB产业观察

当下,AIDC要具备高算力、高弹性、大规模、高效能和智能化五大能力,才能应对人工智能大模型带来的算力供给和能耗挑战。

《中国综合算力指数报告(2024)》中显示,截至2024年6月,中国在用算力中心的机架数量超过830万,算力规模达到246 EFLOPS(以FP32精度计算),智能算力同比增速超过65%。中国在2025年的目标是算力规模超过300 EFLOPS。

通过数据可以看出,智能算力中心已经成为未来数据中心建设的主要趋势和方向。

算力底座步入AIDC时代

智算中心的火爆可以说一大半的功劳要归功于以ChatGPT为代表的人工智能技术在各行各业掀起了新一轮的革命,让智算中心成为当下炙手可热的存在。

回看整个数据中心产业发展可以大致分为三个阶段,第一个阶段,2010年以前,中国数据中心行业的主力军主要是三大电信运营商,以及少量的第三方中立IDC服务商,比如成立于1999年的世纪互联,以及成立于2001年的万国数据。这个时期的数据中心大多承载着电信通信的业务为主。

第二阶段,2010年—2020年前后,伴随着云计算产业在中国的快速发展,互联网成为时代的宠儿,这10年间涌现了大量的第三方数据中心供应商,而秦淮数据作为新兴的超大规模数据中心厂商,成为顺应这一阶段高速发展互联网业务的典型代表。IDC(互联网数据中心Internet Data Center)的名号也在此期间得以加强。

2020年至今,随着企业对于多元算力需求的激增,GPU开始大量在企业级数据中心得以应用,传统的IDC也开始逐渐向AIDC转变,人工智能技术正在重塑数据中心行业。

在IDC向AIDC转变的过程中,用户和企业最容易感受到的一点就是——主流CPU、GPU功耗和服务器节点功耗指数级增长,在秦淮数据CTO张炳华看来,当下的AIDC要具备高算力、高弹性、大规模、高效能和智能化五大能力,才能应对人工智能大模型带来的算力供给和能耗挑战。

高算力方面,随着大模型越来越大,智算中心需要提供更高的算力。从CPU到GPU,从通用计算到异构计算,数据中心的性能提升了很多倍,机柜的功率密度跳跃式增长,以使用GB200的服务器为例,最大单机柜功率已达132kW,这就需要具备高性能的计算和数据处理能力,以支持复杂的人工智能算法和模型训练。

高弹性方面,为了满足用户多元化的需求,智算中心需要更弹性。“目前,智算中心总体在向高效、开放、环保、智能方向发展,这是必然路径。”张炳华如是说,“同时,作为赋能人工智能发挥价值的核心底座,智算中心基础设施同样需要满足更多差异化、多元化的算力场景需求,要通过弹性设计同时兼容风冷和液冷,兼容CPU和GPU等不同性能的计算和存储资源,也要灵活匹配不同的算力部署。”

大规模方面,为了满足人工智能对于算力庞大的需求,智算中心规模会越来越大,张炳华认为,未来单个智算集群需能提供5~10万卡GPU大规模的算力和存储资源,“要满足人工智能应用对数据和计算的需求;未来单个AZ(可用分区)数据中心的IT容量将从几十MW级别增长到几百MW级别。”张炳华告诉钛媒体APP。

高效能方面,除了提高交付效率外,作为公认的“电老虎”,数据中心的能源消耗和环境保护一直是业内关注的重点,尤其是在2020年9月中国提出了“3060”的双碳战略目标之后,如何“减碳增效”成为IDC行业关注的焦点,即便在AIDC时代,能效依然是关键指标。智算中心的节能环保已经被提升到了一个全新的高度。张炳华对钛媒体APP表示,在提高能效方面,智算中心需要充分利用自然资源,采用数据中心全栈式解决方案,通过优化设计和运营策略,实现极简供电、极致冷却,降低数据中心的能源消耗,提高能效比。

智能化方面,主要体现在智算中心的智能化管理。复杂性和多样性的业务需求对数据中心运维工具系统提出了更高要求,传统运维工具对运维管理的提升构成了严重的制约,甚至在一定程度上影响着业务的稳定性和安全性。在张炳华看来,智算中心在为AI提供底层支撑的同时,也需要借助AI和机器学习的能力,实现数据中心的自动化管理和优化,包括智能监控、智能预测、智能散热、故障智能定位,提高运营效率。

高算力、碳中和要兼顾

在AIDC发展的过程中,如何做到高质量算力与碳中和的“既要....又要....”,已成为众多IDC厂商战略布局的关键。

从能耗占比角度出发,数据中心内部IT设备耗能占比超60%,非IT设备能耗不到40%。其中,空调设备能耗占比最大,超过20%。目前数据中心节能减排技术焦点主要还是集中在制冷系统。

“过去5年间,GPU算力增长近90倍。”中国工程院院士刘韵洁曾公开表示,伴随着算力增加而来的就是芯片能耗的增加。目前主流系列处理器功耗已达350~400TDP/W。这还仅是CPU的功耗,而GPU的功耗远远高于CPU,以英伟达H100为例,构建万卡的H100智算中心集群,其IT功耗可达10MW。并且随着摩尔定律逐渐失效,在后摩尔定律时代下,芯片算力与其功耗仍将大幅提升。

根据IDC测算,预计到2027年,AI数据中心容量的复合年增长率 (CAGR) 将达到40.5%,与此同时AI数据中心的能源消耗预计将以44.7%的CAGR增长,到2027年达到146.2太瓦时(TWh)。

从技术发展上看,近两年液冷技术从“PPT画饼”逐渐走向了成熟落地应用,据科智咨询预计,2024年中国液冷数据中心市场将同比增长53%,市场规模将增长至236亿元;预计2022—2027年,中国液冷数据中心市场将以59%的复合增长率持续蓬勃发展;预计到2027年,随着AI系列应用的规模化落地以及液冷生态的日趋成熟,市场规模将突破千亿大关。

这个过程中,不仅是诸如宁畅、浪潮信息这样的硬件设备供应商涉足这个赛道,IDC服务商也开始逐渐在液冷领域开发产品和解决方案。以秦淮数据为例,张炳华告诉钛媒体APP,为了满足大模型时代对更大计算所需的冷却需求,秦淮数据也早已在冷板式液冷和浸没式液冷技术方面进行布局,目前可支持高达 150kW 的高密度机柜。

张炳华认为,是否应用液冷主要还是取决于用户对于技术的接受度,“目前大多数用户还是喜欢采用传统风冷的方案,因为它是解耦的,技术发展也更为(与液冷相比)成熟,”张炳华指出,“同时,以冷板液冷为例,冷却工质大多采用纯水加药或以纯水为基础的配方液,或者用乙二醇、丙二醇溶液,运行时间久了有管道腐蚀、漏液的风险。”

不过,在张炳华看来,上述的痛点目前行业内已经有一些办法可以解决,最终影响用户对液冷的选择,还是硬件设备的耦合度、标准化程度,甚至是成本和生态的完善度,“通过这些举措可以提升用户对于应用液冷的接受度,”张炳华告诉钛媒体APP。

无独有偶,中国信息通信研究院云计算与大数据研究所总工程师郭亮也曾表示,随着英伟达Blackwell架构的 GPU芯片产品(预计于今年第四季出货)的部署,将推动液冷散热方案的渗透率明显增长,从2024年的10%左右至2025年将突破20%。

除此之外,张炳华认为,随着技术程度、标准化,以及生态的完善,液冷的部署成本也会越来越低,这也会推动液冷技术在数据中心的应用。据赛迪顾问发布的《2023中国液冷应用市场研究报告》,2022年液冷数据中心1kW的散热成本为近6500元,相比2021年已经下降了54.2%,预计2023年1kW的散热成本有望降至5000元左右,与传统风冷的建设成本已基本持平。

从目前角度出发,张炳华认为风液混合是当前液冷应用较好的一种方式。基于此,秦淮数据开创性地在数据中心中采用“液侧冷板液冷和风侧磁悬浮相变”的冷却组合系统。据张炳华介绍,该技术成功运用于秦淮数据华北某基地的两栋数据中心项目,“2024年上半年,项目中负载平稳的机房实际运行PUE低至1.128,全年WUE预计仅为0.15。相较于IDEC冷却技术机房,该项目的冷却技术大幅降低了电力和水资源消耗,每100MW可节约用电3950万度,相当于降低标煤消耗4850吨,可节水88万吨,约等于233个标准游泳池的蓄水量。”张炳华用一个个数据佐证了风液混合是当下满足企业大规模智算需求的智算中心供冷最优解的观点。

不只有液冷

除液冷之外,随着技术的发展,近年来数据中心供冷的方式已经从单一的传统空调机组变得更多样化,间接蒸发冷却、磁悬浮冷机组等新一代制冷方式层出不穷,一种新型制冷系统,甚至诸如风液混合的多种制冷方式组合的形式在数据中心大规模应用的场景已经屡见不鲜。

以磁悬浮冷却机组为例,该系统采用磁悬浮无油离心技术,实现无机械损耗,在免维护的同时,还可进一步提升冷却系统的灵活性和可靠性,对此,张炳华表示,磁悬浮冷却系统破解了单机柜 10 至 35kW 高功率密度的空气冷却技术难题,创新的分布式冗余方案可突破建筑条件、气候、水源制约,实现弹性适配按需部署,“该系统在秦淮数据华北和马来西亚的数据中心已经得到使用,CLF(制冷负载系数)分别低至 0.08 和 0.15。”张炳华与钛媒体APP分享了几个应用磁悬浮冷却系统的案例。

据钛媒体观察,除了磁悬浮冷却系统以外,2022年秦淮数据还与维谛技术联手发布了名为“玄冰”的无水冷却技术,通过控制技术和感应技术高度协同,“玄冰”无水冷却将制冷系统的输出与环境温度紧密相连,可以充分利用自然冷能降低数据中心能耗,解决了北方地区数据中心所处地水资源匮乏和能耗限制,“每100MW规模的数据中心年节水量多达120万吨,相当于320个国家游泳中心水立方标准游泳池的蓄水量,可满足10000户四口之家的年用水量。”张炳华介绍到。

除了IDC服务商积极布局减碳技术以外,硬件设备厂商也都在这方面进行布局,联想集团推出了自研的海神(Neptune™)温水水冷技术。该技术的核心优势在于能实现90%的余热回收再利用,热移除效率最高达98%,可降低42%的能耗,并将数据中心PUE可降至1.1以下;浪潮信息、超聚变服务器厂商等也纷纷在冷板式液冷方面进行布局.....

另一方面,还有不少IDC服务商从供电方面,通过提升供电效率,进而降低数据中心碳排放,众所周知,电在缆线中传输的过程中会产生热量,同时也会消耗掉部分电能,而“电”作为数据中心不可或缺的唯一能量来源,如何能够降低传输过程中的损耗,提高“电”在数据中心中的利用效率,同样成为行业内关注的焦点。

以现有技术来看,采用DR、RR供电架构,UPS ECO、高压直流等技术手段可有效降低“电”在传输过程中的损耗,因减少了逆变的过程,高压直流一般可达到96.5%的利用率,甚至更高。

秦淮数据在算力大会期间发布了全新“玄铁”极简供电架构,对多个供电系统进行预制化、模块化升级,“相比传统配电模式,通过一体化集成和与土建解耦的弹性交付能力,‘玄铁’智能电力模块3.0可以实现整体测试、模块部署、弹性扩容,大大节省占地面积,缩短现场交付周期。有效解决算力激增下数据中心供配电系统部署周期长、能源效率低、运维成本高等挑战,保障供电全生命周期的安全可靠。”张炳华告诉钛媒体APP。

作为算力底座的数据中心已经步入了新的时代,这个时代下,如何在保证算力供给的前提下,实现碳中和目标,已经成为整个IDC行业上下游需要共同面对的挑战。(本文首发于钛媒体APP,作者|张申宇,编辑丨盖虹达)

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

AWARDS-文章详情右上

4

扫描下载App