今天,我们正式对外发布全新一代高密度液冷服务器解决方案。
该方案基于公司自研的“相变式浸没液冷”专利技术,旨在解决高算力场景下的散热瓶颈与能耗难题,为云计算、AI训练、超算中心等客户提供更高算力密度、更低PUE值、更优TCO的绿色算力基础设施。
过去十年,数据中心的算力增长了数十倍,但功耗也随之飙升。
一枚主流CPU的功耗从早期的100W左右,攀升至现在的300W-400W;而AI训练所用的GPU,单卡功耗已经突破700W。一台8卡AI服务器的整机功耗,轻轻松松就能超过5kW,相当于几十台家用空调同时开启。
功耗的增长,带来了两大挑战:
挑战一:风冷逼近物理极限。
空气的比热容和导热系数是固定的。当单芯片功耗超过300W时,风冷需要极高的风速才能带走热量,而这又带来了噪音和风扇功耗的增加。到了500W级别,传统风冷已经彻底“压不住”了。
挑战二:电费成为运营噩梦。
在数据中心的运营成本中,电费占比高达30%-50%。其中,IT设备耗电只是一部分,另一部分是制冷系统的耗电。传统风冷数据中心的PUE值通常在1.5-2.0之间,意味着每1度电用于计算,就要额外消耗0.5-1度电用于散热。
对于拥有上万台服务器的大型数据中心来说,这每年意味着数千万甚至上亿元的额外支出。
正是在这样的背景下,液冷技术开始从“可选”走向“必选”。液体导热能力是空气的25倍,能够更高效地带走热量,同时大幅降低制冷能耗。
公司在液冷领域的探索,始于三年前。
当时,我们接到一个特殊的客户需求:对方计划在一栋老旧建筑内部署AI训练集群,但建筑承重有限,楼层的制冷能力也不足,无法支持传统风冷方案。
“能不能做一种更高效的散热方式,让我们在有限的空间和电力条件下部署更多的算力?”客户问。
正是这个问题,催生了我们液冷研发专项的启动。三年后的今天,我们交出的答卷就是这套相变式浸没液冷解决方案。
我们的液冷方案与市面上的其他方案更大的不同,在于“分区相变”的设计理念。
传统浸没式液冷,是将整台服务器浸入冷却液中。这种方式散热效果好,但也带来两个问题:一是服务器上的非高热元件(如网卡、硬盘)也被浸没,而这些元件并不需要这么强的散热,造成了浪费;二是维护麻烦,要检修某颗硬盘,得把整台服务器从油里捞出来。
我们的方案将服务器内部划分为高热区和非高热区。
高热区:CPU、GPU、内存等发热大户,被封装在一个独立的微型相变腔体内。腔体内填充相变冷却液,液体吸收热量后蒸发为气体,上升到腔体顶部的冷凝器,被流动的常温冷却水带走热量,重新凝结成液体流回底部。这个过程周而复始,实现高效散热。
非高热区:硬盘、网卡、PCIe插槽等部件,仍然保留风冷辅助散热。但这里的风冷不需要强风,只需要微弱的气流即可,功耗极低。
这种“分区而治”的设计,带来了三个核心优势:
优势一:散热效率高。 相变传热的等效导热系数是纯液冷的5-10倍。在实验室测试中,我们的方案成功将一颗700W的GPU核心温度控制在65℃以内,比风冷方案低了近30℃。
优势二:维护便捷。 非高热区仍然是空气环境,更换硬盘、插拔网卡和普通服务器一样方便。高热区虽然是密封的,但通过快插接头设计,也可以在不放液的情况下快速拆装。
优势三:改造成本低。 这套方案不需要将整个数据中心改造成“游泳池”,只需要在现有服务器机柜的基础上,增加冷却液分配单元和管路即可。对于已经建成的数据中心来说,改造门槛大大降低。
在过去的三个月里,我们搭建了一套原型系统,进行了严苛的满载测试。
测试环境:32台液冷服务器,搭载最新的AI加速卡,负载连续运行30天。
测试结果:
散热性能:所有CPU、GPU核心温度稳定在60-70℃之间,芯片间温差不超过5℃,远优于风冷方案的15-20℃温差。
能耗表现:整个系统的PUE值(电能利用效率)为1.12。这意味着每1度电用于计算,只需要0.12度电用于散热和其他辅助设施。而同等配置的风冷系统,PUE值通常在1.6以上。
噪音水平:由于取消了高速风扇,液冷服务器的运行噪音从风冷的85分贝降至55分贝以下。现场测试人员说:“站在机柜旁边,几乎听不到声音。”
这些数据意味着什么?对于客户来说,意味着:
同样的电力预算,可以部署多40%的算力;
同样的算力需求,每年可以节省数百万的电费;
数据中心选址不再受制于气候条件,甚至可以放在办公楼里。
这套方案的试点客户,正是三年前提出需求的那家AI公司。
当时他们在老旧建筑里部署AI集群,受限于楼宇的制冷能力和供电容量,只能部署32台服务器。有了我们的液冷方案后,他们在同样的空间和电力条件下,成功部署了64台服务器,算力翻倍,电费却没有增加。
“我们算了一笔账,如果采用传统风冷方案,要达到现在的算力,需要新建一个数据中心,投入至少5000万,时间至少一年。现在,我们只花了不到1000万,三个月就搞定了。”该公司的技术负责人分享道。
更让他们惊喜的是,由于液冷服务器运行时非常安静,他们直接把机柜放在了办公区的隔壁。工程师们调试模型再也不用跑到遥远的机房,在工位上就能操作,大大提升了研发效率。
当前,“双碳”目标已经成为各行各业的共识。对于数据中心这个“用电大户”来说,绿色化转型不是选择题,而是必答题。
北京、上海、深圳等一线城市已经明确规定,新建数据中心的PUE值必须低于1.3,部分核心区域要求低于1.15。这意味着,风冷方案在这些区域已经“出局”,液冷成为的选择。
除了新建数据中心,存量数据中心的改造也是一个巨大的市场。据统计,全国现有数据中心超过7万个,其中绝大多数是风冷架构,PUE值普遍在1.5以上。如果将这些数据中心全部改造为液冷方案,每年可以节省数百亿度电,相当于减少数千万吨碳排放。
我们的液冷方案,正是为这两个市场而生。对于新建数据中心,我们可以提供全液冷的整体设计;对于存量数据中心,我们可以提供“不改机房、不改机柜”的改造方案,帮助客户以更低的成本实现绿色升级。
相关推荐
了解更多新闻资讯