为了AI大模型数据中心服务器泡澡成潮流瘫痪男子大脑植入芯片触觉恢复
在人工智能写作论文、编制旅行攻略、绘画和创作诗歌等任务中,能够媲美甚至超越普通人类水平的AI技术已经引起了人们强烈的情感反应。一些人对此感到兴奋,而另一些则心存忧虑。对于这种生成式AI可能带来的变化,普通人的态度各异,但推动这一技术发展的研究人员和企业都面临着一个共同的问题:如何解决大型模型所需的大量计算资源导致的巨额能耗问题?
以全球热门的OpenAI公司ChatGPT为例,它需要极高性能的算力来训练其GPT-3模型。这就要求使用像微软专为OpenAI设计的一台拥有28.5万个CPU核心和1万个GPU核心的大型计算机。在如此庞大的硬件配置下,除了采购成本之外,还有运营电费费用,这些都是不可忽视的开销。
据国盛证券报告估计,每次训练ChatGPT所需花费140万美元左右。而若以2023年1月时访客数量1300万每天进行估算,每日电费将接近5万元美元。数据中心能源消耗的问题成为云服务提供商必须面对的一个挑战,无论是微软Azure还是阿里云,都通过让服务器采用“泡澡”方式进行散热来提高IDC(互联网数据中心)的能源效率。
“我认为ChatGPT将加速液冷技术普及。”英特尔市场营销集团副总裁兼中国区销售总经理庄秉翰在2023年英特尔可持续发展峰会上表示,“目前液冷几乎已成为一种趋势。”
服务器“泡澡”是一种比喻,即指浸没式液冷技术,其中包括冷板、喷淋和浸没式散热方式,并非新出现,但业界应用不多。
“主要原因是国内许多冷板液冷设计缺乏统一规范,使得每家厂家的设计都有差异,加重系统设计与验证成本,因此对于最终用户而言,这项方案价格较贵。”英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立解释道。
除了标准化问题,应用场景也是影响liquid cooling广泛应用的一个重要因素。“高性能应用环节才需要liquid cooling,但是大量应用并非那么高功耗,而且国家也提出‘双碳’战略之前,没有紧迫性或必要性。”宁畅总裁秦晓宁说,“现在情况不同,CPU功耗可能达到270W至300W,将来可能350W以上;GPU现今400W至500W也不少了,所以必须考虑使用liquid cooling。”
更进一步,对于算力规模也是影响liquid cooling普及关键因素。“包括ChatGPT在内的大型计算任务促使客户从传统风冷转向更节能有效果的liquid cooling.”新华三集团计算存储产品线副总裁刘宏程表示,“这不仅是能效问题,也涉及空间浪费问题。存量数据中心无法容纳新的过高能耗设备,如GPU服务器会导致空间占用增加,以及提升管理运维费用。这促使更多中国客户快速考察更新整个数据中心整体设计时,从而选择更节约先进的liquid cooled data center 来解决能效平衡问题。”
当用户需求激增→标准建立→规模经济体现→整体成本自然下降形成循环后,可以加速推动产业从传统到绿色低碳方向转变。随着政府指导单位发布了一系列宏观政策指导行业发展,比如规划、能效利用率三个重点方向以及《工业能效提升行动计划》,明确到2025年新建大型超级数据PUE优于1.3,以便打破当前依赖风冷散热造成的大量能源消耗并限制未来增长潜力。
然而,大规模实施Liquid Cooling还面临着两方面挑战:一是技术挑战,一是成本挑战。如果处理器层面的创新可以通过研发克服,那么服务器层面的改进则涉及到两个方面——既要解决安全性问题,又要降低操作难度。此外,由于使用Liquid Cooling可能带来10-20%额外成本,这是一个需要深思熟虑的问题,因为没有统一标准,对于客户来说是一项烦恼事务。但英特尔携手生态伙伴共同编纂并发布了Cold Plate Liquid Cooling Group Standard希望通过标准化降低产业与技术门槛,让所有用户享受最新科技,并且预期随着产量提升而逐步降低成本。
尽管Liquid Cooling被认为将在未来成为主流选项,但并不意味着所有数据中心都必须采用它。此外,为应对现有的存量数据库市场,还存在其他方法提高能源效率,如升级绿色数据库框架版本2.0或者采用模块化智慧节能解决方案等策略。不过,在这样的背景下,不同类型的人们对这些变化持有不同的看法,有些人期待这些改变,有些则担忧未知结果。而无论如何,当我们看到这些革新的发生时,我们应该意识到它们正在塑造我们的世界,同时也正试图找到平衡点,以便我们可以继续前进,同时保持地球上的生态平衡。