ISC24 数据中心需要新的能效指标

时间: 2024-07-28 02:34:01 |   作者: jrs直播低调看直播

  超级计算机和数据中心的运营人员因缺乏测量每单位能源所做有用功的标准,无法衡量其在实现可持续计算方面的进展。

  数据中心需要更先进的、能够显示实际应用运行进度的仪表盘来指导他们提高能效。

  计算能效的公式很简单——将所做的功除以所用的能源。但要将其应用于数据中心,则需要仔细考虑一些细节问题。

  如今使用最广泛的衡量标准——能源使用效率(PUE)就是将设施消耗的总能源与其计算基础设施使用的能源进行比较。在过去的 17 年中,PUE 帮助最高效的运营者不断接近理想状态,即在电能转换和冷却等过程中几乎不浪费任何能源。

  PUE 在云计算兴起的时候给数据中心带来了很大的帮助,并将继续发挥作用。但在如今的生成式 AI 时代,工作负载和运行这些负载的系统都发生了巨大变化,因此仅使用 PUE 是不够的。

  这是因为 PUE 只能衡量数据中心消耗的能源,却无法衡量数据中心的有用输出。这就好比只衡量发动机的耗油量,却不知道汽车行驶了多远。

  数据中心效率有许多衡量标准。2017 年的一篇文章列出了近三十多项标准,其中有几项侧重于冷却、用水量、安全、成本等具体目标。

  计算机行业长期以来一直以功率(通常以“瓦特”为单位)来描述系统及其处理器的能效,这多少有些令人遗憾。因为尽管这个指标很重要,但很多人没意识到“瓦特”只能衡量某一时间点的输入功率,而无法衡量计算机实际使用的能源或使用能源的效率。

  因此,当以“瓦特”来衡量现代系统和处理器的输入功率时,即便数值上升也不意味着其能效下降。实际上,这些系统和处理器所做的功与能耗的比值一般会高出许多。

  现代数据中心的衡量标准应侧重于能源,即工程界所称的千瓦时或焦耳。关键之处在于它们利用这些能源做了多少有用功。

  在这一点上,业界还是习惯于使用抽象的术语进行衡量,比如处理器指令或数学计算。因此,MIPS(每秒百万条指令)和 FLOPS(每秒浮点运算)这两项指标被广泛使用。

  只有计算机科学家才关心他们的系统能处理多少这样的初级工作。用户更希望明白他们的系统能完成多少实际工作,然而有用功的定义多少带些主观色彩。

  侧重于 AI 的数据中心主要参考 MLPerf 基准测试。从事科学研究的超级计算中心通常会使用额外的功衡量标准。专注流媒体的商业数据中心可能还要使用到其他标准。

  由此产生的应用套件一定要能跟着时间的推移而持续不断的发展,这样才可以反映最新技术水平和关联度最高的用例。例如上一轮 MLPerf 增加了使用两种生成式 AI 模型的测试,而这两种模型在五年前甚至还不存在。

  理想情况下,任何新的基准测试都应该能够衡量加速计算的进步。许多现代工作负载通过将具有并行解决能力的硬件、软件与方法相结合,实现了比 CPU 更快、更高效的应用运行速度。

  例如,在科学应用方面,美国国家能源研究科学计算中心的 Perlmutter 超级计算机利用加速计算将能效平均提高了 5 倍。这就是怎么回事在 Green500 榜单上排名前 50 的超级计算机中有 39 台(包括排名第一的系统)都使用了 NVIDIA GPU。

  由于 GPU 可以并行执行大量任务,因此与 CPU 相比,GPU 可以在更短的时间内完成更多的工作并以此实现节能

  许多行业的企业都取得了类似的成果。例如 PayPal 通过加速计算将实时欺诈检测率提高了 10%,并将服务器能耗降至近八分之一。

  斯坦福大学以人为本 AI 研究团队在最近的一份报告中预估,自 2003 年以来,GPU 的性能“大约提高了 7000 倍”,单位性能的能效比则 “提高了 5600 倍”。

  最初提出 PUE 概念的数据中心工程师 Christian Belady 认为,如今数据中心的 PUE 已达到 1.2 左右,这一指标“已经过时”。他表示:“该指标在一切尚未完善的时候提高了数据中心的效率。但二十年后的今天,各方面都已经较为完善,因此我们应该关注与当今问题关系更加紧密关联的其他指标。”

  展望未来,Belady 表示:“性能指标才是关键所在。虽然无法直接比较不同的工作负载,但我认为如果按照工作负载进行细分,那么成功的可能性会更大。”

  Jonathan Koomey 是一名研究计算机效率和可持续性的学者兼作家,对此也表示赞同。

  Koomey 表示:“为了在效率方面做出正确决策,数据中心运营需要一套基准来衡量当今使用最广泛的 AI 工作负载对能耗的影响。”

  “每焦耳 token 就是一个类似基准的组成项的很好的例子。企业要参加公开讨论,提供有关其工作负载和实验的细节信息,并同意采取实事求是的测试程序,以此确保这些指标能够准确描述硬件在实际运行应用时的能耗情况。”

  “最后,我们应该一场公开的论坛来开展这项重要的工作(制定新的能效指标)。”

  得益于 PUE 等指标和 Green500 等榜单,数据中心和超级计算中心在能效方面取得了巨大进步。

  在生成式 AI 时代,我们大家可以而且必须付出更大的努力来进一步提升能效。若能够衡量目前最先进的应用所做有用功所消耗的能源,就可以将超级计算和数据中心的能效提升到一个新的水平。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  同名同姓同校同年级!四川两个“张可人”分别被清华北大录取,已互加微信好友

  在巴黎奥运会开幕式跳舞的中国女孩:签协议严格保密舞蹈内容,演出时家人在镜头里找了她一晚上

  新华社消息|中央、国务院、决定,给汤洪波同志颁发“二级航天功勋奖章”,授予唐胜杰、江新林同志“英雄航天员”荣誉称号并颁发“三级航天功勋奖章”

  乌无人机飞行1800公里击中俄军Tu-22M3战略轰炸机,损失有待确认

  最命硬的车主?曝问界M9车主高速行驶突发心肌炎,车的智能操作让他捡回一条命

  联想小新Pad Pro 12.7二代发布:天玑8300巨屏平板 1899元起

  联想YOGA Portal迷你主机发布:小巧机身塞进14代酷睿+RTX 4070 17999元

  伊姐周六热推:电视剧《少年白马醉春风》;综艺《我们的歌第六季》......