据外媒报道,英伟达详细介绍了Selene超级计算机的组装过程,该计算机此前在6月份成为了世界上速度第七快的超级计算机。在流感大流行期间,仅用了三个半星期的时间,一个跟社会保持距离的六人小组加上一个名为Trip的轻便机器人就把整个东西组装好了。

Selene是一台相当独特的超级计算机。它采用的是英伟达商用GPU加速DGX SuperPOD架构,而不是在500强中占主导地位的大量定制CPU设计。另外,这台超算在绿色500最节能超级计算机排行榜上排名第二。

在数量上,Selene使用了560块AMD Epyc 7742 CPU和2240个英伟达A100 GPU。它的峰值理论性能接近35000万亿次浮点运算。

英伟达之前的超算建造工作都花费了几个月,并且还很难维护和升级。然而当涉及到Selene的设计时,他们试图使其尽可能简单和模块化。Selene的280个节点都是一个标准化的DGX pod,其包含8个英伟达A100 GPU和2个AMD Epyc CPU。

Selene的同质性使得其能迅速被组装起来。虽然连接一台超级计算机总是一件棘手的工作--尤其是六英尺的距离,但英伟达通过使用Mellanox的InfiniBand交换机来减少所需的电缆数量,同时还提升了带宽。

Selene是基于SuperPOD冷却。所有的SuperPOD都住在一个巨大的空调仓库里。它们从地面上被升起,下面的风扇将冷空气推入DGX吊舱。英伟达的小型组装团队只需要安装地板和SuperPOD来控制空气流动即可。

英伟达很有创意地为Selene设计了监控设备。他们购买了一个叫Trip的小机器人,其可以被远程控制,还可以通过转动它来观察Selene内部的情况。他们还为Slack开发了一个机器人,当硬件出现故障或电缆松脱时它会向他们发出通知。

目前,Selene正在进行约1000项任务,主要内容是关于AI开发和神经网络训练。它的空闲周期则专门用于新冠病毒研究。