NVIDIA联手伙伴打造七座百亿亿次AI超算

29 10月 2025

2025-10-29 11:23

快科技10月29日消息，NVIDIA正式宣布将联合合作伙伴，为美国政府打造七座规模均达百亿亿次（EFlops）级别的AI超级计算机。这批超算将重点服务于美国能源部旗下两大核心科研机构——阿拉贡国家实验室与洛斯阿拉莫斯国家实验室，覆盖能源科学、核安全模拟、气候研究及大模型研发等关键领域，标志着美国在AI与科学计算融合领域的算力基建迎来量级突破。

首批两座落子阿拉贡：甲骨文跨界承建，2200EFlops算力支撑多场景科研

此次超算建设计划中，第一批两座超算明确由甲骨文（Oracle）负责承建，全部交付给阿拉贡国家实验室，且均以NVIDIA Blackwell GPU为核心算力载体，分阶段落地推进。

其中第一座超算被命名为“Equinox”，将搭载1万块Blackwell GPU，一期工程计划于2026年正式上线。作为“先遣队”，Equinox的核心定位是快速补齐阿拉贡实验室当前的AI算力缺口，可支撑中小型科学计算任务与中低参数AI模型训练，为后续大规模超算落地积累运行数据。

第二座超算“Solstice”则可视作项目二期工程，规模实现量级跃升：不仅Blackwell GPU搭载数量将突破10万块，远超Equinox的10倍，整体功耗更是达到200兆瓦（即2亿瓦）——这一功耗水平相当于20万户普通家庭的日常用电总量，需配套专门的供电与散热系统才能保障稳定运行。

从性能来看，Equinox与Solstice两座超算的FP4（低精度浮点计算，适配AI训练场景）总算力将达到2200EFlops（即22万亿亿次浮点运算每秒），这一算力规模在当前全球超算榜单中可跻身前列。更关键的是，这批超算实现了“科学计算+AI”的双模能力：既能够承担传统的经典科学计算任务（如核聚变模拟、新型材料分子设计），又可支持参数规模高达3万亿的AI大模型训练与推理，为阿拉贡实验室在“AI驱动科研”领域的探索提供核心支撑。

甲骨文跨界引关注：从云基础设施服务商到超算承建方的角色突破

此次合作中，甲骨文的参与引发行业广泛关注——相较于Atos、戴尔、慧与（HPE）等长期深耕超算定制设计、建造与运维的传统厂商，甲骨文的核心业务长期聚焦于AI与高性能计算的云基础设施服务（如Oracle Cloud Infrastructure的AI算力租赁），此前鲜有端到端承建大规模超算的公开案例。

这种“角色跨界”带来两大疑问：一方面，甲骨文需证明自身具备整合超算全链条的能力——从GPU集群架构设计、供电散热系统适配，到与实验室现有科研软件的兼容性调试，均需突破过往的业务边界；另一方面，超算上线后的运维归属尚未明确——是由甲骨文持续负责全生命周期管理，还是移交实验室自主运维，将直接影响后续运行效率与故障响应速度。业内普遍认为，此次合作若能成功，或将改写超算行业的玩家格局，为云厂商切入定制化超算领域提供新范式。

剩余五座超算分场景布局：Blackwell与下一代Rubin GPU双线支撑

除首批两座外，其余五座超算的名称已正式公布，且根据服务实验室的需求差异，在算力载体选择上实现差异化布局。

其中，“Tara”“Minerva”“Janus”三座超算将继续采用NVIDIA Blackwell GPU，与首批超算形成技术协同，全部交付给阿拉贡国家实验室。这三座超算的定位更偏向“专项任务承载”——例如Tara可能聚焦能源领域的碳中和模拟，Minerva或服务于量子化学研究，Janus则可能用于天文数据的AI分析，通过算力拆分实现科研任务的精准匹配。

另外两座超算“Mission”与“Vision”则将技术目光投向未来，计划采用NVIDIA下一代Rubin GPU（Blackwell的迭代产品），专门交付给洛斯阿拉莫斯国家实验室。作为美国核安全领域的核心科研机构，洛斯阿拉莫斯实验室的任务（如核威慑力维护、核废料安全处理模拟）对算力的长期迭代性要求更高，选择尚未量产的Rubin GPU，既是对该系列产品性能的提前锁定，也体现出实验室对未来10年科研需求的前瞻性布局。

整体来看，这七座百亿亿次超算的落地，不仅将大幅提升美国能源部旗下实验室的科研算力天花板，更将推动AI技术与传统科学计算的深度融合——通过GPU集群的强大并行计算能力，原本需要数年才能完成的科研任务（如全球气候百年预测、新型疫苗蛋白结构解析）或可缩短至数月甚至数周，为关键领域的技术突破按下“加速键”。