『网络通信』

CCF HPC China 2023丨武汉超算:超级算力背后的“超级网络”

8月25日,在青岛举行的全国高性能计算学术年会大会(CCF HPC China 2023)上,2023华为高性能计算解决方案分论坛同步举办。来自武汉超算中心的运营负责人陈斌分享了“武汉超算全栈国产HPC解决方案方法与运营”。

武汉超算运营负责人 陈斌 现场分享

数字经济时代,算力就是生产力。

提及武汉和湖北,总离不开“枢纽”二字,湖北地处中国南北连接中心,素有“九省通衢”之称,武汉又是位于长江黄金水道的中心城市。得益于独特的地理区位优势,湖北正努力从区位交通枢纽跃升数字经济枢纽,而其中的关键正是算力。

《湖北数字经济强省三年行动计划(2022-2024年)》提出打造新型基础设施中部枢纽节点的发展目标,建设全国一体化算力网络国家枢纽中部节点成为重要行动。毫无疑问,算力已成为推动数字经济发展的核心力量。

超级计算,该配什么样的超级网络?

两年前,武汉超算中心启动建设,作为国内最大的集装箱超算中心,整体规划设计算力为200P,首期算力达到50P。武汉超算中心与紧邻的武汉人工智能计算中心投运形成合力,助力武汉成为国内为数不多的拥有超算和智算双中心城市的同时,也在助力湖北打造成为国家算力网络中部枢纽目标中发挥着重要的推动作用。

值得一说的是,无论是HPC还是AI计算,算力的极致释放离不开高吞吐、低延迟的网络加持,就像一辆汽车从一城快速驶向另一城,除了自身具备高性能的发动机等特性外,还离不开更高效、更高质量的网络进行高速互联。

过去数年,InfiniBand网络在HPC系统中占据了绝对领先份额,原因无他,通过引入RDMA协议,InfiniBand网络大大降低了数据传输时延,成为高性能网络的代表。不过,其也有着明显的弊端,不同于TCP/IP协议栈,Infiniband拥有自己的网络层和传输层协议,所以体系相对封闭,并且运维复杂、价格昂贵。

为了释放极致算力,武汉超算中心在建设实践中则选择了开放的RoCE(RDMA over Converged Ethernet)路线,基于华为超融合以太网络解决方案构建面向HPC和AI计算的智能无损高性能计算网络,不仅满足高性能计算需求,同时提升了投资回报率。

释放极致算力,湖北超算携手华为构建智能无损高性能计算网络

高性能计算实现的前提是计算、存储、网络端到端的高性能,任何一方成为系统性能的短木板,都将导致整体系统性能发挥面临瓶颈。

武汉超算中心之所以选择华为超融合以太解决方案,首要原因是看到了其实现网络高性能的三个核心指标:0丢包、低时延、高吞吐。华为智能无损高性能计算网络实现从“尽力而为”连通型网络向“提供确定性SLA保障”性能型网络演进,将网络高性能提升至新的高度,从而100%释放算力。

实现这一核心能力的背后,源于华为独创的iLossless智能无损算法,华为智能无损高性能计算网络通过流量控制技术、拥塞控制技术、流量调度技术和应用加速等技术的结合,解决发送端与接收端的速率匹配问题、网络拥塞时对流量的速率控制问题、业务流量与网络链路的负载均衡性等问题,从而让0丢包、低时延、高吞吐成为可能,并通过对超算网络的流量模型进行分析,进而支持各种计算密集型和数据密集型应用的高效运行。

无论是预防PFC死锁的发生、缓解/解除拥塞、进行负载分担/网络均衡,还是差异化SLA动态优化保障,一个真正的智能无损高性能计算网络就此形成,这也为武汉超算中心带来了显着价值。

一是满足了网络高性能的建设诉求。武汉超算中心在项目部署前通过对96节点集群规模进行全面的对比测试,在MPI、Benchmark和HPC典型应用测试中,华为智能无损高性能计算网络性能与InfiniBand网络整体基本持平,局部小幅领先,完全满足业务的高性能需求。

二是显着降低了网络的建设、运维成本。基于标准的以太网架构,华为超融合以太网络解决方案带来了一张统一融合的网络。通过将通用计算、存储和高性能计算统一承载在0丢包以太网技术栈上,打破传统分散架构限制,实现从三张网到一张网的融合部署。从而降低了网络的建设成本,而不必再进行计算和存储网络的独立建设,同时降低了运维成本,支持SDN云网自动化,提升了运维效率。

整体看来,武汉超算中心为释放极致算力,打造了一张性能、兼容性、成本效益和灵活性兼具的高性能网络。目前,超融合以太网络解决方案正在成为越来越多政企构建HPC和AI极致算力的选择。

多云异构算力演进,无损以太网络迎来广阔发展空间

《湖北省加快发展算力与大数据产业三年行动方案(2023—2025年)》提出,力争到2025年成为国家算力网络中部枢纽,建成全国算力与大数据创新发展的核心区。基于超融合以太解决方案打造领先的超算和人工智能计算中心,携手华为构建面向HPC和AI计算的智能无损高性能计算网络,湖北正全力向算力、存力、运力的全国第一梯队迈近,由“九省通衢”迈向“数字通衢”。

面向未来,数据中心正快速朝着多云异构算力演进,随着HPC和AI应用的不断发展,网络带宽吞吐的需求也越来越大,以太网络正从100GE向200GE、400GE和800GE等更高速率发展。在可预见的将来,低时延、高吞吐的无损以太全球生态将会更加成熟,为多元算力提供强大的网络底座,超融合以太网络解决方案也将迎来更广阔的发展空间。

奇安信发布Q-GPT安全机器人和大模型卫士

上一篇

828 B2B企业节推出企业应用一站购平台 打造中国企业的数字化“粮仓”

下一篇

你也可能喜欢

热门标签

微信扫一扫

微信扫一扫