高性能计算解决方案

高性能计算
方案背景
随着各种智能终端的出现,数据爆发式增长,高性能计算从传统的工程科学应用计算慢慢的向大数据计算、机器学习和AI运算等新兴数据密集型计算趋势发展。 这种趋势不仅对新型算力提出了要求,也对异构算力并行计算的数据同步效率提出了要求,更高的数据吞吐、更低的时延成本和更高效的存储I/O能力,是有效提升算力的基础。 中科驭数基于DPU产品打造的高性能计算解决方案,经过驭数自研大数据加速解决方案的应用验证,拥有更高效的计算性能和更低的拥有成本。
业务痛点
传统的数据同步和调度,都是依赖CPU来控制完成不同内存位置间的数据拷贝,这时CPU会成为数据I/O的瓶颈,导致数据在算力间的传输效率低下,进而影响整体的计算性能;
在大量并行计算任务运行时,大量的数据同步需要较高的网络吞吐能力,然而,在出现网络拥塞的时候,会导致丢包和网络传输效率骤减,进而影响整体的计算效率和性能;
数据密集型高性能计算会有大量的数据存储在磁盘中,在计算的过程中也会从远端共享磁盘中读取数据或向远端共享磁盘中写入数据,传统远端存储读写性能无法满足新型高性能计算的性能要求;
处理数据调度任务的CPU长期处于高利用率,整体功耗和TCO偏高,急需降本增效。
解决方案描述
中科驭数高性能计算解决方案,采用自研RDMA加速卡产品与主流GPU和AI芯片厂商产品、国内主流无损网络交换机产品一起联合构建, 基于高吞吐低延时的RoCEv2无损数据网络、GPUDirect RDMA和GPUDirect Storage技术,构建高效的分布式并行计算平台, 为新型数据密集型高性能计算应用打造高效可靠的算力基础设施。
GPU Direct RDMA
通过DPU加速卡上GPUDirect RDMA技术实现不同节点上GPU芯片间高效的数据通信能力, 避免经过系统内存进而减少了GPU通信的数据复制次数,通信延迟进一步降低,进而有效提升大型并行计算任务的计算效率。
GPU Direct Storage
通过DPU加速卡上GPUDirect Storage(GDS)技术实现GPU芯片与远端存储通过NVMe-oF来实现直接通信能力, 避免经过系统内存进而减少GPU与远端存储通信的数据复制次数,通信延迟进一步降低,吞吐能力更高, 可有效提升数据密集型计算任务的计算效率。
RoCEv2 无损网络
通过与国内主流交换机厂商联合打造的端到端无损网络解决方案,实现对RoCEv2网络通信的高可靠能力, 高效可靠的拥塞控制能力,为RoCEv2的稳定通信保驾护航。
方案特点
高效可靠的网络通信能力
基于RoCEv2无损网络高效可靠的数据通信能力
GPUDirect RDMA加速跨节点GPU间的通信能力,助力算力提升
GPUDirect Storage加速GPU与远端存储的通信能力,实现高吞吐低时延的数据读写
丰富的业务生态伙伴
同国内外多个GPU和AI芯片厂家建立合作关系和解决方案共建,适用于多种高性能计算应用场景
同国内主流交换机厂家在无损网络方面构建联合解决方案,提供灵活的无损网络解决方案
开放生态和二次开发能力
完整的开放生态平台HADOS®,提供充分稳定的软件生态资源
详细的开发接口,让开发集成更简单
丰富的生态伙伴资源,更多合作与创新
灵活的系统兼容能力
适配国内外多个主流CPU平台,提供良好的硬件兼容能力
适配国内外多个主流操作系统,提供良好的软件兼容能力
方案价值
随着高性能计算的发展,大数据、机器学习和AI运算等新兴计算技术对数据同步传输能力的依赖性越来越明显, 本方案可以提供与国内外先进厂商相比拟的产品解决方案能力,高效可靠的数据通信基础设施,同时提供更适合国内高性能计算行业的定制化开发灵活性, 打造国内高性能计算生态联合解决方案样板。