技术参数及配置要求 适用于英伟达A100 GPU 项目说明 一、设计方案 本项目为GPU算力池升级改造工程,旨在通过硬件扩容与软件优化实现集群算力统一调度与高效管理。具体方案如下: (1) GPU互联架构升级:为3台A100服务器配置18块NVIDIA NVLink桥接卡(型号:900-53651-0000-00),按每2块GPU卡配3块桥接器(卡间距≥4cm)的拓扑结构安装,实现节点内GPU间双向带宽:600GB/s(NVLink 3.0协议)节点间通信带宽:64GB/s。注意:需对服务器机箱内部线缆进行整理,确保机盖闭合后符合EMI防护标准。 (2) 存储性能优化:为2台A100服务器各扩容1块3.84TB NVMe SSD,用于分布式训练数据集缓存加速和Checkpoint文件快速读写(目标IOPS≥500K)。 (3) HCA卡部署:为2台A100服务器各安装2块双口HDR 100Gb HCA卡(Mellanox ConnectX-6 VPI),实现单端口理论带宽:100Gbps(HDR协议)、双端口聚合带宽:200Gbps。 (4) IB网络构建:通过12根EDR InfiniBand线缆(长度≤5m)连接3台服务器的12个HDR100端口与EDR交换机,形成集群总带宽:400Gbps(无阻塞全双工)、端到端延迟:≤100ns(RDMA模式) (5) 管理节点增强:新增1块双口万兆光纤网卡实现管理网络冗余备份和带宽保障:≥10Gbps(iSCSI存储访问) (6) 集群管理软件:部署浪潮AIStation V5.0平台(含3节点永久授权),实现GPU**池化调度(支持Kubernetes容器编排)、多租户隔离(QoS策略粒度≤1%)、训练任务监控(延迟、吞吐量、利用率实时可视化)。 关键实施要求: 供应商需在投标前完成: (1) 现场工勘(重点核查服务器机箱空间、线缆走线槽容量) (2) 兼容性测试(NVLink桥接卡与服务器BIOS版本匹配性) (3) 增项确认(如需额外配件需在3个工作日内书面反馈) 二、报价构成 本报价为全费用固定总价,采购方不再额外支付任何费用包含但不限于以下内容: 硬件费用:GPU桥接卡、IB网卡、线缆、以太网卡、SSD硬盘。 软件费用:浪潮AIStation平台,包括3个节点授权。 实施费用:现场安装、部署、调试及1年免费技术支持服务。 三、履约保障条款 1. 施工团队必须持有浪潮官方认证的维修资质证书(提供证书复印件及官网验证方式),且实施人员需具备:(1)浪潮认证工程师(RCSE)资质(2)至少3个同类项目(GPU集群部署)实施经验。 2. 供应商须书面承诺,施工过程不会导致现有设备(含浪潮及其他品牌)的原厂保修失效。若因施工操作(如静电损伤、接口误插、固件刷写等)导致设备保修失效,供应商需承担:(1)免费修复设备至原厂标准(2)赔偿设备原厂保修期内的维修费用。 |