隨著深度學習對人工智能的巨大推動,深度學習所構建的多層神經網絡模型的參數空間已從百萬級上升到百億級,這對計算能力提出了新的挑戰。相比CPU,GPU更適合深度學習的神經網絡模型,可進行高度統一、相互無依賴的大規模并行計算。
阿里云發布的最新一代異構計算通用GPU實例GN5規格族就是一款用于搭建深度學習加速平臺的云端利器。
“品學兼優”的GN5采用了NVIDIA Pascal架構旗艦級P100 GPU,可在云端按需構建敏捷彈性、高性能和高性價比的深度學習平臺,讓用戶以最簡便地方式享用阿里云遍布全球的高效、穩定的云基礎設施資源。
與上一代相比,GN5的單實例性能拓展了5倍,單實例最多可提供8個 NVIDIA P100 GPU,提供2萬多個并行處理核心,最高75TFLOPS FP32單精度浮點、150 TFLOPS FP16半精度浮點和38 TFLOPS FP64雙精度浮點運算能力。
自建GPU物理服務器經常會遇上擴容難、適配難的難題,GN5規格族提供了靈活彈性的系列化配置,可以根據深度學習計算力的要求,按需選擇合適的規格,分鐘級即可完成實例的創建,并可根據運算力需求進行GPU實例的“Scale-out”水平擴容或“Scale-up”垂直變配。
為了更好地發揮GN5多GPU卡并行計算效率,GN5支持GPUDirect,通過GPU卡之間點對點通信,可讓GPU之間在無需CPU干預下,直接通過PCIe的總線進行高帶寬低時延的互聯通信,極大地提升了深度學習訓練中模型參數交換效率。
除了GPU外,深度學習還需要有海量的數據存儲能力、業務服務能力、監控能力等,這在傳統模式下復雜度高、工作量大、費時費力。而GN5實現了與ECS彈性計算生態的完美結合,可與OSS對象存儲、NAS文件存儲等打通,滿足深度學習海量訓練數據的低成本存儲和訪問要求;通過EMR服務進行預處理;通過云監控服務進行GPU資源的監控與告警;通過負載均衡、彈性伸縮、資源編排等快速在云端搭建完整彈性GPU服務;并可搭配容器服務使用,簡化部署和運維的復雜度,提供資源調度服務等。
GN5實例支持靈活的使用支付方式,用戶可以按年支付以獲得最高的使用折扣;也支持按月周期付費,以降低用戶的計算資源使用一次性投入成本,并且具有相對較低的單位小時使用價格;同樣支持按小時的付費方式使用戶以最低的單次使用成本來應對臨時性的短期使用需求。