2017年6月22日, 加州訊,世界領(lǐng)先的高性能計算、數據中心端到端互連方案提供商Mellanox(納斯達克交易所代碼: MLNX)今日宣布,目前已有大量先進(jìn)的深度學(xué)習框架(如TensorFlow™、Caffe2、Microsoft Cognitive Toolkit 和百度 PaddlePaddle)借助Mellanox的智能卸載功能,為多臺人工智能服務(wù)器提供世界領(lǐng)先的性能和近線(xiàn)性擴展能力。Mellanox的RDMA和網(wǎng)絡(luò )內計算卸載以及 NVIDIA® GPUDirect™ 是幫助用戶(hù)最大限度發(fā)揮其應用性能和系統效率的關(guān)鍵技術(shù)。
如今,很多行業(yè)和研究小組都開(kāi)始利用深度學(xué)習技術(shù)解決大數據難題,如自然語(yǔ)言處理、語(yǔ)音識別、計算機視覺(jué)、醫療保健、生命科學(xué)、金融服務(wù)等等。全球最先進(jìn)的機器學(xué)習平臺采用Mellanox以數據為核心的高效卸載架構,將引領(lǐng)這些行業(yè)邁入高性能和高可擴展性的新時(shí)代。
TensorFlow 是一個(gè)開(kāi)源軟件庫,最初由 Google 機器智能研究團隊的研究人員和工程師開(kāi)發(fā)。通過(guò)加入 RDMA 技術(shù)來(lái)取代傳統 TCP,TensorFlow 的節點(diǎn)間數據交換性能提升了1 倍,可實(shí)現更快的圖像處理。
百度的PaddlePaddle(并行分布式深度學(xué)習)是一個(gè)靈活、可擴展的深度學(xué)習平臺。PaddlePaddle 支持多種神經(jīng)網(wǎng)絡(luò )體系架構和優(yōu)化算法,因此可以輕松使用大量CPU和GPU來(lái)加速訓練。通過(guò)RDMA技術(shù),PaddlePaddle可實(shí)現高吞吐量和高性能,借助NVIDIA 和 Mellanox聯(lián)合架構更先進(jìn)的加速功能,能夠將深度學(xué)習的訓練速度提高1倍。
“先進(jìn)的深度神經(jīng)網(wǎng)絡(luò )需要有智能互連方案作為支撐,可使其擴展到多個(gè)節點(diǎn),并且獲得最快的數據傳輸速度,從而提高算法效率并縮短訓練時(shí)間” ,Mellanox公司市場(chǎng)部副總裁 Gilad Shainer 表示。 “借助Mellanox的技術(shù)和解決方案,機器集群現在能夠以最佳的學(xué)習速度、準確性和擴展能力,突破最苛刻的認知計算應用極限。”
“深度學(xué)習應用的開(kāi)發(fā)人員可以采用優(yōu)化框架和 NVIDIA 即將推出的 NCCL 2.0 庫,NCCL 2.0實(shí)現了對 InfiniBand的原生支持,多節點(diǎn)通信時(shí)會(huì )自動(dòng)選擇 GPUDirect RDMA技術(shù),或在可用時(shí)為節點(diǎn)間通信選擇NVIDIA NVLink” ,NVIDIA公司平臺聯(lián)盟部總監Duncan Poole 表示。 “NVIDIA NVLink技術(shù)用于基于 Pascal 的 Tesla P100系統,該系統包括配有四塊Mellanox ConnectX®-4 100 Gb/s網(wǎng)卡的 NVIDIA DGX-1人工智能超級計算機。這樣一來(lái),開(kāi)發(fā)人員可以專(zhuān)注于創(chuàng )建新的算法和軟件功能,而不再需要對低層級通信集合進(jìn)行性能調優(yōu)。”