ICC訊 鋼鐵一直以來(lái)都是工業(yè)化的象征。而在A(yíng)I時(shí)代,NVIDIA DGX A100則將成為現代數據中心的基石。
如今,眾多企業(yè)所面臨的最大的挑戰和機遇,其根源都在于數據。DGX A100作為當今全球最先進(jìn)的AI系統,能夠幫助企業(yè)機構以前所未有的速度解決復雜問(wèn)題,同時(shí)為跨分析、訓練和推理的AI計算力交付帶來(lái)強大的彈性和靈活性。
去年,NVIDIA基于多臺DGX系統組合構建了DGX SuperPOD,該超計算機以遠低于一般超級計算機的成本和能耗躋身性能世界前20之列。
如今,NVIDIA揭開(kāi)了第二代SuperPOD的帷幕。該產(chǎn)品不但具有創(chuàng )紀錄的性能,而且能夠在短短三周內完成部署。它的出現使得構建世界一流AI超級計算集群所需的時(shí)間不再需要花費漫長(cháng)的數個(gè)月。
SuperPOD基于NVIDIA DGX A100系統和NVIDIA Mellanox網(wǎng)絡(luò )架構構建,其證明了可以憑借單個(gè)平臺將全球最復雜語(yǔ)言理解模型的處理時(shí)間從數周縮短至一個(gè)小時(shí)之內。
重新定義基礎設施擴展
無(wú)論你是需要一個(gè)超級計算集群解決復雜繁重的問(wèn)題,還是需要一個(gè)性能卓越的數據中心來(lái)實(shí)現研究人員和開(kāi)發(fā)者們的資源訪(fǎng)問(wèn)民主化,AI都是提供重要保障的基礎設施。
在傳統的搭建流程中,一項關(guān)鍵性的工作就是要預先規劃好你需要將你的基礎設施擴展到多大的規模,然后開(kāi)始構建網(wǎng)絡(luò )架構,直至達到最終目標。雖然這種方法能夠實(shí)現增長(cháng),但會(huì )產(chǎn)生大量前期成本。
NVIDIA Mellanox技術(shù)讓我們能夠重新定義數據中心,其所擁有的架構能以最快的速度并行處理解決那些最復雜的問(wèn)題。DGX A100配備具有200Gbps HDR InfiniBand的全新Mellanox ConnectX-6 VPI網(wǎng)絡(luò )適配器,每個(gè)系統有多達9個(gè)接口。我們可以憑借Mellanox的交換功能更輕松地將多個(gè)系統互連在一起,以至最終達到SuperPOD的規模。
借助于DGX SuperPOD和DGX A100,NVIDIA所提出的AI網(wǎng)絡(luò )架構幫助用戶(hù)實(shí)現了“按自身業(yè)務(wù)增長(cháng)需求購買(mǎi)”模式,這使得業(yè)務(wù)增長(cháng)變得更輕松,同時(shí)也最大程度地減少了其對運營(yíng)的影響。
而且,該網(wǎng)絡(luò )架構極具靈活性與可擴展性。NVIDIA已將SuperPOD模塊化,成為每組配置有20臺DGX A100系統的可擴展組。每個(gè)擴展組均由使用Mellanox HDR InfiniBand的二層胖樹(shù)(two-tiered fat-tree)交換網(wǎng)絡(luò )拓撲提供支持,提供完整的對分寬帶,且沒(méi)有過(guò)載(oversubscription)。在添加第三個(gè)交換層后,用戶(hù)可以在NVIDIA的擴展參考設計中使用DragonFly+或胖樹(shù)拓撲將其擴展至數千個(gè)節點(diǎn)。
憑借這種新的拓展單位,企業(yè)機構的增長(cháng)速度將會(huì )更加趨向于線(xiàn)性增長(cháng),并且每次增加這一個(gè)這種20系統模塊時(shí)所產(chǎn)生的支出也將變得更少。
通過(guò)SuperPOD擴展DGX SATURNV
從研發(fā)和自動(dòng)駕駛汽車(chē)系統開(kāi)發(fā)到游戲和機器人技術(shù),DGX SATURNV為NVIDIA最重要的工作提供了支持。而且SATURNV并非一個(gè)一成不變的系統,它會(huì )隨著(zhù)業(yè)務(wù)需求的增加而不斷擴展。因此它也成為了NVIDIA全新SuperPOD設計的理想試驗場(chǎng)。
在發(fā)布DGX A100之前,NVIDIA的工程師們部署了最新SuperPOD,實(shí)現了700 petaflops的AI性能。 此擴展包含:
· 140臺DGX A100系統
· 1,120個(gè)NVIDIA A100 GPU
· 170個(gè)Mellanox Quantum 200G InfiniBand交換機
· 15千米光纜
· 4PB高性能存儲
此次擴展,在存儲基礎設施方面,NVIDIA與DDN展開(kāi)了合作。作為NVIDIA DGX POD的合作伙伴之一,DDN正在幫助NVIDIA實(shí)現AI基礎設施產(chǎn)品所需的性能和規模。SuperPOD讓NVIDIA能夠使用DDN技術(shù),從而幫助其最先進(jìn)的系統處理那些交給它的高難度任務(wù)。
最佳擴展架構
并非所有AI項目都需要DGX SuperPOD。 但每個(gè)希望在其業(yè)務(wù)中應用AI技術(shù)的企業(yè)機構都可以運用DGX A100或DGX POD的性能、敏捷性和可擴展性。
具有前瞻性的企業(yè)機構關(guān)注于保持客戶(hù)的忠誠度、降低成本并拉開(kāi)與競爭對手的距離。而AI在所有這些方面有著(zhù)獨特的優(yōu)勢。
但如今AI技術(shù)創(chuàng )新發(fā)展迅速,而且模型和數據集的規模也都在呈指數級增長(cháng)。企業(yè)需要合適的架構,使其在現在和將來(lái)都能夠應對最大的AI挑戰,而不至于在中途“夭折”。
了解如何改進(jìn)您的AI基礎設施戰略以及讓DGX A100的訪(fǎng)問(wèn)變得更簡(jiǎn)單的消費模式,請訪(fǎng)問(wèn)www.nvidia.com/DGXA100。
關(guān)于NVIDIA
NVIDIA(納斯達克股票代碼:NVDA)在1999年發(fā)明的GPU激發(fā)了PC游戲市場(chǎng)的增長(cháng),重新定義了現代計算機顯卡,并且對并行計算進(jìn)行了革新。最近,通過(guò)將GPU作為可以感知和理解世界的計算機、機器人乃至自動(dòng)駕駛汽車(chē)的大腦,GPU深度學(xué)習再度點(diǎn)燃了全新的計算時(shí)代——現代人工智能。更多信息,請訪(fǎng)問(wèn)http://nvidianews.nvidia.com/。