芯片間以及芯片與內存間通信的帶寬正成為現代計算系統的瓶頸。因此,提高系統組件間的吞吐量是重中之重。盡管為提高互連系統效率和開(kāi)發(fā)更加復雜的通信協(xié)議做了許多工作,但對更高吞吐量的需求必然伴隨著(zhù)散熱成本,因為這些模塊的功耗會(huì )增加。人工智能 (AI) 的最新進(jìn)展正在推動(dòng)這些迅速變化,包括從 112 Gbps-PAM4 過(guò)渡到 224 Gbps-PAM4 以及采用下一代 1.6T 模塊。
數據中心熱管理現狀
數據中心電子系統的熱管理目標是,在指定負載和條件下將組件溫度保持在安全運行范圍內。這些溫度范圍是根據溫度與使用壽命的關(guān)系及其在現場(chǎng)的目標使用壽命確定的。其他運行方面(如電壓)和環(huán)境因素(如濕度或環(huán)境溫度波動(dòng))也會(huì )影響數據中心環(huán)境中零部件的使用壽命。
有效的熱管理策略應考慮多種因素,包括功耗、功率密度及其空間分布,以及目標系統負載和運行條件的時(shí)間和瞬態(tài)特性。
保持更低的工作溫度可提高組件可靠性,延長(cháng)使用壽命。更低的工作溫度還能降低系統的整體功耗。要確定系統的最佳工作點(diǎn)并保持能率比,必須在散熱方案更高的功率要求與電子元件總體功耗的降低之間取得平衡。
風(fēng)冷的最新進(jìn)展
多年來(lái),空氣一直是電子系統的首選冷卻媒介。與液冷相比,風(fēng)冷因其在低壓工作時(shí)的介電性質(zhì)、大多為惰性、易于應用和較低的實(shí)施成本而備受青睞。近幾十年來(lái),支持向電子系統輸送冷空氣和從機架收集熱空氣的基礎設施得到了很好的優(yōu)化。
在風(fēng)冷系統中,光模塊正上方的氣流和模塊散熱器的策略性熱優(yōu)化——無(wú)論是平頂模塊 (QSFP-DD) 頂部的鰭片式散熱器還是集成散熱器 (OSFP)——都能確保高效散熱。在使用鰭片式散熱器的情況下,必須確保散熱器與模塊外殼之間良好的熱接觸,為熱量創(chuàng )造一個(gè)低熱阻的路徑。
要做到這一點(diǎn),首先要優(yōu)化鰭片散熱器。過(guò)去,行業(yè)專(zhuān)注于將鋁擠壓散熱器更換為密度更高的拉鏈鰭片式/疊片式散熱器。然而,在未來(lái)更高功率的模塊中,可插拔模塊與鰭片式散熱器之間的熱阻將成為一個(gè)新的瓶頸。因此,必須特別要注意改善降低熱阻——例如在接觸面使用熱界面材料 (TIM)。
這些散熱器的設計涉及多個(gè)考慮因素,包括機械系統要求以及與系統氣流和壓力動(dòng)態(tài)相關(guān)的熱性能?,F代散熱器必須針對這些客戶(hù)特定的邊界條件和系統環(huán)境進(jìn)行優(yōu)化——適合所有應用的標準散熱器選項已不復存在。
除了優(yōu)化散熱器之外,最大程度降低從散熱器到模塊的下游氣路的風(fēng)阻也很重要。這包括在保持電磁干擾 (EMI) 屏蔽要求的前提下,對機架和連接器進(jìn)行熱優(yōu)化,在上面增加通風(fēng)孔從而可以通過(guò)最大程度降低風(fēng)阻。
對于堆疊式機架配置,需要采用協(xié)同設計的方法,為將要放置在機架上的模塊提供優(yōu)化的散熱器設計。在協(xié)同設計中,需要模擬冷卻劑流,同時(shí)考慮刀片上的所有組件。必須進(jìn)行全面的系統級分析,以確保所有模塊都能獲得足夠的氣流,并最大程度減少模塊之間的溫差。
液冷的崛起
盡管風(fēng)冷很有效,但其冷卻能力也存在固有的限制。ASHRAE 的《液冷在主流數據中心的興起和擴張》(2021 年)建議,風(fēng)冷系統每個(gè)芯片的功率限制約為 400 W,而開(kāi)放計算項目 (OCP) 的《開(kāi)放加速器模塊 (OAM) 設計規范修訂版 2.0》(2023 年)中提到,風(fēng)冷系統的功率限制約為 600 W。不過(guò),高端處理器最近的發(fā)展趨勢超過(guò)了這些限制。處理器這么高的功率需要使用液冷,這種冷卻方式可為主處理器提供更加高效、緊湊的解決方案。
這一趨勢為系統其他部分(如可插拔光模塊,其功率通常比主處理器低)的冷卻帶來(lái)了一個(gè)有意思的難題。這些組件仍然需要某種方式的主動(dòng)冷卻。由于 1.6 T 光學(xué)元件的功率水平預計將高達 35 W,液冷成為了下一代可插拔光器件中的一個(gè)越來(lái)越受關(guān)注和討論的領(lǐng)域。
在風(fēng)冷系統中,這些外圍組件將受益于為系統提供的冷卻氣流,這意味著(zhù)主系統風(fēng)扇可以提供足夠的氣流。在某些液冷系統中,系統是基于混合方法設計的,大功率組件 (ASIC/GPU) 采用液冷方法,而系統的其他部分則采用風(fēng)冷方法。這些系統需要在機架或刀片上安裝風(fēng)扇,以提供足夠的氣流。
另一種冷卻可插拔光模塊的方法是采用冷板系統來(lái)有效管理多個(gè)光模塊的溫度。這些系統利用冷板上的獨立浮動(dòng)基座,確保與每個(gè)模塊(插在可能有不同公差疊加的端口上)都有足夠低的熱阻。使用該方法部署系統時(shí),會(huì )在設計和制造上遇到重大難題,包括:
· 確保模塊之間均勻冷卻以及冷板中均勻的流量分布
· 平衡不同系統組件之間的壓降
· 控制制造復雜性和增加的裝配成本
· 在制造階段進(jìn)行更加復雜的測試,以確保最佳性能和可靠性
· 盡管存在這些難題,但它們并非無(wú)法克服。事實(shí)上,Molex莫仕已經(jīng)在實(shí)際應用中解決了這些難題。
光模塊冷卻的未來(lái)
對于下一代光模塊而言,一個(gè)非常重要的優(yōu)先考慮因素是熱流路徑的端到端優(yōu)化,可以最大程度減少從組件結點(diǎn)到冷卻媒介(空氣或液體)的阻力。這將包括:
· 優(yōu)化單個(gè)組件的電子封裝
· 確保在印刷電路板上和模塊內部放置組件時(shí)考慮溫度影響
· 打造從組件到模塊表面的低熱阻路徑(例如,使用高熱導率墊片,使用 TIM 來(lái)改善接觸阻力,使用更高熱導率的模塊外殼)
· 改善模塊蓋的熱擴散,避免出現局部熱點(diǎn),這會(huì )導致降低冷卻效率(例如,在模塊中使用銅塊和熱管)
· 同樣重要的是這些模塊熱特性分析方法的改變。傳統的模塊特性分析方法(使用普通的外殼溫度限制)會(huì )留下余量——對于更大功率的模塊來(lái)說(shuō),余量非常小。
下一代冷卻系統的發(fā)展之路
· 對數據中心里大功率光收發(fā)器進(jìn)行更好冷卻的需求從未如此迫切。在網(wǎng)絡(luò )難以滿(mǎn)足飛漲的帶寬需求時(shí),設計人員無(wú)法承擔讓這些不可或缺的組件過(guò)熱的后果。
· 我們已經(jīng)到了提高系統冷卻能力的成敗關(guān)頭,這推動(dòng)了對性能驅動(dòng)的熱創(chuàng )新的要求。伴隨著(zhù)數據中心不斷努力應對日益嚴峻的散熱難題,Molex莫仕始終走在創(chuàng )新的最前沿。
作為 OCP 及其冷卻環(huán)境項目的活躍參與者,Molex莫仕正在積極開(kāi)發(fā)下一代冷卻技術(shù),以滿(mǎn)足數據中心日益增長(cháng)的熱管理需求。相信 Molex莫仕能夠為數據中心架構提供強大的動(dòng)態(tài)解決方案,這些方案既具有韌性,又面向未來(lái)。