ICC訊 近日,在第12屆中國硬科技產(chǎn)業(yè)鏈創(chuàng )新趨勢峰會(huì )上,ARM CHINA產(chǎn)品總監鮑敏祺發(fā)表《端側AI應用芯片機遇,NPU加速終端算力升級》主題報告,AI端則的生態(tài)發(fā)展并介紹“周易”NPU IP產(chǎn)品,對接并滿(mǎn)足多樣化端側硬件設備的不同AI計算需求。
端側AI新機遇指的是最新AIGC大模型帶來(lái)算力的提升,端側AI應用也在算力加持下不斷發(fā)展壯大。在A(yíng)I經(jīng)典應用中,已經(jīng)可以通過(guò)手機拍攝可以識別物體類(lèi)型,在短信提取關(guān)鍵信息和總結給用戶(hù),又例如在圖片庫搜索中,通過(guò)AI大模型快速理解,迅速識別所需要的圖片??傮w而言就是利用AI加速人們的辦事效率,并且AI獲得了公眾號的認可。這一切依賴(lài)于A(yíng)I硬件側的性能支撐。
過(guò)去,云計算應用成為數據中心增長(cháng)的主要驅動(dòng)力,而現在A(yíng)I大模型訓練和推理正在驅動(dòng)智算中心規模的發(fā)展。AI端側的算力是否會(huì )像云端一樣不停地膨脹?鮑敏祺認為低于100億參數的大預言模型將會(huì )成為主流模型,事實(shí)上因為帶寬制約,10億至30億參數是普遍在端側和現有帶寬下能夠部署出來(lái)的大模型,并且容量?jì)?yōu)化有很大的增強空間。當然,70億參數模型會(huì )面臨顯著(zhù)的帶寬壓力,但在高帶寬場(chǎng)景下也能夠成功部署。
站在應用端客戶(hù)來(lái)看,頭部終端廠(chǎng)商如谷歌、微軟、蘋(píng)果等引領(lǐng)了推動(dòng)端側AI的發(fā)展,中國廠(chǎng)商如華為、OPPO、小米等也在其消費電子產(chǎn)品和具體業(yè)務(wù)場(chǎng)景上部署AI應用。芯片廠(chǎng)商一致認為AI NPU(神經(jīng)網(wǎng)絡(luò )處理單元)將是未來(lái)消費類(lèi)電子產(chǎn)品發(fā)展的重點(diǎn)。NPU通過(guò)專(zhuān)門(mén)優(yōu)化的硬件架構,能夠大幅提升端側設備的AI計算能力,同時(shí)降低功耗。
30-700億并行參數大模型如何接入硬件設備,AI硬件側面臨的挑戰主要時(shí)哪些?鮑敏祺總結為成本、功耗和生態(tài),其中成本主要來(lái)自于存儲、帶寬限制和算力,尤其是一個(gè)SOC的整體面效,因為很多端側設備對芯片面積的預算會(huì )高度吃緊,包括算力資源。功耗需要考慮功耗預算的設置, AI很多程度上是來(lái)源于數據的搬運,特別用于外層的搬運,因此功耗cost會(huì )越來(lái)越高,而生態(tài)包括了軟件成熟度,因為語(yǔ)言模型需要不斷迭代優(yōu)化才能抓住最重要的目標客戶(hù),這又帶來(lái)另一個(gè)挑戰,就是軟件和工具需要更多優(yōu)化和支持。
NPU就是端則AI不斷迭代優(yōu)化的關(guān)鍵硬件,ARM自研的“周易”NPU針對于A(yíng)I硬件側挑戰做了哪些事情?一是微架構的升級,從計算能力上對它進(jìn)行優(yōu)化。當前階段它保留了一部分CNN的能力,同時(shí)對Transformer進(jìn)行升級,而Transformer的engine需要更強的softmax算力。二是Efficiency數據本地化,非本地化會(huì )帶來(lái)額外的能耗。周易NPU從算法上、從工具鏈上能夠實(shí)現低精度量化,同時(shí)從硬件上對于低精度計算做更多的硬件加速。其次是compression無(wú)損壓縮以增加有效的帶寬。
因為周易NPU針對于大模型做一些總線(xiàn)帶寬的擴展。特別是解碼架構場(chǎng)景的算力要求并不高,但是對于帶寬要求卻很高。出于這種考量,In-NPU interconnection對于整個(gè)interconnect單核往外的帶寬能力有很大的提升。三是并行處理,包括數據并行和模型并行,在并行運作時(shí)貢獻weight參數和減少我的數據搬運,實(shí)現負載均衡。
鮑敏祺介紹了周易NPU架構,包含task schedule manager(任務(wù)日程管理器)、Optional on Chip SRAM、DRAM和CPU,未來(lái)的端側AI是一種多任務(wù)場(chǎng)景,需要一個(gè)高效的scheduler并行股那里和具有可擴展能力的核心。針對算法的特殊需求,可以在整個(gè)外部SOC上增加SRAM。更重要的是NPU異構策略,即獨立端到端地去執行AI任務(wù),并且自由裁減8T或10T的場(chǎng)景,與同構策略形成鮮明的不同。NPU異構在端側場(chǎng)景上還可以實(shí)現power gating或低功耗,即專(zhuān)注于某一種計算時(shí),將其他不必要的功耗降至最低,若是所有應用采用這種處理方式,就可以將端側功耗降下來(lái)。ARM NPU已經(jīng)針對汽車(chē)、AI加速器、AIoT等場(chǎng)景進(jìn)行了相應的實(shí)踐,實(shí)現了顯著(zhù)的算力提升和功耗降低。
下一代周易NPU將面向AI生態(tài)進(jìn)行優(yōu)化升級,目前已經(jīng)針對Wenxin、Llama、GPT等模型做了相關(guān)部署。在邊緣計算上,面向PAD、PC、Mobile等各類(lèi)場(chǎng)景推出相應產(chǎn)品或適配。在汽車(chē)應用上,無(wú)論是IVI或是ADAS都可以根據實(shí)際場(chǎng)景算力需求和模型需求,提供最高至320tops的算力能力。