在通往通用人工智能(AGI)的路上,如何像其他領(lǐng)域一樣實(shí)現(xiàn)彎道超車,是業(yè)界繞不開的話題。
在過去的十余年時(shí)間里,各項(xiàng)單點(diǎn)技術(shù)飛速演進(jìn),但隨著單點(diǎn)技術(shù)演進(jìn)的邊際效應(yīng)遞減和系統(tǒng)復(fù)雜度的提升,系統(tǒng)性能的天花板逐步從單點(diǎn)技術(shù)的上限演變成系統(tǒng)工程上限:單點(diǎn)優(yōu)勢(shì)越來越像是精致的零件,提升空間有限;但采用系統(tǒng)工程創(chuàng)新,各個(gè)部分完美配合、高效協(xié)同,實(shí)現(xiàn)整個(gè)系統(tǒng)的效能最優(yōu),才有更積極的現(xiàn)實(shí)意義。
如何在發(fā)揮單點(diǎn)技術(shù)優(yōu)勢(shì)的同時(shí),以整體視角重新構(gòu)建路徑,通過對(duì)復(fù)雜系統(tǒng)的極致把控與再組織、找到新的突破可能?解決這個(gè)看似不可能的問題,就有望為我們獨(dú)立引領(lǐng)最前沿技術(shù)發(fā)展創(chuàng)造條件。
近期,虎嗅將推出《華為技術(shù)披露集》系列內(nèi)容,通過一系列技術(shù)報(bào)告,首次全面詳述相關(guān)技術(shù)細(xì)節(jié),為業(yè)界提供參考價(jià)值。
我們期待通過本系列內(nèi)容,攜手更多伙伴共同構(gòu)建開放協(xié)作的生態(tài)系統(tǒng),助力昇騰生態(tài)在中國的蓬勃發(fā)展。
想象一下,你正在用手機(jī)導(dǎo)航規(guī)劃長途路線,背后可能有幾十個(gè) AI 模型同時(shí)在分析路況、預(yù)測(cè)擁堵;醫(yī)院用 AI 輔助診斷癌癥時(shí),系統(tǒng)需要瞬間處理成百上千張 CT 影像。這些看似簡單的智能應(yīng)用,背后都依賴著像 "超級(jí)大腦" 一樣的 AI 算力集群在 24 小時(shí)不停運(yùn)轉(zhuǎn)。
如果把 AI 算力集群比作一個(gè)大型工廠的生產(chǎn)線,高可用性就相當(dāng)于讓這條生產(chǎn)線具備 "永不罷工" 的能力,給 AI 算力集群上了一份 "保險(xiǎn)",讓這個(gè)支撐智能時(shí)代的 "數(shù)字發(fā)動(dòng)機(jī)" 既能承受日常的 "小磕小碰",又能在遇到突發(fā)故障時(shí)保持穩(wěn)定運(yùn)行。只有確保算力資源隨時(shí)可用、持續(xù)輸出,才能讓 AI 真正成為驅(qū)動(dòng)業(yè)務(wù)創(chuàng)新的可靠引擎,而不是隨時(shí)可能熄火的 "半成品"。
高可用核心基礎(chǔ):面向超節(jié)點(diǎn)的故障感知、管理及容錯(cuò)
AI大集群問題定位復(fù)雜,系統(tǒng)規(guī)模大、軟硬技術(shù)棧復(fù)雜、調(diào)用鏈長,先要跨域故障定界,然后各域內(nèi)部故障定界定位,故障診斷面臨巨大挑戰(zhàn);當(dāng)前定位時(shí)間從數(shù)小時(shí)到數(shù)天,技能要求高 ,難以找到故障設(shè)備和根因。華為團(tuán)隊(duì)為了讓集群運(yùn)維工具能夠快速找到問題原因,有效提升現(xiàn)網(wǎng)問題的閉環(huán)效率,提出了全棧可觀測(cè)能力,構(gòu)建了大規(guī)模集群的故障感知能力,主要由集群運(yùn)行視圖、告警視圖、網(wǎng)絡(luò)鏈路監(jiān)控、告警接入和配置、網(wǎng)絡(luò)流可觀測(cè)能力組成;同時(shí)還提出了包括全棧故障模式庫、跨域故障診斷、計(jì)算節(jié)點(diǎn)故障診斷、網(wǎng)絡(luò)故障診斷等四大能力的故障診斷技術(shù)。
當(dāng)前行業(yè)水平下,萬卡級(jí)別的AI集群平均每天會(huì)出現(xiàn)一次甚至多次故障,這不僅嚴(yán)重影響了訓(xùn)練效率,還導(dǎo)致了算力資源的大量浪費(fèi)。為解決這一問題,華為團(tuán)隊(duì)通過建立AI集群全系統(tǒng)可靠性分析模型,實(shí)現(xiàn)對(duì)可靠性指標(biāo)的預(yù)計(jì)評(píng)估和分配分解。從可分析、可增強(qiáng)、可驗(yàn)證、可診斷等方面,持續(xù)構(gòu)建可靠性系統(tǒng)工程能力,突破關(guān)鍵可靠性技術(shù),實(shí)現(xiàn)CloudMatrix超節(jié)點(diǎn)萬卡集群MTBF大于24小時(shí)的硬件高可靠能力。
超節(jié)點(diǎn)需要做大超節(jié)點(diǎn)規(guī)模,才能充分發(fā)揮超平面網(wǎng)絡(luò)的優(yōu)勢(shì),目前業(yè)界沒有使用光鏈路來構(gòu)建超節(jié)點(diǎn)的成功案例,因此華為團(tuán)隊(duì)提出了相應(yīng)的超節(jié)點(diǎn)光鏈路軟件容錯(cuò)方案。通過多層防護(hù)體系,借助超時(shí)代答,綠色通道等關(guān)鍵技術(shù)實(shí)現(xiàn)無超節(jié)點(diǎn)級(jí)故障,通過鏈路級(jí)重傳,光模塊動(dòng)態(tài)升降Lane,HCCL算子重執(zhí)行,借軌通信,雙層路由收斂,Step級(jí)重調(diào)度等特性,實(shí)現(xiàn)光模塊閃斷的故障率容忍度>99%。在新增10倍+光模塊后,通過軟件可靠性措施,以及光鏈路壓測(cè)技術(shù)等,實(shí)現(xiàn)光模塊閃斷率低至電鏈路水平,保障了超平面的可靠性。通過構(gòu)建Step級(jí)重調(diào)度能力,高頻的HBM多比特ECC故障恢復(fù)時(shí)間縮短至1min,對(duì)于因?yàn)楣收显斐傻挠脩舻乃懔p失下降5%。
高可用助力業(yè)務(wù):萬卡集群上千億模型的線性度和訓(xùn)推快恢