近日,百度智能云成功點亮昆侖芯三代萬卡集群,這也是國內(nèi)首個正式點亮的自研萬卡集群。百度智能云將進一步點亮3萬卡集群。
國產(chǎn)昆侖芯萬卡集群以及未來三萬卡集群的建設(shè),從硬件到軟件,技術(shù)挑戰(zhàn)是全方位的。而24年9月升級的百度百舸AI異構(gòu)計算平臺4.0,圍繞落地大模型全旅程的算力需求,在集群創(chuàng)建、開發(fā)實驗、模型訓(xùn)練、模型推理四大方面,能為企業(yè)提供“多、快、穩(wěn)、省”的AI基礎(chǔ)設(shè)施,在萬卡集群的建設(shè)中發(fā)揮了至關(guān)重要的作用。
首先,突破硬件擴展性瓶頸,如卡間互聯(lián)的拓撲限制,避免通信帶寬成為瓶頸;同時,圍繞芯片及集群功耗,基于萬卡規(guī)模常規(guī)方案功耗可達十兆瓦或更高,采用創(chuàng)新性散熱方案,從而解決萬卡集群的能效與散熱問題;完善模型的分布式訓(xùn)練優(yōu)化,采用高效并行化任務(wù)切分策略,訓(xùn)練主流開源模型的集群MFU提升至58%;在提升穩(wěn)定性方面,提供容錯與穩(wěn)定性機制,避免由于單卡故障率隨規(guī)模指數(shù)上升而造成的萬卡集群有效性大幅下降,保障有效訓(xùn)練率達到98%;最后,針對機間通信帶寬需求,建設(shè)超大規(guī)模HPN高性能網(wǎng)絡(luò),優(yōu)化拓撲結(jié)構(gòu),從而降低通信瓶頸,帶寬有效性達到90%以上。
同時,昆侖芯作為百度自研的AI芯片,憑借其獨特的技術(shù)優(yōu)勢,在百舸4.0的能力加持下,在生成式人工智能時代展現(xiàn)出了巨大的競爭力。
未來一年,將是各種AI原生應(yīng)用爆發(fā)的黃金時期。自研芯片和萬卡集群的建成帶來了強大的算力支持,同時有效提升百度和客戶的資源整體利用率,降低大模型訓(xùn)練成本,推動了模型降本的趨勢,為整個行業(yè)提供了新的思路和方向。
隨著國產(chǎn)大模型的興起,萬卡集群已從單純算力供給逐漸向“有效”算力供給過渡,通過模型優(yōu)化、并行策略、有效訓(xùn)練率提升、動態(tài)資源分配等手段,智能調(diào)度任務(wù),將訓(xùn)練、微調(diào)、推理任務(wù)混合部署,最大化提升集群綜合利用率,降低單位算力成本,從而真正發(fā)揮算力效能。百度智能云將始終陪伴在所有企業(yè)身旁,通過本次萬卡集群點亮和應(yīng)用落地,持續(xù)為企業(yè)提供源源不斷的穩(wěn)定、高效的算力動能。
本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://m.allfloridahomeinspectors.com/cgo/model/130558.html