百度智能雲點亮昆侖芯三代萬卡集群
近日,百度智能雲成功點亮昆侖芯三代萬卡集群。據悉,百度智能雲將進一步點亮3萬卡集群。這一重大突破標志著百度在人工智能算力領域邁出了堅實的一步,不僅為百度自身的技術發展提供了強大動力,也為整個中國科技界、互聯網行業和AI行業帶來了新的發展機遇。
萬卡集群優勢凸顯,助力算力突破與成本優化
萬卡集群的建成不僅為百度帶來了強大的算力支持,還推動了模型降本的趨勢。在過去一年中,整個行業都在努力降低大模型的使用成本,而算力緊張是導致成本居高不下的重要因素之一。百度通過自研芯片和大規模集群的建設,不僅解決了自身算力供應的問題,還為整個行業提供了新的思路和方向。
萬卡集群
從算力上看,超大規模並行計算能力可實現訓練效率躍升,萬卡集群可將千億參數模型的訓練周期大幅降低,滿足AI原生應用快速迭代的需求。同時也能支持更大模型與復雜任務和多模態數據,支撐Sora類應用的開發。此外,萬卡集群能夠支持多任務並發能力,通過動態資源切分,單集群可同時訓練多個輕量化模型,通過通信優化與容錯機制減少算力浪費,實現訓練成本指數級下降。
隨著國產大模型的興起,萬卡集群逐漸從“單任務算力消耗”到“集群效能最大化”過渡,通過模型優化、有效訓練率提升、動態資源分配等手段,智能調度任務,將訓練、微調、推理任務混合部署,從而提升集群綜合利用率,降低單位算力成本。
百舸賦能,全方位提升集群性能與穩定性
過去,多芯混訓和激增的故障率等難題,成為萬卡集群部署過程中的巨大挑戰。而2024年9月升級的百度百舸AI異構計算平台4.0(以下簡稱“百舸平台”),在萬卡集群的建設中發揮了至關重要的作用。
萬卡集群穩定性很重要
首先,突破硬件擴展性瓶頸,如卡間互聯的拓扑限制,避免通信帶寬成為瓶頸﹔同時,圍繞芯片及集群功耗,基於萬卡規模常規方案功耗可達十兆瓦或更高,採用創新性散熱方案,從而解決萬卡集群的能效與散熱問題﹔完善模型的分布式訓練優化,採用高效並行化任務切分策略,訓練主流開源模型的集群MFU提升至58%﹔在提升穩定性方面,提供容錯與穩定性機制,避免由於單卡故障率隨規模指數上升而造成的萬卡集群有效性大幅下降,保障有效訓練率達到98%﹔最后,針對機間通信帶寬需求,建設超大規模HPN高性能網絡,優化拓扑結構,從而降低通信瓶頸,帶寬有效性達到90%以上。
百舸4.0構建了十萬卡級別的超大規模HPN高性能網絡,針對跨地域通信中的高延遲問題,通過優化的拓扑結構、多路徑負載均衡策略及通信策略,實現了幾十公裡的跨地域通信。在通信效率上,百舸通過先進的擁塞控制算法和集合通信算法策略,實現了完全無阻塞,並通過10ms級別超高精度網絡監控,保障了網絡的穩定性。
在多芯混訓方面,百舸展現了強大的資源整合能力。它能夠將不同地點、不同規模的異構算力進行統一管理,構建起多芯資源池。當業務提交工作負載時,百舸可自動進行芯片選型,依據集群剩余的芯片資源,選擇性價比最高的芯片來運行任務,從而最大化地利用集群的剩余資源,實現高達95%的萬卡多芯混合訓練效能。
此外,在集群穩定性方面,百舸提供了全面的故障診斷手段,能夠快速自動偵測到導致訓練任務異常的節點故障。百度自研的BCCL(百度集合通信庫)能夠快速定位故障並提供自動化的容錯能力,將故障恢復時間從小時級降低到分鐘級,極大地提高了集群的可靠性和可用性。
日前,花旗銀行發布研報表示,DeepSeek、百度等中國模型展現出高效和低成本優勢,將有助於加速全球AI應用開發,並在全球引發更多技術創新,推動2025年人工智能應用的拐點。中國工程院院士、清華大學計算機系教授鄭緯民也表示,當下構建國產自主萬卡系統充滿挑戰,但“至關重要”。(記者 張雲山)
分享讓更多人看到
- 評論
- 關注