技術(shù)
導(dǎo)讀:摩爾線程宣布,其 AI 旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案從當(dāng)前的千卡級(jí)別擴(kuò)展至萬(wàn)卡規(guī)模。
7 月 3 日消息,摩爾線程宣布,其 AI 旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案從當(dāng)前的千卡級(jí)別擴(kuò)展至萬(wàn)卡規(guī)模。
摩爾線程夸娥萬(wàn)卡智算集群,以全功能 GPU 為底座,打造能夠承載萬(wàn)卡規(guī)模、具備萬(wàn) P 級(jí)浮點(diǎn)運(yùn)算能力的國(guó)產(chǎn)通用加速計(jì)算平臺(tái),專為萬(wàn)億參數(shù)級(jí)別的復(fù)雜大模型訓(xùn)練而設(shè)計(jì)。
夸娥萬(wàn)卡智算解決方案具備以下核心特性:
萬(wàn)卡萬(wàn) P:夸娥智算集群實(shí)現(xiàn)單集群規(guī)模超萬(wàn)卡,浮點(diǎn)運(yùn)算能力達(dá)到 10Exa-Flops,達(dá)到 PB 級(jí)的超大顯存總?cè)萘俊⒚棵?PB 級(jí)的超高速卡間互聯(lián)總帶寬和每秒 PB 級(jí)超高速節(jié)點(diǎn)互聯(lián)總帶寬。
長(zhǎng)穩(wěn)訓(xùn)練:摩爾線程夸娥萬(wàn)卡集群平均無(wú)故障運(yùn)行時(shí)間超過(guò) 15 天,最長(zhǎng)可實(shí)現(xiàn)大模型穩(wěn)定訓(xùn)練 30 天以上,周均訓(xùn)練有效率在 99% 以上,遠(yuǎn)超行業(yè)平均水平。
高 MFU:夸娥萬(wàn)卡集群在系統(tǒng)軟件、框架、算法等層面一系列優(yōu)化,實(shí)現(xiàn)大模型的高效率訓(xùn)練,MFU(評(píng)估大模型訓(xùn)練效率的通用指標(biāo))最高可達(dá)到 60%。
生態(tài)友好:可加速 LLM、MoE、多模態(tài)、Mamba 等不同架構(gòu)、不同模態(tài)的大模型?;?MUSA 編程語(yǔ)言、完整兼容 CUDA 能力和自動(dòng)化遷移工具 Musify,加速新模型“Day0”級(jí)遷移。
IT之家獲悉,摩爾線程將開展三個(gè)萬(wàn)卡集群項(xiàng)目,分別為青海零碳產(chǎn)業(yè)園萬(wàn)卡集群項(xiàng)目、青海高原夸娥萬(wàn)卡集群項(xiàng)目、廣西東盟萬(wàn)卡集群項(xiàng)目。