應用

技術

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

豆包提出全新稀疏模型架構 UltraMem,推理成本較 MoE 最高可降 83%

2025-02-13 09:12 IT之家

導讀:豆包大模型團隊宣布,字節(jié)跳動豆包大模型團隊提出了全新的稀疏模型架構 UltraMem,該架構有效解決了 MoE 推理時高額的訪存問題,推理速度較 MoE 架構提升 2-6 倍,推理成本最高可降低 83%。

  2 月 12 日消息,豆包大模型團隊宣布,字節(jié)跳動豆包大模型團隊提出了全新的稀疏模型架構 UltraMem,該架構有效解決了 MoE 推理時高額的訪存問題,推理速度較 MoE 架構提升 2-6 倍,推理成本最高可降低 83%。該研究還揭示了新架構的 Scaling Law,證明其不僅具備優(yōu)異的 Scaling 特性,更在性能上超越了 MoE。

  實驗結果表明,訓練規(guī)模達 2000 萬 value 的 UltraMem 模型,在同等計算資源下可同時實現(xiàn)業(yè)界領先的推理速度和模型性能,為構建數(shù)十億規(guī)模 value 或 expert 開辟了新路徑。

  據(jù)介紹,UltraMem 是一種同樣將計算和參數(shù)解耦的稀疏模型架構,在保證模型效果的前提下解決了推理的訪存問題。實驗結果表明,在參數(shù)和激活條件相同的情況下,UltraMem在模型效果上超越了 MoE,并將推理速度提升了2-6倍。此外,在常見 batch size 規(guī)模下,UltraMem 的訪存成本幾乎與同計算量的 Dense 模型相當。

  在 Transformer 架構下,模型的性能與其參數(shù)數(shù)量和計算復雜度呈對數(shù)關系。隨著 LLM 規(guī)模不斷增大,推理成本會急劇增加,速度變慢。

  盡管 MoE 架構已經(jīng)成功將計算和參數(shù)解耦,但在推理時,較小的 batch size 就會激活全部專家,導致訪存急劇上升,進而使推理延遲大幅增加。

  注:“MoE”指 Mixture of Experts(專家混合)架構,是一種用于提升模型性能和效率的架構設計。在 MoE 架構中,模型由多個子模型(專家)組成,每個專家負責處理輸入數(shù)據(jù)的一部分。在訓練和推理過程中,根據(jù)輸入數(shù)據(jù)的特征,會選擇性地激活部分專家來進行計算,從而實現(xiàn)計算和參數(shù)的解耦,提高模型的靈活性和效率。