導讀:過去多年里,邏輯和內存分別獨立的馮·諾依曼 (JOHN VON NEUMANN) 的原始計算機架構運行良好。但一些公司認為現(xiàn)在是改變的時候了。
過去多年里,邏輯和內存分別獨立的馮·諾依曼 (JOHN VON NEUMANN) 的原始計算機架構運行良好。但一些公司認為現(xiàn)在是改變的時候了。
近年來,向更多并行處理的轉變以及神經(jīng)網(wǎng)絡規(guī)模的大幅增加意味著處理器需要更快地從內存中訪問更多數(shù)據(jù)。然而,“DRAM 和處理器之間的性能差距比以往任何時候都大,”韓國先進科學技術研究所 3D 存儲芯片專家、IEEE Fellow Joungho Kim說。馮諾依曼架構成為馮諾依曼瓶頸。
相反,如果至少有一些處理發(fā)生在內存中呢?則意味著需要在芯片之間移動的數(shù)據(jù)更少,而且您也可以節(jié)省能源。這不是一個新想法。但它的時刻可能終于到來了。
去年,全球最大的動態(tài)隨機存取存儲器 (DRAM) 制造商三星開始推出內存處理 (PIM) 技術。其首個 PIM 產(chǎn)品于 2021 年 2 月推出,在其Aquabolt-XL高帶寬內存中集成了專注于 AI 的計算內核。HBM 是一種圍繞一些頂級 AI 加速器芯片的專用 DRAM。時任三星內存業(yè)務部高級副總裁的 IEEE 院士Nam Sung Kim表示,新內存旨在作為普通 HBM 芯片的“直接替代品”。
去年 8 月,三星公布了在合作伙伴系統(tǒng)中的測試結果。當與 Xilinx Virtex Ultrascale + (Alveo) AI 加速器一起使用時,PIM 技術為語音識別神經(jīng)網(wǎng)絡提供了近 2.5 倍的性能提升和 62% 的能耗降低。三星一直在提供集成到當前一代高帶寬 DRAM HBM2 中的技術樣本。它還為下一代 HBM3 和移動設備中使用的低功耗 DRAM 開發(fā) PIM。它預計將在 2022 年上半年與JEDEC一起完成后者的標準。
有很多方法可以將計算智能添加到存儲芯片中。三星選擇了一種快速而簡單的設計。HBM 由一堆 DRAM 芯片組成,這些芯片通過稱為硅通孔 (TSV) 的互連垂直連接。存儲器芯片堆棧位于作為處理器接口的邏輯芯片之上。
一些內存中處理項目
美光科技
這家第三大 DRAM 制造商表示,它沒有內存處理產(chǎn)品。然而,在2019 年,它收購了人工智能技術初創(chuàng)公司 Fwdnxt,目標是開發(fā)“讓內存和計算更緊密結合的創(chuàng)新”。
NeuroBlade
這家以色列初創(chuàng)公司開發(fā)了具有集成處理核心的內存,旨在加速數(shù)據(jù)分析中的查詢。
Rambus
DRAM 接口技術公司的工程師對內存處理 DRAM 進行了探索性設計,重點是降低高帶寬內存 (HBM) 的功耗。
三星
全球最大的 DRAM 制造商正在提供具有集成 AI 計算核心的 Aquabolt-XL。它還開發(fā)了用于內存模塊的 AI 加速器,并致力于標準化 AI 加速的 DRAM。
SK海力士
第二大 DRAM 制造商和普渡大學的工程師在2020 年公布了 Newton(一種AI 加速 HBM DRAM)的結果,但該公司決定不將其商業(yè)化,而是為標準 DRAM 尋求 PIM。
堆棧中最高的數(shù)據(jù)帶寬位于每個芯片內,其次是 TSV,最后是與處理器的連接。因此三星選擇將處理放在 DRAM 芯片上,以利用那里的高帶寬。計算單元旨在執(zhí)行最常見的神經(jīng)網(wǎng)絡計算,稱為乘法和累加,除此之外別無他物。其他設計已將 AI 邏輯放在接口芯片上或使用更復雜的處理核心。
三星最大的兩個競爭對手, SK海力士與美光科技,還沒有準備好要為HBM上PIM,雖然他們已經(jīng)實現(xiàn)每對其他類型的存內處理。
位于韓國利川的第二大 DRAM 供應商 SK 海力士正在從多個角度探索 PIM ,該公司副總裁兼內存解決方案產(chǎn)品開發(fā)主管Il Park表示,目前他們正在標準 DRAM 芯片中尋求 PIM,而不是 HBM,后者可能更容易被客戶采用。
對于 SK 海力士來說,HBM PIM 更像是一種中長期的可能性。目前,客戶已經(jīng)在處理足夠多的問題,因為他們試圖將 HBMDRAM 從物理上移到更靠近處理器的位置?!霸擃I域的許多專家不想在涉及 HBM 的已經(jīng)很繁忙的情況之上增加更多且相當重要的復雜性,”Park 說。
也就是說,SK 海力士的研究人員在 2019 年與普渡大學的計算機科學家合作,對一種名為 Newton的HBM-PIM 產(chǎn)品進行了全面設計。與三星的 Aquabolt-XL 一樣,它在存儲庫中放置了乘法和累加單元,以利用芯片本身的高帶寬。
此同時,Rambus 研究員和杰出發(fā)明家Steven Woo表示,由于功耗問題,位于加利福尼亞州圣何塞的 Rambus 有動力探索 PIM 。該公司設計了處理器和內存之間的接口,片上系統(tǒng)及其 HBM 內存消耗的三分之二的功率用于在兩個芯片之間水平傳輸數(shù)據(jù)。在 HBM 內垂直傳輸數(shù)據(jù)使用的能量要少得多,因為距離要短得多?!澳憧赡苄枰揭苿?10 到 15 毫米才能將數(shù)據(jù)傳回 SoC,”Woo 說?!暗珡拇怪狈较蚩矗阏f的是幾百微米的數(shù)量級?!?/p>
Rambus 的實驗性 PIM 設計在 HBM 堆棧的頂部添加了一個額外的硅層來進行 AI 計算。為了避免 HBM 中央硅通孔的潛在帶寬瓶頸,該設計添加了 TSV 以將存儲庫與 AI 層連接起來。Woo 認為,在每個內存芯片中都有一個專用的 AI 層可以讓內存制造商為不同的應用定制內存。
采用 PIM 的速度將取決于 AI 加速器的制造商對其提供的內存帶寬緩解的絕望程度。Technalysis Research 的首席分析師 Bob O'Donnell表示:“三星已經(jīng)投入了大量資金。”“[PIM] 能否取得商業(yè)成功還有待觀察。