導讀:得一提的是,電容器組件形成在硅片上深且窄的溝槽中(類似 DRAM)。通過將這些電荷儲存組件放置在靠近晶體管的位置,以實現(xiàn)更平滑的功率傳輸,從而使 IPU 內核在較低電壓下運行得更快。
得益于臺積電 3D 晶圓鍵合(wafer-on-wafer)技術,總部位于英國的 Graphcore 能夠在不大刀闊斧改變自家專用 AI 處理器內核的情況下,顯著提升其計算性能。Graphcore 高管稱,名為 Bow 的新型組合芯片,將被率先投放于倫敦的某個地區(qū)。
Bow 與舊款 Colossus MK2 芯片均使用了 TSMC N7 工藝制造(圖自:Graphcore)
在電壓低于前身的情況下,Bow 還可運行得更快速(1.85 vs 1.35 GHz),意味著計算機迅雷神經網絡的速度提升了 40%、同時能耗降低了 16% 。更棒的是,用戶無需修改軟件,即可獲得這些益處。
Graphcore 首席技術官兼聯(lián)合創(chuàng)始人 Simon Knowles 表示:“我們正在進入一個先進封裝的時代,通過將多個硅芯片組裝在一起,我們得以在其它方面彌補性能增長不斷放緩的摩爾定律”。
作為比較,英特爾 Foveros 方案選擇了將切割后的芯片連接到其它芯片或晶圓上。而臺積電的 SoIC WoW 技術,則是將兩個完整的芯片晶圓鍵合到了一起。
每個芯片上的銅焊盤在晶圓對齊時匹配,再將兩個晶片疊壓到一起時讓焊盤熔斷。我們可將至視作某種冷焊,接著將頂部晶圓削薄到僅數(shù)微米,最后將鍵合晶圓切割成芯片。
BOW 實測性能增益
在 Graphcore 的案例中,其在一塊晶圓上填滿了該公司的第二代 AI 處理器,擁有 1472 個智能處理單元(IPU)和 900MB 片上緩存。
這些處理器已在商業(yè)系統(tǒng)中得到應用,并在最近一次 MLPerf 基準測試中交出了相當不錯的答卷。
至于另一個晶片,其擁有一套相應的供電芯片(不包含晶體管或其它有源器件),配備了電容并通過硅通孔(TSV)來垂直連接。
值得一提的是,電容器組件形成在硅片上深且窄的溝槽中(類似 DRAM)。通過將這些電荷儲存組件放置在靠近晶體管的位置,以實現(xiàn)更平滑的功率傳輸,從而使 IPU 內核在較低電壓下運行得更快。
能效增益
若缺乏這一方案,Graphcore 就必須將 IPU 工作電壓提升到更高,才能維持 1.85 GHz 的工作頻率。此外借助電源芯片,也可助力其達成該時鐘頻率、并減少能源開銷。
Graphcore 高管補充道,Wafer-on-Wafer 技術使得芯片之間的鏈接密度可高于將單個芯片連接到晶圓上,但也面臨一批晶圓中難免有少數(shù)存在缺陷的問題。
通過鍵合兩片晶圓,會使得成品芯片的缺陷率翻番。為了緩解這種情況的發(fā)生,Graphcore 選擇了一套機智的應對方法 —— 與其它 AI 處理器一樣,IPU 由許多重復、冗余的處理器內核和其它部分組成。
公司聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Nigel Toon 指出,任何缺陷都可通過內置的保險電路,讓它們與 IPU 的其余部分隔離開來。
TSMC 晶圓鍵合工藝的層級示意
有趣的是,盡管 BOW 尚未在供電芯片上堆砌晶體管,但 Simon Knowles 暗示道 —— 當前工作只能算是邁出了第一部,該公司將在不久的將來“走得更遠”。
此外該公司披露了一些計劃,比如將打造可訓練“人腦規(guī)?!比斯ぶ悄艿某売嬎銠C —— 在神經網絡中具有數(shù)百億的參數(shù)數(shù)量級。
而以英國數(shù)學家 I.J.“Jack”Good 命名的“Good 計算機”—— 由 512 個系統(tǒng) / 8192 個 IPU)、大容量存儲、CPU 和網格組成 —— 將能夠處理超過 10 ExaFlops(千億億次)的浮點運算。
在 4PB 內存和每秒超 10PB 帶寬的加持下,Graphcore 預計每臺超算造價在 1.2 億美元左右,且有望于 2024 年交付使用。