應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

芯片的“小”問題,正在困擾大客戶

2022-02-08 15:47 半導(dǎo)體行業(yè)觀察

導(dǎo)讀:隨著計算機芯片中的微型開關(guān)已經(jīng)縮小到幾個原子的寬度,芯片的可靠性已成為運行世界上最大網(wǎng)絡(luò)的人們的另一個擔(dān)憂。去年,亞馬遜、Facebook、Twitter 和許多其他網(wǎng)站等公司都經(jīng)歷了令人驚訝的中斷。

  想象一下,為世界上最大的數(shù)據(jù)中心提供動力的服務(wù)器內(nèi)的數(shù)百萬個計算機芯片存在罕見的、幾乎無法檢測到的缺陷。發(fā)現(xiàn)缺陷的唯一方法是將這些芯片投入到巨大的計算問題上,這在十年前是不可想象的。

  隨著計算機芯片中的微型開關(guān)已經(jīng)縮小到幾個原子的寬度,芯片的可靠性已成為運行世界上最大網(wǎng)絡(luò)的人們的另一個擔(dān)憂。去年,亞馬遜、Facebook、Twitter 和許多其他網(wǎng)站等公司都經(jīng)歷了令人驚訝的中斷。

  中斷有幾個原因,例如編程錯誤和網(wǎng)絡(luò)擁塞。但人們越來越擔(dān)心,隨著云計算網(wǎng)絡(luò)變得越來越大、越來越復(fù)雜,它們在最基本的層面上仍然依賴于現(xiàn)在不太可靠、在某些情況下更難以預(yù)測的計算機芯片。

  在過去的一年里,F(xiàn)acebook 和谷歌的研究人員都發(fā)表了描述計算機硬件故障的研究,這些故障的原因不容易確定。他們認(rèn)為,問題不在于軟件,而在于不同公司制造的計算機硬件的某個地方。谷歌拒絕對其研究發(fā)表評論,而 Facebook 沒有回復(fù)對其研究發(fā)表評論的請求。

  “他們看到了這些無聲的錯誤,基本上來自底層硬件,”專門測試計算機硬件的斯坦福大學(xué)電氣工程師 Subhasish Mitra 說。Mitra 博士說,人們越來越相信制造缺陷與這些不易被發(fā)現(xiàn)的所謂無聲錯誤有關(guān)。

  研究人員擔(dān)心他們會發(fā)現(xiàn)罕見的缺陷,因為他們正試圖解決越來越大的計算問題,這會以意想不到的方式給他們的系統(tǒng)帶來壓力。

  十多年前,運行大型數(shù)據(jù)中心的公司開始報告系統(tǒng)性問題。2015 年,在工程出版物IEEE Spectrum中,一群在多倫多大學(xué)研究硬件可靠性的計算機科學(xué)家報告說,每年谷歌數(shù)百萬臺計算機中有多達(dá) 4% 遇到無法檢測到的錯誤并導(dǎo)致他們意外關(guān)閉。

  在一個擁有數(shù)十億個晶體管的微處理器中——或者一個由數(shù)萬億個微型開關(guān)組成的計算機內(nèi)存板中,每個微型開關(guān)都可以存儲一個 1 或 0——即使是最小的錯誤也會破壞現(xiàn)在通常每秒執(zhí)行數(shù)十億次計算的系統(tǒng)。

  在半導(dǎo)體時代初期,工程師們擔(dān)心宇宙射線偶爾會翻轉(zhuǎn)單個晶體管并改變計算結(jié)果的可能性?,F(xiàn)在他們擔(dān)心開關(guān)本身越來越不可靠。Facebook 研究人員甚至爭辯說,這些開關(guān)變得越來越容易磨損,并且計算機內(nèi)存或處理器的壽命可能比以前認(rèn)為的要短。

  越來越多的證據(jù)表明,隨著每一代新一代芯片的出現(xiàn),這個問題都在惡化。芯片制造商 Advanced Micro Devices 于 2020 年發(fā)布的一份報告發(fā)現(xiàn),當(dāng)時最先進(jìn)的計算機內(nèi)存芯片的可靠性大約比上一代低 5.5 倍。AMD 沒有回應(yīng)對該報告發(fā)表評論的請求。

  資深硬件工程師大衛(wèi)·迪策爾 (David Ditzel) 說,追蹤這些錯誤具有挑戰(zhàn)性,他是 Esperanto Technologie公司的董事長兼創(chuàng)始人,該公司是加州山景城為人工智能應(yīng)用設(shè)計的新型處理器的制造商。他說,他的公司的新芯片剛剛上市的 1,000 個處理器由 280 億個晶體管組成。

  他將芯片比作一座橫跨整個美國表面的公寓樓,發(fā)現(xiàn)新錯誤有點像在那棟樓的一間公寓里尋找一個正在運行的水龍頭,只有當(dāng)臥室燈亮著并且公寓門打開時才會出現(xiàn)故障。

  到目前為止,計算機設(shè)計人員一直試圖通過在芯片中添加特殊電路來糾正錯誤來處理硬件缺陷。電路自動檢測和糾正不良數(shù)據(jù)。它曾經(jīng)被認(rèn)為是一個極其罕見的問題。但幾年前,谷歌生產(chǎn)團(tuán)隊開始報告難以診斷的錯誤。根據(jù)他們的報告,計算錯誤會間歇性發(fā)生并且難以重現(xiàn)。

  一組研究人員試圖追查這個問題,去年他們發(fā)表了他們的發(fā)現(xiàn)。他們得出的結(jié)論是,該公司龐大的數(shù)據(jù)中心由基于數(shù)百萬個處理器“內(nèi)核”的計算機系統(tǒng)組成,正在經(jīng)歷新的錯誤,這可能是幾個因素的組合:接近物理極限的較小晶體管和測試不足。

  谷歌研究人員在他們的論文“不重要的核心”中指出,這個問題非常具有挑戰(zhàn)性,以至于他們已經(jīng)投入了相當(dāng)于數(shù)十年的工程時間來解決它。

  現(xiàn)代處理器芯片由數(shù)十個處理器內(nèi)核組成,計算引擎可以分解任務(wù)并并行解決它們。研究人員發(fā)現(xiàn),一小部分核心很少會產(chǎn)生不準(zhǔn)確的結(jié)果,而且僅在某些條件下才會產(chǎn)生。他們將這種行為描述為零星的。在某些情況下,只有在計算速度或溫度發(fā)生變化時,內(nèi)核才會產(chǎn)生錯誤。

  據(jù)谷歌稱,處理器設(shè)計復(fù)雜性的增加是失敗的重要原因之一。但工程師們也表示,較小的晶體管、三維芯片和僅在某些情況下會產(chǎn)生錯誤的新設(shè)計都導(dǎo)致了這個問題。

  在去年發(fā)布的一篇類似論文中,F(xiàn)acebook 的一組研究人員指出,一些處理器會通過制造商的測試,但在投入使用時就開始出現(xiàn)故障。

  英特爾高管表示,他們熟悉谷歌和 Facebook 的研究論文,并正在與兩家公司合作開發(fā)檢測和糾正硬件錯誤的新方法。

  英特爾數(shù)據(jù)平臺集團(tuán)副總裁 Bryan Jorgensen 表示,研究人員所做的斷言是正確的,“他們對行業(yè)提出的挑戰(zhàn)是正確的去處?!?/p>

  他說英特爾最近啟動了一個項目,幫助為數(shù)據(jù)中心運營商創(chuàng)建標(biāo)準(zhǔn)的開源軟件。該軟件將使他們能夠發(fā)現(xiàn)并糾正芯片內(nèi)置電路未檢測到的硬件錯誤。

  去年,當(dāng)英特爾的幾位客戶悄悄地發(fā)出警告稱他們的系統(tǒng)產(chǎn)生了未檢測到的錯誤時,這一挑戰(zhàn)就凸顯出來了。

  全球最大的個人電腦制造商聯(lián)想告知其客戶,幾代英特爾至強處理器的設(shè)計變化意味著這些芯片可能會產(chǎn)生比早期的英特爾微處理器更多的無法糾正的錯誤。

  英特爾沒有公開談?wù)撨@個問題,但喬根森先生承認(rèn)了這個問題,并表示它已經(jīng)得到糾正。此后,該公司改變了設(shè)計。

  計算機工程師對于如何應(yīng)對挑戰(zhàn)存在分歧。一種普遍的反應(yīng)是對新型軟件的需求,這些軟件可以主動監(jiān)視硬件錯誤,并使系統(tǒng)操作員能夠在硬件開始退化時將其移除。這為提供監(jiān)控數(shù)據(jù)中心底層芯片健康狀況的軟件的新初創(chuàng)企業(yè)創(chuàng)造了機會。

  加利福尼亞州洛斯加托斯的一家公司 TidalScale 就是這樣的一家公司,該公司為試圖將硬件中斷最小化的公司提供專門的軟件。其首席執(zhí)行官 Gary Smerdon 表示,TidalScale 和其他公司面臨著嚴(yán)峻的挑戰(zhàn)。

  “這有點像在飛機還在飛行時更換發(fā)動機,”他說。

board-453758_1280.jpg