導讀:早期部署者正嘗試使用人工智能來優(yōu)化電源和冷卻系統(tǒng),實現(xiàn)自動化的預測性維護,以及改進企業(yè)數(shù)據(jù)中心中的工作負載分配。
關于人工智能的討論目前主要還集中在自動駕駛汽車、聊天機器人、數(shù)字孿生技術、機器人技術以及從大數(shù)據(jù)集中利用基于AI的“智能”系統(tǒng)獲取業(yè)務洞察力等方面。目前盡管可以自主運維的數(shù)據(jù)中心和自動駕駛汽車一樣還沒有成為現(xiàn)實,但是數(shù)據(jù)中心人工智能已經(jīng)在技術、運維和人員等方面取得了許多重大突破。
人工智能(AI)和機器學習(ML)終究有一天將在企業(yè)數(shù)據(jù)中心內(nèi)發(fā)揮重要作用。未來人工智能或許可以幫助企業(yè)創(chuàng)建高度自動化的、安全的且具有自我修復功能的數(shù)據(jù)中心。這些數(shù)據(jù)中心能夠以更高的效率和更高的彈性運行,幾乎不再需要進行人工干預。
人工智能提升數(shù)據(jù)中心效率和擴展業(yè)務的潛力主要在以下4個方面:
安全性:公安部在16個城市試點基礎上,在全國分兩批推廣機動車檢驗標志電子化。工作負載管理:AI系統(tǒng)可實現(xiàn)工作負載實時地自動向效率最高的基礎設施遷移,這些基礎設施既可以在數(shù)據(jù)中心內(nèi)部,也可以在混合云環(huán)境上;既可以在本地,也可以在云端,還可以在邊緣環(huán)境中。電源管理:基于AI的電源管理可優(yōu)化冷卻系統(tǒng),降低電費成本,減少人員數(shù)量,提高效率。設備管理:AI系統(tǒng)可以檢查系統(tǒng)是否配置正確,監(jiān)視服務器、存儲和網(wǎng)絡設備的健康狀況,預測設備的故障時間。
人工智能與安全
安全運營中心(SOC)的安全專業(yè)人員常常會被大量的警報搞得精疲力盡。基于AI的系統(tǒng)可以掃描大量遙測數(shù)據(jù)和日志信息,處理一些簡單的工作,從而使得安全專家有時間展開深入的調(diào)查。基于AI的系統(tǒng)可以檢測、阻止和隔離威脅,并展開溯源以確定到底發(fā)生了什么,以及黑客能夠利用哪些漏洞。這使得人工智能在實時入侵檢測方面極為有用。
迅速進行根本原因分析可以幫助運維人員做出明智的決定并采取行動。人工智能和機器學習可以通過對事件進行快速分類和聚類的方式,識別出重要事件并將其與噪音分離,從而簡化事件處理(事件響應)。
除了可以幫助解譯那些超出人類能力水平的數(shù)據(jù)外,AI自動化還可在優(yōu)化能源使用、工作負載分配和數(shù)據(jù)中心資產(chǎn)利用效率最大化等方面幫助獲取深刻的洞察力。
基于AI的工作負載優(yōu)化
無論是在本地還是在云端,AI在應用程序層可自動將工作負載移動到適當?shù)奈恢谩@?,將工作負載自動遷移到最節(jié)能的服務器上,同時確保服務器以最高效率(利用率為70%~80%)運行。
人工智能系統(tǒng)還可將時間敏感性高的應用程序遷移到高效率服務器上運行,同時確保那些不需要迅速執(zhí)行的應用程序不會消耗過多的電力。
未來,AI/ML還可根據(jù)性能、成本、治理、安全性、風險和可持續(xù)性等因素,實時決定將工作負載遷移至何處。
將電源管理與服務器工作負載管理整合在一起
AI帶來的好處與出色硬件設計所帶來的好處不在一個層次上。電源管理則是最容易進行改進的地方。這關乎生產(chǎn)力,關系到每個BTU是否可以完成更多的工作,關系到每瓦特電能是否能做更多的工作。
這也意味著工作要更加智能化,以及設備是否能夠更加智能地工作。如果傳感器檢測到服務器運行溫度過高,那么系統(tǒng)可自動地快速將工作負載轉移到未充分利用的服務器上,以避免關鍵任務應用程序出現(xiàn)中斷的危險。同時系統(tǒng)會調(diào)查服務器過熱的原因,是風扇出現(xiàn)了故障(HVAC問題),還是物理組件出現(xiàn)了故障(設備問題),亦或是服務器出現(xiàn)了過載(工作負荷問題)。
AI系統(tǒng)還可以通過關聯(lián)HVAC系統(tǒng)數(shù)據(jù)和環(huán)境傳感器數(shù)據(jù)來了解設施目前的狀態(tài)。例如,基于AI的系統(tǒng)可以幫助數(shù)據(jù)中心管理員了解當前或潛在的冷卻問題。如HVAC單元性能不佳、冷熱通道之間的空氣量不足,以及由于機柜密度過高阻礙了空氣流通導致冷氣輸送不足等問題。
容量規(guī)劃也是一個可能改進的地方。除了尋找發(fā)熱點和冷卻點之外,AI系統(tǒng)還能確保數(shù)據(jù)中心只為適當數(shù)量的物理服務器提供電力,如果出現(xiàn)臨時性需求激增的情況,系統(tǒng)還可以啟動新的物理服務器以提高可用容量。
許多企業(yè)之所以正在花大力氣研究數(shù)據(jù)中心電源管理,一方面是為了節(jié)省資金,另一方面也是為了承擔起企業(yè)的環(huán)保責任。有數(shù)據(jù)顯示,數(shù)據(jù)中心消耗了全球3%的電力供應,并造成了約2%的溫室氣體排放。
谷歌在2018年曾宣布已將其多個超大規(guī)模數(shù)據(jù)中心的冷卻系統(tǒng)控制權交給AI程序控制,由AI算法提供的建議使得耗電量下降了40%。
運行狀態(tài)監(jiān)控和配置管理監(jiān)督
安裝了大量組件的IT機柜是勞動密集型工作,因此檢查工作可能會存在不及時和不徹底情況。運行狀態(tài)監(jiān)視可檢查設備配置是否正確以及性能是否達到預期效果。
數(shù)據(jù)中心內(nèi)還有許多需要定期維護的物理設備。AI系統(tǒng)不僅可以對這些物理設備進行定期維護,還可收集和分析遙測數(shù)據(jù),幫助確定需要立即關注的特定區(qū)域。以大量傳感數(shù)據(jù)日志為基礎的預測性設備故障建模可以發(fā)現(xiàn)迫在眉睫的組件或設備故障,并評估是否需要立即維護以避免服務中斷。
人工智能系統(tǒng)最終可能會實現(xiàn)“告訴我問題出在哪里,我去解決這些問題”,但是即便實現(xiàn)了這一功能,許多數(shù)據(jù)中心運營商可能只會接受“如果出了問題,請告訴我要去哪里查看就行了?!?/p>
保持設備平穩(wěn)安全運行的另一個重要環(huán)節(jié)是控制“配置漂移”。AI可作為“額外的安全檢查”,可幫助識別出由于配置導致的數(shù)據(jù)中心問題。(注:配置漂移為數(shù)據(jù)中心術語,指臨時配置隨著時間的變化可能會導致一些問題的發(fā)生。)
部署AI所面臨的挑戰(zhàn)
優(yōu)化和自動化數(shù)據(jù)中心是數(shù)字化轉型計劃中不可或缺的一部分。新冠疫情讓許多公司開始尋求數(shù)據(jù)中心的進一步自動化,實現(xiàn)數(shù)字數(shù)據(jù)中心由AI驅動并可自我修復。這使得AI在數(shù)據(jù)中心中具有廣闊的應用前景。一些AI/ML功能可用于事件處理、基礎設施運行狀況和散熱優(yōu)化。
盡管如此,要想讓AI/ML模型超越目前的標準數(shù)據(jù)中心基礎設施管理(DCIM)需要有更多突破,和更多的時間。這與自動駕駛汽車的發(fā)展極為類似,早期階段可能非常具有吸引力,但是與最終承諾的顛覆性經(jīng)濟/商業(yè)案例相比仍然相去甚遠。
AIOps平臺的成熟度、IT技能和運維成熟度均為重大挑戰(zhàn)。更高級別的部署面臨的挑戰(zhàn)還包括數(shù)據(jù)質(zhì)量,以及IT基礎設施和運維團隊缺乏數(shù)據(jù)科學技能。此外,需要雇用或培訓合適的人來管理系統(tǒng),以及需要數(shù)據(jù)標準和相關體系結構都是部署AI時所面臨的挑戰(zhàn)。
但是自始至終最大的挑戰(zhàn)還是在于人。各種基礎設施的運維人員都在做放權給AI的準備。但是如果人們并不信任做出決定的決策者,那么在如此大規(guī)模的過渡期間人員如何培訓,如何安撫人員的情緒?在過渡期間,人們普遍會想一個問題,那就是如果自己照做了,自己會失業(yè)嗎?
對許多企業(yè)來說,不僅聘用到資深的數(shù)據(jù)科學家是一個挑戰(zhàn),就連培訓現(xiàn)有員工也困難重重。因為企業(yè)員工抵制技術的傳統(tǒng)由來已久。以軟件定義網(wǎng)絡(SDN)為例,SDN已經(jīng)推出十年了,但是仍有3/4以上的IT運維在使用命令行界面。