導(dǎo)讀:?AI項目的失敗往往跟大麻煩無關(guān),而是由一個個微小細(xì)節(jié)所決定。面對種種激動人心的可能性,企業(yè)在最初啟動AI項目時往往信心滿滿。但具體實施過程中的現(xiàn)實問題很容易熄滅這份熱情,導(dǎo)致AI項目被擱置甚至最終失敗。
AI項目的失敗往往跟大麻煩無關(guān),而是由一個個微小細(xì)節(jié)所決定。面對種種激動人心的可能性,企業(yè)在最初啟動AI項目時往往信心滿滿。但具體實施過程中的現(xiàn)實問題很容易熄滅這份熱情,導(dǎo)致AI項目被擱置甚至最終失敗。而引發(fā)失敗的常見問題之一,就是組織缺乏對項目長期成本的準(zhǔn)確考量。管理層只核算出了項目的初始成本,卻沒注意到后期的維護(hù)與更新開銷。
研究企業(yè)Cognilytica就對數(shù)百個失敗的AI項目做出全面分析,意識到很多組織沒有意識到AI項目生命周期的連續(xù)性。組織通常只會為項目的前幾輪迭代分配預(yù)算,包括數(shù)據(jù)準(zhǔn)備、清洗、模型訓(xùn)練、數(shù)據(jù)標(biāo)記、模型評估和迭代需求等,但卻沒能為持續(xù)實施的迭代工作保持預(yù)算供應(yīng)。另外,組織還必須持續(xù)監(jiān)控模型和數(shù)據(jù)衰減,根據(jù)需求重新訓(xùn)練模型,并考慮未來進(jìn)一步擴展和迭代。隨著時間推移,這必然導(dǎo)致組織對AI項目的投資回報率產(chǎn)生預(yù)期偏差甚至失調(diào)。
在考量模型的連續(xù)迭代成本時,大家到底經(jīng)歷了怎樣的思考過程?大多數(shù)組織面臨的挑戰(zhàn)是,他們往往把AI項目視為一次性概念驗證或試點應(yīng)用,并沒有考慮預(yù)留一部分資金、資源和人力用于模型的持續(xù)評估和重新訓(xùn)練。但作為典型的數(shù)據(jù)驅(qū)動項目,AI絕不是一次性投資。人們可能沒有意識到,一旦模型被投入生產(chǎn),他們就需要持續(xù)為模型的迭代和開發(fā)分配資金、資源和人力。
所以只考慮到模型構(gòu)建成本的組織,會在項目啟動之后遇到各種問題。以AI項目成本和投資回報為例,AI項目所有者需要關(guān)注模型的維護(hù)成本是多少,以及愿意為后續(xù)數(shù)據(jù)準(zhǔn)備和模型迭代再投入多少資源。
而成功AI項目的一大共通之處,就在于其功能不會一次性交付。相反,成功的項目會將AI方案視為持續(xù)迭代的循環(huán),并不存在明確的起點和終點。就如同網(wǎng)絡(luò)安全項目不是一次性項目一樣,AI這類數(shù)據(jù)驅(qū)動項目也需要持續(xù)運轉(zhuǎn),確保適應(yīng)不斷變化的現(xiàn)實、不斷變化的數(shù)據(jù)。即使是最初效果極好的模型,也可能隨著時間推移而逐漸失效,畢竟數(shù)據(jù)漂移和模型漂移不可避免。此外,隨著組織自身的發(fā)展,對AI應(yīng)用的專業(yè)知識和技巧、用例、模型及數(shù)據(jù)也會持續(xù)更新、不斷變化。
再有,全球經(jīng)濟(jì)和世界格局也在以意想不到的方式震蕩波動。于是乎,任何長期規(guī)劃項目、包括極度復(fù)雜的AI項目,都免不了要隨之做出調(diào)整。過去兩年以來,零售商肯定預(yù)料不到供應(yīng)鏈和勞動力市場出現(xiàn)的沖擊,組織也想不到員工會快速轉(zhuǎn)向居家辦公?,F(xiàn)實世界和用戶行為的快速變化必然導(dǎo)致數(shù)據(jù)發(fā)生變化,所以模型也得隨之變化。正因為如此,我們才需要對模型開展持續(xù)監(jiān)控和迭代,充分考慮到數(shù)據(jù)漂移與模型漂移問題。
關(guān)于迭代的思考:方法論與ML Ops
當(dāng)組織計劃擴展或增強模型時,也同樣需要匹配原有模型迭代機制。例如,如果一家北美企業(yè)希望將購買模式預(yù)測模型擴展到其他市場,就需要持續(xù)迭代模型和數(shù)據(jù)以適應(yīng)新的數(shù)據(jù)需求。
這些因素意味著,組織必須不斷為迭代提供額外資金,確保模型能夠正確識別數(shù)據(jù)源及其他關(guān)鍵因素。而獲得AI成功的組織也意識到,他們需要遵循經(jīng)驗驗證的迭代和敏捷方法,借此順利完成AI項目擴展。憑借敏捷方法論和以數(shù)據(jù)為中心的項目管理思路,跨行業(yè)數(shù)據(jù)挖掘流程標(biāo)準(zhǔn)(CRISP-DM)等已經(jīng)開始增強AI功能,保證迭代項目不至于遺漏掉某些關(guān)鍵步驟。
隨著AI市場的不斷發(fā)展,名為“ML Ops”的新興機器學(xué)習(xí)模型運營管理也開始受到追捧。ML Ops專注于模型的開發(fā)和使用、機器學(xué)習(xí)運營及部署的整個生命周期。ML Ops方法及解決方案旨在幫助組織在持續(xù)發(fā)展的空間當(dāng)中管理并監(jiān)控AI模型。ML Ops也可謂站在巨人的肩膀上,充分汲取了DevOps以開發(fā)為中心的項目持續(xù)迭代/開發(fā)思路,以及DataOps對于不斷變化的大規(guī)模數(shù)據(jù)集的管理經(jīng)驗。
ML Ops的目標(biāo)是為組織提供模型漂移、模型治理與版本控制等可見性指引,借此協(xié)助AI項目迭代。ML Ops能幫助大家更好地管理這些問題。雖然目前市面上充斥著各種ML Ops工具,但ML Ops與DevOps一樣,主要強調(diào)的是組織自己做事,而非花錢購買就能無腦解決。Ml Ops最佳實踐涵蓋模型治理、版本控制、發(fā)現(xiàn)、監(jiān)控、透明度以及模型安全/迭代等一系列環(huán)節(jié)。ML Ops解決方案還能同時支持同一模型的多個版本,根據(jù)特定需求對其進(jìn)行行為定制。這類解決方案還會跟蹤、監(jiān)控和確定誰有權(quán)訪問哪些模型,同時嚴(yán)格保障治理及安全管理等原則。
考慮到AI迭代的現(xiàn)實需求,ML Ops已經(jīng)開始成為整體模型構(gòu)建與管理環(huán)境中的重要組成部分。這些功能未來也有望越來越多地作為整體AI及ML工具集中的一分子,并逐步登陸云解決方案、開源產(chǎn)品及ML機器學(xué)習(xí)平臺等應(yīng)用場景。
失敗是成功之母
ML Ops與AI項目的成功,離不開最佳實踐的支持和引導(dǎo)。問題并不會導(dǎo)致AI項目失敗,無法準(zhǔn)確解決問題才是失敗的根源。組織需要將AI項目視為一種迭代且循序漸進(jìn)的過程,并充分通過AI認(rèn)知項目管理(CPMAI)方法和不斷發(fā)展的ML Ops工具探索出適合自己的最佳實踐。從大處著眼,從小處著手,持續(xù)迭代的理念應(yīng)當(dāng)貫穿AI項目的整個生命周期。這些失敗案例絕不是故事的終章,而應(yīng)該成為新的開始。