導讀:對于BI、大數(shù)據(jù)和AI之間的關系,可以理解為,大數(shù)據(jù)是AI場景應用的重要基礎,而AI是大數(shù)據(jù)的應用的重要領域。
對于BI、大數(shù)據(jù)和AI之間的關系,可以理解為,大數(shù)據(jù)是AI場景應用的重要基礎,而AI是大數(shù)據(jù)的應用的重要領域。
近年,隨著企業(yè)數(shù)字化轉(zhuǎn)型的不斷深入,以及對智能化場景應用需求的日趨迫切,使得企業(yè)對大數(shù)據(jù)、人工智能、BI等技術越來越關注。這使得企業(yè)在數(shù)據(jù)應用實踐中面臨一個問題,到底是選擇大數(shù)據(jù)還是BI?這是其實是兩者實際上時相互依賴,相互滲透遞進的。
什么是商業(yè)智能?
商業(yè)智能,英文是Business Intelligence,縮寫B(tài)I,是用來幫助企業(yè)更好地利用數(shù)據(jù)提高決策質(zhì)量的技術集合,是從大量的數(shù)據(jù)中鉆取信息與知識的過程。對于概念大家可能一知半解。如什么叫高質(zhì)量決策的技術集合?什么叫鉆取信息與知識?對于完全沒有基礎的人是很難理解?下面就從到一個餐廳點單開始說起。
餐廳點單的時候,顧客點了一份水煮魚片,這是一個需求。有了這個需求,餐廳就得照單備菜,這就需要我們把原材料準備好,比如草魚或青魚、配菜如豆芽和千張等,備好的菜統(tǒng)一放置到菜架,廚師就可以直接炒菜了。
對應BI,客戶點菜等同于企業(yè)提出一個業(yè)務需求,比如管理者要查看過去一周全國的銷售數(shù)據(jù),備菜過程就相當于我們要準備一張報表,這張報表要按照需求準備相關數(shù)據(jù),比如銷售總數(shù)據(jù)、子產(chǎn)品數(shù)據(jù)以及相關的銷售人員數(shù)據(jù)等。同樣的,這些備好數(shù)據(jù)從各種數(shù)據(jù)源抽取后放到“數(shù)據(jù)倉庫”,報表開發(fā)人員可以從里面直接找到數(shù)據(jù)制作報表。
當然,這只是一個簡單的流程,真正的過程還涉及很多步驟。比如下鍋炒菜之前,你不能直接把魚丟盡鍋里,你還得給魚開膛破腹,把內(nèi)臟取出并進行清洗,還要按照客戶的需求,將魚切成一片片的,這是一個把源材料變成一個真正可用可下鍋的一個過程。對BI而言,這個過程就是ETL——Extract抽取,把魚拿出來;Transformation轉(zhuǎn)換,把魚變成魚片,完成清洗和轉(zhuǎn)換工作;Loading加載,把洗凈的魚片放到菜架以供隨時下鍋。
數(shù)據(jù)的準備過程和菜品原材料的清洗過程是一樣的道理,數(shù)據(jù)是存放在一些數(shù)據(jù)表中,但是并不是所有的數(shù)據(jù)都需要抽取出來,只有需要用到的數(shù)據(jù)才會被抽取(Extract);涉及到一些數(shù)據(jù)需要去重、合并計算、格式轉(zhuǎn)換等都屬于Transformation階段;Loading,最后把數(shù)據(jù)統(tǒng)一加載到數(shù)據(jù)倉庫Data Warehouse,數(shù)據(jù)倉庫中有一組表。
源數(shù)據(jù)的采集和加載也是同樣的道理,數(shù)據(jù)可能是來自外部系統(tǒng),也可能來自內(nèi)部的不同業(yè)務系統(tǒng),比如CRM、ERP,也有來自業(yè)務人員的EXCEL表格,這些統(tǒng)稱為Data Source數(shù)據(jù)源。
亦策觀數(shù)臺幾乎可以連接任何數(shù)據(jù)源,包括基于文件的源,特定于應用程序的源以及大數(shù)據(jù)源。無需事先對其進行完全建模或預先聚合數(shù)據(jù)。觀數(shù)臺自助數(shù)據(jù)準備工具,為復雜的場景提供強大的數(shù)據(jù)集成腳本。這些數(shù)據(jù)準備功能有助于公開數(shù)據(jù)區(qū)域和可能存在問題的業(yè)務,可以創(chuàng)建價值而無需外部工具或數(shù)據(jù)倉庫。
這些數(shù)據(jù)通過ETL工具原封不動的抽取到一個叫做ODS或者STAGING的數(shù)據(jù)庫先存放起來,就類似于把菜買回來先放到廚房,先放起來。后面才有數(shù)據(jù)的清洗、整理,完畢之后才放到數(shù)據(jù)倉庫,在之后就是制作報表的過程。
在亦策觀數(shù)臺中,ODS數(shù)據(jù)庫作為業(yè)務系統(tǒng)和數(shù)據(jù)倉庫之間的一個隔離層,用于存放從業(yè)務系統(tǒng)直接抽取出來的數(shù)據(jù)。一方面ODS數(shù)據(jù)庫使數(shù)據(jù)從粒度、組織方式等各個方面都保持與業(yè)務系統(tǒng)一致,原來由業(yè)務系統(tǒng)產(chǎn)生的報表、細節(jié)數(shù)據(jù)的查詢自然能夠從ODS中進行,降低對業(yè)務系統(tǒng)的查詢壓力。另一方面數(shù)據(jù)倉庫存儲的數(shù)據(jù)都是匯總過的數(shù)據(jù),并不存儲每筆交易產(chǎn)生的細節(jié)數(shù)據(jù),在某些特殊的應用中,可能需要對交易細節(jié)數(shù)據(jù)進行查詢,這時就需要把細節(jié)數(shù)據(jù)查詢的功能轉(zhuǎn)移到ODS來完成,ODS的數(shù)據(jù)模型按照面向主題的方式進行存儲,可以方便地支持多維分析等查詢功能。
大數(shù)據(jù)不是BI的簡單升級
隨著大數(shù)據(jù)、AI等技術快速發(fā)展,以及大數(shù)據(jù)應用在行業(yè)的落地,企業(yè)對BI和大數(shù)據(jù)的選擇陷入到一個“非此即彼”的思維。專業(yè)人士告訴你,不必如此。
雖然大數(shù)據(jù)與BI是兩種不同概念和工具,但卻是社會發(fā)展到不同階段的產(chǎn)物,大數(shù)據(jù)對于BI,既有傳承,也有發(fā)展。大數(shù)據(jù)和AI在落地應用的過程中需要一系列產(chǎn)品作為技術承載體,而BI就是一個比較理想的承載體。BI可以看成是技術與業(yè)務結(jié)合的橋梁。當前企業(yè)在進行人工智能改造過程中并不能馬上脫離原有的信息化體系,既如此,就必須借助于BI來完成智能化過渡。
從思想角度上來看,大數(shù)據(jù)和BI都是遵循“數(shù)據(jù)-信息-知識-智慧”的發(fā)展過程,兩者的區(qū)別在于以下幾點:
第一,數(shù)據(jù)來源。BI的數(shù)據(jù)來源一般為企業(yè)內(nèi)部信息化系統(tǒng)中的數(shù)據(jù),大數(shù)據(jù)的數(shù)據(jù)來源不僅包含企業(yè)內(nèi)部的信息化系統(tǒng)的數(shù)據(jù),還包括各種外部系統(tǒng)、機器設備、數(shù)據(jù)庫的數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)來源更廣泛,而且數(shù)據(jù)更多的來自于云端,可無限擴展。
第二,發(fā)展方向。對企業(yè)來說,BI是一種管理和思維方式的轉(zhuǎn)變,對企業(yè)內(nèi)部數(shù)據(jù)進行分析,支撐企業(yè)運營與決策,從傳統(tǒng)商業(yè)模式走向商業(yè)智能。大數(shù)據(jù)除了解決企業(yè)業(yè)務問題,還包括與行業(yè)、產(chǎn)業(yè)的深度融合,不同行業(yè)所呈現(xiàn)的內(nèi)容與分析維度各不相同,是用全新的數(shù)據(jù)技術手段來拓展和優(yōu)化企業(yè)業(yè)務。
第三,技術標簽。BI的技術標簽包括ETL、數(shù)據(jù)倉庫、OLAP、可視化報表。大數(shù)據(jù)的技術標簽則包括Hadoop、MPP、HDFS、MapReduce、流處理等。隨著時代的變革與技術的迭代,BI經(jīng)歷了多次優(yōu)化和變革,新型BI被賦予更多“大數(shù)據(jù)”潛能,既滿足海量實時數(shù)據(jù)分析,也滿足決策型的業(yè)務分析。
目前廠商推出一站式大數(shù)據(jù)分析平臺,基本上都是大數(shù)據(jù)與BI相結(jié)合的產(chǎn)物,既解決了大數(shù)據(jù)和BI之間如何取舍的問題,還融入了AI增強功能。比如亦策觀數(shù)臺就是新一代增強智能協(xié)同BI平臺,不僅全面支持中文自然語言查詢,還能讓用戶在所有可視化、圖表、圖形和其他對象中進行選擇,并可以使用全局搜索來表現(xiàn)數(shù)據(jù)、關聯(lián)和分析。
因此,對于BI、大數(shù)據(jù)和AI之間的關系,可以理解為,大數(shù)據(jù)是AI場景應用的重要基礎,而AI是大數(shù)據(jù)的應用的重要領域。大數(shù)據(jù)的重要價值體現(xiàn):一是人工智能產(chǎn)品,為智能體提供的數(shù)據(jù)量越大,智能體運行的效果就會越好,因為智能體通常需要大量的數(shù)據(jù)進行“訓練”和“驗證”,從而保障運行的可靠性和穩(wěn)定性。二是人工智能需要大量的數(shù)據(jù)作為“思考”和“決策”的基礎,另一方面大數(shù)據(jù)也需要人工智能技術進行數(shù)據(jù)價值化操作,比如機器學習就是數(shù)據(jù)分析的常用方式。