技術(shù)
導(dǎo)讀:云計(jì)算數(shù)據(jù)架構(gòu)師用于處理現(xiàn)代數(shù)據(jù)訪問(wèn)和管理困境的一項(xiàng)關(guān)鍵技術(shù)是數(shù)據(jù)分區(qū)。
數(shù)據(jù)存在于一個(gè)時(shí)間和地點(diǎn)。我們正在使用越來(lái)越多的應(yīng)用程序,這些應(yīng)用程序都使用帶時(shí)間戳和位置標(biāo)記的數(shù)據(jù)運(yùn)行。隨著物聯(lián)網(wǎng)(IoT)設(shè)備的興起,這兩種數(shù)據(jù)類型現(xiàn)在都變得突出起來(lái)。
如果我們登錄到儀表板控制臺(tái),使我們能夠查看由僅偶爾連接的風(fēng)力渦輪機(jī)或其他工業(yè)土木工程部門記錄的數(shù)據(jù),則知道創(chuàng)建任何特定數(shù)據(jù)的時(shí)間很重要。
如果我們的數(shù)據(jù)倉(cāng)庫(kù)跨越分布在廣闊地理區(qū)域的大量渦輪機(jī)(或橋傳感器,交通監(jiān)控器或人為攜帶的堅(jiān)固型安全設(shè)備等),那么位置感知數(shù)據(jù)就尤為重要就數(shù)據(jù)的重要性而言,數(shù)據(jù)源本身是一個(gè)附加因素。
云計(jì)算
如果考慮到云計(jì)算在全球范圍內(nèi)發(fā)展的方式,這些核心事實(shí)會(huì)更加復(fù)雜,從而導(dǎo)致我們將云功能的“實(shí)例”放置在地球上不同的數(shù)據(jù)中心中。再一次,我們面臨著與時(shí)間和位置有關(guān)的數(shù)據(jù)分離問(wèn)題,所有這些問(wèn)題都會(huì)造成延遲,即在我們請(qǐng)求數(shù)據(jù)(或更經(jīng)常地,我們的應(yīng)用程序和數(shù)據(jù)庫(kù)發(fā)出請(qǐng)求)之間以及我們何時(shí)真正能夠得到它。
那么,現(xiàn)代的云原生軟件應(yīng)用程序開(kāi)發(fā)和數(shù)據(jù)科學(xué)專業(yè)人員如何應(yīng)對(duì)這一挑戰(zhàn)?問(wèn)題是,隨著這些軟件工程專業(yè)人員試圖解決將應(yīng)用程序擴(kuò)展到新地區(qū)所使用的手動(dòng)變通辦法,他們常常會(huì)在此過(guò)程中造成性能問(wèn)題。
云計(jì)算數(shù)據(jù)架構(gòu)師用于處理現(xiàn)代數(shù)據(jù)訪問(wèn)和管理困境的一項(xiàng)關(guān)鍵技術(shù)是數(shù)據(jù)分區(qū)。這里的承諾和核心技術(shù)主張圍繞以下建議:按位置劃分?jǐn)?shù)據(jù)可以使全球組織解決由分布式數(shù)據(jù)引起的延遲問(wèn)題。
數(shù)據(jù)庫(kù)管理系統(tǒng)公司蟑螂實(shí)驗(yàn)室的產(chǎn)品營(yíng)銷副總裁是吉姆·沃克。Walker提醒我們,IT延遲與最終用戶對(duì)產(chǎn)品或服務(wù)的“體驗(yàn)”直接相關(guān),他說(shuō),如今的企業(yè)必須能夠?qū)崟r(shí)接收、分析和處理數(shù)據(jù),以提供最佳的用戶體驗(yàn)。
“100ms(毫秒)規(guī)則是由Gmail的創(chuàng)建者paulbuchheit提出的,它指的是人的延遲閾值,在這個(gè)閾值中,交互感覺(jué)是即時(shí)的。超過(guò)100毫秒,我們?nèi)祟愰_(kāi)始發(fā)送一個(gè)時(shí)間延遲。從這個(gè)角度來(lái)看,信息從世界的一邊傳到另一邊會(huì)增加大約250毫秒的延遲,而且只有在信息沿著最直接的路徑移動(dòng)的情況下,才會(huì)出現(xiàn)這種情況。不幸的是,數(shù)據(jù)不是直線傳播的,所以服務(wù)器和網(wǎng)絡(luò)用戶之間的距離很重要,”Walker說(shuō)。
數(shù)據(jù)在地球上跳躍
但距離并不是唯一的挑戰(zhàn)。高速光可以在14毫秒內(nèi)從紐約傳輸?shù)脚f金山(在真空中),但數(shù)據(jù)不能在真空中傳輸。它通過(guò)多個(gè)不同的網(wǎng)絡(luò)設(shè)備傳輸,這些“跳和跳”也增加了延遲——傳輸100英里但跳5次的信息的延遲比只有兩次跳的2500英里的請(qǐng)求要長(zhǎng)。這意味著位置對(duì)于優(yōu)化數(shù)據(jù)傳輸方式同樣重要。
由于這些事實(shí),Cockroach Labs的Walker堅(jiān)持認(rèn)為,位置必須成為我們考慮用于現(xiàn)代應(yīng)用程序和開(kāi)發(fā)人員的數(shù)據(jù)庫(kù)的新驅(qū)動(dòng)力和決定性載體。
“當(dāng)我們朝著更加數(shù)字化和即時(shí)的世界邁進(jìn)時(shí),我們需要從邏輯數(shù)據(jù)模型的思維方式轉(zhuǎn)變?yōu)橐舱J(rèn)識(shí)到物理組件的重要性的構(gòu)想–您要在哪里操作以及用戶將在哪里。當(dāng)您考慮數(shù)據(jù)隱私挑戰(zhàn)時(shí),這一點(diǎn)就變得尤為重要。數(shù)據(jù)需要更接近用戶,以便我們可以更快地將數(shù)據(jù)傳遞給他們并滿足100ms規(guī)則。” Walker說(shuō)。
Google開(kāi)發(fā)了將行級(jí)分布式數(shù)據(jù)附加到地理位置的功能,稱為地理分區(qū),以滿足全球分散環(huán)境中的延遲要求。這提供了一定程度的自動(dòng)化,使數(shù)據(jù)團(tuán)隊(duì)可以決定數(shù)據(jù)應(yīng)在物理上駐留的位置,同時(shí)為管理員提供在生產(chǎn)中修改這些要求的選項(xiàng)。
可以通過(guò)最小化發(fā)出查詢的位置與滿足這些查詢的數(shù)據(jù)所駐留的位置之間的距離來(lái)減少延遲。我們“簡(jiǎn)單地”更改了配置,數(shù)據(jù)庫(kù)將數(shù)據(jù)物理地移動(dòng)到需要的位置。這意味著隨著組織將業(yè)務(wù)擴(kuò)展到新的地理位置,它不一定會(huì)導(dǎo)致停機(jī)。
數(shù)據(jù)需要自動(dòng)適應(yīng)流量模式以減少延遲,并且需要具有高可用性,因此,如果一個(gè)數(shù)據(jù)中心脫機(jī),由于數(shù)據(jù)存儲(chǔ)在可以快速響應(yīng)的第二個(gè)附近數(shù)據(jù)中心中,因此服務(wù)不會(huì)出現(xiàn)滯后現(xiàn)象。通常,全球部署涉及的距離意味著開(kāi)發(fā)人員必須始終在可用性和延遲之間進(jìn)行權(quán)衡。但是,按數(shù)據(jù)庫(kù)中的位置進(jìn)行分區(qū)可以使開(kāi)發(fā)人員構(gòu)建高可用性和低延遲的應(yīng)用程序。現(xiàn)在看來(lái),這是一種奢侈,但是當(dāng)期望應(yīng)用程序能夠以光速執(zhí)行和自動(dòng)化時(shí),這將成為必需。
5G道路的延遲責(zé)任
重要的是要注意,以輕快的速度提供體驗(yàn)并不僅僅是自動(dòng)化的速度。這是關(guān)于能夠管理和控制自動(dòng)化的問(wèn)題。
隨著5G速度的提高,我們對(duì)實(shí)時(shí)計(jì)算意味著什么的概念可能會(huì)變?yōu)橄到y(tǒng)性能的更輕量級(jí)版本。我們的數(shù)據(jù)可以訪問(wèn)應(yīng)用程序?qū)拥乃俣纫约耙院笪覀兊膽?yīng)用程序可以訪問(wèn)數(shù)據(jù)的速度將變得比現(xiàn)在更加緊迫。
對(duì)于酒店,房屋和住宅,肯定仍然是位置,但是在精心配置的數(shù)據(jù)體系結(jié)構(gòu)能夠滿足全球分散的部署要求的世界中,更多的是位置、分區(qū)問(wèn)題。