導(dǎo)讀:在當(dāng)前的大數(shù)據(jù)時(shí)代,各類(lèi)數(shù)據(jù)分析應(yīng)用技術(shù)已經(jīng)廣泛應(yīng)用在國(guó)家治理、企業(yè)運(yùn)行、個(gè)人日常生活等各個(gè)方面,數(shù)據(jù)成為時(shí)下最熱門(mén)的基礎(chǔ)資源,因此數(shù)據(jù)安全的受關(guān)注程度也在不斷攀升,成為頗受重視的話(huà)題。
在當(dāng)前的大數(shù)據(jù)時(shí)代,各類(lèi)數(shù)據(jù)分析應(yīng)用技術(shù)已經(jīng)廣泛應(yīng)用在國(guó)家治理、企業(yè)運(yùn)行、個(gè)人日常生活等各個(gè)方面,數(shù)據(jù)成為時(shí)下最熱門(mén)的基礎(chǔ)資源,因此數(shù)據(jù)安全的受關(guān)注程度也在不斷攀升,成為頗受重視的話(huà)題。
1 引言
在當(dāng)前的大數(shù)據(jù)時(shí)代,各類(lèi)數(shù)據(jù)分析應(yīng)用技術(shù)已經(jīng)廣泛應(yīng)用在國(guó)家治理、企業(yè)運(yùn)行、個(gè)人日常生活等各個(gè)方面,數(shù)據(jù)成為時(shí)下最熱門(mén)的基礎(chǔ)資源,因此數(shù)據(jù)安全的受關(guān)注程度也在不斷攀升,成為頗受重視的話(huà)題。
近年來(lái),在國(guó)際上數(shù)據(jù)安全事件頻發(fā),尤其是數(shù)據(jù)泄露事件,根據(jù)Risk Based Security于2019年下半年發(fā)布的數(shù)據(jù),整個(gè)2019年上半年發(fā)生數(shù)據(jù)泄露事件3800余起,相對(duì)于2018年同期數(shù)據(jù)增長(zhǎng)了54%。數(shù)據(jù)泄露事件通常還會(huì)帶來(lái)顯式或隱式的經(jīng)濟(jì)損失,安全研究中心Ponemon Institute和IBM Security聯(lián)合發(fā)布的《2019年數(shù)據(jù)泄露成本報(bào)告》中指出,超過(guò)100萬(wàn)條記錄的泄露預(yù)計(jì)會(huì)給企業(yè)帶來(lái)4200萬(wàn)美元的損失,當(dāng)泄露記錄超過(guò)5000萬(wàn)條時(shí),預(yù)計(jì)帶來(lái)的損失將達(dá)到3.88億美元[1]。
安全事件的不斷爆發(fā),以及事件背后相應(yīng)可能帶來(lái)的潛在重大危害和巨額損失,不斷驅(qū)使著國(guó)家、行業(yè)、企業(yè)等各層面更加重視數(shù)據(jù)安全,并開(kāi)始從法規(guī)、標(biāo)準(zhǔn)、制度等方面切入展開(kāi)相應(yīng)舉措。歐盟在2018年出臺(tái)《通用數(shù)據(jù)保護(hù)條例》(GDPR),規(guī)定了企業(yè)如何收集、使用和處理歐盟公民的個(gè)人數(shù)據(jù)。2019年5月28日,國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布的《數(shù)據(jù)安全管理辦法(征求意見(jiàn)稿)》中,明確要求對(duì)于個(gè)人信息的保存和提供要經(jīng)過(guò)匿名化處理,以切實(shí)降低在數(shù)據(jù)應(yīng)用中個(gè)人信息可能存在的泄露風(fēng)險(xiǎn)[2]。
2 數(shù)據(jù)脫敏技術(shù)
數(shù)據(jù)脫敏技術(shù)是一種可以通過(guò)數(shù)據(jù)變形方式對(duì)于敏感數(shù)據(jù)進(jìn)行處理,從而降低數(shù)據(jù)敏感程度的一種數(shù)據(jù)處理技術(shù)。適當(dāng)?shù)厥褂脭?shù)據(jù)脫敏技術(shù),可以有效地減少敏感數(shù)據(jù)在采集、傳輸、使用等環(huán)節(jié)中的暴露,降低敏感數(shù)據(jù)泄露的風(fēng)險(xiǎn),盡可能降低數(shù)據(jù)泄露造成的危害。根據(jù)不同的數(shù)據(jù)脫敏規(guī)則和算法,可以對(duì)特定敏感數(shù)據(jù)使用若干種數(shù)據(jù)變形方式進(jìn)行組合處理,在不同程度上降低數(shù)據(jù)的敏感程度,在較為嚴(yán)格的脫敏規(guī)則和算法下可實(shí)現(xiàn)匿名化處理。
數(shù)據(jù)脫敏技術(shù)本質(zhì)上是對(duì)于數(shù)據(jù)的變形處理,因此數(shù)據(jù)脫敏技術(shù)的另一大特點(diǎn)是能夠在一定程度上保持?jǐn)?shù)據(jù)原本的一些特性,使脫敏后的數(shù)據(jù)依舊存在可用性。針對(duì)整個(gè)數(shù)據(jù)集使用統(tǒng)一的脫敏處理算法,可以保證在降低數(shù)據(jù)敏感程度的同時(shí),數(shù)據(jù)集整體的統(tǒng)計(jì)特性、數(shù)據(jù)唯一性不發(fā)生改變,從而能夠繼續(xù)滿(mǎn)足關(guān)聯(lián)分析、機(jī)器學(xué)習(xí)、即時(shí)查詢(xún)等應(yīng)用場(chǎng)景的使用需求。
2.1 數(shù)據(jù)脫敏算法與匿名化方法
在實(shí)際應(yīng)用數(shù)據(jù)脫敏技術(shù)時(shí),常常會(huì)涉及到脫敏算法、脫敏規(guī)則、脫敏策略3 個(gè)不同的概念。
數(shù)據(jù)脫敏技術(shù)的核心是通過(guò)對(duì)敏感數(shù)據(jù)進(jìn)行變形處理以降低其敏感程度。其中,在脫敏處理過(guò)程中使用的特定數(shù)據(jù)變形方式為脫敏算法。在原始脫敏算法的基礎(chǔ)上,通過(guò)將一種或多種脫敏算法的組合應(yīng)用在一種特定的敏感數(shù)據(jù)上便形成了脫敏規(guī)則。在具體的業(yè)務(wù)場(chǎng)景中,根據(jù)不同業(yè)務(wù)場(chǎng)景選擇特定一系列脫敏規(guī)則可稱(chēng)為脫敏策略。相關(guān)示例見(jiàn)表1。
表1 脫敏算法、脫敏規(guī)則、脫敏策略概念示例
對(duì)于數(shù)據(jù)脫敏技術(shù)以及實(shí)現(xiàn)數(shù)據(jù)脫敏的應(yīng)用及工具,數(shù)據(jù)脫敏算法均是其中的核心能力,常見(jiàn)的脫敏算法包括加密、掩碼、替換、模糊等。
在上述提到的基礎(chǔ)脫敏算法之外,為了實(shí)現(xiàn)更高程度的敏感信息保護(hù)能力,尤其是達(dá)到特定水平的敏感程度降低,還存在更多復(fù)雜的針對(duì)于數(shù)據(jù)集整體的脫敏策略。例如,在個(gè)人信息保護(hù)場(chǎng)景中的匿名化要求下,需要使用k匿名化、l多樣化、t貼近性等匿名化方法。
k匿名化方法要求數(shù)據(jù)集中的每一條記錄至少需要與其他k-1條記錄無(wú)法進(jìn)行直接區(qū)分,即數(shù)據(jù)集中每種敏感屬性組合至少需要同時(shí)出現(xiàn)在k條記錄中,無(wú)法被區(qū)分的k條記錄形成一個(gè)等價(jià)類(lèi)[3]。l多樣化是基于k匿名化方法在敏感屬性方面的一種擴(kuò)展,該方法要求數(shù)據(jù)集在匿名化處理時(shí)每個(gè)等價(jià)類(lèi)中所有記錄的敏感屬性至少包含l個(gè)互不相同的敏感屬性值[4]。t貼近性方法要求所有等價(jià)類(lèi)中敏感屬性值的分布盡量接近該屬性在整個(gè)數(shù)據(jù)集中的全局分布,從而可以抵抗偏斜攻擊[5]。
2.2 數(shù)據(jù)脫敏技術(shù)分類(lèi)
當(dāng)前數(shù)據(jù)脫敏技術(shù)主要可以分為靜態(tài)數(shù)據(jù)脫敏和動(dòng)態(tài)數(shù)據(jù)脫敏兩類(lèi),兩者面向的使用場(chǎng)景不同,實(shí)現(xiàn)時(shí)采用的技術(shù)路線(xiàn)和實(shí)現(xiàn)機(jī)制也均有所不同。
2.2.1
靜態(tài)數(shù)據(jù)脫敏靜態(tài)數(shù)據(jù)脫敏的主要目標(biāo)是實(shí)現(xiàn)對(duì)完整數(shù)據(jù)集的大批量數(shù)據(jù)進(jìn)行一次性整體脫敏處理,一般會(huì)按照制定好的數(shù)據(jù)脫敏規(guī)則,使用類(lèi)似ETL技術(shù)的處理方式,對(duì)于數(shù)據(jù)集進(jìn)行統(tǒng)一的變形轉(zhuǎn)換處理。在根據(jù)脫敏規(guī)則降低數(shù)據(jù)敏感程度的同時(shí),靜態(tài)脫敏能夠盡可能減少對(duì)于數(shù)據(jù)集原本的內(nèi)在數(shù)據(jù)關(guān)聯(lián)性、統(tǒng)計(jì)特征等可挖掘信息的破壞,保留更多有價(jià)值的信息。靜態(tài)脫敏通常在需要使用生產(chǎn)環(huán)境中的敏感數(shù)據(jù)進(jìn)行開(kāi)發(fā)、測(cè)試或者外發(fā)的場(chǎng)景中使用。
2.2.2
動(dòng)態(tài)數(shù)據(jù)脫敏動(dòng)態(tài)數(shù)據(jù)脫敏的主要目標(biāo)是對(duì)外部申請(qǐng)?jiān)L問(wèn)的敏感數(shù)據(jù)進(jìn)行實(shí)時(shí)脫敏處理,并即時(shí)返回處理后的結(jié)果,一般通過(guò)類(lèi)似網(wǎng)絡(luò)代理的中間件技術(shù),按照脫敏規(guī)則對(duì)外部的訪問(wèn)申請(qǐng)和返回結(jié)果進(jìn)行即時(shí)變形轉(zhuǎn)換處理。在根據(jù)脫敏規(guī)則降低數(shù)據(jù)敏感程度的同時(shí),動(dòng)態(tài)脫敏能夠最大程度上降低數(shù)據(jù)需求方獲取脫敏數(shù)據(jù)的延遲,通過(guò)適當(dāng)?shù)拿撁粢?guī)則設(shè)計(jì)和實(shí)現(xiàn),即使是實(shí)時(shí)產(chǎn)生的數(shù)據(jù)也能夠通過(guò)請(qǐng)求訪問(wèn)返回脫敏后的數(shù)據(jù)。動(dòng)態(tài)數(shù)據(jù)脫敏通常會(huì)在敏感數(shù)據(jù)需要對(duì)外部提供訪問(wèn)查詢(xún)服務(wù)的場(chǎng)景中使用。
3 數(shù)據(jù)脫敏技術(shù)應(yīng)用現(xiàn)狀
數(shù)據(jù)脫敏技術(shù)的應(yīng)用在近幾年不斷呈現(xiàn)上升的趨勢(shì),根據(jù)Gartner發(fā)布的《數(shù)據(jù)脫敏市場(chǎng)指南》,2017年使用數(shù)據(jù)脫敏或其他類(lèi)似去識(shí)別技術(shù)的企業(yè)占比為15%,這一數(shù)據(jù)在2018年增加到了20%,預(yù)計(jì)在2022年將達(dá)到50%[6]。
3.1 數(shù)據(jù)脫敏技術(shù)行業(yè)應(yīng)用現(xiàn)狀
在實(shí)際應(yīng)用中,數(shù)據(jù)脫敏技術(shù)通常應(yīng)用在涉及到個(gè)人隱私數(shù)據(jù)存儲(chǔ)和應(yīng)用的部分行業(yè)領(lǐng)域,因此廣泛應(yīng)用于政務(wù)、金融、電信、互聯(lián)網(wǎng)等行業(yè)領(lǐng)域。數(shù)據(jù)脫敏技術(shù)的應(yīng)用目的主要包括兩方面:一是以保護(hù)敏感數(shù)據(jù)安全、實(shí)現(xiàn)合法合規(guī)為主要目的;二是在達(dá)到第一目標(biāo)的前提下,盡可能地保證數(shù)據(jù)可用性以及可挖掘價(jià)值。
在當(dāng)前大數(shù)據(jù)時(shí)代,多數(shù)涉及到個(gè)人隱私數(shù)據(jù)存儲(chǔ)使用的領(lǐng)域皆不可避免地需要面對(duì)數(shù)據(jù)安全及合規(guī)問(wèn)題。具體來(lái)說(shuō),在政務(wù)領(lǐng)域,由于政務(wù)數(shù)據(jù)平臺(tái)往往會(huì)掌握身份信息、戶(hù)籍信息等大量極為敏感的個(gè)人信息數(shù)據(jù),需要針對(duì)數(shù)據(jù)采集、傳輸、應(yīng)用、歸檔等全生命周期進(jìn)行數(shù)據(jù)脫敏并同步實(shí)施其他數(shù)據(jù)安全防護(hù)手段;在金融、電信等關(guān)鍵領(lǐng)域,由于電信客戶(hù)的手機(jī)號(hào)碼、通話(huà)記錄、網(wǎng)絡(luò)流量等信息以及金融客戶(hù)的個(gè)人賬戶(hù)信息、交易記錄等信息均屬于重要敏感信息,面臨嚴(yán)格的行業(yè)監(jiān)管要求,使用數(shù)據(jù)脫敏技術(shù)是實(shí)現(xiàn)合規(guī)的首選;在數(shù)據(jù)應(yīng)用最為廣泛的互聯(lián)網(wǎng)領(lǐng)域,大量地使用到了可能會(huì)涉及個(gè)人隱私的用戶(hù)行為數(shù)據(jù),從避免違規(guī)導(dǎo)致的額外成本角度來(lái)看,使用敏感數(shù)據(jù)時(shí)進(jìn)行數(shù)據(jù)脫敏處理是重要的前提步驟。
在涉及到大數(shù)據(jù)分析應(yīng)用的領(lǐng)域,企業(yè)需要在保證數(shù)據(jù)安全及合規(guī)的前提下,依舊能夠保有數(shù)據(jù)的可用性及可增值性。具體來(lái)說(shuō),在金融、電信領(lǐng)域,征信、反欺詐、精準(zhǔn)營(yíng)銷(xiāo)等應(yīng)用場(chǎng)景高度依賴(lài)對(duì)用戶(hù)行為數(shù)據(jù)等涉及隱私數(shù)據(jù)的分析挖掘。在互聯(lián)網(wǎng)領(lǐng)域,用戶(hù)行為數(shù)據(jù)更是成為企業(yè)指導(dǎo)業(yè)務(wù)增收的重要資源,用戶(hù)行為分析、個(gè)性化推薦、精準(zhǔn)營(yíng)銷(xiāo)等應(yīng)用方向成為多數(shù)互聯(lián)網(wǎng)企業(yè)的通用服務(wù)手段,相應(yīng)地分析挖掘應(yīng)用不可避免。由此可見(jiàn),在實(shí)現(xiàn)數(shù)據(jù)安全及合規(guī)的同時(shí),能夠最大程度上不對(duì)數(shù)據(jù)可用性及可挖掘價(jià)值產(chǎn)生破壞的數(shù)據(jù)脫敏技術(shù)是當(dāng)前的最佳選擇,也切實(shí)地實(shí)踐在各個(gè)行業(yè)中。
3.2 數(shù)據(jù)脫敏技術(shù)供應(yīng)現(xiàn)狀
目前,已有眾多企業(yè)已經(jīng)完成或者正在進(jìn)行數(shù)據(jù)脫敏技術(shù)的研發(fā),總體上可以將數(shù)據(jù)脫敏技術(shù)的供應(yīng)商分為信息安全服務(wù)供應(yīng)商、自研自用企業(yè)以及通用數(shù)據(jù)脫敏工具開(kāi)發(fā)商三大類(lèi)。
3.2.1 信息安全服務(wù)商
通常以提供完整安全服務(wù)體系解決方案的形式服務(wù)客戶(hù),為保證整個(gè)安全體系的完整性,往往會(huì)將數(shù)據(jù)脫敏技術(shù)視為一個(gè)重要技術(shù)環(huán)節(jié),通過(guò)自研或集成第三方企業(yè)產(chǎn)品的形式囊括在提供的服務(wù)體系或解決方案中,一般服務(wù)于金融、電信等行業(yè)需要構(gòu)建整體數(shù)據(jù)安全體系的企業(yè)中。
3.2.2 自研自用企業(yè)
主要包括運(yùn)營(yíng)商、通信技術(shù)服務(wù)商、大型互聯(lián)網(wǎng)企業(yè)等自身?yè)碛芯哂幸欢ㄌ攸c(diǎn)的敏感數(shù)據(jù)保護(hù)需求的企業(yè),由于其需求具有一定個(gè)性化,同時(shí)自身具備一定的研發(fā)能力,因此自主量身定制適合自身的數(shù)據(jù)脫敏工具更為經(jīng)濟(jì)且有效率。
3.2.3 通用數(shù)據(jù)脫敏工具開(kāi)發(fā)商
致力于進(jìn)行通用數(shù)據(jù)脫敏工具研發(fā)的企業(yè),通常以某些類(lèi)別的企業(yè)需求為出發(fā)點(diǎn),研發(fā)滿(mǎn)足基本數(shù)據(jù)脫敏需求的工具產(chǎn)品,隨后根據(jù)市場(chǎng)情況逐漸完善產(chǎn)品功能,盈利形式包括直接向需求企業(yè)出售,或同安全服務(wù)商合作,納入其提供的數(shù)據(jù)安全解決方案。
從數(shù)據(jù)脫敏技術(shù)的供應(yīng)類(lèi)型來(lái)看,目前靜態(tài)脫敏技術(shù)已較為成熟,多數(shù)數(shù)據(jù)脫敏技術(shù)工具能夠提供較為完善的靜態(tài)脫敏能力,差別主要體現(xiàn)在易用性和自動(dòng)化等方面。而動(dòng)態(tài)脫敏方面,目前仍處于初步發(fā)展的階段。
在動(dòng)態(tài)脫敏實(shí)現(xiàn)中,一種簡(jiǎn)單的實(shí)現(xiàn)方案是在請(qǐng)求到目標(biāo)數(shù)據(jù)后再進(jìn)行數(shù)據(jù)脫敏處理,這種實(shí)現(xiàn)方式實(shí)際上依舊使得敏感數(shù)據(jù)從數(shù)據(jù)源傳輸至了外部;另一種相對(duì)復(fù)雜的實(shí)現(xiàn)方案是對(duì)數(shù)據(jù)請(qǐng)求和返回的過(guò)程進(jìn)行干涉,例如查詢(xún)敏感數(shù)據(jù)所在數(shù)據(jù)庫(kù)時(shí)對(duì)查詢(xún)SQL進(jìn)行解析,從中識(shí)別出敏感數(shù)據(jù)列并對(duì)查詢(xún)SQL進(jìn)行改造,從而直接返回脫敏處理后的查詢(xún)結(jié)果。這種實(shí)現(xiàn)方式一方面需要對(duì)查詢(xún)過(guò)程涉及到的數(shù)據(jù)源協(xié)議進(jìn)行解析,在非開(kāi)源的商用數(shù)據(jù)源中進(jìn)行協(xié)議解析既困難又存在一定的法律風(fēng)險(xiǎn);另一方面,由于不同數(shù)據(jù)源之間的查詢(xún)協(xié)議存在相應(yīng)差距,這種動(dòng)態(tài)脫敏實(shí)現(xiàn)方式難以泛化,只能對(duì)于存在需求的數(shù)據(jù)源類(lèi)型進(jìn)行定制化開(kāi)發(fā),當(dāng)需求的數(shù)據(jù)源種類(lèi)較多時(shí)耗時(shí)耗力。由于上述原因,目前的動(dòng)態(tài)脫敏技術(shù)還存在一定的提升空間,實(shí)際應(yīng)用也遠(yuǎn)不及靜態(tài)脫敏技術(shù)廣泛
3.3 數(shù)據(jù)脫敏工具產(chǎn)品標(biāo)準(zhǔn)化
數(shù)據(jù)脫敏的需求仍在不斷增加,市面上的產(chǎn)品也層出不窮,形態(tài)各異的產(chǎn)品導(dǎo)致供需雙方的對(duì)接依舊存在一些問(wèn)題。當(dāng)下數(shù)據(jù)脫敏工具產(chǎn)品一般通過(guò)自主聲明的方式告知客戶(hù)產(chǎn)品所具備的基本能力,但缺乏對(duì)于產(chǎn)品能力、脫敏程度、脫敏過(guò)程安全性等的證明方式,導(dǎo)致企業(yè)在采購(gòu)時(shí)難以分辨產(chǎn)品能力是否滿(mǎn)足自身功能需求、脫敏過(guò)程是否能夠保證脫敏過(guò)程無(wú)外泄風(fēng)險(xiǎn)、產(chǎn)品形式及脫敏能力是否符合自身業(yè)務(wù)場(chǎng)景。解決這些問(wèn)題的一個(gè)方案是推進(jìn)數(shù)據(jù)脫敏工具產(chǎn)品相關(guān)的標(biāo)準(zhǔn)化工作,根據(jù)行業(yè)需求、產(chǎn)品特性制定相關(guān)技術(shù)、過(guò)程等標(biāo)準(zhǔn),通過(guò)權(quán)威第三方進(jìn)行產(chǎn)品評(píng)估評(píng)測(cè),遴選出符合一定水平規(guī)范和標(biāo)準(zhǔn)的數(shù)據(jù)脫敏工具,能夠有效的打消需求方的眾多疑慮,因此相關(guān)標(biāo)準(zhǔn)化工作以及基于標(biāo)準(zhǔn)的評(píng)估評(píng)測(cè)工作后續(xù)十分值得關(guān)注。
在對(duì)數(shù)據(jù)脫敏工具產(chǎn)品進(jìn)行標(biāo)準(zhǔn)化的過(guò)程中,除去數(shù)據(jù)脫敏技術(shù)的核心能力之外,還應(yīng)當(dāng)關(guān)注工具應(yīng)提供的其他相關(guān)能力,包括敏感數(shù)據(jù)識(shí)別能力、數(shù)據(jù)源管理能力、工具運(yùn)維管理能力、安全審計(jì)能力以及脫敏算法、規(guī)則、策略管理能力。在核心能力方面,可以分為靜態(tài)脫敏能力和動(dòng)態(tài)脫敏能力兩部分來(lái)分別制定;在靜態(tài)脫敏能力方面,重點(diǎn)關(guān)注脫敏任務(wù)相關(guān)的各項(xiàng)能力;在動(dòng)態(tài)脫敏方面,重點(diǎn)關(guān)注對(duì)于敏感數(shù)據(jù)訪問(wèn)的防繞行能力。在基礎(chǔ)功能的考量之外,可以額外從靜態(tài)脫敏的數(shù)據(jù)吞吐量以及動(dòng)態(tài)脫敏的并發(fā)數(shù)和響應(yīng)延遲來(lái)評(píng)估數(shù)據(jù)脫敏工具的性能。
4 數(shù)據(jù)脫敏技術(shù)發(fā)展趨勢(shì)
數(shù)據(jù)脫敏技術(shù)已成熟應(yīng)用于部分領(lǐng)域,但伴隨著脫敏需求的不斷發(fā)展變化,仍存在繼續(xù)優(yōu)化演變的方向。后續(xù)數(shù)據(jù)脫敏技術(shù)的發(fā)展主要呈現(xiàn)出4個(gè)趨勢(shì)。
4.1 數(shù)據(jù)脫敏性能提升
數(shù)據(jù)脫敏需求的首個(gè)重要變化便是數(shù)據(jù)量的不斷增加。隨著信息技術(shù)的逐漸深入應(yīng)用,各企業(yè)組織可保有和使用的數(shù)據(jù)量將呈爆炸性增長(zhǎng),相應(yīng)需要進(jìn)行脫敏處理的數(shù)據(jù)量也會(huì)同步提升;另一方面,各依賴(lài)于數(shù)據(jù)分析進(jìn)行即時(shí)反饋調(diào)整的數(shù)據(jù)應(yīng)用,對(duì)于數(shù)據(jù)的實(shí)時(shí)性需求愈加強(qiáng)烈,在涉及到敏感數(shù)據(jù)的實(shí)時(shí)應(yīng)用中,即時(shí)或短時(shí)間內(nèi)完成大量數(shù)據(jù)的脫敏處理需求將會(huì)逐漸增多。數(shù)據(jù)量及響應(yīng)時(shí)間兩方面的需求變化共同指向了更高性能的數(shù)據(jù)脫敏技術(shù)這一發(fā)展方向。
4.2 非結(jié)構(gòu)化數(shù)據(jù)脫敏
數(shù)據(jù)脫敏需求的第2個(gè)變化來(lái)源于大數(shù)據(jù)時(shí)代的數(shù)據(jù)多呈非結(jié)構(gòu)化這一特點(diǎn)。相對(duì)于傳統(tǒng)通過(guò)關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),在時(shí)下被存儲(chǔ)和應(yīng)用的數(shù)據(jù)中,圖片、視頻、音頻、文本等非結(jié)構(gòu)化數(shù)據(jù)占比不斷提升。眾多智能化數(shù)據(jù)應(yīng)用中對(duì)于涉及個(gè)人隱私的非結(jié)構(gòu)化數(shù)據(jù)的使用挖掘愈加常態(tài)化,原本主要針對(duì)于結(jié)構(gòu)化數(shù)據(jù)的脫敏處理技術(shù)將遠(yuǎn)遠(yuǎn)無(wú)法滿(mǎn)足需求,針對(duì)于各類(lèi)非結(jié)構(gòu)化數(shù)據(jù)的脫敏處理技術(shù)后續(xù)將成為重點(diǎn)發(fā)展方向。
4.3 智能化數(shù)據(jù)脫敏
數(shù)據(jù)脫敏需求的第3個(gè)變化由數(shù)據(jù)量和數(shù)據(jù)類(lèi)型的增多衍生而來(lái)。當(dāng)數(shù)據(jù)的維度和種類(lèi)不斷膨脹時(shí),通過(guò)用戶(hù)指定數(shù)據(jù)脫敏策略,手動(dòng)綁定待脫敏數(shù)據(jù)及脫敏規(guī)則和算法的方式將顯得效率十分低下。使用者的人工工作量需要被進(jìn)一步減少,因此已有部分企業(yè)在脫敏工具產(chǎn)品中實(shí)現(xiàn)了敏感數(shù)據(jù)自動(dòng)識(shí)別發(fā)現(xiàn)等便利化功能。后續(xù)通過(guò)應(yīng)用機(jī)器學(xué)習(xí)等技術(shù),結(jié)合各類(lèi)數(shù)據(jù)分類(lèi)分級(jí)規(guī)則及已實(shí)際使用的數(shù)據(jù)脫敏策略及規(guī)則,實(shí)現(xiàn)自動(dòng)化實(shí)時(shí)敏感數(shù)據(jù)發(fā)現(xiàn)、自動(dòng)化脫敏規(guī)則匹配等智能化數(shù)據(jù)脫敏技術(shù),將成為受人期待的發(fā)展方向。
4.4 數(shù)據(jù)脫敏技術(shù)的合規(guī)應(yīng)用
數(shù)據(jù)脫敏需求的第4個(gè)變化來(lái)源于相關(guān)政策的不斷收緊。隨著國(guó)內(nèi)外對(duì)于個(gè)人隱私數(shù)據(jù)保護(hù)相關(guān)的法律法規(guī)不斷出臺(tái),近年來(lái)頻發(fā)的數(shù)據(jù)泄露事件,以及針對(duì)違規(guī)使用用戶(hù)隱私數(shù)據(jù)企業(yè)的處罰時(shí)有發(fā)生,共同敦促著企業(yè)將數(shù)據(jù)合規(guī)視為當(dāng)下的首要任務(wù)。后續(xù)針對(duì)于企業(yè)對(duì)于個(gè)人信息使用的法規(guī)將愈加復(fù)雜并具有針對(duì)性,企業(yè)合規(guī)的人力實(shí)施成本將不斷攀升。通過(guò)將數(shù)據(jù)脫敏技術(shù)同各類(lèi)相關(guān)法律規(guī)范、企業(yè)相關(guān)業(yè)務(wù)相結(jié)合,實(shí)現(xiàn)企業(yè)業(yè)務(wù)流程中對(duì)于敏感數(shù)據(jù)的使用處處合規(guī),形成直接實(shí)現(xiàn)業(yè)務(wù)合規(guī)化的數(shù)據(jù)脫敏產(chǎn)品,將有效改善這一合規(guī)問(wèn)題,后續(xù)十分值得探索。
5 結(jié)束語(yǔ)
本文對(duì)數(shù)據(jù)脫敏技術(shù)的應(yīng)用背景、技術(shù)發(fā)展現(xiàn)狀、應(yīng)用及產(chǎn)品現(xiàn)狀進(jìn)行了梳理和闡述,在參考當(dāng)前行業(yè)應(yīng)用情況的前提下總結(jié)了數(shù)據(jù)脫敏技術(shù)未來(lái)的四大發(fā)展趨勢(shì)。同時(shí),從數(shù)據(jù)脫敏工具產(chǎn)品的角度歸納了當(dāng)前進(jìn)行數(shù)據(jù)脫敏技術(shù)研發(fā)供應(yīng)的3 類(lèi)供應(yīng)方,在進(jìn)一步分析中說(shuō)明了數(shù)據(jù)脫敏工具產(chǎn)品標(biāo)準(zhǔn)化及評(píng)估評(píng)測(cè)工作的重要性,并提出了相應(yīng)標(biāo)準(zhǔn)化工作的主要方向。
數(shù)據(jù)脫敏技術(shù)在未來(lái)的一段時(shí)間,始終會(huì)是一種非常主流且常用的數(shù)據(jù)安全技術(shù)。隨著新的更為復(fù)雜的脫敏需求不斷產(chǎn)生,數(shù)據(jù)脫敏技術(shù)也會(huì)隨之不斷演化發(fā)展,數(shù)據(jù)脫敏工具產(chǎn)品市場(chǎng)也將更加廣闊。因此,相應(yīng)的標(biāo)準(zhǔn)化工作將更為重要,成為在技術(shù)不斷提升的同時(shí)不可忽略的配套工作。
參考文獻(xiàn)
[1] IBM Security, Ponemon Institute. 2019年數(shù)據(jù)泄露成本報(bào)告[R], 2019.
[2] 國(guó)家互聯(lián)網(wǎng)信息辦公室. 數(shù)據(jù)安全管理辦法(征求意見(jiàn)稿)[Z], 2019.
[3] Sweeney L. K-anonymity: A model for protecting privacy[M]. World Scientific Publishing Co. Inc, 2002.
[4] Ashwin Machanavajjhala, Johannes Gehrke, Daniel Kifer.l-Diversity: Privacy beyond k-anonymity[C]//Proceedings of the 22nd International Conference on DataEngineering, ICDE 2006, 3-8 April 2006, Atlanta, GA,USA. IEEE, 2006.
[5] Ninghui Li, Tiancheng Li, Suresh Venkatasubramanian.t-Closeness: Privacy beyond k-anonymity and I-diversity[C]//Data Engineering, 2007. ICDE 2007. IEEE 23rdInternational Conference on. IEEE, 2007.
[6] Gartner. Market guide for data masking[R], 2019.