中國聯通研究院 北京 100032
大數據作為新一輪的科技浪潮,在經濟社會各個領域都受到重視,對大數據的掌控、分析能力決定了企業乃至國家的核心競爭力。
為充分發揮大數據價值,需要盤活數據資產,開放共享數據。電信運營商和互聯網公司等擁有海量大數據,他們積極探索并投身建設大數據開放平臺。一方面,封裝自有的數據資源以及數據存儲、數據加工、數據挖掘分析能力,以數據服務的方式開放給第三方(尤其是中小企業以及應用開發者),開發各種大數據創新服務;另一方面,與政府、公共服務部門以及跨領域行業開展合作,融合加工多源異構數據,融合開放跨行業數據,帶動產業發展新型業務形態[1-5]。
在大數據的開放、運營或者變現過程中,如何保證開放數據的合規性、避免敏感信息的泄漏、對交易數據進行計量或者計費以及對數據進行審計等成為當前亟需解決的問題。
目前,國內外對大數據開放平臺的研究和實踐剛剛開始,暫無完全針對大數據安全運營的法律法規[6-14]或者技術,僅有部分涉及其中的數據安全或者數據傳輸的要求或者技術點[15-18]。例如,文獻[16]提出一種分布式數據網關的體系結構,提到分布式數據網關在安全方面的特點是通過數據服務的方式,保障數據本身的授權;通過數據網關安全模塊,實現交換和傳輸的安全性;該方案只是保障數據的正確傳輸,未涉及敏感數據的過濾、結果數據的合規檢查和審計等。文獻[17]公開了一種服務網關系統,該服務網關系統建議采用防火墻、殺毒系統、IPS系統、數據流過濾系統、數據流殺毒系統、用戶認證系統或訪問日志記錄等工具系統的組合,實現網絡安全功能,保護服務網關上的數據安全和組織機構網絡內部數據的安全性;其中的數據流過濾系統用于保護組織內部關鍵和敏感數據不從內部泄漏,該方案只建議需引入敏感數據的過濾,未涉及過濾后結果數據的合規檢查和審計等。文獻[18]公開了一種數據交換方法和系統及一種網關服務器,提出采用網關服務器實現外部系統和內部系統之間數據消息的協議轉換,從而實現外部系統和內部系統之間的數據交換;該方案只提出數據交換和傳輸要求,未涉及數據內容的處理,尤其是敏感數據的過濾、結果數據的合規檢查和審計等。
為解決以上現實問題,本文將探討一種面向大數據安全運營的數據服務網關Gateway,在數據開放、運營或者變現交易過程中,對于定義的數據中的敏感信息,根據數據的脫敏要求進行過濾和脫敏,保證輸出數據中無敏感內容;針對不同用戶、不同數據類型,根據不同的合規檢查規則,審核輸出數據,保證輸出數據的合規性;對于脫敏后輸出的合規數據,根據用戶的等級、輸出的數據量大小和數據價值屬性進行計量和計費;同時,在數據輸出過程中,對數據輸出的時間、對象(用戶)、數據的元數據、脫敏規則、合規檢查規則等進行永久性存檔,以便于未來的運營合規性審計。
數據服務網關Gateway是數據中心與數據服務需求者之間的數據服務中介模塊,對數據服務輸出數據進行數據脫敏、合規檢查、安全審計等處理;數據服務需求者通過Gateway,提交取數申請,獲取數據服務。如圖1所示。

圖1 數據服務網關Gateway定位
圖1中,根據數據的流向,劃分為三個區域:1)數據內網區。由數據中心構成,是數據開放服務的提供者和運營者。2)審核區。由Gateway構成,是數據開放服務運營的安全保障執行者,包括8個功能模塊:用戶管理、服務管理、取數管理、規則管理、數據脫敏處理、安全審計、工單管理和系統管理。3)外網合作區。包括各類數據服務的需求者,數據服務需求者可以是具體的自然人,也可以是第三方系統。
數據服務需求者通過Gateway,查詢數據服務信息,提出取數申請;經審批通過后,由數據服務提供者/運營者將數據服務文件同步到Gateway,進行數據脫敏、合規檢查,如滿足數據安全合規檢查要求,則可以輸出給數據服務需求者使用。
其中,數據服務信息(元數據)由3類信息構成:1)服務基本信息。包括服務編碼、服務名稱、服務類型(實時服務或周期服務)、服務周期(年、季、月、周或日;對于周期服務)、周期數據就緒日期(對于周期服務)、服務輸出集編碼、服務輸出集名稱等;2)服務輸出字段信息。包括服務輸出集編碼、字段編碼、字段名稱、字段數據類型、字段描述等;3)服務計費信息。例如每單元字段或每行的價格等。
根據在Gateway中的職能分工,Gateway用戶可以分為數據服務需求者、業務管理人員和系統管理人員。
1)數據服務需求者。數據服務需求者就是對數據服務提出需求的用戶,包括機構用戶和數據用戶。
其中,數據用戶是數據服務的需求用戶或第三方系統/應用,并且每個數據用戶必須關聯一個機構,數據用戶可以申請獲取數據服務,并獲得合規的服務數據。不同數據用戶間的資源隔離,可以獨立設定不用數據用戶的取數優先級、服務元數據查看權限、服務數據取數權限(數據脫敏/合規檢查規則)、數據文件上傳/下載FTP。機構用戶作為數據用戶的責任人,是數據用戶所在企業或組織機構的責任人,一個機構下只有一個機構用戶,可以擁有多個數據用戶。機構用戶和數據用戶均可以自行申請,通過對機構用戶和數據用戶的申請及修改進行審核,可以更好地追蹤和記錄服務數據的流向。一旦發生數據用戶數據泄密問題,可以追溯相關機構,協助追究責任。
2)業務管理人員。業務管理人員是數據服務需求的審批和管控人員,對服務輸出數據的安全性負責。
業務管理人員包括數據安全管理員和審核人員。其中,數據安全管理員負責分配用戶的密級、數據服務信息查看權限、取數權限、取數優先級權限以及配置數據過濾、脫敏及合規檢查的規則。審核人員負責審核用戶的注冊/修改/注銷,以及審核數據過濾、脫敏及合規檢查的規則等。
3)系統管理人員。系統管理人員是指系統運維支撐和系統設置的管理人員,主要負責系統基礎數據配置管理和系統日志監控。系統管理人員包括運維人員和系統管理員。其中,運維人員負責系統日常運營和維護;負責數據用戶的數據文件上傳/下載FTP的對接測試;負責系統異常處理。系統管理員作為超級管理員,具有系統的全部權限。
Gateway系統功能架構如圖2所示。其中,規則管理模塊是Gateway的關鍵模塊。
規則管理模塊用于對各機構用戶和/或數據用戶的權限進行獨立配置,針對不同的用戶和不同的數據服務生成不同的查看權限、取數申請授權、取數優先級權限、數據過濾脫敏規則、合規檢查規則以及服務數據的輸出行數等,從而可實現不同數據用戶間的資源隔離。任何規則配置只能由數據安全管理員操作,并需經過審核人員的審批后生效。
數據服務的查看權限,指機構用戶和數據用戶能否在數據服務列表中看到該服務及其詳細信息。不同的用戶所看到的服務列表可以各不相同。
數據服務的取數申請授權,指數據用戶能否獲取該服務的數據。數據用戶可以在取數管理模塊針對有查看權限的服務,提交取數申請,經過審核、配置取數申請授權后,可以通過取數管理模塊發起取數請求。
數據服務的取數優先級權限,指多個數據用戶同時發起取數請求時,取數管理模塊創建取數任務的排序優先級規則。
由于不同機構用戶或數據用戶的密級要求一般不同,因此,為盡量避免多個數據用戶通過共享獲取的服務數據進行重組而獲得敏感信息,針對不同用戶和不同數據服務配置不同的數據過濾脫敏規則和合規檢查規則。同一服務面向不同用戶獨立配置其數據過濾脫敏規則、合規檢查規則、服務數據的輸出行數。數據過濾脫敏規則和合規檢查規則可以隨機配置或預先配置,只要能盡量使得屬于同一個機構用戶下的數據用戶很難通過獲取的服務數據恢復出敏感信息即可。
需要說明的是,規則管理模塊中必須設置數據的合規檢查規則,從而確保提供給用戶的服務數據的合規性。在數據中心已經配置有過濾脫敏功能的情況下,Gateway無需配置數據的過濾脫敏規則。

圖2 數據服務網關Gateway功能架構
過濾脫敏規則包括服務輸出字段篩選、字段的條件過濾和字段內容處理。
1)服務輸出字段篩選。服務輸出字段篩選即為數據表的列過濾。例如,某服務的源數據中包括9個輸出字段,字段名稱分別為省份、用戶編碼、姓名、出生日期、身份證號、手機號、套餐類型、機型、月均話費。根據文獻[6]規定,不允許輸出用戶姓名、出生日期、身份證件號碼、住址、電話號碼、賬號和密碼等字段;因此,針對數據用戶的該服務請求,規則管理模塊設置字段篩選規則使得該服務只輸出省份、用戶編碼、套餐類型、機型和月均話費5個字段,則服務源數據中的姓名、出生日期、身份證號和手機號這4個字段都將被過濾掉。
2)字段的條件過濾。字段的條件過濾即為數據表的行過濾。字段的條件過濾又可分為兩種過濾。第一種是根據字段的字典進行的過濾。例如,上例服務中的輸出字段“省份”對應的省份字典包括“北京”、“河北”、“天津”、“河南”、“山東”5個取值,規則管理模塊可以針對數據用戶設置該服務的輸出字段“省份”的取值過濾條件為只包括“北京”,則對于該數據用戶,服務源數據中的省份字段取值為“河北”、“天津”、“河南”、“山東”的數據行都被過濾掉。第二種是針對數值類型的字段,根據數值比較表達式進行的過濾。例如,上例服務中的輸出字段“月均話費”的數據類型是double,規則管理模塊針對數據用戶設置該服務的輸出字段“月均話費”的取值過濾條件為:字段取值范圍在50~100之間,則服務源數據中的月均話費字段的取值小于50或者大于100的數據行都被過濾掉。
3)字段內容處理。字段內容處理包括兩種處理。第一種是對特殊字符進行替換的處理。例如,上例服務中,規則管理模塊針對數據用戶設置對該服務的輸出字段“用戶編碼”進行特殊字符替換,將特殊字符(123)替換處理成***,則服務源數據中的字段“用戶編碼”中的“123”都將被替換為“***”。比如,服務源數據中的“用戶編碼”為“1235678”,經過替換處理后顯示為“***5678”。第二種是對連續位數的字符進行截取替換的處理。截取替換包括:將前端N位字符替換成指定字符,將中間連續N位字符替換成指定字符,或將后端從第幾位開始的字符替換成指定字符。
當要求將“用戶編碼”中的前4位換成6666時,如果服務源數據中的“用戶編碼”為“1235678”,則經過替換處理后顯示為“6666678”。
當要求將“用戶編碼”中的第2至5位換成6666時,如果服務源數據中的“用戶編碼”為“1235678”,則經過替換處理后顯示為“1666678”。
當要求將“用戶編碼”中從第4位之后的字符換成6666時,如果服務源數據中的“用戶編碼”為“1235678”,則經過替換處理后顯示為“1236666”。
合規檢查規則包括數據字段匹配、數據字典匹配、數值范圍檢查和字段長度檢查。
1)數據字段匹配。數據字段規則定義了輸出數據文件中包含的數據字段的個數,如果檢查發現服務源數據中出現了額外的字段,即判定為非法輸出數據。例如,上例服務中,應當只輸出省份、用戶編碼、套餐類型、機型和月均話費5個字段,如服務源數據中出現了6個(含)以上的字段,則判定該服務源數據為非法輸出數據。
2)數據字典匹配。數據字典規則定義了某輸出字段的所有合規值,如果檢查發現服務源數據中該字段的某個值出現了不在數據字典定義范圍內的值,即判斷為非法輸出數據。例如,上例服務中,數據字典規則中定義了“省份”的合規值只有“北京”,如服務源數據中的“省份”字段的某個值出現了其他值,如“河北”、“天津”、“河南”或“山東”,則判定該服務源數據為非法輸出數據。
3)數值范圍檢查。數值范圍規則定義了數值類型的輸出字段的合規范圍,如果檢查發現服務源數據中該字段的某個值出現了不在數值范圍內的值,即判斷為非法輸出數據。例如,上例服務中,數值范圍規則中定義了“月均話費”的合規數值范圍為50~100,如服務源數據中的“月均話費”字段的某個值出現了該數值范圍外的值,如“48”或“102”,則判定該服務源數據為非法輸出數據。
4)字段長度檢查。字段長度規則定義了字符類型的輸出字段的長度的合規范圍,如果檢查發現服務源數據中該字段的某個值的長度超出了該范圍,即判斷為非法輸出數據。例如,上例服務中,字段長度規則中定義了“用戶編碼”的合規長度范圍為50,如服務源數據中的“用戶編碼”字段的某個值長度超出范圍,如長度為51,則判定該服務源數據為非法輸出數據。
Gateway業務流程如圖3所示,具體包括以下步驟。
步驟1:數據服務需求者(用戶)通過Gateway的用戶管理模塊進行用戶注冊。
步驟2:Gateway的服務管理模塊從數據中心同步各種數據服務的信息。
步驟3:Gateway的規則管理模塊對用戶進行數據服務查詢權限的授權。
步驟4:用戶通過Gateway的取數管理模塊提交服務的取數申請。

圖3 數據服務網關Gateway業務流程
步驟5:Gateway的規則管理模塊對用戶進行數據服務取數權限的配置。
步驟6:Gateway的取數管理向數據中心提交用戶授權服務的取數申請。
步驟7:數據中心生成服務源數據。如果用戶提交的是實時服務取數申請,則數據中心生成實時服務源數據;如果用戶提交的是周期服務的取數申請,則數據中心將根據周期服務的生成周期,生成周期服務源數據。
步驟8:數據中心將服務源數據(實時服務源數據或者周期服務源數據存儲信息)返回給Gateway。
步驟9:Gateway的數據脫敏處理模塊根據規則管理模塊中設置的針對該用戶的數據過濾脫敏規則,對服務源數據進行數據過濾脫敏。具體的數據過濾脫敏可參照前述,此處不再贅述。
步驟10:Gateway的數據脫敏處理模塊根據規則管理模塊中針對該用戶設置的合規檢查規則,對經過數據過濾脫敏后的服務源數據進行數據合規檢查,如果存在不合規數據,則中斷本次服務數據取數流程。
步驟11:Gateway的數據脫敏處理模塊根據規則管理模塊中針對該用戶設置的服務數據的輸出行數,對滿足數據合規檢查規則的、過濾脫敏后的服務源數據,從首行開始,順序截取規定行數的數據,生成服務數據。
步驟12:Gateway的取數管理模塊將服務數據返回給用戶,并進行計量和計費。實時服務的服務數據通過Web Service接口返回給用戶;周期服務的服務數據采用數據文件方式通過FTP接口推送到用戶的FTP服務器。對于輸出的服務數據,根據用戶的等級、輸出的數據量大小和數據價值屬性等進行計量和計費。
步驟13:Gateway的安全審計模塊負責記錄用戶的操作日志和取數日志,取數日志內容包括數據輸出的時間、對象(用戶)、數據的元數據、脫敏規則、合規檢查規則等,并定期對操作日志、取數日志進行審計。
本文探討一種面向大數據安全運營的數據服務網關Gateway,該成果已在電信運營商的生產系統中應用,現已成功支撐了運營商對外開放服務數據的脫敏和合規檢查,并已通過工業和信息化部電信研究院的技術測試。測試結果表明,Gateway對外提供統一數據訪問服務、取數控制服務與安全管控處理,能夠保障輸出數據的安全性,滿足中關于個人信息保護的相關法律法規、標準,在業務數據交互過程中符合的規定[6-14]。
當前,電信運營商對外開放數據服務還在起步階段,主要還是圍繞自有數據資源深度加工后的服務;隨著未來跨領域數據合作的推進,跨領域數據的深度融合、共享、開放、流通和交易,可能對數據的脫敏、合規性提出更高要求,這將是一個值得未來繼續深入研究、探索的課題。
參考文獻
[1] 中國計算機學會大數據專家委員會中關村大數據產業聯盟.中國大數據技術與產業發展報告(2014)[R].機械工業出版社,2015
[2] 范濟安,李衛,魏進武.電信運營商的大數據發展戰略[J].信息通信技術,2015,9(6):5-12
[3] 李衛,魏進武.電信運營商數據開放服務架構[J].信息通信技術,2015,9(6):24-28, 35
[4] 劉春,鄒海鋒,向勇.大數據環境下電信數據服務能力開放研究[J].電信科學,2014(3):156-161
[5] 馬琳,宋俊德,宋美娜.開放平臺:運營模式與技術架構研究綜述[J].電信科學,2012(6):125-140
[6] 中華人民共和國工業和信息化部2013年第24號令:電信和互聯網用戶個人信息保護規定[EB/OL].[2016-04-15].http://www.miit.gov.cn/n11293472/n11294912/n11296542/15514014.html
[7] GB/Z 28828-2012:信息安全技術公共及商用服務信息系統個人信息保護指南[M].北京:中國標準出版社,2012
[8] 2014-1039T-YD:電信運營商的大數據應用業務安全技術要求[S/OL].[2016-04-15].http://www.ccsa.org.cn
[9] 中華人民共和國國務院:中華人民共和國計算機信息網絡國際聯網管理暫行規定實施辦法[EB/OL].[2016-04-15].http://www.law-lib.com/law/law_view.asp?id=13818
[10] 中華人民共和國信息產業部令(第3號): 互聯網電子公告服務管理規定[EB/OL].[2016-04-15]http://www.gov.cn/gongbao/content/2001/content_61064.htm
[11] 中華人民共和國主席令第二十一號: 中華人民共和國侵權責任法 [EB/OL].[2016-04-15].http://www.gov.cn/fl fg/2009-12/26/content_1497435.htm
[12] 中華人民共和國第九屆全國人民代表大會常務委員會第十九次會議: 全國人民代表大會常務委員會關于維護互聯網安全的決定[EB/OL].[2016-04-15].http://www.npc.gov.cn/wxzl/gongbao/2001-03/05/content_5131101.htm
[13] 中華人民共和國公安部令第82號:互聯網安全保護技術措施規定[EB/OL].[2016-04-15].http://news.xinhuanet.com/newmedia/2006-03/01/content_4240889.htm
[14] 2014B21:電信互聯網大數據開放平臺標準化研究[EB/OL].[2014-04-15].http://www.ccsa.org.cn
[15] 胡坤,劉明輝,宮雪等.電信運營商應用數據的安全管控與隱私保護研究[J].信息通信技術,2013,7(6):63-67
[16] 丘金源.分布式數據網關研究[D].廣州,廣東工業大學,2005
[17] 王春皓.服務網關系統:中國,CN200610062810.5[P].2006-09-27
[18] 任鋼,吳隆萍,陳文軍,等.一種數據交換方法和系統及一種網關服務器:中國,CN 201410177069.1[P]. 2014-04-29