美國高等教育數據系統中的信息安全和隱私(二)
編者按
2015年8月,美國高等教育政策研究所(Institute for Higher Education Policy,IHEP)率先召集了一個由全國高等教育數據專家組成的工作組,來討論推動一系列改進數據基礎設施質量的新興方案,為州和聯邦的政策對話提供信息。《美國高等教育數據系統中的信息安全和隱私》是該成果的系列論文集——《展望21世紀的高等教育數據基礎設施》中的一篇。上期文章使讀者了解信息安全和隱私的概念以及國家高等教育數據基礎設施中的技術,本期主要闡述高等教育數據集合的信息安全和隱私的關注點及保護等方面的內容。

無論采用何種基礎設施的架構,任何一個國家高等教育數據系統都含有一個大型數據集合。該集合的設計目的是提供有用和可靠的信息來反映高等教育中的學生成就和教育成效。“大數據”通常定義為:來自于多個來源的、大型的、復雜的電子數據集,以及這些數據集的事務數據(或元數據),因而相應地必須是“集成的、關聯的或者共同分析的”。
由于數據的規模和復雜度,為了解決如何在這些數據集和支撐大數據集合的IT系統之間和之內維護信息安全和隱私的問題,必須要進行協同的探究。鑒于在全國范圍內對學生平等和教育成效的疑問日益緊迫,而為了回應這些疑問又需要大量的數據,任何一個國家高等教育數據體系方案都受到了安全和隱私方面的關注。
對大數據的安全和隱私的高度關注點包括:數據量(采集到的數據的規模)、敏感性(采集到的數據的敏感性以及在不同系統之間潛在的敏感性差異)、訪問權(為達到在更大數據集合中查詢的目的而擁有多個大數據集合訪問權的個人或實體)。
經過慎重的考量,利益相關者們可以在國家高等教育數據技術設施中實施全面的信息安全和隱私措施,以回應這些關注。
數據量
數據量涉及兩個方面問題:第一個是大數據集合中的記錄數量,無論是來源于學校、機構或者其他組織。第二個是采集到的關于每個人的數據項目數量。在大型數據集上實施的復雜分析,以及研究者從這些分析中分辨出的個人或群體的動向,其范圍可能是非常廣泛的。這種大型的數據集合,以及從中揭示出的洞察成果,經常會受到充滿懷疑的目光的審視,尤其是當這些采集到的數據中含有可以識別出個人身份的信息時。對不同來源的數據匹配可以創造出新的數據集,其中包含可以識別出對應個人身份的充足信息;這種情況下,為了保護個人隱私,就要采取額外的保護措施。
在國家高等教育數據體系中,數據量兩方面的問題都會涉及。數據可能取自于從體系中的多個實體(如學校、州和聯邦機構)。另外,不同的實體(以及對應的IT系統)可能持有不同的個人數據項目。當合并這些數據項用于分析時,可能導致產生關于某個個人的詳細描述,比任何單獨一個實體本身能描述的都更加詳細。
敏感性
數據的敏感性也是對大數據集合的一項關注,有兩種互相區別但又密切相關的敏感性問題。
第一種問題是大數據集中可能含有不同類別數據的多種組合。普遍的數據分類包括可識別身份的數據、擦除身份的數據、匿名的數據和匯總的數據。因為數據的敏感性不同,不同類型的數據要有不同的安全和隱私保護措施。例如,可識別身份的數據要比匿名數據更加敏感。
第二種問題和第一種關系很近,不過仍然有細微差別,主要是在大數據集合中可識別身份的數據的使用方面。各種類型的可識別身份的數據并不是都有相同的敏感性。理解數據集中不同數據項的敏感性是至關重要的。某些數據項屬于最高敏感性的數據類別,例如姓名和社會安全號(Social Security Number,SSN)。因為它們僅憑單獨一項數據就可以獨立唯一識別某個人,或者它們被社會觀念認為是高度敏感的。州和聯邦法律,如《1974年家庭教育權利和隱私法案(FERPA)》或《1995年健康保險轉移和問責法(HIPAA)》等,通常會要求對這些最敏感的數據項目進行保護。
另外一些數據項也可能被認為是敏感的,因為當它們組合在一起后很可能可以識別出唯一的個人。雖然其他的一些數據項仍然會被認為是可識別身份的數據,但是它們不太可能會被用來識別出唯一的個人。表1標出了不同類型的可識別個人身份的數據以及它們的敏感性。
在大數據集合中,不同類別的數據和不同的可識別身份的數據項進行組合,對數據的查詢所返回的結果中包含的數據項也具有不同的敏感度。此時,對這些查詢的結果必須要進行安全保護,而且保護的方式應當與其中含有的最高敏感度的數據的保護方式相一致。這樣的要求對于單點數據系統和多點數據系統都是一項挑戰。
在國家高等教育數據體系中,IT從業者要采取兩種方式來應對敏感性挑戰。首先,參與體系的實體必須在其所控制的IT系統中實施適當的安全和隱私保護。這表明,要確保那些系統對其所采集到的數據的保護級別符合系統保存的最敏感的數據項的要求。這就意味著,即便是同一個實體的不同系統也可能有不同的保護級別。其次,除了單個IT系統級別的保護以外,在國家體系中的所有實體要聯合協作,以確保在實體之間和體系之內共享的數據受到妥善的保護,即任何分析在向最終用戶報告數據的終端點上,數據的保護水平達到其中所包含的最敏感的數據項目的要求。
訪問權
采集和存儲的個人信息的訪問范圍十分廣泛,尤其是通過互聯網和個人移動設備時,訪問范圍幾乎是全球的。幾乎所有的大數據集合都設計成為供多個實體、從多個地點、為了多種目的而進行訪問。對訪問權的關切一般分為兩類:一是針對無合法訪問權的外部角色,對數據進行保護;二是針對有合法訪問權的人員等內部角色,在出現故意超出事先批準的授權范圍、通過未批準的設備、或偶然錯誤地披露數據的情況時,對數據進行保護。國家高等教育數據基礎設施中,多個IT系統可以互相鏈接,來自多個所有者的數據集在共享系統中組合,而且有訪問數據的人數眾多。因此,信息安全控制不僅有必要防護數據免于外部侵入,而且有必要實施控制合法人員的訪問政策。

表1 可識別個人身份的數據項
對于一個高等教育數據系統和構成整個體系的底層IT系統而言,不存在信息安全和隱私保護一刀切的設計公式,可以用來確保在其中流動的所有數據的安全和隱私。在《展望21世紀的高等教育數據基礎設施》中所提出的所有方案中,每一個都提出了信息安全和隱私方面的、自身特有的一組技術挑戰,這需要根據解決方案中所采用的底層技術和流程逐一加以應對。因此,采用全面的解決途徑是必不可少的,即樂于采用最佳實踐、降低整體風險降低、實施數據保護,以及實現整個體系的透明、問責和信任。

對任何一個改善國家高等教育數據基礎設施的可選方案而言,建立一系列共同的隱私原則都有助于保護學生隱私。
信息安全保護
一些信息安全標準和最佳實踐的資源是現成的。幾乎所有的標準都是基于同一個概念,即良好的信息安全實踐是在試圖降低風險和保護數據。此處的風險指的是某個威脅利用某個漏洞產生損害的可能性。例如,某個惡意的黑客(威脅)猜出了某個用戶的IT系統弱密碼(漏洞),然后從數據庫中盜竊出了數據并隨后利用數據傷害了某人(身份竊取)。風險實現的可能性以及風險實現的損害影響因環境不同而不同。并不是所有的風險或者漏洞都需要同樣級別的關注,而且大多數機構并不擁有嘗試消除所有安全信息風險的資源。通過風險并評估其相對嚴重性,是國家高等教育數據基礎設施中必不可少的組成部分。
大多數風險評估方法包括了四個基本的風險評估步驟:一是對評估了解范圍內的數據資產和數據開列清單;二是確定這些資產和數據所面臨的威脅和漏洞(統稱風險);三是對特定風險發生的可能性和潛在損失進行分類;四是記錄下為應對所確定出的風險所需的控制點。
風險評估的主要成果是,根據可能性和影響程度(如低、中、高)矩陣識別出IT資產和數據的風險,并且制訂計劃方案,用對底層組織而言切實可行的方式應對風險。組織根據其風險容忍度,可以選擇應對不同類型的風險:(1)最有可能發生的風險;(2)一旦發生將可能造成最嚴重損失的風險;(3)從資源角度來看最容易應對的風險;(4)同時滿足上述某些條件的風險。
IT從業者在識別出風險并進行評估后,可以采取信息安全控制措施加以解決。評估風險和實施信息安全控制措施的最終目的是保護組織的IT資源和其中的數據。為了恰當地應對風險,可以采用信息安全領域中的以下通用措施:
(1)資產管理的關注焦點是如何從創建或獲得到銷毀的全生命周期中,管理IT系統及其中的數據。
(2)身份認證、鑒權和訪問控制涉及如何識別授權用戶的身份、鑒權(證明其身份)以及被授予IT系統及其中數據的訪問權。
(3)運行安全指的是IT系統及其中的數據是如何操作,如何防范威脅,以及如何測試漏洞的。惡意軟件保護、系統日志和監控、數據備份以及漏洞管理都包含在這個大類中。
(4)通信安全指的是當數據在網絡或者IT系統中移動,包括在一個組織內部或多個組織之間移動的情況下,IT系統及其中的數據是如何受到保護的。
(5)物理環境安全涉及IT系統及其中的數據如何防范物理丟失、機械故障和環境破壞。包括如何通過防范如下風險來保護IT系統:盜竊或丟失;自然災害,例如火災、洪水、臺風;蓄意破壞;電源中斷或其他機械故障。
(6)事件響應、業務持續和災難恢復指的是當出現涉及IT系統及其中數據的事件時組織如何響應,以及如何從這些事件中恢復。組織必須為一些不同類型的事件(如惡意攻擊、自然災害、斷續的網絡連接等)建立響應和恢復規程。
(7)培訓和意識涉及組織如何培訓雇員和其他IT用戶,并且傳播關于如何推動良好信息安全實踐的意識。培訓和意識非常重要,因為即使有最好的意愿,雇員和其他可信個人也有可能會無意中損害IT系統及其中數據的安全。
隱私保護
作為一個領域主題,過去十年中隱私在高等教育中的重要性不斷在提高。包括FERPA在內的法律以及教育技術市場的增長在教育體系中甚至將隱私概念變得更加重要。與信息安全概念非常類似的是,也沒有一個單一的全面控制措施,能夠確保數據在任何情形下都能保持足夠隱私,并且每種可能的數據方案都有其特有的隱私挑戰,要求有專門的隱私響應方式來應對。
盡管如此,對任何一個改善國家高等教育數據基礎設施的可選方案而言,建立一系列共同的隱私原則都有助于保護學生隱私。堅持這些原則可以提高國家體系中的透明、問責和信任。《公平信息實踐原則(FIPPs)》是《1974年聯邦隱私法案》的一部分,對美國的隱私法律有重要影響。這些原則的設計目的是為了要應對大型的個人數據集合所帶來的隱私關切,因此,對于國家高等教育數據基礎設施中應當采用的隱私原則,它們可以作為很好的范本。FIPPs包含了八項隱私原則。
(1) 目的規范:組織應當在采集數據之前,告知個人為什么要采集數據,以及用于何種用途。
(2)采集限制:組織應當只采集他們所需要的數據(稱為數據最小化),而且獲取數據的方式是經法律途徑批準的,或者是告知了相關個人并得到知情同意的。
(3)數據質量:組織應當只采集準確的數據,并且當因某種原因使關于某人的數據不正確時,此人可以遵循現成的適當程序加以解決。
(4)使用限制:組織應當只將數據用于最初采集數據時指明的用途,或者是其他法律許可的用途。
(5)安全防護:組織應當保護所采集的數據免于未授權的訪問(即機密性)、破壞(即可用性)和篡改(即完整性)。
(6)公開透明:組織應當保持透明,將采集個人數據的活動情況提供給涉及的個人。
(7)個人參與:個人應當能夠知道自己的數據是否被某個組織所采集,并且應該能夠獲得被采集到的數據。
(8)可問責性:采集數據的組織應當對上述的隱私原則承擔責任。
隱私原則不是憑空實現的。全體高等教育數據社群必須在全面應用于整個體系的原則上保持一致。為實現這一點,利益相關者們應該考慮隨著體系的演進而建立協作的數據治理程序。數據治理程序中要部署相關的政策和流程,以滿足在國家高等教育數據基礎設施中管理所采集、使用和共享的數據的需要。這樣的程序將能夠提供指導,說明可利用的數據、數據的敏感性、數據的責任方、數據的存儲位置、數據的訪問權,以及與數據有關的風險和法律制度規定。
向學生、家長、管理人員、教師、政策制定者和其他對學生教育成效有興趣的利益相關者提供可靠的數據,和確保那些數據的安全和隱私,這兩件事情并不互相排斥。為了在國家高等教育數據基礎設施體系內確保有效的信息安全和隱私保護,下列的四項建議共同構成了一個框架。
1. 采用基于風險的方法來理解信息安全和隱私的威脅及漏洞。無論國家高等教育數據基礎設施的解決方案或架構如何,利益相關者都必須要理解信息安全和隱私風險。對于任何一個系統,這類風險都會影響到系統向利益相關者提供關于提升學生教育成效的信息的能力。IT從業者評估風險后,可以采取信息安全和隱私控制措施來應對風險,以及對國家高等教育數據系統的組成部分——IT系統及這些系統中的數據加強保護。
2. 建立和堅持一組信息安全保護的基本措施。在國家高等教育數據基礎設施中,這些保護措施是對采集、處理、存儲、傳輸的數據進行安全防護所必需的。如果這樣的一組標準并不是州和聯邦法律(例如為保護聯邦IT系統而采用美國國家標準與技術研究所NIST特別出版物800-53所實施的控制措施)要求的話,那么最低水平下也要基于體系中的不同系統的內在風險來實施控制措施。相關控制集見表2。
3. 建立和堅持一組基本的隱私標準。為了在國家高等教育數據基礎設施中保護學生隱私,需要實施一組指導性的隱私原則。國家層面的努力尚未出現時,實施這些原則將提供學生隱私保護的最佳方案。最基本的也是必須要實現的原則是:采集數據之前,相關個人收到通知并確認知情同意;學校和其他組織只采集滿足回答學生教育成效測試中關鍵問題所需的、最小范圍的數據;并且學校和其他組織所采集的數據只用于采集時的原始用途或者法律許可的其他用途。
4. 建立協作的治理體系。在國家高等教育數據基礎設施中,為了確保所采集的數據對必要的測量和指標提供支持并回應利益相關者的疑問,治理體系是必要的。這個治理體系也可以審核數據體系中數據可用性和確保對數據的保護。除了定義數據所有權和管理措施、為信息安全和隱私的最佳實踐以及基本要求提供咨詢以外,治理實體還可以考慮培訓系統用戶的最佳方式,并就協調數據分享和分析的收益進行交流。

表2 美國國家標準與技術研究所NIST 800-53和ISO/IEC 27002:2013標準中的控制集
學生、學校和政策制定者需要關于高等教育的更高質量的信息,利益相關者們最需要的是關于學生教育成效的有意義的信息,而獲得這些信息要求在現有方案和考慮之中的方案中取得更高質量的數據。當利益相關者們考慮滿足數據需要的最佳方式時,勢必要在討論中加入如何能最恰當地保護學生隱私和確保國家高等教育數據系統中的數據安全方面的內容。通過謹慎細致的規劃,國家高等教育數據基礎設施中可以以適當的方式實施全面的信息安全和隱私保護,從而做到降低風險,保護數據,確保透明、可問責和信任。
(翻譯:陳強)