張建珍, 牛煜艷, 李 強
(1 山西機電職業技術學院 信息工程系, 山西 長治 046000;2 中國農業銀行股份有限公司長治市分行 辦公室, 山西 長治 046000)
隨著大數據技術發展,用戶在互聯網上留下的數據足跡中蘊含的巨大價值不斷被發掘,如個人在購物網站上某商品頁面停留時長及瀏覽商品種類可能成為購物平臺下次推送特定種類商品廣告的依據;個人在某新聞網站對某類新聞的點擊及瀏覽時間也成為了新聞網站篩選并推送特定新聞的依據。信息技術大發展也促進了教育信息化,并為有學習意愿的人提供了更多的選擇以提升職業能力,充實興趣愛好。自2012年盛行的MOOC成為在線學習的主要模式。借助大數據技術,MOOC平臺為教育機構改善教學設計、支持教育決策,完善課程建設、開展教育科學研究等提供了依據,同時也為用戶進行課程推薦、學習效果預測提供依據。
在現階段,利用大數據技術[1]進行以提升產品功能、服務質量等為目的的研究中,不僅通過數據獲得了個人真實的行為習慣信息,越來越多的個人敏感信息也被發現。
電商平臺、社交平臺、醫療及金融平臺由于涉及商業利益,人們對用戶隱私的警惕性普遍較高,因此,以上平臺大數據的用戶隱私保護問題即已成為平臺本身、同時也是用戶關注的焦點。但就在線學習而言,大多均以知識和技能提升為目的,關于用戶隱私信息較少引起關注,進而在線學習用戶在大數據背景下可能涉及的隱私泄漏及隱私保護還沒有受到足夠重視。本文研究以下3個問題:
Q1:在線學習用戶網絡隱私。
Q2:在線學習用戶的網絡足跡。
Q3:在線學習用戶隱私保護策略。
國內的研究主要立足于對CNKI數據庫的挖掘分析。考慮到2012年MOOC在中國開始呈現的普及態勢,因此,選取了2013~2018年的時間范圍發表的文獻,并在結果中檢索同時包含“大數據”、“隱私保護”兩個關鍵詞,而據2018年12月26日中國知網檢索結果可知,一共獲得353篇有效文獻。大多數文獻都比較新,被引頻次仍在逐步提高。如圖1所示,除2017年出現小幅度下降外,整體呈現明顯上升趨勢。以“大數據”、“隱私保護”關鍵詞基礎上,添加“教育”關鍵詞,僅檢索到2篇文獻,以“大數據”+“隱私保護”+“在線學習/網絡學習”關鍵詞則沒有檢索到任何有效文獻。

圖1 2013~2018年中國知網收錄相關論文情況
通過文獻研究發現,大數據技術以“獲得知識與推測趨勢”、“分析掌握個性化特征”、“辨識真相”為主要目標。社交、醫療、工作、學習、娛樂行業活動生成的大數據,經過機器學習、數據挖掘、回歸分析等技術處理可以形成個人特征信息,劉雅輝等人[2]提出對個人信息采用分類分級保護技術,將個人信息分為4類,可以直接識別出特定個人的個人身份信息、與個人生活緊密相關的準標識符信息、通過某些信息可以關聯得出的敏感信息、泄露可能導致風險的日志信息,同時還提出應劃分企業和個人在隱私保護中的職責。
數據收集、分析、發布過程均存在隱私泄漏的安全隱患[1]。如根據用戶簽到行為或社交網絡上下文推演用戶興趣點[3-4],馮登國等人[5]提出通過修正數據精度,數據匿名發布、數據水印人工加擾等方法來保護隱私數據;最佳的隱私保護方案是加密所有數據。曹珍富等人[6]提出通過減少公鑰加密使用次數來設計高效隱私保護外包的密文計算方法,并提出支持大屬性集合的短密文高效可追蹤可撤銷屬性基加密方案以控制密文訪問。在數據分析和數據發布過程中涉及的隱私保護問題上,袁健等人[7]提出減少數據關聯的冗余信息,通過自適應加噪技術為差分隱私保護生成合適數量噪聲的方法。
教育大數據中用戶隱私的保護尚未得到廣泛的研究,就目前檢索到的2篇文獻來看,主要集中在用戶知情權方面研究,如趙慧瓊等人[1]基于教育信息化的數據收集過程中用戶知情同意原則、數據分析過程中匿名原則、數據解釋的公正原則提出大數據學習分析的安全與保護框架。周孟等人[8]以學生為對象,從隱私安全基本需求、隱私等級設置、隱私安全風險等3個維度研究教育隱私保護,討論了教育數據采集中學生的知情權、所有權、選擇權和控制權。
國外與本文研究主題較為相關的是Jones等人[9]在《Users or Students? Privacy in University MOOCS》進行了大學MOOCs中用戶隱私的研究。研究中依據美國家庭教育權利和法案(The Family Educational Rights and Privacy Act, FERPA)對MOOCs平臺可能涉及學習用戶隱私信息進行分析,并對比了Coursera、 Blackboard CourseSites、EDX三大平臺用戶數據收集政策,指出隨著越來越多大學參與并陸續建設了自己的MOOC,但沒有具體指出在線學習用戶隱私保護具體措施及可執行方案。
綜上所述,大數據背景下對隱私保護的研究,主要以從技術角度對數據加密算法研究和從法律角度對隱私保護立法角度研究為主,對在線學習過程中可能存在的用戶隱私泄漏及保護技術尚未得到技術及學者們的重視。
隱私內涵根據社會、文化、技術背景不同而不同[10],利益訴求也是影響隱私判別的重要因素。
隨著網絡的普及,出現了網絡隱私,即個人隱私在網絡中的延伸,自然人在網上的私人信息、私人空間和私人活動應當受到保護,不得隨意搜集、復制、轉載、下載、傳播所知曉的他人隱私。
歐盟1995年10月通過《個人數據保護指令》,要求歐盟各國根據該指令調整制定本國的個人數據保護法。2013年11月26日,聯合國通過由巴西、德國發起的保護網絡隱私權決議。中國有學者基于網絡隱私提出了數據權的概念,數據權包括數據管理權、數據控制權等[11],另外郭兵等人[12]基于銀行個人貨幣資產管理模式及架構提出個人大數據資產管理。
在線學習用戶網絡隱私包括廣義網絡隱私和狹義網絡隱私。注冊在線學習賬戶時使用的個人登錄身份、郵箱地址、教育背景等屬于廣義網絡隱私;而由在線學習用戶的學習行為,經大數據技術分析生成的學習興趣、常用登錄地點、固定學習時間、發言討論特點等屬于狹義網絡隱私。
本文以國內較為流行的在線學習平臺,如學堂在線(http://www.xuetangx.com/)、中國大學MOOC(https://www.icourse163.org/)、華文慕課(http://www.chinesemooc.org/),國外較早起步的三大平臺,如Coursera(https://www.coursera.org/)、Futurelearn(https://www.futurelearn.com/)、Edx(https://www.edx.org/),分析在線學習平臺可能涉及對用戶隱私信息收集的統計見表1。

表1 著名平臺對用戶信息收集情況統計
由表1可知,六大平臺均支持郵箱注冊,可以得出在線學習平臺對用戶電子郵箱的收集是必然的。作為個人信息的完善,大部分平臺要求或希望用戶完善年齡、教育背景、所在地區,職業目標或個人簡介。隨著在線學習平臺商業化運營的走行態勢,對注冊用戶信息的收集日漸精細,如中國大學MOOC平臺,不僅收集用戶郵箱、手機號,還收集用戶身份證號。華文慕課是公益性開放共享慕課平臺,以運用網絡信息技術促進華文高等教育為使命,以為有學習和提升愿望的在校生、社會生、大學教師、大專院校提供學習機會,并不注重用戶信息收集。
在線學習用戶在六大平臺上對個人數據的管理權限見表2。由表2可知,六大平臺均支持用戶修改個人信息和對數據管理的問題聯系。中國大學MOOC、Coursera、Futurelearn和Edx四個平臺提供刪除個人信息的服務,但需要專門與平臺聯系,用戶不可以自主刪除自己的注冊信息或學習記錄。學堂在線、中國大學MOOC、Coursera和Edx四個平臺為用戶提供查看自身學習記錄的監視數據功能。

表2 在線學習用戶在著名平臺上對個人數據的管理權限對比
在線學習平臺用戶注冊時,一般會有隱私政策告知用戶平臺收集哪些信息以及如何使用這些信息,如個人信息、學習表現、學習模式、上網IP、以及使用、披露、分享用戶信息的目的,但是,對于可能存在的用戶隱私泄露并沒有做出明確責任劃分。
以上六個平臺除華文慕課純公益性質、未提供隱私政策外,其余五個平臺均提供了隱私政策或服務條款,如可能收集的信息、如何收集和使用信息、可能分享、轉讓和披露的信息、如何保留、儲存和保護信息、如何管理用戶的信息。
用戶搜索和瀏覽習慣、學習行為特點、年齡及教育背景、位置信息是為用戶提供個性化服務以及進行營銷推廣的大數據分析的基礎,也是進行隱私保護、防止第三方信息竊取的關鍵,如何平衡二者,是一個博弈[13]過程。
依據趙慧瓊等人[1]的研究將大數據學習過程劃分為數據收集、數據分析、數據解釋等3個階段,研究提出在線學習用戶隱私保護應貫穿大數據學習的三個階段,并且分別從用戶和平臺兩方面加強隱私保護,保護模型如圖2所示。
在線學習用戶一旦注冊成為某平臺用戶后,接下來在該平臺的一切學習行為均成為分析依據。平臺通過特定分析模型進行用戶行為大數據分析,探究學習者的學習過程與情境,總結其學習規律,進而根據學習者特征及平臺商業利益為學習者提供個性化自適應學習意見[14]。因此,如果平臺基于用戶數據與第三方開展合作研究時,存在用戶數據漏洞問題。付玉香等人[15]提出基于遷移學習的多源數據隱私保護方法研究,不失為平臺用戶數據保護的優秀方法,就是先在本地使用PATE-T模型對隱私數據訓練分類器,接著集合多方分類器,建立一個準確具有差分隱私的全局分類器,達到在不共享本地私有數據的情況下共享雙方數據開展合作研究。

圖2 在線學習用戶隱私保護模型
任何隱私數據均來源于用戶自身有意無意的提供。要想控制在線學習用戶的隱私漏洞,最有效的方法在于用戶對自身隱私的高度敏感。一方面,向平臺提供信息時,能保持謹慎態度,非必要情形不予提供,或有選擇性提供個人信息;另一方面,對強制要求提供的信息或帶有傾向性推薦意見,能保持警惕,防止落入網絡陷阱。
本文通過研究文獻,提出在線學習用戶的網絡隱私范圍;通過分析國內外較著名的六大在線學習平臺,研究了在線學習用戶的網絡足跡,提出在線學習用戶隱私保護應貫穿大數據學習的3個階段,并且分別從用戶和平臺兩方面加強隱私保護。大數據分析技術是把雙刃劍,在為平臺提供決策依據,為用戶提供私人定制同時,也可以被用來挖掘個人隱私,從而導致在線學習用戶的隱私泄露。因此,要想將在線學習這一現代學習模式效益最大化,平臺必須重視注冊用戶信息保護,個人也必須謹慎對待一切要求提交的個人信息。