999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

個人人社數據的敏感性識別與隱私計量研究

2025-05-01 00:00:00臧國全周麗媛張凱亮柴文科張恒苗
現代情報 2025年5期

摘 要: [目的/ 意義] 現行法律法規和行業標準對人社數據提出分級保護, 但缺乏定量依據, 本文定量測度人社數據隱私值, 探索解決該問題。[方法/ 過程] 普查人社隱私相關文獻, 建立人社隱私文本庫; 構建人社隱私詞表框架, 建立人社敏感詞表, 進行人社數據敏感性識別; 設計隱私計量模型, 測度人社數據隱私值。[結果/ 結論] 計量結果表明, 人社數據隱私值由高到低為: 工資與保險福利數據、專業技術數據、行政工作數據、個人基礎數據和入職流動數據。本文挖掘客觀存在的人社隱私文本, 計量結果具有客觀性, 為人社數據分級提供更科學的依據。

關鍵詞: 人社數據; 數據隱私; 隱私計量; 敏感性識別

DOI:10.3969 / j.issn.1008-0821.2025.05.008

〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2025) 05-0077-12

人力資源和社會保障部(簡稱“人社部”)服務業務主要包括就業創業、社會保障、人才人事、勞動關系等。個人人社數據指人社部門為用戶提供服務過程中采集、調用和制作的個人數據[1] , 簡稱“人社數據”。隱私指隱私主體對隱私客體的敏感性認知[2] , 針對個人人社數據, 隱私主體是使用人社服務的公眾, 隱私客體為個人人社數據項。因此,人社數據隱私是指個人在接受人社服務時對被采集的個人數據的敏感性認知, 也是人社部門對個人數據在其生命周期內被采集使用過程中涉及的個人隱私, 稱為“人社隱私”。

數智時代背景下, 人社部門建成了人社業務服務的“大平臺”, 構成了全國聯動的“大系統”, 形成了人社領域的“全數據共享、全服務上網、全業務用卡” 的應用格局, 產生了海量人社數據。基于對該類數據分析與使用, 人社部門可以提高業務效率, 開展人力資源市場運行監測, 制定更加科學合理的政策, 政策實施更加精準有力。但同時會產生人社數據泄露, 損害用戶個人利益, 影響社會穩定,威脅國家安全, 如: 上萬份簡歷信息被明碼標價、打包出售形成黑色產業鏈[4] , 在求職平臺發布虛假兼職信息、出售求職者個人簡歷信息非法獲利[5] 等。對此, 國家制定法律法規, 人社部門制定行業標準,保護人社數據安全, 并將分級保護作為基本制度,如《中華人民共和國個人信息保護法》《中華人民共和國數據安全法》《全國干部、人事管理信息系統指標體系與數據結構》《全國公安人事管理信息結構體系》等, 但均缺少分級的定量客觀依據, 致使分級保護制度無法落地。

1 實踐與研究進展

數字人社建設產生海量人社數據, 人社數據開放利用與隱私保護構成尖銳矛盾, 為了解決這一矛盾, 業界的實踐和學界的研究均取得一定成果。

1. 1 業界的實踐

業界的實踐研究集中在隱私保護方面, 采用的工具主要有行業標準和法律法規, 相關研究匯總如表1 所示。

行業標準方面, 國內和國際在人力資源方面的標準制定都側重在人力資源的術語界定和人力資源服務的規則規范兩個方面: 社會保障方面, 國際標準明顯比國內的更具體、更全面; 法律法規方面,國內制定的多為普適性的隱私保護法律法規, 缺少專門針對人社數據的法律法規, 國外制定的法律法規專指性較強, 如美、英、日都有出臺關于人社數據保護框架和保護措施的相關法律法規。

1. 2 學術界的研究

學術界在人社數據領域的研究集中在隱私保護、隱私計量和文本挖掘3 個方面, 相關研究匯總如表2所示。

學術界對人社數據隱私保護方面的研究集中在管理和技術兩個層面: 管理層面的研究主要是對人社部門或人社管理部門提出要求; 技術層面的研究主要在人社數據的“用前、用中、用后” 進行各類技術保護, 以提升人社數據隱私安全。學術界對相關領域隱私計量研究主要有上述4 種方法, 但各有優劣。學術界對相關領域文本挖掘的研究較為成熟,無論是文本特征提取還是文本標簽化處理, 都有較成熟的技術可借鑒參考。

1. 3 述 評

綜上, 業界實踐的研究均將數據分級保護作為基本制度, 但缺失分級的定量依據。學界研究的主要領域中, 人社數據隱私保護側重管理對策和技術方法, 缺乏具體分級保護方案; 隱私計量均采用體現意愿價值的用戶調查, 結果會導致主觀性偏強,產生假設性偏誤; 文本挖掘的對象少見人社文本報道, 但可供借鑒并進行人社文本的適用性改造后,可用于本文的研究。

本文以“識別來源→識別模型→隱私計量” 為邏輯思路, 進行人社數據的敏感性識別與隱私計量研究。首先調查人社隱私文本的生產者作為該類數據的隱私主體, 依據隱私主體生產的人社行業文獻建立隱私文本庫, 作為識別來源; 其次挖掘人社隱私文本庫, 構建人社數據語義詞表, 作為識別模型;最后分析人社數據隱私性影響因素, 構建計量指標,進行人社隱私計量。計量結果彌補了傳統調查方法的主觀性導致假設性偏誤的不足, 可以作為人社數據隱私分級的客觀定量依據。

2 理論基礎

本文采用隱私界定理論構建人社隱私文本庫,使用句法結構理論建立人社數據敏感性識別模型,運用情感評價理論、計量語言學理論設計隱私計量模型。

隱私界定理論: “隱私” 一詞在中國最早出現于周朝初年[33] , 國外于1890 年由Warren S D 等[35]提出。目前, 學術界還未形成統一的概念定義, 但在隱私構成本質上趨于一致, 即隱私的本質是隱私主體對隱私客體的敏感性和敏感程度的認知, 隱私計量就是對這種認知進行的定量測度。依據這一隱私界定理論, 本研究針對人社行業領域數據, 調查歸納隱私主體的類型, 普查各類隱私主體生產的該行業領域文獻, 建立人社隱私文本庫, 形成人社數據敏感性識別的來源。

漢語句法結構理論: 由趙元任在《國語入門》首創, 朱德熙在《語法講義》中完善[36] 。任一種句法結構中, 句子是表達完整語義的基本單元, 主語必不可少[37] 。本研究依據該理論, 針對人社隱私文本庫進行句法分析, 抽取包含人社敏感數據項的句子作為人社敏感數據單元。

情感評價理論: 又稱意見挖掘, 最早由美國MIT媒體實驗室的Picard R W[38] 教授提出, 認為情感計算包括3 個部分: 情感識別、情感發生、情感表達。文本情感分析涉及多個學科領域, 如語言學、心理學、認知科學、數據挖掘等[39] , 目前學界借鑒該理論針對自然語言文本, 挖掘人們對不同主題、不同屬性、不同分類的觀點和態度[40] 。本文采用情感評價理論, 針對人社隱私程度詞進行情感傾向和語義態度的評價, 以此設置不同類型程度詞的強度值, 服務于人社敏感數據的隱私計量。

計量語言學理論: 于1935 年由Zipf G K 首次提出, 后來K?hler R[41] 教授提出協同語言學理論架構, 豐富其理論內涵, 現學界以該理論為基礎, 主要通過定量方法對各種語言現象和語義結構進行測量、建模與解釋。本文基于該理論, 針對建立的人社隱私語料庫, 進行人社敏感詞匯單元結構及其關系的語義分析, 統計人社敏感詞匯中數據項的出現頻率與文本占比, 計算敏感動詞和程度詞的語義強度, 測度人社數據的隱私值。

3 人社數據隱私文本庫

人社數據隱私文本是對人社數據的術語界定、隱私保護、隱私泄露、開放共享、管理規范等進行論述和探討的各類文獻。根據文本的側重點不同,確定隱私文本類型, 建立人社數據隱私文本庫。

3. 1 隱私文本類型

不同的社會群體對人社數據隱私的學術研究和實踐探討的角度存在差異, 參考已有的研究[43] , 將人社數據文本分為以下4 種類型: 行業標準、法律法規、學術論著、泄露案例。

人社行業標準反映了人社領域管理者對人社數據的重要性認知, 既是人社數據安全實踐者對人社數據的分類分級和隱私保護管理的工作指南, 又是人社數據處理者進行這類數據采集、傳輸、保存、使用和刪除等操作的行為準則, 包括人社數據的數據項界定、安全分級規則、數據共享開放屬性與條件等。

法律法規反映了法學理論界對人社數據的敏感性認知, 既是人社數據的數據主體、使用者和擁有者等利益相關方處理該類數據的法律依據, 也是國家為保護個人權益、維護社會穩定和國家安全等所需要的法律保障, 包括相關國家法律、政府法規、部門規章和管理條例等。

學術論著反映了專家學者對人社數據的敏感性認知, 既是學術界進行的相關理論探討, 也是法律界制定和完善人社數據保護法律的知識來源, 因為新技術使用產生的人社數據隱私管理新問題, 學術研究在前, 法律納入在后, 包括數字技術和數智網絡等應用于人社業務數字化轉型所產生的人社數據安全的挑戰、問題與對策等。

泄露案例反映了數據竊取者對人社數據的價值認知, 既有各類媒體發布的人社數據泄露事件的報道, 也有司法機關對人社數據泄露案件的判決文書,包括最高人民法院的指導性案例、高級人民法院的典型案例、中級人民法院的示范案例和基層人民法院的普通案例等。

3. 2 隱私文本庫的建立

隱私文本庫的建立包括設置文本篩選原則、確定檢索詞、構建檢索策略、選擇檢索平臺、篩選目標文本等步驟。

篩選原則: ①主題相關原則, 文獻主題限定“人社”, 包括人事管理數據、人力資源數據、社會保險數據、就業服務數據等。②類型針對原則, 文獻類型限定為行業標準、法律法規、學術論著、泄密案例。③內容時效原則, 行業標準和法律法規均限定為現行文件, 學術論著限定為近十年, 泄露案例均為官方發布。

檢索詞: “就業數據” “人力資源” “人事數據”“勞動合同” “簡歷” “社會保險” “檔案管理” “學術不端” “學術失范” “隱私” 等。

檢索平臺與檢索字段: ①行業標準, 《中國知網標準數據總庫》《全國標準信息公共服務平臺》、稻殼巴巴、百度文庫等平臺檢索, 檢索途徑為“篇關摘” (篇名+關鍵詞+摘要)。②法律法規, 《北大法寶: 法律法規庫》, 檢索途徑為“標題” 和“全文”。③學術論著, 《中國知網》, 檢索途徑為“主題”, 以核心期刊為主。④泄露案例, 《北大法寶:司法案例庫》、裁判文書網, 檢索途徑為“標題” 和“全文”, 限定法院級別。

隱私文本庫: 檢索時間為2024 年3 月10 日—12 日。上述四類文本的檢索結果分別為: 行業標準87 篇、法律法規35 篇、學術論著108 篇、泄露案例80 篇。依據篩選條件對四類文本的檢索結果進行篩選, 篩選結果依次是: 行業標準59 篇、法律法規29 篇、學術論著100 篇、泄露案例77 篇。

4 人社數據敏感詞表構建

人社敏感數據單元是構建人社數據敏感詞表的基礎, 具體流程包括人社敏感詞表框架的構建和敏感詞提取, 具體邏輯如圖1 所示。

4. 1 人社敏感數據單元

人社敏感數據單元指人社隱私數據文本中包含人社數據項的句子。本文將這些句子中包含的人社數據項、動詞、形容詞和副詞分別稱為人社敏感名詞、敏感動詞、敏感程度詞。建立步驟: ①清洗人社隱私文本, 形成規范化的純文本文件; ②自編代碼識別包含人社敏感名詞的句子, 形成人社敏感數據單元集合, 示例如表3 所示。

4. 2 敏感名詞表

詞表框架。訪問人社部網站, 獲得人社部門的業務服務模塊; 瀏覽人社數據相關行業標準, 獲得人社數據項的分級結構; 實地調查人社部門, 獲取實踐部門采集和制作的人社數據類型。綜合3 個來源, 歸納人社數據類型為: 個人基礎數據、入職流動數據、行政工作數據、專業技術數據、工資保險福利。

敏感名詞的采集。敏感名詞也即人社數據項,來源有三: 一是國家標準《全國干部、人事管理信息系統指標體系與數據結構》中人社數據項。二是實地調查人社部門采集和制作的數據項。三是自編Python 代碼, 利用“Jieba” 分詞詞庫, 遍歷人社數據隱私文本庫, 抽取人社文本中的數據項。融合上述3 個來源, 形成人社敏感名詞集合。

敏感名詞的處理。一是針對人社敏感名詞集合,人工識別同義詞、多義詞和含義含糊詞, 分別進行聚類、詞義限定和詞義加注等方式處理, 提升人社敏感名詞的語義準確性。二是使用《同義詞詞林》《近義詞詞典》等詞匯工具和PMI 點間互信息法擴充敏感名詞, 提高敏感名詞表的覆蓋度。三是采用詞項共現關系算法計算敏感詞匯之間的語義關聯度,判別詞匯收錄的合理性。

將采集并處理后的敏感名詞歸入名詞表框架,形成人社敏感名詞表, 如表4 所示。

4. 3 敏感動詞表

動詞詞表框架: 參考行業標準和相關法規, 歸類總結人社敏感動詞類型包括采集、傳輸、存儲、使用、共享、銷毀6 個階段。此外, 該6 個階段對人社敏感數據進行操作時均有可能產生風險, 或可能進行風險規避活動, 因此, 動詞表框架增加“風險產生操作” 和“風險規避操作” 兩個類型。

敏感動詞的采集: 利用自編Python 代碼及“Jie?ba” 分詞詞庫, 遍歷人社敏感數據單元, 識別出操作敏感名詞的動詞, 形成人社敏感動詞集合。

敏感動詞詞匯的強度: 人社敏感動詞表中的前6 種數據類型是對人社數據隱私風險的間接操作,后兩種類型是對人社數據隱私風險的直接操作, 后者的操作強度高于前者, 因此, 前六類賦值“1”,后兩類賦值“2”, 如表5 所示。

4. 4 敏感程度詞表

敏感程度詞表框架: 依據敏感數據單元, 敏感程度詞包括副詞和形容詞。程度詞修飾方向有正反之分。因此, 劃分人社敏感程度詞類型為: 修飾人社敏感動詞的正向程度詞、修飾人社敏感動詞的負向程度詞、限定人社敏感名詞的程度詞等三類。

敏感程度詞匯的采集: 利用自編Python 代碼及“Jieba” 分詞詞庫, 遍歷人社敏感數據單元, 自動識別出修飾操作敏感動詞和敏感名詞的程度詞, 形成人社敏感程度詞集合。

敏感程度詞的強度: 依據情感評價理論, 參考已有研究中的情感評價結果[42] , 修飾人社敏感動詞的正向和負向程度詞強度分別為“1” 和“2”, 修飾敏感名詞的程度詞強度按照輕、中、強3 個級別分別賦值“1” “2” “3”, 如表6 所示。

5 人社數據隱私計量

在上述構建的人社敏感詞表基礎上, 分析影響因素、設計計量模型, 對人社數據隱私進行計量。

5. 1 人社數據隱私的影響因素

隱私具有情境依賴性, 針對本項研究, 人社文本的語境構成了人社數據的隱私情境。具體來說,文本類型是人社數據的宏觀語境, 人社敏感數據單元是人社數據的中觀語境, 人社數據本身是其微觀語境。因此, 可以從該3 個維度考察人社數據隱私的影響因素。

文本力度: 不同類型文本對人社數據的作用力度不同, 同一類型中不同來源文本對人社數據的作用力度也存在差異。宏觀上, 4 種類型人社文本的作用不同: 法律法規用于保護數據, 行業標準用于操作數據, 學術論著用于探討數據, 泄露案例用于違法違規使用數據; 微觀上, 法律法規的頒布機構有全國人大、國務院、省部級單位, 頒布機構權威性影響法律文本的效用力度。泄露案例的發布機構有最高人民法院、中高級人民法院、基層人民法院等, 發布機構的權威性也影響案例文本的效用力度。學術論著的影響因子有引用頻次和下載次數, 體現了該類文本的學術質量, 質量高低也影響論著文本的效用力度。

語義強度: 在人社敏感數據單元的語境中, 圍繞人社數據項, 敏感動詞對其進行直接操作, 敏感程度詞對其進行直接和間接修飾。不同類型敏感動詞的操作強度存在差異, 操作頻次高低影響操作強度。同樣, 不同類型敏感程度詞的修飾強度也有差異, 修飾頻次高低也影響修飾強度。操作強度和修飾強度構成了人社敏感數據的語義強度。

人社數據項的敏感性: 針對人社數據項本身,影響其重要程度的因素有兩個: 在隱私文本中的出現頻次和出現文本的占比。針對前者, 隱私數據項出現頻次越高, 說明數據項被研究討論的程度越高,反映數據項越重要, 體現數據項價值越大; 針對后者, 數據項出現文本占比越大, 表明數據項被研究討論的范圍越大, 關注的群體和人數越多, 體現數據項價值越大。

5. 2 人社隱私計量模型

根據上述對人社數據隱私的影響因素分析, 建立人社隱私計量模型, 如圖2 所示。

根據人社隱私計量模型, 結合本項研究對人社隱私文本相關指標的統計結果分布情況, 對各個計量指標進行量化, 如表7 所示。

根據人社隱私計量模型, 不同指標計量結果的融合操作需要計算指標權值。本研究調研了3 名人社領域的專家和2 名數據隱私領域的專家, 對涉及的指標兩兩對比, 從1~9(重要程度依次遞增)進行三角模糊數打分。根據打分結果, 構建模糊判斷矩陣, 表8 所示的是指標{X,Y,Z}的判斷矩陣。

運行基于三角模糊數改進的模糊層次分析算法, 得出權重結果{X,Y,Z}的權重為(0. 23,0. 49,0. 28)。同樣, 按照上述步驟, 計算其他指標之間的權值結果為: {X1,X2,X3,X4}的權重為(0. 40,0. 30,0. 20,0. 10), {Y1,Y2}的權重為(0. 44,0. 56),{Z1,Z2}的權重為(0. 58,0. 42)。

5. 3 人社隱私計量結果

依據計量模型, 針對人社隱私文本進行計量的結果如表9 所示。

5. 3. 1 基于人社數據類型的分析

人社數據類型隱私值計量。依據人社敏感數據表的三級結構“數據類型—數據條目—數據項目”,結合隱私計量模型進行數據項隱私值測度的結果,按照數據級別依次累加其隱私值生成上級數據的隱私值, 這樣, 數據項目隱私值疊加產生數據條目隱私值, 而數據條目隱私值相加計量出數據類型隱私值, 故數據類型隱私值大小取決于所包含數據項的數量和各個數據項隱私值。依據表4 中各數據類型所含數據項的數量和表9 中各數據項的隱私值, 計量數據類型隱私值如下(降序排列): 工資與保險福利數據(214. 25)、專業技術數據(192. 86)、行政工作數據(173. 09)、個人基礎數據(153. 23)和入職流動數據(150. 05), 具體分析如下:

工資與保險福利數據的隱私值第一(214. 25)。工資是勞動者提供勞動后, 所得貨幣形式的勞動報酬, 其支付金額通過法定用人單位依據法律規定、行業規定、與員工之間的約定等形式確定, 支付形式有時薪、月薪、年薪等; 社會保險指一種為喪失勞動能力或暫時失去勞動崗位或因健康原因造成損失的個人提供收入或補償的一種社會和經濟制度,主要包括養老保險、醫療保險、失業保險; 個人福利是指在個人具備國家及所在用人單位規定的條件時可以享受的除工資和保險之外的其他待遇, 包括喪葬撫恤救濟費、冬季取暖補貼和生活困難補助等。綜上, 該類數據的內容均為個人收入的金融性財產,且一般不愿披露和被他人知曉。我國《中華人民共和國民法典》規定, 隱私是“自然人的私人生活安寧和不愿為他人知曉的私密空間、私密活動、私密信息”, 因此該類數據具有隱私性。依據數據隱私的基本界定, 隱私是隱私主體對隱私客體的敏感程度認識, 隱私主體是數據中包含的能識別出自然人的數據項, 隱私客體主要是數據內嵌的體現隱私主體的人格屬性和財產屬性的內容, 由此, 該類數據隱私主要反映了員工的個人財產屬性。員工的工資與保險福利是基礎性的核心財產, 其他類型財產(如房產等)大都是基于該核心財產的派生財產, 故該類數據的財產屬性具有原始性, 其隱私性最高是合理的。已有多類型數據隱私性測度的相關研究中金融數據隱私值較高[43] , 而工資與保險福利是基礎性金融資產, 故驗證了本研究的該項結論。

專業技術數據的隱私值位列第二(192. 86), 包括四類: 人才情況、專業技術職務、專業技術成果、專業技術違規。其中, 前三類都是個人學術成就的客觀呈現, 集中在收獲的學術技術榮譽稱號、擔任的學術技術崗位、發表的學術技術論著、主持的科學技術項目、獲得的科學技術獎勵、申請的科學技術專利等, 均為公開數據, 直接個人人格和財產屬性的呈現性都不顯著, 隱私性均不大。第四類數據是事業單位(尤其學校和科研機構)專業技術人員的職業操守, 國家和相關部門頒布了相應法律法規和制度規范進行約束和處理, 政治紀律違規、教育教學失職、學術道德不端、工作作風懈怠、生活作風敗壞、廉潔從教從業失責等違法違規與失范行為都會受到嚴肅處理, 處分結果將給個人造成嚴重的負面影響, 產生巨大的精神和人格傷害甚至財產損失,故這類數據敏感性非常顯著。綜上, 專業技術數據的隱私值測度結果較高, 位列第二。

行政工作數據的隱私值位列第三(173. 09)。行政事業單位(國企參照該類單位進行管理, 故合并一起)干部隊伍是核心。干部管理包括后備干部動議、考察考核、公示任免、獎勵處分等流程, 每個環節都可能包含個人重要內容事項, 如后備干部的選拔、培養和使用, 考察考核的意見和結果, 彼時個人身份和職務, 警告處分、降職降級和免職撤職的原因等。這些管理活動中采集、調用和制作大量的個人數據, 其中不少數據內容屬于數據主體不愿披露和被他人知曉的私密信息, 尤其是對個人產生較大負面作用、較為嚴重損傷個人人格的數據項,如重要政治歷史活動中的個人污點行為、擔任重要職務遭遇降職和撤職的原因, 這些數據項對數據主體具有較強的人格敏感性, 屬于人格性隱私。但是個人違規違法行為導致的經濟和刑事犯罪問題就需移交給公安機關進行偵查, 進而產生的刑偵經偵數據屬于隱私性更高的個人公安數據, 不在人社數據范疇之中, 故行政工作數據的隱私值位列第三。

個人基礎數據(153.23)與入職流動數據(150.05)的隱私值位列最后。個人基礎數據有四類: 標識數據、半標識數據、聯系數據、家庭成員及社會關系數據。前兩類數據分別承載著直接和間接的社會識別作用, 第三類數據提供社會聯系功能, 這三類數據都是個體融入社會成為社會一員的必要條件, 可能會成為“個體被外界打擾” 的原因(尤其聯系數據)進而產生早期含義的“隱私”[35] , 但它們體現的人格屬性和財產屬性較弱, 與現代管理學視角下的“數據主體對數據客體的敏感性認知” 的“隱私” 界定契合程度不高, 它們的泄露導致數據主體的人格傷害和財產損失不大, 故這三類數據的隱私性較小; 第四類數據涉及關聯隱私, 即關注的對象是個人家庭和社會關系成員的“隱私”[12] , 但所具有的人格性和財產性也不大, 隱私性也較小。工作入職與工作流動數據中, 前者包括錄聘和試用, 涉及的入職考試成績和試用期滿的考核具有一定敏感性;后者包括工作交流和崗位變化, 涉及的被“辭退”和被“開除” 可能會比較嚴重負面影響員工的人格; 其他數據的泄露對人格和財產造成的影響均甚微。綜上, 個人基礎數據和入職流動數據的敏感性均不太顯著, 其隱私值均位于行政工作數據之后。

5. 3. 2 基于人社隱私文本的分析

人社隱私文本類型隱私值的計量。文本類型隱私值是一類文本中包含的所有敏感數據項隱私值的累加, 也是該類文本敏感程度的呈現。故, 文本中所含敏感數據項的出現頻次和隱私值是該類文本隱私值的兩個影響因素: 數據項出現頻次越高, 單項數據隱私值越大, 文本類型隱私值就越高, 反之,就越低; 文本數據項的出現頻次與文本體量息息相關, 故后者也間接影響文本類型隱私值。依據表4統計各類文本中敏感數據項的出現頻次, 結合表9計量文本類型隱私值, 結果為(降序排列): 人社行業標準(314. 80)、相關法律法規(227. 24)、泄露案例(208. 90)、學術論著(179. 24), 具體分析如下:

行業標準的隱私值最高(314. 80)。《全國干部、人事管理信息系統指標體系與數據結構》規范了人社數據的類型和數據項, 通用性強。已有一些領域建立了對應領域人社數據規范, 如公安領域的《全國公安人事管理信息結構體系—第1 部分: 指標體系分類與代碼》(GA393. 1-2002)和社保國家標準《社會保險術語》及其《養老保險術語》《醫療保險術語》等, 專業特色比較鮮明。這些雖為現行標準,但年久還未修訂, 新出現的數據項還未及時納入,且針對人社數據隱私及其保護的行業標準缺失。盡管如此, 這些文本界定的數據項仍是人社數據的核心。這些文本的關注重點是人社部門采集數據項的描述科學性和準確性, 如社會關系、處分原因、專家待遇、工資總額、保險福利等。

相關法律法規的隱私值次之(227. 24)。人力資源管理和社會保險的法律法規較多, 如我國的《中華人民共和國社會保險法》《人力資源市場暫行條例》《事業單位人事管理條例》等, 但針對人社數據隱私及其保護的法律法規缺失。涉及人社管理的相關法律法規較多, 如教育領域人事管理的國家《中華人民共和國教師法》和教育部《教師職業行為準則及師德失范處理辦法》等, 但針對人社數據管理的法律法規缺乏。盡管如此, 統計這些文本中人社數據項仍能反映數據的價值。這些文本的關注重點是工作入職和師德師風負面清單, 如學術道德不端、科研誠信違規、學術造假、上崗方式、辭退原因等。

泄露案例的隱私值再次之(208. 90)。不法分子竊取個人隱私數據的核心目的不外乎兩個方面: 損害名譽和盜竊財產, 在人社數據泄露案件中, 兩者的呈現也非常顯著。前者分散在入職流動數據的試用考核結果和辭退原因、行政工作中的降職免職和撤職及其原因、專業技術工作中的師德師風失范和學術不端及其處理結果, 這些數據的泄露都可能造成個體受到歧視乃至侮辱人格和遭遇勒索; 后者集中在工資與保險福利數據中, 包含工資、獎金、津貼以及社保金額和福利類型等, 這些均為個人金融性財產, 其泄露和被盜可能導致個人財產的損失,嚴重時可能危害社會。

學術論著的隱私值最低(175. 47)。一般來講,法律法規和行業標準的主要作用是規范人們已達成共識的行為規則, 修訂周期較長; 學術論著的主要功能是探討新生事物, 發表周期短。所以, 對于新理論新方法產生的新型數據保護問題, 學者們探索在先, 法律法規納入在后。因此, 從出版時差角度,學術論著可以彌補法律滯后的缺憾; 從內容成熟度視角, 學術論著可以作為法律法規的質量把關者。結合人社數據, 該類文本的關注重點在于出現較晚的師德規范問題, 如師德師風、學術誠信、學術不端等, 驗證了學術論著與法律法規的關系。

6 結束語

本項研究的結論包含兩個方面: 人社數據的敏感性識別上, 本文采集人社數據隱私文本, 依據計量語言學理論, 劃分人社敏感詞匯類型為敏感名詞、敏感動詞和敏感程度詞, 挖掘隱私文本, 編制對應敏感詞表, 實現人社數據的敏感性識別; 人社數據的隱私值計量上, 分析人社數據敏感性的影響因素,建立敏感性測度的指標體系, 構建人社數據隱私計量模型, 進行隱私值計量, 實現個人人社數據的分級。

本項研究價值體現在兩個方面。理論上, 本文基于客觀存在的人社隱私文本角度, 識別敏感數據單元, 挖掘文本單元的語義元素, 測度語義元素的敏感性強度和文本力度, 計量數據項的隱私值, 補充完善了基于主觀視角的“調查隱私主體對隱私客體的敏感性認知” 的隱私界定理論; 實踐上, 已有的隱私保護法律將分類分級保護作為數據隱私保護的基本制度, 但缺失分級的定量標準, 本文依據數據隱私值的計量結果, 劃分個人人社數據的隱私性為4 個級別, 為該類數據的分級保護實踐提供了科學依據。

本項研究的局限性主要存在以下兩個方面: 人社隱私文本的質量上, 針對性的人社數據隱私及其保護的文本較少, 相關性的文本比較豐富, 導致本文的隱私計量結果可能存在偏差; 人社行業標準聚焦人社數據類型和數據項的界定與描述, 散見于人力資源管理與服務的規則規范制定; 法律法規部門規章多為不同領域的人力資源管理行為的法律界定與制度約束, 少見于通用法律法規中有關人社數據保護措施的呈現; 泄露案例比較聚集在個人金融性財產和人格的侵犯, 散見于人事關系的糾紛; 學術論著關注重點在新出現的人社領域數據項, 也有人社管理方法的探索。盡管如此, 本文測度的人社數據隱私價值仍能體現現階段各方對數據項的重要性認知, 隨著該類數據隱私文本的演化進展, 本項研究將持續跟進。隱私計量實驗中的各項指標量化等級及量化值反映了彼時的隱私文本實際, 但隱私文本是動態的, 故本項研究的結論也呈現出時間特色,具有時代局限性, 跟蹤未來文本的變化情況, 實時調整不同指標的量化等級, 進行基于時序和認知角色的人社數據隱私動態精準測度。

參考文獻

[1] 中華人民共和國人力資源和社會保障部[EB/ OL]. [2024-07-11]. http:/ / www.mohrss.gov.cn/ .

[2] 張凱亮, 臧國全. 泄露概率情境下的個人數據隱私計量研究[J]. 圖書情報工作, 2021, 65 (9): 62-69.

[3] 中華人民共和國中央人民政府. 《“十四五” 國家信息化規劃》專家談: 加快數字化轉型 構建“ 十四五” 人力資源和社會保障信息化發展新格局[ EB/ OL]. [ 2024-07-11]. http: / /www.cac.gov.cn/2022-03/17/ c_1649124768926971.htm.

[4] 搜狐網. 大數據爬蟲黑產調查: 數百元網購數據采集器, 各行業信息訂制可查[EB/ OL]. [2024-07-11]. https:/ / www.sohu.com/ a/331920385_161795.

[5] 澎湃新聞. 常州法院2021 年度十大典型案例發布[ EB/ OL].[2024-07-11]. https: / / m.thepaper.cn/ baijiahao_16798337.

[6] 徐芳璐. 基層綜合檔案館個人信息保護問題研究[ D]. 沈陽:遼寧大學, 2024.

[7] 康曉虹, 樊橋. 論大數據時代的檔案管理與隱私保護[ J]. 科學咨詢(科技·管理), 2017 (5): 36.

[8] 張麗娜. 大數據時代高校人事檔案信息化建設中的個人信息隱私權保護[J]. 山西檔案, 2018 (2): 70-72.

[9] 邵同銘. 人事檔案數字管理系統設計與實現[J]. 信息技術與信息化, 2023 (11): 62-65.

[10] Li J C, Chen G Q. A Personalized Trajectory Privacy ProtectionMethod [J]. Computers & Security, 2021, 108: 102323.

[11] Ning B, Sun Y H, Tao X Y, et al. Differential Privacy Protec?tion on Weighted Graph in Wireless Networks [ J]. Ad Hoc Net?works, 2021, 110: 102303.

[12] 臧國全, 周曉倩. 社交網絡中關聯隱私的價值計量與分析[J]. 圖書情報工作, 2020, 64 (14): 85-93.

[13] 臧國全, 賈瑞瑩. 醫療數據中病種隱私的計量與分析[J]. 現代情報, 2020, 40 (5): 161-168.

[14] 張坤. 基于聯合分析法的用戶隱私保護策略偏好研究[D]. 北京: 北京郵電大學, 2011.

[15] 張磊. 基于聯合分析法的APP 隱私信息采集策略研究[ D].武漢: 武漢大學, 2020.

[16] Egelman S, Felt A P, Wagner D. Choice Architecture and Smar?tphone Privacy: Theres a Price for That [ M]. The Economics ofInformation Security and Privacy. Heidelberg: Springer, 2013.

[17] 鄧勝利, 趙海平. 信息泄露情境下的個人信息價值評估及個體差異: 基于離散選擇模型的實證研究[ J]. 情報學報, 2019,38 (3): 266-276.

[18] 趙楊, 范圣悅. 適老化背景下老年用戶App 隱私偏好實證研究———基于離散選擇實驗[J/ OL]. 情報科學: 1-28 [2024-07- 25]. http: / / kns. cnki. net/ kcms/ detail/22. 1264. G2. 20240506.1706.022.html.

[19] 石磊. 考慮不同使用場景的APP 用戶隱私交換行為研究[D].大連: 大連海事大學, 2022.

[20] 黃逸珺, 陸桐, 閆強. 電子商務網站個人信息價值評估[ J].北京郵電大學學報(社會科學版), 2017, 19 (5): 33-41.

[21] 陳海燕. 政府數據開放中的個人隱私價值計量與保護研究[D].南昌: 南昌大學, 2022.

[22] 張凱亮, 臧國全. 泄露概率情境下的個人數據隱私計量研究[J]. 圖書情報工作, 2021, 65 (9): 62-69.

[23] 張根, 唐忠, 李韶陽, 等. 醫療隱私大數據泄露風險容忍度計量仿真[J]. 計算機仿真, 2021, 38 (12): 480-484.

[24] 邵寬, 張鎮勇, 楊科迪, 等. 基于國密SM2 的數字藏品網絡拍賣隱私保護方法[J]. 軟件學報, 2025 (3): 1289-1303.

[25] 盧玉, 王靜宇, 劉立新, 等. 拍賣機制驅動的數據激勵共享方案[J]. 計算機科學與探索, 2024, 18 (8): 2203-2220.

[26] 武子軒, 王燁, 于洪. 基于多尺度特征提取的層次多標簽文本分類方法[ J]. 鄭州大學學報( 理學版), 2025, 57 (2):24-30.

[27] 穰雨辰, 馬靜. 基于圖像字幕的多模態對齊情感分析模型[J]. 數據分析與知識發現, 2025, 9 (1): 101-109.

[28] 孫令成, 肖鐵軍. 程序代碼集到特征矩陣文本特征提取算法的研究[J]. 計算機與數字工程, 2023, 51 (10): 2363-2368,2378.

[29] 吳加輝, 加云崗, 王志曉, 等. 基于深度學習的微博疫情輿情文本情感分析[J]. 計算機技術與發展, 2024, 34 (7): 175-183.

[30] 唐紅濤, 余佳鵬, 陳捷. 文本分析視角下數字鄉村政策量化研究———基于FastText 和文本挖掘方法[J]. 知識管理論壇, 2024,9 (3): 237-252.

[31] 孫毅, 裘杭萍, 王沁雪. 網絡用戶自描述標簽向量生成及標簽層次體系構建方法[J]. 信息技術與網絡安全, 2018, 37 (11):44-49.

[32] 張楊, 徐步權. 基于機器學習和自然語言處理的工單自動標簽化技術[J]. 自動化應用, 2023, 64 (23): 13-15.

[33] 葉亞芬, 原德巍. 基于數據化和文本檢索技術的檔案資源智能聚類研究[J]. 浙江檔案, 2023 (8): 17-19.

[34] 百度百科. 隱私[ EB/ OL]. [ 2024-07-11]. https: / / baike.so.com/ doc/5591945-5804545.html.

[35] Warren S D, Brandeis L D. The Right to Privacy [ J]. HarvardLaw Review, 1890, 4 (5): 193-220.

[36] 張伯江. 漢語的句法結構和語用結構[ J]. 漢語學習, 2011(2): 3-12.

[37] 江騰蛟, 萬常選, 劉德喜, 等. 基于語義分析的評價對象—情感詞對抽取[J]. 計算機學報, 2017, 40 (3): 617-633.

[38] Picard R W. Affective Computing [M]. MIT Press, 1997.[39] 來亮, 錢屹. 文本情感分析綜述[ J]. 計算機光盤軟件與應用, 2012, 15 (18): 74-75.

[40] Liu B. Sentiment Analysis and Opinion Mining [ M]. Berlin:Spring, 2012.

[41] K?hler R. Bibliography of Quantitative Linguistics [M]. Amster?dam & Philadelphia: John Benjamins Publishing Company, 1995:40-43.

[42] 臧國全, 張盼盼, 柴文科, 等. 個人通信數據的敏感性識別與隱私計量研究[J]. 圖書情報知識, 2024, 41 (2): 110-120.

[43] 肖洋, 臧國全. 個人金融數據的敏感性識別與隱私計量研究[J]. 情報理論與實踐, 2023, 46 (9): 105-114, 86.

(責任編輯: 郭沫含)

基金項目: 國家社會科學基金重大項目“政府數據的隱私風險計量與保護機制創新研究” (項目編號: 21&ZD338)。

主站蜘蛛池模板: 高清乱码精品福利在线视频| 精品人妻AV区| 亚洲色欲色欲www在线观看| 日韩激情成人| 亚洲成人网在线观看| 亚洲国产中文精品va在线播放| 国产精品一区二区无码免费看片| 亚洲aⅴ天堂| 久草美女视频| 色综合天天操| 亚洲一级毛片| 就去吻亚洲精品国产欧美| 日本不卡在线视频| 国产女同自拍视频| 日韩福利在线视频| 日韩成人免费网站| 久热re国产手机在线观看| 免费无遮挡AV| 日韩精品一区二区三区swag| 久久青草热| 激情网址在线观看| 99精品国产电影| 国产粉嫩粉嫩的18在线播放91 | 国产a v无码专区亚洲av| 91成人在线免费观看| 亚洲中文字幕在线精品一区| 玩两个丰满老熟女久久网| 99视频只有精品| 国产午夜人做人免费视频中文| 色视频国产| 国产成人三级在线观看视频| 99热这里只有精品5| 一本色道久久88| 国产剧情一区二区| h网址在线观看| 欧美激情视频一区二区三区免费| 亚洲人成色在线观看| 久久这里只有精品免费| 国产91小视频| 青草娱乐极品免费视频| 激情综合网址| 国产极品美女在线观看| 97久久免费视频| 青青操国产视频| 成人午夜视频网站| 国产综合无码一区二区色蜜蜜| 国产精品部在线观看| 色噜噜综合网| 在线观看免费AV网| 无码一区二区三区视频在线播放| 国产黄网永久免费| 日韩成人午夜| 成人福利在线视频免费观看| 欧美日韩国产一级| 国产在线精品人成导航| 美女无遮挡免费视频网站| 一本二本三本不卡无码| 国产精品一线天| 免费人欧美成又黄又爽的视频| 中文字幕66页| 黄色网站在线观看无码| 五月婷婷丁香色| 在线欧美日韩国产| 91无码视频在线观看| 日韩成人免费网站| 亚洲第一福利视频导航| 亚洲熟女偷拍| 伊人狠狠丁香婷婷综合色| 91美女视频在线观看| 男女精品视频| 久久性视频| 最新亚洲人成无码网站欣赏网 | 99视频免费观看| 国产毛片一区| 好久久免费视频高清| 国产激情无码一区二区免费| 九色免费视频| 美女被狂躁www在线观看| 干中文字幕| 在线无码九区| 色综合天天娱乐综合网| 国产乱子伦手机在线|