周慶山 趙菲菲 董立峰



摘 要:[目的/意義]通過對個人信息保護政策的網絡評價文本進行分析挖掘,可為政府相關部門了解個人信息保護政策具體政策評價提供重要參考維度。[方法/過程]本文結合半結構訪談、網絡媒體傳播及公眾社交平臺評論數據,采用定性和定量研究相結合的方法,從政策完善度、政策效果、政策宣傳、政府信任等多個維度入手,構建個人信息保護政策的網民評價計算框架。[結果/結論]在計算框架中,本文創新性地提出“議程設置匹配度”“政策各維度正負面占比”等核心指標,以及網絡主題抽取模型,最終對6項個人信息保護政策進行了量化實證計算,基于對實驗結果的分析,為提高個人信息保護政策的公眾認可度提出參考建議。
關鍵詞:網絡評價數據;公共政策評價;計算框架;個人信息保護政策
DOI:10.3969/j.issn.1008-0821.2022.06.001
〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821(2022)06-0003-14
Abstract:[Purpose/Significance]By analyzing and mining the network evaluation text of personal information protection policy,it can provide an important reference dimension for relevant government departments to understand the specific policy evaluation of personal information protection policy.[Method/Process]Based on the data of semi-structured interviews,online media communication and users comments on social platforms,this paper used a combination of qualitative and quantitative research method,to build a netizen evaluation and calculation framework of personal information protection policies from multiple dimensions such as policy perfection,policy effect,policy publicity,government trust in the calculation framework.[Result/Conclusion]This paper innovatively puts forward core indicators as“matching degree of agenda setting”,“proportion of positive and negative aspects of policy dimensions”and network topic extraction model,and finally realizes the ?quantitative empirical calculation of six personal information protection policy evaluations.Based on the analysis of the experimental results,some suggestions are put forward to improve the public acceptance of personal information protection policy.
Key words:network comment data;public policy evaluation;calculation framework;personal information protection policy
在數據驅動的決策范式下,基于網絡民意數據的公共政策過程研究逐漸成為熱點領域。按照Leslie Alexander Pal的觀點,公共政策是指公共權威組織所選擇的行動綱領或做出決定,以解決某一既定的或者一系列相關的問題[1]。在公共政策過程的發現問題、制定政策、實施政策、評估政策等各個階段,政府都需要參考民眾的意見[2]。公共政策的制定和完善應建立在廣泛的網民評價基礎上,唯有公民規范、理性、均衡地參與公共政策制定,才能確保公共政策輸出的合法性和科學性。據中國互聯網絡信息中心(CNNIC)統計顯示,截至2021年6月,中國網民規模達10.11億。互聯網普及率為71.6%,較2020年12月提升1.2個百分點[3]。隨著以社交媒體為代表的互聯網媒體在政府部門和公眾中廣泛普及,政府部門與公眾之間可以實現跨越時空限制的信息互動。互聯網以其扁平化、交互式、快捷性的優勢,不僅可以使政府部門在收集有關社會問題信息的深度、廣度以及時效性方面得到空前提高,而且為公眾參與公共政策過程提供了技術保障和支持。利用大數據、人工智能等技術對公共政策的網絡媒體及網民評論數據進行建模計算,將成為新時期支撐政府部門政策過程的重要手段。近年來,我國政府已有意識地利用網民評價數據,為公共政策提供決策參考,而且在公共決策時廣泛利用社會媒體、網絡調查和抽樣調查,實時、定期收集公民對特定政策的意見建議。
隨著大數據和人工智能地廣泛應用,個人信息的收集日益密集和隱蔽,其安全問題引發廣泛關注,針對個人信息保護問題,我國前期出臺了多項法律、法規及標準規范政策[4],但仍然存在政策法規體系不夠系統、完善,出現多頭監管、執法缺乏依據、懲罰力度不足、行業自律制度難以發揮作用等系列問題[5],為此,全國人大常務委員會于2021年8月20日通過《個人信息保護法》,并于2021年11月1日起施行。通過對個人信息保護政策的網絡評價文本進行分析挖掘,可為政府相關部門了解個人信息保護政策相關網民評價,并確保個人信息保護政策的順利推行提供重要參考維度。然而,現階段政府在政策的網絡民眾意見分析利用方面,多將其等同于傳統網絡輿情分析;6816A859-14DE-4471-AE49-F887F905D427
在分析方法方面,政策意見提取和網民政策情感傾向分析多采用通用文本聚類和情感傾向分析技術;在指標選擇方面,多借鑒輿情分析中曝光量、網民的情感傾向等輿情類指標。公共政策尤其是廣受大眾關注熱議的個人信息保護政策網民評價計算,不同于普通輿情分析計算,其具有較強政策屬性特征,利用現存的輿情分析技術、分析指標等不能滿足公共政策網絡民意分析現實需求。基于此,本文構建基于個人信息保護政策的網絡評價文本計算框架,通過對公共政策的多維、量化計算,從政策完備性、政策擴散、政策效果、政府信任等多個維度對個人信息保護政策進行客觀量化的評價分析。
1 相關研究綜述
網絡民意是指以互聯網技術和信息化手段為基礎,公民通過網絡平臺表達的、相對集中的意見和言論的匯總[6]。隨著Web2.0技術的發展,公眾通過網絡平臺參與公共政策的監督和對政策的訴求表達愈發普遍,政策評估中的公眾參與日益成熟。現有爬蟲、自然語言處理以及機器學習等技術,為公共決策研究提供了新的思路與方法。Song M等[15]指出,社交媒體文本分析使政府能夠及時跟蹤事件的發生、消亡以及用戶對該事件的反應,確保政府可以進行更加有效地分析,為政府管理提供新的研究視角。
面向公共政策學者們基于網絡媒體的網民評價指標構建及網絡民意分析挖掘方法進行了豐富的研究。其中,在基于網絡媒體的網民評價指標構建方面,邱爾麗等[19]基于網絡數據,將政策對公眾的吸引程度、公眾對政策的立場傾向以及政策推進中輿論曝光或者投訴問題的情況進行分析,構建了公共政策評價的網絡民意指標體系。何志武等[14,21]針對政策議程的不同模式,圍繞網絡網民評價的表達路徑與收集機制展開研究,并從主體性、科學性和傾向性3個維度開展網民評價分析,同時指出網民評價分析應該是一個不斷變化的動態過程。鄧莎莎等[20]構建了由數據準備和網絡民意建模兩部分構成的面向公共決策的網絡民意建模系統及評價指標體系框架,并以“健全醫療保健制度”為應用案例,驗證了系統框架的良好效果;在網絡民意分析挖掘方法方面,學者們基于網絡數據及政府公開數據,利用大數據技術及系列分析挖掘方法,對公共決策中的網絡民意分析挖掘進行了較多探索[7-13]。如Li Y等[16]針對互聯網事件抽取問題提出了基于分類空間模型和特征選擇策略的網絡輿情事件抽取框架,并在測試數據集合上得到了較好的驗證。Zhou P等[17]提出基于關鍵詞抽取的網絡民意內容聚合框架,通過對已抽取的網絡民意進行聚合以豐富抽取結果的語義信息。Lu Z W[18]針對微博短文本提出了基于TF-IDF的短文本觀點挖掘系統,但該系統在長文本數據處理上的適用性還需進一步加強。胡欣杰等[23]提出了基于聚類分析的網絡民意傾向性分析的距離模型和相關系數模型,提出了基于時間片的k中心點法聚類分析算法,經試驗驗證模型能有效地提高提取的查全率,較大幅度提高了時間效率。
通過對國內外相關研究進行調研發現,現有基于互聯網輿情數據進行政策評價的相關研究,在數據源上主要集中于微博文本數據或搜索引擎數據,網絡數據來源較為單一。在指標選擇方面,面向公共政策,尤其是個人信息保護政策屬性的系統性指標體系有待深入研究。此外,通過對網絡民意數據進行全收集、精確統計、深度挖掘和量化分析的可操作性方法相對缺乏。已有分析挖掘方法存在挖掘結果有效性不高的問題,難以滿足政策決策機構對個人信息保護政策精確量化評價的需求。因此,急需構建基于個人信息保護政策的網民評價計算分析框架,為科學決策提供重要分析維度。
本文結合半結構訪談、網絡媒體傳播及公眾社交平臺評論數據,采用定性和定量研究相結合的方法,從政策完善度、政策效果、政策宣傳、政府信任等多個維度入手,構建個人信息保護政策網民評價指標體系,并結合專家智慧,利用層次分析法,對相關評價指標進行篩選和權重計算,構建基于網絡評價文本的個人信息保護政策評價計算框架,并進行了實證檢驗。此外,本文還創新性地提出衡量民眾評論主題與主流媒體報道主題匹配度的核心指標“議程設置匹配度”,在給出形式化的同時進行了語義計算,提出了基于“主題—事件—互聯網信息—句子—詞語”的層次關系和多視角語義距離度量的網絡主題抽取模型,完成核心指標中文本主題提取和網絡主題相似度的計算,提升了網絡議題抽取的有效性。
2 基于個人信息保護政策的網民評價文本計算框架構建
2.1 計算框架構建過程描述
基于網絡媒體數據的個人信息保護政策網民評價計算框架主要包括評價指標提取、核心指標計算、指標權重計算和框架驗證4個階段。其中,在評價指標提取階段,為保證從公眾的視角入手,提取的公共政策評價指標具有科學、合理且具備特定公共政策的獨特性,本文采用半結構化訪談針對公眾對特定公共政策的評價維度進行收集,并基于扎根理論對訪談記錄進行文本編碼,抽象出概念和范疇,并最終構建特定公共政策評價指標體系。在核心指標計算階段,基于已經構建的評價指標體系,對“議程相似度”“政策各維度正負面占比”等核心指標進行形式化定義,并利用情感分析、主題識別等文本挖掘技術實現指標計算;在指標篩選和權重計算階段,利用層次分析法,通過邀請領域專家對指標進行兩兩比較打分,并將數據進行歸一化處理,實現指標的篩選和權重計算,最終得出特定政策評價計算模型;在實證階段,本文選取6項個人信息保護政策,通過收集和整理政策媒體報道數據和網民評論數據,利用計算模型對相關政策進行量化計算,并對試驗結果進行對比分析,提出個人信息保護政策建議,計算框架如圖1所示。
2.2 基于半結構訪談的個人信息保護政策評價指標體系構建
為構建個人信息保護政策評價指標體系,本文隨機選取60人作為訪談對象進行訪談。同時,為了使被抽中的樣本所產生的研究結果能夠最大程度地覆蓋研究現象中各種不同的情況,本文結合“最大差異抽樣”的原則方法,盡量做到分別按照不同教育情況、地域分布、性別比例、年齡分布抽取一定數量的樣本進行深度訪談調研。其中,60名被訪者地域分布在12個省市,年齡主要集中在24~60歲之間;性別比例男性28人,女性32人;受教育情況博士10人,碩士30人,本科13人,高中2人,初中2人,小學2人,未接受教育1人;職業分布多樣。本文按照一個粗線條式的訪談提綱對受訪者進行非正式訪談,如表1所示。了解受訪者對該主題的感受和看法,獲取細致、生動的文本資料,并利用扎根理論抽象出概念、范疇。在訪談結束后,將訪談錄音資料轉化成文字信息,并隨機抽取40份(約2/3)的訪談記錄進行文本編碼,剩余20份訪談記錄作為理論飽和度檢驗。6816A859-14DE-4471-AE49-F887F905D427
本文利用扎根理論研究方法對訪談內容進行編碼,編碼分為開放式編碼、主軸式編碼和選擇性編碼,在編碼完成后進行理論飽和度驗證。開放式編碼是對原始訪談資料所記錄的可用于編碼的句子或者片段進行概念化和范疇化,是將原始資料分解、比較后再以新方式重新組合的過程[20]。本文采用逐字逐句編碼的方式將原始資料進行概念化,再利用聚焦編碼的方式將相同或者相似的概念組合進行范疇化。為避免編碼的主觀性,本文采用兩位編碼人員進行預編碼,保證對編碼方式和相關概念的一致性,提取出初始概念用an表示,共得到49條初始概念。在進行完初始概念提取后,通過主軸式編碼來實現編碼概念層面的內在聯系,并進行刪除、歸類和融合,進行相似初始概念的合并和范疇化,共得到15個范疇,范疇用An表示。初始概念提取和范疇化示例如表2所示。
將15個開放式編碼進行歸類、合并,最終得到5個主范疇。通過對留作理論飽和度檢驗的20份訪談內容進行處理和分析后,未發現新的概念和范疇,說明上述扎根理論的分析是飽和的。提取的主范疇如表3所示。
同時,結合訪談編碼提取內容、網絡媒體傳播及社交平臺網民評論數據指標維度的總體情況,本文提出了基于互聯網數據的個人信息保護政策評價指標體系,如表4所示。
2.3 核心評價指標
2.3.1 議程設置匹配度
本文的核心指標“議程設置匹配度”是指網絡主流媒體報道主題與社交平臺上網民關注焦點重合程度。其形式化定義如式(1):
y=card(A∩B)card(A)*100%(1)
y:議程設置匹配度;A={x|x∈主流媒體報道主題};B={y|y∈網絡平臺網民評論主題}。
其計算流程如圖2所示,本文分別將主流媒體報道和網民評論數據進行主題提取,形成主流媒體報道主題集合A和評論主題集合B,通過將集合A和B中的主題進行兩兩比較計算相似度,如相似度在特定設置的閾值之上(本文設置為85%),則進行計數,通過式(1)計算議程設置匹配度。
議程設置匹配度計算關鍵是對主流媒體報道和社交平臺網民評論中的主題進行提取。由于這兩個平臺中的數據具有異構、量大和半結構化等問題,為主題的有效抽取帶來了挑戰。此外,現行研究成果在網絡議程抽取方面存在著抽取結果語義信息不足、抽取結果有效性較差、抽取模型可擴展性較差等問題,難以滿足公共決策機構對于有效網絡議題抽取的需求。因此,本文提出了基于“主題—事件—互聯網信息—句子—詞語”的層次關系和多視角語義距離度量的主題抽取模型。模型首先識別互聯網信息集合中所包含的主題信息,然后抽取每個主題下所包含的主題詞信息。本文定義了可以從不同維度度量互聯網信息之間語義相似度的語義距離指標,語義距離可以實現從關鍵實體集合相似度、實體語義關系相似度、文本相似度等多個維度更加全面地衡量不同互聯網信息之間的語義相似度,進而實現網絡主題的精確抽取,語義距離度量結構圖如圖3所示。
在網絡主題檢測中,首先利用隱形狄利克雷分布(Latent Dirichlet Allocation,LDA)模型對互聯網信息集合中的潛在主題信息進行提取,然后基于計算得到的主題分布向量使用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚類算法對全部互聯網信息進行聚類處理,聚類的結果就是互聯網信息數據集合中所涉及的全部主題以及各個主題所包含的互聯網信息。
抽取得到的網絡主題會存在多個抽取結果同指一個主題現象,假設兩條互聯網信息具備相同的時間、地點、人物等要素,且各實體之間的語義角色信息相同,則認為上述兩條互聯網信息描述的是同一主題,即上述兩則互聯網信息隸屬于同一主題。本文利用哈工大中文語言技術平臺LTP中的命名實體識別庫[27],實現文本命名實體識別的功能。基于上述假設,本文定義了一種描述互聯網信息之間語義相似度的距離度量。該距離度量綜合考慮了兩互聯網信息之間的實體相似度、實體語義角色相似度、文本相似度,以更加全面地度量兩則互聯網信息之間的語義相似度。i、j兩則互聯網信息之間的語義距離度量定義如式(2):
distij=1simentityij+simsemanticij+simwordij(2)
其中,simentityij表示兩則互聯網信息之間的關鍵實體集合相似度,simsemanticij表示兩則互聯網信息之間各關鍵實體的語義角色相似度,simwordij表示兩則互聯網信息之間的文本相似度。
1)互聯網信息實體集合相似度計算
兩則信息之間所包含的時間、地點、人物等關鍵實體相似度較高則說明兩則信息之間描述同一主題的概率越大。因此,本方案使用Jaccard相似度方法對不同互聯網信息之間的實體相似度進行度量,計算定義如式(3):
simentityij=Enti∩EntjEnti∪Entj(3)
其中,Enti∩Entj表示兩則信息之間公共實體的個數,Enti∪Entj表示兩則信息出現的全部實體的個數。實體集合相似度取值介于0與1之間,數值越大表示兩者在時間關鍵實體上的相似度越高,越有可能描述的是同一網絡主題。
2)互聯網信息實體語義相似度計算
Sun W等[26]提出,語義角色標注是淺層語義分析的一種,在一個句子中,謂詞是對主語的陳述或說明,指出“做什么”“是什么”或“怎么樣”,代表了一個事件的核心,與謂詞搭配的名詞稱為論元。語義角色是指論元在動詞所指事件中擔任的角色,主要有:施事者、受事者、客體、經驗者、受益者、工具、處所、目標和來源等。例如“小明昨天在公園遇到了小紅”,句子中“遇到”是謂詞,“小明”是施事者,“小紅”是受事者,“昨天”是事件發生的時間,“公園”是事件發生的地點。6816A859-14DE-4471-AE49-F887F905D427
互聯網信息中包含實體的語義角色相似度旨在度量不同的互聯網信息所含實體在各自文本中所扮演的語義角色的相似度,實體之間的語義角色相似度可以刻畫不同互聯網信息之間的實體在邏輯關系上的關聯關系。實體語義角色相似度度量步驟如下:
步驟一:使用Pyltp工具對互聯網信息中所含實體的語義角色進行標注。
步驟二:統計各個實體的語義角色以及作為該語義角色出現在文本中的頻數;本文僅考慮施事、當事、領事、感事、受事、客事、成事、源事、涉事、比較、屬事等20種語義角色。
步驟三:根據各個實體的語義角色以及各自角色出現的頻數為每個實體構建一個長度為20維的向量V,向量的分量表示該實體在第i個語義角色上的歸一化的頻率。
步驟四:使用JS(Jensen-Shannon Divergence)距離計算不同互聯網信息之間的實體交集中實體的語義角色向量之間的相似度。
步驟五:對交集中實體的語義角色相似度值按照實體出現的頻數進行加權平均,得到新聞與事件實體交集的語義角色相似度值。
其中,JS距離的計算公式定義如式(4):
JS(P‖Q)=12KLP‖P+Q2+12KLQ‖P+Q2(4)
KL(P‖Q)=∑v∈VP(v)*logP(v)Q(v)(5)
其中,V表示語義角色集合,P為實體在互聯網信息i中的語義角色分布,Q為實體在互聯網信息j中的語義角色分布。
3)互聯網信息之間的文本相似度計算
similarity=veci·vecjveci·vecj(6)
其中,veci和vecj分別是互聯網信息i的特征向量(利用TF-IDF算法生成)和互聯網信息j的特征向量(由TF-IDF算法生成)。相似度度量算法采用余弦相似度算法進行度量。
2.3.2 政策各維度正負面占比
本文基于公眾視角建立的個人信息保護政策評價指標體系,其中的政策評價各維度正負面比例,主要是指網民關于特定維度的政策評論中正面情感評價的文本數量與負面情感評價的文本數量之比。政策評價各維度正負面比例包含政策內容評價(用戶)正負面比例、政策程序評價(用戶)正負面比例、處罰力度評價(用戶)正負面比例、政策執行評價(用戶)正負面比例和公眾信任評價(用戶)正負面比例。
其形式化定義為:G=(VT,VF,S,I),其中,G表示政策評價各維度評價,VT表示政策的正向評價集合,VF表示政策的負向評價集合,S表示政策內容,I表示政策評價維度集合。針對特定政策的某個政策評價維度即s∈S,i∈I:
rateTF=card(VT)card(VF)*100%(7)
以往相關輿情分析中通用文本情感傾向分析方法為本文的政策用戶評價情感計算提供了良好的基礎,但公共政策相關用戶評價情感計算具有公共政策的特殊性。本文基于2.2節公眾對個人信息保護政策深度訪談數據分析,通過手工標注的方式對個人信息保護政策公眾評價進行了公共政策內容、公共政策宣傳、公共政策執行、公共政策效果等維度的劃分,并結合構建的用于輔助挖掘政策輿論的評價詞表,對輸入訓練模型評價特征進行提取,其中,評價特征包括統計特征和評價極性分值兩種類型,通過將原貼—評論文本對和評價特征輸入Bert預訓練模型,完成模型的訓練,最后利用訓練完的模型實現在社會化媒體下公眾對個人信息保護政策在不同政策維度下的評價判別,細粒度挖掘公眾評價傾向,詳細計算步驟如下:
1)數據預處理。通過文本預處理模塊將社交平臺網民評論中的表情符號、用戶名、非中文特殊符號、繁體字、各類鏈接等進行過濾和處理。
2)公共政策分類標注。通過訪談和手工標注的方式,對網民關于個人信息保護政策評價進行分類,分類維度如下:公共政策內容、公共政策程序、處罰力度、公共政策執行、公眾信任。基于政策評價分類,對個人信息保護政策的網民微博評論數據進行了人工標注,標注標準是根據公眾對原帖文本內容在某一政策維度上的評價判別,即對某一政策維度是否支持或不相關。一條評論文本可能體現多個政策維度上的評價觀點。
3)評價詞表構建。通過手工構建公共政策社交平臺網民評價正負面評價情感詞表。
4)評價特征提取。基于評價詞典分別采用統計特征和評價極性分值計算的方法抽取評論文本的特征。其中,統計特征包含評價詞在文本內的占比、否定詞、程度副詞、有特殊符號反語成分占比等。評價分值計算采用基于詞典的評價詞權值累乘得出的評價極性分值。首先對文本進行斷句和預處理,針對文本中出現的評價詞、否定詞、程度副詞、特殊標點符號進行詞典匹配,若存在詞典相對應字詞,則賦以不同的權重值,并利用權值累計相乘計算評價極性分值,然后把子句的極性分值相加得到文本的評價分值。利用上述兩種方法,最終將抽取評價特征。
5)基于Bert[28]訓練模型構建。本文基于Bert模型的雙文本任務,進行公眾評論文本對個人信息保護政策相關內容的評價判別模型構建。Bert使用雙向Transformer兼顧上下文,將循環神經網絡的隱藏層進行拼接,并分別表示政策原帖與公眾評論文本的雙向特征表示。對于每一個輸入的文本,它的表征由其對應的詞表征、段表征和位置表征拼接產生。特殊標記符“[SEP]”代表分隔的句對,且句對輸入會有兩種段表征。本研究采用了BaseBERT模型,在句對表征后又拼接了公眾評價特征向量作為模型的輸入,對特定公共政策的公眾評價進行“支持”“不支持”“中立”三分類判別,如圖4所示。
6)情感計算輸出。將個人信息保護政策的社交平臺網民評論數據作為輸入,通過模型計算,對政策評價各維度“支持”“不支持”“中立”進行判斷和輸出。通過BERT+情感詞表進行情感模型訓練后相關情感傾向判定在不同政策維度上的精確率、召回率如表5所示。6816A859-14DE-4471-AE49-F887F905D427
關于政策各維度用戶評價情感計算的詳細模型參數設置和計算精度提升效果參見作者此前發表的另一篇文獻[24]。
2.4 基于評價指標的計算模型設計
為組織專家對評價指標體系進行論證,采用層次模糊邏輯方法[25]對專家意見進行綜合,主要思路是首先確定專家委員會各專家的投票權重,然后針對建立的指標體系,專家對每兩個指標的重要關系進行打分,采用5維度比較標度法進行打分參考,可用來衡量各評估指標的相對重要程度,根據打分結果計算得到每一層級指標的相對權重,最終得到指標體系的權重矩陣。根據權重矩陣,上層指標的定量值可根據下層指標的定量值加權得到。
2.4.1指標評分專家
政策評分專家信息如表6所示。
2.4.2 處理計算流程
步驟一:制作打分表。依據5維度比較標度法制作專家打分表。
步驟二:專家打分。邀請11位專家通過衡量各評估指標對評估目標的相對重要程度,將指標進行兩兩比較打分。
步驟三:權重矩陣。根據打分結果計算得到每一層級指標的相對權重,最終得到評價指標體系的權重矩陣。
步驟四:數據預處理。得到指標權重后,通過政策實際采集數據發現,由于指標項之間數據存在數量級的差異,為避免由于量綱不同使某些指標形成主導作用,影響評價結果,因此,需要對數據進行歸一化處理,其中歸一化處理計算如式(8)所示。
CFvali=dri-drmindrmax-drmin(8)
其中,dri是指第i個指標值。
dri=log2(vali+1)(9)
其中,CFvali是指第i個指標值歸一化后的結果。
drmin和drmax分別是指同類指標中dr得分最小和最大的指標值。
步驟五:計算指標得分。級別i的第j個指標權重為CWeightij,歸一化后的級別i的第j個指標的值為CFvalij,則指標得分CValueij為:
CValueij=CFvalij*CWeightij(10)
步驟六:計算綜合得分。將各級指標匯聚后乘以準則層指標權重,則得到綜合得分計算公式(11)。
Score綜合=∑k(∑j∈kCValueij)*BWeihgtk*θi(11)
BWeihgtk指第k行的基準指標權重。
θi是指調節系數,以相同倍數的變大或縮小,使Score值域處在一個規定可比區間。依據計算出各層級指標的權重,即可計算得出個人信息保護政策評價計算模型,指標權重如表7所示。
3 個人信息保護政策網民評價文本計算分析
3.1 政策案例選取
本文選取2018年以來發布的6項個人信息保護政策作為實證研究,具體政策如表8所示,以上政策發布之后在各類網絡媒體平臺得到廣泛的傳播和討論,政策信息的網民評價具備代表性。
3.2 政策網民評價數據收集
本文借助中科院自動化研究所產業化平臺中科聞歌推出的“聞海”開源大數據平臺下載6項個人信息保護政策在微博、微信和主流媒體渠道的相關數據。其中,主流媒體包括1 579個新聞網站、1 079家電子報紙,新聞網站包括國內主流媒體、省市級媒體、地方級媒體和行業媒體;電子報紙包括國家級報刊、省級報刊和部分地方級報紙的電子版;微信平臺數據是指微信公眾號數據,收集到的政策相關數據量如表8所示。伴隨著個人信息保護立法及相關政策的出臺,由于該政策與個人隱私密切相關,成為當時的網絡熱點話題,因此受眾在微博、微信等社交平臺上對相關政策話題關注度極高,參與的受眾較多,在本研究選擇的6個政策上引發的受眾最大閱讀數近1億,最小閱讀數也達到90多萬,因此本研究的網絡評價數據具有一定的有效性。
3.3 政策評價數據計算結果及分析
通過處理計算流程步驟六,將各案例政策的各級指標得分匯聚后乘以準則層指標權重,得到各案例政策的綜合得分如表11所示。
從各案例政策的綜合整體評價方面看,得分越高,說明政策的宣傳推廣和網民評價越好;從6個政策的評價得分看,《關于開展APP違法違規收集使用個人信息專項治理的公告》獲得的評分最高。而《個人金融信息(數據)保護試行辦法(初稿)》政策獲得的評分最低。排在評價效果排名第二位的是《兒童個人信息網絡保護規定》政策;排在評價效果排名第三位的是《信息安全技術個人信息安全規范》政策;《快遞暫行條例》和歐盟《通用數據保護條例》分別排在第四位和第五位。
具體從政策各維度評價計算得分上分析,公眾對于歐盟《通用數據保護條例》政策內容評價最高,對《兒童個人信息網絡保護規定》政策內容評價次之,而對《快遞暫行條例》政策內容方面的評價負面情緒較多,表明公眾對該政策的內容不認可度較高。在政策程序網民評價方面,計算結果均大于1,說明公眾對于6個政策在政策程序方面正面評價數量均高于負面評價,表明公眾比較認可個人信息保護政策的政策程序。在處罰力度網民評價方面,公眾對《關于開展APP違法違規收集使用個人信息專項治理的公告》政策的評價得分最高,從6個政策評價上看,只有《快遞暫行條例》在此維度上出現了小于1的計算結果,表明公眾在處罰力度方面的評價負面情緒高于正面情緒。在政策效果評價方面,公眾對《關于開展APP違法違規收集使用個人信息專項治理的公告》政策的評價得分最高,公眾同樣對《快遞暫行條例》在政策效果方面不滿意情緒最多。
在政策傳播擴散方面計算得分上分析,在微信平臺上,《關于開展APP違法違規收集使用個人信息專項治理的公告》政策引發的傳播量最大,傳播范圍最廣,從其引發的閱讀數99 415 740可見一斑,其次是《兒童個人信息網絡保護規定》和《信息安全技術個人信息安全規范》,《兒童個人信息網絡保護規定》政策在微信平臺引發的總閱讀數為22 967 415,《信息安全技術個人信息安全規范》政策在微信平臺上引發的總閱讀數為48 022 758。在微信平臺上傳播效果最差的是《個人金融信息(數據)保護試行辦法(初稿)》,因其屬于特定領域政策,其受眾具有一定的領域特性,所以其引發的傳播量并不大,總體比前兩個政策差兩個數量級。在微博平臺上,《兒童個人信息網絡保護規定》法規政策引發的發文量、點贊量、轉發量最大,《關于開展APP違法違規收集使用個人信息專項治理的公告》引發的傳播量次之,但《關于開展APP違法違規收集使用個人信息專項治理的公告》在微博平臺上引發的公眾討論最多。在微博平臺上,傳播情況最差的是《個人金融信息(數據)保護試行辦法(初稿)》,這也與政策的行業屬性有非常大的關系。6816A859-14DE-4471-AE49-F887F905D427
通過對6項政策在網站和電子報紙兩個傳統傳播渠道的計算得分進行對比分析,發現相關政策在網站與電子報紙上的傳播量成正相關,即特定政策如果在電子報紙上報道量比較大,那么相應的在網站上引發的傳播量也較高。在網站、電子報紙上傳播量最大的是《關于開展APP違法違規收集使用個人信息專項治理的公告》,傳播量最小的是《個人金融信息(數據)保護試行辦法(初稿)》。
在議程匹配度方面,網絡主流媒體報道主題與社交平臺上網民關注焦點重合度最高的是《信息安全技術個人信息安全規范》,其次是《個人金融信息(數據)保護試行辦法(初稿)》,值得注意的是兩個政策都具有領域屬性,利用社交平臺的開放性了解網民關切,同時借助主流媒體的權威性及公信力,達到了較好的傳播效果。
在政府信任方面,《關于開展APP違法違規收集使用個人信息專項治理的公告》在政策執行和公眾信任評價方面都取得了較好的網民評價,而《快遞暫行條例》在政策執行和公眾信任評價方面網民評價負面情緒最多。
4 個人信息保護政策建議
通過對實驗結果地分析,為提高個人信息保護政策的公眾認可度,本文提出如下建議:
1)提高公眾對政策認可的前提是公眾對相關公共政策的知悉和了解,通過對《關于開展APP違法違規收集使用個人信息專項治理的公告》《兒童個人信息網絡保護規定》《信息安全技術個人信息安全規范》3個政策的量化計算發現,這3個政策在政策傳播擴散方面均取得較好的傳播效果,在社交平臺上引起了網民的廣泛關注和討論,但是具有行業屬性的公共政策,雖然在社交平臺上有人討論,但是由于專業性較強,不容易引起廣泛的關注和傳播,因此針對具有行業屬性的公共政策,如果按常規的傳播手段進行政策傳播,難以取得理想效果,需首先借鑒科普傳播的形式,將專業術語進行轉述,再廣泛借助主流媒體和社交平臺的交互融合,拓寬公共政策信息的傳播渠道,提高公共政策的覆蓋度。
2)通過借助社交平臺了解網民對于特定公共政策的關注焦點及負面評價,尤其是針對政策不同維度(政策內容、處罰力度、政策執行等)的負面評價,如本文中的《快遞暫行條例》政策處罰力度方面的負面評價較多。一方面,可以對政策進行有針對性的調整;另一方面,可借助主流媒體的權威性及公信力,調整主流媒體報道的議程,持續回應公眾關切,并通過收集相關網民評論數據,實時計算網民負面評價情況,對回應策略及效果進行實時分析,提高公眾認可度。
3)提高公共政策程序和執行的透明度,比如本文中公眾對《快遞暫行條例》的處罰力度和處罰結果討論存在較多不滿,進一步影響到了公眾對政策制定和執行者的信任。因此,有必要將公共政策程序和政策執行結果,通過社交平臺的官方賬號進行及時的公布和報道,提高公眾對政府的信任水平。
5 結 語
本文從網民評價視角入手,以個人信息保護政策為具體研究對象,構建基于網絡媒體的公共政策網民評價計算框架,實現對網民關于公共政策意見的及時、多維、量化計算,并針對具體公共政策展開實證分析。本文構建的個人信息保護政策網民評價文本計算框架,支持從政策內容、政策執行、政府信任等維度對網民評價進行細粒度分析,能夠精準定位個人信息保護政策過程中的網民關注的具體問題,可作為政府相關部門了解個人信息保護政策相關網絡民意的重要維度,為包括個人信息保護政策在內的其他公共政策評價提供了有效補充。但本研究也有不足之處,如本研究所涉及的網民只代表了可以上網的大眾,存在幸存者偏差。此外,本研究提出的基于網絡評論的計算框架不能完全替代基于文獻、調查等方式的傳統公共政策評價方式,將網絡評價文本挖掘和傳統訪談、調查等方法相結合,進一步增大訪談樣本的數量,并對兩類分析結果進行交叉驗證和相互補充,將是本研究下一步研究方向。
參考文獻
[1]Leslie Alexander Pal.Public Policy Analysis:An Introduction[M].Nelson Canada,1992.
[2]張焱,戴楷然,支宇珩.媒體對公共政策過程影響研究綜述:“傳統媒體”框架的失靈與“社交媒體”框架的缺失[J].西華大學學報:哲學社會科學版,2018,(5):102-108.
[3]中國互聯網絡信息中心.第48次《中國互聯網絡發展狀況統計報告》[R].北京:中國互聯網絡信息中心,2021.
[4]鄭志峰.網絡社會的被遺忘權研究[J].法商研究,2015,32(6):50-60.
[5]周慶山.完善我國個人信息保護管理制度的思考[J].社會治理,2018,21(1):34-41.
[6]王楠.網絡民意與公共決策關系探究[D].西安:西北大學,2014.
[7]Rao K,Dey S.Decision Support for E-Governance:A Text Mining Approach[J].International Journal of Managing Information Technology,2011,3(3):73-91.
[8]Kalampokis E,Hausenblas M,Tarabanis K.Combining Social and Government Open Data for Participatory Decision-Making[M].Electronic Participation.Springer Berlin Heidelberg,2011.
[9]Huang X Y.Internet Public Opinion Analysis:Intelligence Services for Government Decision-making[J].Journal of Modern Information,2012.6816A859-14DE-4471-AE49-F887F905D427
[10]Chung K S K,Chatfield A T.An Empirical Analysis of Online Social Network Structure to Understand Citizen Engagement in Public Policy and Community Building[J].International Journal of Electronic Governance,2011,4(1/2):85-103.
[11]Alfaro C,Cano-Montero J,Gómez J,et al.A Multi-stage Method for Content Classification and Opinion Mining on Weblog Comments[J].Annals of Operations Research,2016,236(1):197-213.
[12]Ceron A,Negri F.The“Social Side”of Public Policy: Monitoring Online Public Opinion and Its Mobilization During the Policy Cycle[J].Policy & Internet,2016,8(2):131-147.
[13]Chung W,Zeng D.Social-media-based Public Policy Informatics:Sentiment and Network.Analyses of U.S.Immigration and Border Security[J].Journal of the Association for Information Science & Technology,2016,67(7):1588-1606.
[14]何志武,陳呈.網絡民意的表達路徑與收集機制研究——基于政策議程設置的視角[J].中州學刊,2019,(11):165-172.
[15]Song M,Kim M C,Jeong Y K.Analyzing the Political Landscape of 2012 Korean Presidential Election in Twitter[J].IEEE Intelligent Systems,2014,29(2):18-26.
[16]Li Y,Dai G,Zhu Y,et al.A High-Performance Extraction Method for Public Opinion on Internet[J].Wuhan University Journal of Natural Sciences,2007,13(5):902-906.
[17]Zhou P,Cai S Q,Shi S Y,et al.Content Aggregation of Microblogging Public Opinion Events Based on Keyword Extraction[J].Journal of Intelligence,2014.
[18]Lu Z W.The Design of Public Opinion Analysis System Based on Micro-Blog[C]//International Conference on Information System & Artificial Intelligence.IEEE,2017.
[19]邱爾麗,張競,王雨舟,等.基于網絡輿情大數據的公共政策評價研究[J].領導科學,2021,(8):118-121.
[20]鄧莎莎,張朋柱,李欣苗.政府公共決策領域中網絡民意建模方法研究[J].現代圖書情報技術,2012,(9):69-74.
[21]何志武,陳呈.公共決策視域下的網絡民意分析:主體性、科學性與傾向性[J].電子政務,2020,(2):66-75.
[22]張敬偉,馬東俊.扎根理論研究法與管理學研究[ J ].現代管理科學,2009,(2):115-117.
[23]胡欣杰,路雨楠,路川.基于聚類分析的網絡輿情傾向性分析研究[J].兵器裝備工程學報,2019,40(5):115-118.
[24]趙菲菲,王宇琪,周慶山,等.個人信息保護政策網絡評價的文本分析建模研究[J].情報雜志,2020,39(8):154-159.
[25]Saaty T L.How to Make a Decision:The Analytic Hierarchy Process[J].European Journal of Operational Research,1994,24(6):19-43.
[26]Sun W,Sui Z,Wang M,et al.Chinese Semantic Role Labeling with Shallow Parsing[C]//Conference.on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2009.
[27]Liu M Y,Tu Z Y,Wang Z J,et al.LTP:A New Active Learning Strategy for Bert-crf Based Named Entity Recognition[J].arXiv Preprint arXiv:2001.02524,2020.
[28]Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of Deep Bidirectional Transformers for Language.Understanding[J].arXiv Preprint arXiv:1810.04805,2018.
(責任編輯:郭沫含)6816A859-14DE-4471-AE49-F887F905D427