冉朝霞
摘 要:網絡輿情大數據信息與紙質和實物檔案一樣具有檔案特質,是社會生產生活中形成的能夠反映社會原貌的文字、圖片、視頻、音頻等多種表現形式的歷史記錄,具有長久保存和歸檔價值。采集、研判和歸檔有價值的網絡輿情大數據信息是大數據時代對檔案工作提出的新要求。
關鍵詞:輿情大數據;采集;歸檔
1 大數據背景下積極創新網絡輿情的采集機制
1.1 數據采集。運用網站API、網絡爬蟲等技術獲取輿情信息。API從網站提供商獲取輿情數據,網絡爬蟲設定目標網站、爬行間隔和存儲位置,自動批量化獲取網頁數據。整合各信息系統,確保信息收集全面、及時、準確,將輿情信息系統互聯互通,將種類繁多的數據整合轉化為可視化數據。
1.2 數據預處理。數據預處理是指對首次采集的原始數據進行二次處理,刪除多余、重復、失真等輿情噪音,確保輿情真實、客觀、全面。數據預處理常用的技術手段有三種:第一是對文本進行預處理。對通過輿情采集器獲取的未加工的 Web 文本進行初步處理,以便后期對這些 Web 文本進行建模、發現話題等。第二是對話題進行檢測。經過文本預處理,使得文本語料庫變成VSM向量集。話題檢測就是利用 VSM 向量之間的相似度,對文本進行聚類。第三是利用話題綜合評價標準對話題進行過濾。
1.3 數據存儲。數據存儲從本質上說是一個分布式存儲系統,它將網絡輿情大數據保存在多個遠端服務器中,這樣本地存儲設備或者某個遠端服務器出現故障,存儲信息出現丟失,另外存儲設備中的備份數據將會自動提到恢復作用,從而增強了存儲系統的可靠性。
2 大數據背景下努力完善網絡輿情的研判機制
2.1 網絡輿情的定量研究判斷。網絡輿情由無數個輿情信息元素構成,一般而言,一個完整的輿情信息具有多重元素,包括輿情信息文本、輿情信息發布者、輿情信息傳播者、輿情信息傳播平臺等。在輿情研究判斷的實踐方面,與輿情信息量化分析直接相關的帖子數量、跟帖數量等是研究判斷的重要指標。
2.2 網絡輿情的定向研究判斷。對于突發性群體事件的網絡輿情治理來說,要關注它的形成過程,從網絡上出現輿情信息或意見時起,網民就通過點擊、發帖、跟帖等諸多形式參與其中,在傳播和評論過程中,分化出諸多觀點,觀點之間既有聯系,也有沖突。對網絡輿論要有針對性地分析,判斷出是多數網民共同的意見和觀點還是某一特定群體的意見和觀點。
2.3 網絡輿情的定點研究判斷。從整體上看,網絡輿情是網民意見的反映,輿情的發生、發展、演變是網民總體推動的結果,但其中一些關鍵網民,在輿情從量變到質變的過程中發揮著關鍵作用,對突發性群體事件中網絡輿情的處置和溝通也起著關鍵作用。
2.4 網絡輿情的定性研究判斷。在網絡輿情向網絡輿論的轉化過程中,一般需要經過輿情信息關注、引發討論、形成主導意見、輿論生成四個階段,其中每一個環節都離不開信息的傳播和意見的交流,厘清一些影響傳播和交流的關鍵性因素以及非正常因素是輿情研判過程的重點。
社會輿情的研判分析機制是對輿情的定性與定量、定點與定向給出的一種價值和趨向判斷的過程。 社會輿情的研判工作是一項系統工程,既是對社會輿情進行日常性和持續性跟蹤與搜集,并在此基礎上建立網絡輿情信息庫,又是針對某一突發事件或某一特定任務進行有針對性的研判工作,任務完成則輿情活動便隨之結束。需要建立快速有效的研判分析機制,利用現代科技手段對網絡信息進行科學采集、上報、歸并、整理、匯總、分析和研判。
3 檔案學視角下著力構建網絡輿情的歸檔機制
3.1 網絡輿情大數據信息歸檔原則
3.1.1 分層定位原則。分層定位原則主要從兩方面入手:網絡輿情信息自身分層和歸檔機構分層。網絡輿情分層源于信息自身復雜性和多樣性特點,歸檔工作中對信息分層處理可以保證網絡信息歸檔的針對性和有效性,不同層別網絡輿情信息應區別對待。依據歸檔信息重要性由小到大依次排序,可以將網絡輿情大數據信息分為鏈接級、鏡像級、服務級和檔案級等幾個級別。不同管理職能、不同類型的檔案機構也應當根據其業務和服務對象有所側重,分別制定符合自身機構網絡輿情信息資源存檔實施方案。地區性綜合檔案館是當地信息保存服務機構,網絡輿情信息資源歸檔也應當具有區域性,以本地區范圍內網站信息或與本地區相關的網絡輿情信息作為歸檔重點。
3.1.2 信息鑒定原則。網絡輿情信息資源歸檔的對象是有選擇性的,因此信息鑒定甄別應是重要的歸檔原則。信息鑒定原則主要包括信息價值鑒定和信息真偽鑒定。檔案價值主要依據網絡輿情信息是否具備保存和利用價值來判定,傳統文書檔案價值鑒定一般從時間、來源、形式和內容等方面去綜合分析,網絡輿情信息資源價值鑒定亦可以借鑒此類方法。由于網絡信息資源數量龐大,內容形式復雜,因此,網絡輿情信息真偽判斷是一項依托于科學性、客觀性、時效性、可理解性等一些定性指標做出鑒定的工作。
3.1.3 權責明確原則。網絡輿情信息資源歸檔工作需要歸檔主體之間劃分明確權責,制定適合自身責任與權力的網絡信息資源選擇標準,各司其職,履行機構承擔的網絡信息資源歸檔保存的責任。基層檔案業務機構負責對與本機構業務相關的各類網絡信息資源進行采集和歸檔,定期或不定期地向國家檔案館移交具有長久保存價值的網絡信息。地級檔案機構承擔當地區域內或者與當地相關的網絡輿情信息資源的采集歸檔任務。檔案館承擔了政府機關的政務活動、企事業單位和民生問題等方面輿情大數據信息的歸檔工作,合作對象是政府機構、企事業單位和個人,主要采集歸檔政府網站、企事業單位網站和微博、微信公眾號、電子郵件、網絡論壇等信息交流平臺的網絡輿情信息資源。
3.2 網絡輿情大數據信息歸檔方式
3.2.1 物理歸檔。物理歸檔是把系統采集到的網絡輿情信息資源集中傳輸至可獨立或者可脫機保存的載體后再移交給檔案部門的過程。物理歸檔又可分為介質歸檔和在線歸檔。介質歸檔是將采集到的網絡信息資源存儲在一定介質上移交給檔案部門。在線歸檔是將要歸檔的網絡輿情信息資源通過網絡直接傳輸到檔案部門系統,或者加工后傳輸到網絡部門規定的URL中,從而使得信息傳遞存儲在檔案部門載體中。endprint
3.2.2 邏輯歸檔。邏輯歸檔是利用網絡信息共享優勢,不改變網絡輿情大數據信息原有存儲方式和位置而實現網絡輿情大數據信息向歸檔部門移交的過程。邏輯歸檔在不實際擁有網絡信息資源的條件下實現對其安全保管和合法存取利用進行有效監控,簡化了歸檔流程,發揮了計算機網絡的共享優勢。然而,在網絡信息技術和規范尚未完善的情況下,采用邏輯歸檔須慎重,從歸檔部門角度而言,邏輯歸檔存儲位置并不在歸檔機構,歸檔機構技術條件不成熟情況下,難以遠程對歸檔網絡信息資源進行安全管理和合法存取;從網絡信息形成者角度而言,存儲在其服務器和主機上的歸檔的網絡輿情信息資源,在形成單位技術不過硬的條件下受到非法攻擊,則會造成不可挽回的損失。為確保安全,歸檔部門需定期對邏輯歸檔的網絡輿情信息資源進行脫機備份和物理歸檔。
3.2.3 網絡實時歸檔。網絡輿情大數據信息具有時效性和易消逝性等特點,因此為保證歸檔信息的原始性、可靠性、系統性和完整性,在文件生成階段則需要對其進行捕捉采集,利用計算機網絡對其進行管理。網絡實時歸檔依托網絡,存在不穩定性,為保證網絡輿情大數據信息歸檔后能夠長期保存,后續還要依托介質實體歸檔。這兩種方式相輔相成、缺一不可,采用介質實體歸檔和網絡實時歸檔形成內容相同的兩份檔案,網絡實時歸檔是基礎,介質實體歸檔是保障。網絡實時歸檔和介質實體物理歸檔分屬兩個不同數據庫,在網絡輿情大數據信息捕捉采集階段,將采集到的網絡輿情大數據信息資源傳輸到臨時網絡實時歸檔數據庫,介質歸檔臨時數據庫則接收網絡實時歸檔數據庫的網絡信息,兩者同時開展檔案鑒定工作,經過鑒定有價值的網絡信息資源,則在線傳輸到正式網絡實時歸檔數據庫和介質歸檔數據庫,一式兩份,分別保存。
*本文系:
1.2017年度河南省社會科學規劃決策咨詢項目階段性成果,批準號:2017JC49。
2.共青團河南省委、河南省社科聯2017年度專項調研課題階段性成果,立項編號:QSNYJ2017360。
參考文獻:
[1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代:生活工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[2]李國杰,程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[J].中國科學院院刊,2016(6):647-657.
[3]李磊,劉繼,張雄魅.基于共現分析的網絡輿情話題發現及態勢演化研究[J].情報科學,2016,34(1):44-47.
[4]孫慶慶.網絡社區話題特征提取及有價值話題識別方法[D].合肥工業大學,2012.
[5]吉亞力,田文靜,董穎.基于關鍵詞共現和社會網絡分析法的我國智庫熱點主題研究[J].情報科學,2015(03):108-111.
[6]丁潔.基于社會網絡的網絡輿情演化研充[D].南京理工大學,2015.
[7]殷沈琴,張計龍,任磊.基于關鍵詞共現和社會網絡分析法的數字圖書館研究熱點分析[J].大學圖書館學報,2011(4):25-30,38.
[8]吳曉秋,呂娜.基于關鍵詞共現頻率的熱點分析方法研究[J].情報理論與實踐,2012(8):115-119.
(作者單位:中共鄭州市委黨校公共管理教研部 來稿日期:2017-10-11)endprint