曹略耕
大數據時代,海量涉警輿情數據通過虛擬(網絡)等媒介進行傳播。雖然涉警輿情數據以超大規模的形式出現,但信息量卻與數據量不成比例,出現了“數據海量,信息缺乏”的怪圈。為解決海量涉警輿情數據的監測與處理,就需要能夠實時化、智能化、科學化的技術來支撐公安機關監測涉警輿情數據,在這種環境下,數據挖掘也就應運而生。
1.數據挖掘的定義。數據挖掘,也稱作基于數據庫的知識發現,不僅能對過去的數據進行查詢和遍歷,并且能夠找出過去數據之間的潛在聯系。數據挖掘是在海量的、有噪聲、非結構化的數據中通過數據算法智能、自動地提取出隱含的、潛在的有價值的知識的過程。在涉警輿情監測領域,數據挖掘就是對海量的互聯網的數據信息進行“描述”,抽取出涉警輿情數據,運用算法進行實時、智能化預測預警的過程。
2.數據挖掘的任務。數據挖掘的任務分為描述、建模、預測三部分。“描述”是指對大數據進行數據總結,包括內容和結構上的特征總結,并以“支持度”“可信度”“作用度”為標準對總結數據進行初步的關聯分析,提高預測的準確度和科學性。“建模”是指根據數據總結選擇合適的算法,并建立相應的數據模型,以實現實時智能預測。在“描述”和“建模”任務完成之后,數據挖掘開始實施“預測”任務,這是數據挖掘的最終目的所在。“預測”是指根據數據“描述”的數據內容和結構上的特征,并以數據模型為基礎對未知信息進行智能化、實時性、科學性預測。“預測”的主要方法包括決策樹、神經網絡、遺傳算法、最鄰近算法、貝葉斯分類技術等。
3.數據挖掘的理論基礎。數據挖掘技術的理論基礎在于行為學理論和社會學習理論。任何涉警輿情的發生都是符合一定規律的。涉警輿情是個體行為的綜合反映,是個體所處的外在因素和內在因素的綜合作用之下發生的。外在因素是指社會和自然存在的,不以個體的意志為轉移的客觀環境;內在因素是個體內在的性格、價值觀等個性特征因素。通過警務大數據的分析,外在因素和內在因素的規律都是可以被發現的,是符合社會和個體的行為因素的。因此,涉警輿情事件的發生是可以通過數據挖掘發現其規律的,所以行為學理論涉警輿情的預測與預測的理論之一。
任何涉警輿情的產生都需要個體的學習,不會憑空產生。個體通過網絡等媒介向社會學習大量的信息,這包括正面的積極信息,同樣也含有負面的反動的數據,個體是容易受到正面的激勵,還是負面的反噬,是可以通過社會學習理論來發現其規律的。
1.涉警輿情的定義。涉警輿情是指與公安機關相關的輿情信息,這其中包括正向的輿情信息,即弘揚公安機關對黨忠誠、服務人民、執法公正、紀律嚴明等正面輿情信息,同時也包括負向的輿情信息,即抹黑公安執法,捏造事實,扭曲真相,意圖引起社會反感的不良信息。
2.大數據時代涉警輿情的特征。大數據時代,超大規模的涉警輿情主要以分布式、非結構化的形式存在于網絡等媒介中。由于網絡的低門檻、無序性,使得網絡輿情的不確定性、交互性和動態性大大加強,加之個體對主流輿情的“疲勞”,使得社會個體極易將涉警輿情負面化,進行擴大解釋,將“論斷”搶在公安機關發布前傳播,引起涉警輿情的擴大化。
從我國公安機關性質來看,由于公安機關大多是追求社會效益,功效往往不能在短期內顯現,加之社會效益表現力弱等特點,使涉警負面輿情層出不窮,影響力日益加大。因此,加大對涉警輿情監測與預警,及早發現,及時預警,是降低涉警負面信息重要手段之一。
在涉警輿情數據準備階段,通過大數據采集技術智能化,實時采集涉警輿情數據,傳輸到公安物聯網,儲存在相應的警務數據庫。在涉警輿情數據清理與集成階段,通過對涉警輿情數據內容和結構的“描述”,將“描述”后的數據進行“聚類”處理,即將具有較高相似度的數據“聚類”,不同類之間具有較高的相異性。將集成后的數據傳輸到“數據倉庫”中。在涉警輿情數據選擇與交換階段,對數據進行關聯分析,選擇與涉警負面輿情有關的數據,并轉化成適合數據挖掘的數據類型。在數據挖掘階段,利用建立的數據模型,通過關聯分析、級別分析、聚類和傾向性分析,對數據潛在的、有價值的涉警輿情規律進行挖掘,智能分析提取涉警輿情數據模式,為進一步預測預警提供支撐。在評估與表示階段,一方面,將數據挖掘階段形成的數據模式進行“表示”形成“知識”,提供預測預警數據;另一方面,對數據模式進行評估處理,將評估結果反饋到清理與集成、選擇與交換、數據挖掘階段,形成“閉環”,保障“知識”的科學性與智能化。涉警輿情的數據應用集成是數據挖掘的最后階段,也是最終目的,即在于提供預測結果及預警模型,為公安機關掌握涉警輿論主動性提供保障。
數據挖掘并不是一蹴而就,而是一個反復的過程。在評估與表示階段,會將數據進行反饋,反饋之前的每一個階段。同時,如果某一個階段的數據處理沒有達到預期模式,就會返回到上一個階段,進行反復處理,保證數據的鮮活性與科學性。
數據挖掘在涉警輿情監測與預警中的應用方法主要是關聯分析、級別劃分、傾向性分析與可視化表示。
1.關聯分析。通過“偏差分析”發現異常數據,同時對涉警輿情的異常數據表征參數進行分析處理,發現涉警輿情中潛在的關聯規則,并以“支持度”“可信度”“作用度”為參數量化涉警輿情的關聯性。
2.級別劃分。根據涉警輿情的影響力、性質等指標,以及“聚類”分析的“簇”的類別對涉警輿情事件進行級別劃分,針對不同的涉警輿情級別實施相對應的預警方案。
3.傾向性分析與可視化表示。通過序列模式挖掘技術、情感分析、主題分析等數據挖掘技術深度挖掘涉警輿情的內在聯系和演變趨勢,得出傾向性分析意見,并以可視化界面的形式“表示”在公安機關視域下,為公安機關實時把握涉警輿情發展變化趨勢及預警提供支撐。
傳統技術就像一艘老舊的航船,無法在大數據的海洋中高效挖掘捕撈有價值的物產,并隨時都有傾覆的危險。數據挖掘技術使涉警輿情數據分析處理環節更加智能化、實時化。傳統的數據分析往往依托人工輸入公安信息網進行比對分析處理,這不僅耗費大量的人力資源,而且也會使數據更新不及時,極大限制了公安機關處理涉警輿情事件的能力。在大數據時代,數據挖掘技術可以支持對海量涉警輿情潛在信息的發現與挖掘,找到涉警輿情信息間存在的關系或規律,根據現有的輿情預測未來的發展趨勢,這不僅在縱向上極大地挖掘了數據,而且也緩解警力不足的壓力,保證數據的實時性與準確性,實現智能化預測預警。
數據挖掘技術可以在縱向上挖掘“數據”,相較于傳統的數據分析技術,更能實現公安機關對涉警輿情的預測預警。大數據時代社會人流、物流、信息流的動態化,新型“網絡水軍”的產生,以及跨地區、跨國家的遠程操控等給公安機關打擊違法炒作“涉警輿情”增加難度。公安機關通過大數據采集技術采集海量的涉警輿情數據,利用數據挖掘技術智能預測涉警負面輿情。數據挖掘技術提高了公安機關處理涉警輿情事件的效率,使公安機關處理涉警輿情事件由依靠傳統的人海數據分析處理轉變為數據挖掘技術引領,實現及時預測預警涉警輿情,提高公安機關實戰化水平。相較于傳統的OLAP等在線分析處理技術而言,數據挖掘技術具有以下4個優勢:
傳統的數據分析處理技術無法實現對海量數據的實時分析,而數據挖掘技術可以實時、動態搜集信息,通過對數據內容和結構的數據“描述”,發現涉警輿情數據之間的關聯關系,從虛擬(網絡)上自動收集涉警輿情數據信息,并且隨著鏈接不斷向整個虛擬(網絡)擴展,不斷向更深層次挖掘數據,實現在虛擬(網絡)上涉警輿情數據的自動搜集。
數據清理又可分為數據的預處理、篩選、有序化和量化處理。
1.數據預處理。數據預處理是對海量的數據進行預先梳理,將數據進行“去噪”處理,濾除“冗余”數據,提升下一環節的數據處理效率。
2.數據篩選。數據篩選是對涉警輿情數據的“再處理”,將“去噪”后的數據進行“偏差分析”,識別數據特征明顯不同于其他的數據,初步去除無價值的數據,對有價值信息進行“再選擇”。
3.數據的有序化處理。數據的有序化處理是對數據的“聚類”處理,通過數據“描述”,將具有較高相似度的數據歸為一類,不同類別之間的數據具有較高的相異度,即將物理或抽象的數據分成不同“簇”的過程。
4.數據的量化處理。數據的量化處理是將不具有量化特征的數據進行量化處理,以便實現“量化”數據的“集體分析處理”,數據量化是數據“可視化”的基礎。
輿情分析是數據挖掘技術的關鍵,分析的結果往往關系到涉警輿情準確度。輿情分析可以關鍵字、傾向性觀點等為類別進行“聚類”處理。基于數據挖掘技術的輿情分析主要有以下3點優勢:
1.自動分類和自動聚類。將涉警輿情分為不同的“簇”,將每一個涉警輿情“簇”看作一個輿情類,可以及時發現涉警敏感輿情,并“總結出”主流評論及輿情導向。
2.偏差分析和深度追蹤。通過偏差分析,智能化識別數據特征顯著不同于其他的數據,并對其進行追根溯源,深度追蹤數據鏈接、關鍵字等特征數據。
3.傾向性分析和預測。根據現有涉警輿情的發展規律,對未來的發展趨勢進行科學化的實時預測,形成“知識表示”。
將數據挖掘的成果以可視化的“知識”展現在公安機關視域下,公安機關可以對涉警輿情事件的發展趨勢進行實時研判,掌握涉警輿情的發展規律,及時預警,降低負面影響。
隨著大數據時代的不斷推進,涉警輿情數量不斷增多。在大數據時代,數據的產生和采集是基礎,數據挖掘技術是關鍵,換句話說,大數據是現象,核心是挖掘數據的潛在價值,數據挖掘在涉警輿情預測中具有描述、清理、評估、知識表示等優勢,可以較好地滿足公安機關實戰化需求,是公安機關及時掌握涉警輿情發展規律,實現智能化、科學性、實時性預測預警的重要手段。
盡管數據挖掘給涉警輿情的預測預警帶來了巨大的變革,可以基本滿足公安機關的實戰化需求,但在具體應用過程中,數據挖掘同樣會出現隱私安全、預測誤判等風險問題。隨著警務大數據和數據挖掘的不斷成熟,這些風險問題會不斷得到克服,可以預言,數據挖掘在涉警輿情的監測上必將扮演越來越重要的角色。