呂波
(雅安職業技術學院 四川省雅安市 625000)
據最新統計結果顯示,截止2020年3月,中國網民規模達到了驚人的9.04 億,普及率上升到64.5%,并且伴有延展之勢。宏觀信息化時代生態下,互聯網技術不斷發展成熟,并日益深入到人們生產生活的各個領域,甚至成為了不可分割的一部分。在高度開放的互聯網虛擬空間,用戶的身份角色發生了巨大變化,有了更加廣闊的發聲渠道,更是加劇了不同國家之間的跨文化傳播,日益成為復雜意見的集散地、輿論的溫床,給相關監管工作提出了嚴峻挑戰,數據挖掘技術在其中的應用發揮了重要作用。
在當前信息化引領的社會發展新潮下,技術創新達到了一個新的頂峰,包括互聯網、大數據、人工智能等,進一步便捷了人們的生產生活,并產出了巨大的應用價值。數據挖掘技術作為現代科技創新的重要成果,是一種數據處理的技術,從大量的、不完全的、模糊的、隨機的數據中提取有用信息和知識的過程。綜合來講,數據挖掘是一個循環往復的過程,其中的每個步驟如若沒有達成預期目標,則需重回前面的步驟調整并執行。尤其是知識經濟時代,各學科之間的交叉滲透趨勢明顯,信息總量激增,且更新速度加快,人們的需求取向已由簡單的獲取發展為個性化、專業化,網絡輿情亦是由此變得更加個性化、專業化。面對海量數據的淹沒,人們卻仍然感到知識饑渴,數據挖掘技術則由此應運而生,并蓬勃發展而來,應用范圍不斷延展,顯示出了強勁的生命力。從某種意義上講,數據挖掘技術被視作為是知識發現技術在數據庫領域中的應用。在現實的技術創新語境下,數據挖掘的技術支柱愈加繁多,包括數據庫、人工智能、數理統計等,均能輔助人們進行更為合理、準確且富有針對性的判斷,從而提高了網絡熱點輿情信息的處置效率。
根據百度百科的相關釋義,所謂網絡輿情即是指在互聯網上流行的對社會問題不同看法的網絡輿論,是社會輿論的一種表現形式,通過互聯網傳播的公眾對現實生活中某些熱點、焦點問題所持有的較強影響力、傾向性的言論觀點。有學者對此進行了較為科學的總結,認為“網絡輿情以網絡為載體,以事件為核心,廣大網民情感、態度、意見、觀點的表達、傳播與互動,以及后續影響力的集合”。在如今互聯網絡高度發展的社會情態下,網絡輿情的表現形式趨于多樣,包括新聞評論,BBS 論壇、微博、轉帖等,其本身龐大的受眾基礎,使之對政治生活和社會穩定的影響與日俱增,并深刻影響著人們的認知結構,一旦處理不當,很有可能引起民眾的負面情緒甚至過激反應,是威脅社會穩定、和諧的重要因子。尤其是全球一體化生態格局下,互聯網高度的開放性,打開了世界各國的信息交互通道,網絡輿論成為了西方資本主義攻擊中國特色社會主義的一大“利器”,是國家和人民關注的焦點。互聯網與生俱來的開放性和虛擬性,使得網絡輿情呈現出了直接性、隨意性、多元化、突發性、隱蔽性、偏差性等特點,亦是給相關治理造成了較大的難度。
在數據挖掘領域,R.Agrawal 率先提出了關聯規則,即兩個或以上變量的取值之間存在某種規律性。作為數據挖掘最成熟的技術之一,關聯分析可以發現一個事物中某些屬性同時出現的規律和模式,并通過其內在的隱含特征建立關聯。事實上,多數關聯規則挖掘算法都能夠毫無遺漏的發現所隱藏在對象數據中的關聯關系,并總結出一類重要的知識,其目的就在于找出隱藏在數據庫中的關聯網。一般來講,按照其運行機理的差異,關聯規則又可分為簡單關聯、因果關聯、時序關聯等幾類,核心參數指標包括可信度、支持度、作用度以及期望可信度。與此同時,當用前兩項參數度量關聯規則的相關性時,一般還涉及興趣度、相關性等參數,作為一種補充限定條件,可最大限度滿足數據挖掘需求。當支持度越高時,關聯規則的重要性愈加突出,應用則更加廣泛,折射出了其在所有事務中的代表性。基于關聯規則技術的網絡熱門輿情分析,可以幫助人們從紛雜的數據信息以及行為現象中找出其所產生、變化的內在影響因素,最終得出網絡熱門輿情變動規律與影響因素之間的相互關系,對于其更加深層次的引導處置有著重要的現實意義。
所謂聚類即是指把相似的對象通過靜態分類的方法分成不同的組別或者更多的子集,從而使同一子集中的成員對象具有一些相似的屬性,其并非一種特定的算法,而是一個大體上需要解決的任務,即探索性數據挖掘的主要任務。面對復雜多變的網絡熱門輿情,聚類分析可在不預先知道目標數據庫到底有多少類的情況下,盡可能將所有記錄劃分為不同的類,并以某種度量為標準的相似性,在同一聚類內最小化、不同聚類內最大化,從而建立數據屬性之間的相互關系。在商業領域,通過聚類分析,市場分析人員可以從龐雜的消費數據庫中提取不同的消費者信息,并總結概括具有相似習慣的消費群體,針對性地輸出服務,實現精準營銷。而正是基于數據挖掘技術的這一優勢功能,網絡熱門輿情分析中,可以對復雜多變的大數據系統進行聚類,亦可對網絡用戶進行聚類,從而得出相似的特征,以便于進一步的研究和應對。在此過程中,聚類的度量標準既可以是信息的使用情況,又可以是信息內容的特征。在數據挖掘技術高速發展的今天,聚類分析的方法有很多種,包括根據數據類型、聚類目的、應用情況的方法,亦有基于密度、基于網格、基于模型的方法等。
作為數據挖掘的主要任務之一,分類分析是找出一個類別的內涵描述,其代表了該類數據的整體信息,并與其他數據區別開來,從而構造規則或決策樹模型,現今發展已然相當成熟。對此,知名學者李志聰認為,“分類的目的是分析輸出數據,通過在訓練集中的數據表現出的特性,為每一個類找出一種準確的描述或模型,由此生成的類描述用來對未來的測試數據進行分類”。從這個層面意義上來看,分類與聚類有著較高的相似性,均附帶有明顯的數據分類分組功能屬性,并根據一定條件對海量數據庫信息進行篩選分組。但是兩者有存在明顯的差別,分類主要是根據預先設定好的特征參數對數據對象進行分組。基于分類的網絡熱門輿情分析,可以需求為導向,對海量數據信息進行初步篩選,并根據設定的需求核心,如民生問題、突發事件、公共安全等進行分組,為下一步的工作展開鋪墊了基礎。正是基于此,可進一步有效縮小數據挖掘的范圍,從而避免了盲目搜索,對提高網絡熱門輿情分析的效率和質量作用顯著,從而抽離出更加精準、有意義的價值信息,是迎接海量、碎片化干擾的重要技術方法。
時序模式可視作為關聯規則在考慮時間因素后衍生出的產物,是根據數據信息發生的時間序列進行升序或降序排列,并整合分析出重復發生概率較高的事件。基于數據挖掘技術的網絡熱門輿情分析,可充分運用時序功能,并搭配預測功能,實現更好地監控預警,繼而對社會運行接近負向變質的臨界值的程度所做出初步確定的早期預報。在現實生活中,一些危害社會公共安全、穩定、和諧的不良事件發生整個過程,從發生之前到最終結束,都會伴隨有一定的現象,并可通過海量網絡數據信息的收集分類,針對性地預判。基于此,可結合分類分析反饋的數據結果,對該類數據進行有規律的預測或優先等級排序,繼而制定更為詳盡、可行的網絡熱門輿情處置計劃,有所側重的逐級推進,可達到最佳的不良事件預防和控制效果。與此同時,數據挖掘中的時序功能,還有利于及時掌握網絡熱門輿情的發展動態,推動著網絡熱門輿情處理從即時處置向事前預警模式的轉變,有助于進一步遏制很多事件向消極面的演變發展,相對精準地預測網絡用戶的傾向和意愿,及時封堵各類有害信息傳播。通過網絡熱門輿情的時序分析,在其大規模爆發之前,充分發揮官方網站的先發優勢,快速應對,以正視聽。
在整個數據挖掘系統中,偏差分析是探測數據現狀、歷史記錄或標準之間的顯著變化和偏離,包括很大一類潛在的有趣知識。通過偏差分析,可及時查找出數據庫中的異常信息,通過尋找觀察結果與參照之間的差別,發現網絡熱門輿情中的異常情況,繼而予以處置。早在2008年發生的“3.14 事件”中,西方媒體不約而同地刊載了一張西藏公安武警解救被襲擊民眾的照片,并將之生硬地說成是抓捕行動,完全忽視了照片中救護車上大大的“急救”二字。這種張冠李戴的現象在西方媒體的報道中比比皆是,明顯的偏差,造成了惡意炒作、蓄意煽動輿論的影響,顯示出了其明確的反華立場。偏差分析在網絡熱門輿情研究中的應用,其核心價值就在于識別虛假信息和不良信息,并進行及時的批判,從而糾正其中存在的偏差,讓造假、誹謗等不攻自破。由此看來,基于數據挖掘技術的網絡熱門輿情分析,在偏差分析的功能輔助下,不僅可以治理既已發展的不良輿論,引導正確的走向,且有助于及時、準確地海量數據中與網絡熱點事件相關的真實信息,包括權威發布、相關評論、網絡論壇等,從而形成正面輿論,通過多樣化手段或多種渠道予以引導。
所謂預測即是利用歷史數據中找出的變化規律,建立專用模型,并藉此來預測未來數據的種類及特征等,繼而總結出未來可能出現的結果。在此過程中,通過對歷史數據的分析,找出其中隱藏的、未來可能發生的進行提前預判,為網絡熱點輿情的后續處理做充足準備,其核心關鍵在于精度和不確定性,一般可利用預測方差進行度量。基于預測的網絡熱門輿情分析,應當是一個系統化的組織過程,在具體的工作踐行中要事先做好組織和指導,明確導向目標,并成立專門的參加專家團隊,其帶表面要廣泛,一般包括設計、生產、管理和決策等多層面的人員,他們本身有著豐富的實踐經驗和理論知識。在此基礎上,對其所反饋的意見信息進行匯總、梳理、統計和分析,最終得出預測結論。從某種維度視角上,預測即是趨勢分析,根據德爾菲法應當組織四輪征詢調查和反饋。其中,第一輪的調查并不限制條件,只提出需要預測的問題。第二輪調查則對上一輪提出的事件發生時間、空間、規模等進行詳細預測,并給出相應的理由。第三輪與第二輪內容相似,只是加以修訂,給出更加詳盡的理由及相關理由。第四輪得出最終較為精準的結果。
總而言之,基于數據挖掘技術的網絡熱門輿情分析十分重要和必要,是現實語境下的必然選擇,作為一項龐雜的系統化工程,包括關聯、聚類、分類、時序、偏差、預測等,以便于進一步穩固社會基礎。作者希望學術界大家持續關注此類課題研究,結合實際情況,立足現實社會發展語境,從不同維度視角提出更多有效基于數據挖掘技術的網絡熱門輿情分析策略。