蔡 爽 陳 鋒 閻 喆
(中國醫科大學附屬第一醫院 遼寧 沈陽 110001)
隨著網絡信息化的不斷發展,互聯網和自媒體已經成為人們獲取信息、表達觀點的重要平臺,同時也為輿情的產生提供了便捷渠道。不同意見和觀點的交流碰撞,就會形成動態化的網絡輿情輿情,直接反映民眾對某一事件的的認知情緒、意見態度和行為傾向。而這些情緒和意見背后往往蘊含著民眾的政治傾向和政治行為。
意識形態作為思想價值體系的載體,自然離不開媒介的傳播與滲透,因此,維護好網絡空間中的意識形態安全,必須高度關注網絡輿情的發展。
當前,醫療行業意識形態工作整體向上向好,但也有一些值得警惕的問題。如借助社會熱點事件炒作、利用敏感議題渲染焦慮情緒、激化醫患矛盾、社會事件泛政治化等現象,針對這些問題,需要采取措施加以解決。
在互聯網時代,應該以意識形態為抓手,著力引導民眾積極理性的看待和處理就醫過程中出現的問題,形成與社會主義主流意識形態相一致的網絡輿情發展方向,進而有效應對和化解網絡輿情危機。
面對這一情況,本單位自主研發輿情監測軟件,針對自身需求,簡化管理工具,提高輿情監控的針對性,定向監測本行業、本單位及指定信息源,通過創新算法獲取信息搜索結果,去除廣告、推廣等無效信息,實現快速采集、傳輸和分析所需輿情信息,識別、處理有效信息內容,實時監控。標準化輿情信息數據并存儲,為歷史信息的分析、統計提供支持,通過設定的關鍵字設置監測方案后,可精確定向采集全網信息,自定義信息監測的時間范圍,全網搜索,發現輿情,軟件彈窗即時作出預警、提示,實時把握醫院及行業內相關輿論傳播內容,便于事實澄清或訴求回應,從而及時引導網絡輿論傳播方向,最大限度的降低引起醫患矛盾的因素。
1.算法思想
本軟件的主體思想是利用各個網站自帶的搜索引擎,獲取其搜索結果利用算法加以分析,得到輿情信息。在實際研究過程中發現,百度、新浪微博、今日頭條等網站采用的編碼技術并不相同。其區別在于,百度提供的搜索工具會將根據關鍵字搜索到的內容分頁,逐一顯示在瀏覽器中,利用查看網頁源碼的方法我們可以獲得搜索引擎得到的原始內容,通過算法整理有效內容、過濾無效內容,可以得到與百度搜索相一致的內容;而新浪微博的網頁源碼采用了不同的編碼技術,獲取到的網頁源碼并不能直接使用;今日頭條則利用javascript工具,采用了動態的網頁生成技術,無法直接獲取有效的網頁源碼。因此,本軟件分別針對這三種情況,設計了不同的算法。
2.軟件的整體設計
本軟件共設計了數據采集、數據整理、數據存儲、信息展示四個部分。在數據采集部分利用算法對與關鍵字相匹配的網絡原始數據進行采集,將數據流傳遞給數據整理模塊,通過解碼、轉換等過程得到標準化的可分析數據,再將標準化數據存儲到本地數據庫內,最后根據用戶的選擇將需要的信息內容展示出來。
1.數據采集
數據采集模塊主要負責利用網頁源碼獲取技術,將搜索的關鍵字轉換為目標搜索引擎可以解讀的網址,通過對網址的訪問獲取網頁源碼。其主要流程如圖所示。
以百度為例,本軟件分析了百度搜索時網址的書寫規則,形如“http://www.baidu.com/s?wd=關鍵字+細節描述”,其中關鍵字是輿情關注的內容,例如要查詢家用電器相關輿情,則可將關鍵字設置為“家用電器”,細節描述則是指搜索的時間范圍等其他相關條件。組合好網址以后,通過訪問算法,得到該網址返回的源碼,交給數據整理模塊進行解碼、分析處理。
2.數據整理
數據整理是一項較為復雜的工作。數據采集到的源碼內不光包含了有用的信息,還包含了大量的諸如字體顏色、背景樣式、元素對齊方式等描述HTML文檔顯示屬性的HTML標記。因此先要根據源碼的生成規律確定有用信息的位置,如新聞標題、新聞時間、網址、新聞內容等等;再通過算法提取已知信息并加以校驗。對于不同的網站,其源碼的生成方式也有很大的差別:百度為漢字、英文、數字與HTML標記語言共同書寫的源碼,而新浪微博其源碼是經過轉換的Unicode碼,不能夠直接整理,需要進一步通過算法進行解碼后使用。
以百度搜索生成的網頁源碼為例:一段含有文章標題的源碼可能是“
3.數據存儲
本軟件使用了開源的WampServer整合軟件包,為整理好的數據建立了一個MySql數據庫。數據以表格的形式存儲在MySql數據庫中,同時支持多臺設備的遠程訪問,這樣用戶可以隨時根據檢索條件調閱搜集到的輿情信息。對于已經瀏覽過的信息,本軟件還設置了一個已讀的標志,用以區分那些還沒有被瀏覽和新增的信息。
4.信息展示
在數據展示模塊本軟件采用了窗口模式,對采集到的輿情信息以窗口的形式進行逐條展示。
窗口的上方顯示收集輿情信息時使用的規則:自動收集間隔時間,對輿情關鍵字進行全文或僅標題匹配,匹配時采用模糊匹配或者精確匹配;要搜集的輿情信息發生的時間范圍等;窗口的下方有兩個標簽頁窗口。“設置”標簽用來設置輿情搜集規則和多個關鍵字,“檢測結果”標簽頁用來顯示搜集到的輿情信息內容。每一行對應一條網站新聞或者新浪微博帖子。當用戶單擊一行時,此行會高亮顯示,并在右側顯示該行輿情信息的摘要、內容提示,并且可以通過“打開原文”按鈕在瀏覽器中打開該輿情對應的網址,瀏覽該行對應的輿情信息。
數據采集作為本軟件的首要功能,采用了利用各個主流引擎網站、門戶網站自帶搜索引擎的設計方案,通過算法取回各個網站檢索關鍵字后的網頁源碼,這些源碼中包含了軟件需要分析整理的信息。在代碼實現的過程中,由于不同網站的編碼語言、編碼規則不同,軟件的開發遇到了一些難點。其中比較棘手的問題是,部分網站的網頁顯示內容是包含在網頁源碼當中的,可以比較容易的獲取到,但是有一些網站,例如《今日頭條》、《悟空問答》等,它們的網頁內容是通過JavaScript語言動態加載的,源碼當中僅包含實現這一效果的JavaScript語言代碼,無法通過一般的算法獲取與網頁顯示內容一致的數據。針對這一問題,本軟件在設計過程中及時更新了開發工具,并采用了新的編程技術。
本軟件研究了Winform和WPF內嵌瀏覽器技術,利用一款網上開源的由.NET編寫的瀏覽器包,通過不斷地摸索和測試,成功的將某瀏覽器的內核嵌入到本軟件使用的開發工具當中,在本軟件內構建出瀏覽器內核,模擬瀏覽器的加載過程,從而實現對動態加載網頁源碼的獲取。
借助輿情監測軟件獲取到輿情信息后,需要管理者進一步做好采集到的輿情信息的研判和分析工作。通過分析,對采集到的信息進行深入的挖掘,通過量化的方式掌握發布者的行為狀態。我們可以通過這種技術的特性,增強網絡意識形態工作的針對性、精準線和科學性。一方面,面對網絡上出現的輿情所反映出的問題,對癥下藥、有的放矢;另一方面,還要發揮管理者的主觀能動性,在掌握到第一手數據的基礎上,借助經驗和邏輯,做好網絡輿情的“去粗取精、去偽存真”工作,對千變萬化的海量輿情信息做出準確的研判和分析。
大眾網民一般具有淺閱讀、淺思考、先入為主、盲目從眾的行為特點,在海量的網絡輿情信息中辨別真偽是非的能力較弱,容易受到蠱惑與利用,被錯誤思想左右。而網絡中的“意見領袖”則充分利用了網民的這一從眾心理,吸引網民的關注和追隨。由網絡“意見領袖”引發的網絡意識形態爭論能夠迅速召集大批網民參與其中,形成網絡輿情風暴,左右輿情信息的傳播方向,甚至演變成為網絡輿情危機。
借助輿情監測手段及時掌握關于本單位的輿情信息,通過分析和研判,我們可以進一步做好對意識形態危機的預警工作,協助管理者做出正確決策,對那些有可能導致意識形態危機的輿情進行重點跟蹤,引導并適時采取措施,更好的掌握網絡意識形態工作的主動權,形成與社會主義核心價值觀意識形態相一致的網絡輿情發展方向,從而有效化解網絡輿情危機,保障意識形態安全。
伴隨網絡技術的進步和深度普及,網絡輿情也迅猛發展,開展網絡輿情監測工作已是順應時代發展的必然結果,也是保障意識形態安全的重要任務之一。努力提升網絡輿情監管技術水平,建立網絡輿情監測平臺,按時對網絡信息開展采集監控,做好分析研判和預警引導等工作,對于敏感和傾向性輿情信息采取前置預警,有效保護網絡意識形態安全。