張巍+陳俊杰


摘要:為了能夠有效地監控和預警醫療網絡的輿情,及時地解決可能出現的醫療輿情危機,提高醫院輿情危機應對能力,提升醫療服務質量,醫療輿情監控和預警系統顯得尤為重要。該文根據醫療網絡輿情的特點,對醫療網絡輿情監控和預警的相關技術進行了研究。主要包括數據收集和預處理、醫療知識庫、醫療事件預警模塊的設計,最后實現了一個原型系統以驗證系統的有效性。
關鍵詞:Logistic;醫療輿情;監控;預警
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)04-0010-02
1 背景
隨著計算機和網絡技術的快速發展,互聯網已成為現代社會最重要的媒介。CNNIC第40次報告顯示,截至2017年6月,我國網民規模達7.51億,互聯網普及率為54.3%。其中,即時通信用戶數為6.92 億,搜索引擎用戶數為6.09億,網絡新聞用戶規模為6.25 億。微信朋友圈、QQ 空間作為即時通信工具所衍生出來的社交服務,用戶使用率分別為84.3% 和65.8%。海量用戶通過互聯網獲取最新資訊,互聯網雖有利于自由表達自己的思想,也能被一些壞人利用,誤導輿論。
醫院輿情危機指能夠對醫院正常運營,或者聲譽造成潛在破壞的輿情。在現今醫患關系非常緊張的形勢下,本來一個普通的醫患糾紛,通過互聯網的放大作用,很可能形成輿情危機事件。因此,有必要建設高效的醫療網絡輿情監測和預警系統,便于醫療部門盡早采取應對措施,將危機消滅在初期。
本文基于Logistic模型,設計并實現了一個醫療輿情監控與預警系統。下面將對本系統的構成、功能模塊以及實現進行介紹。
2 系統構成
本文提出的系統的結構如圖1所示。
系統主要包括6個模塊:數據采集及預處理模塊、醫療輿情常態監控模塊、醫療敏感知識庫模塊、輿情危機預警指標體系模塊、預警多元回歸模型模塊以及四級預警與展示模塊。
3 系統實現關鍵技術
3.1 數據采集及處理模塊
本模塊的任務是負責博客、論壇、新聞、微博上關于醫療輿情網頁的抓取并存入MYSQL數據庫。本模塊的功能有兩個:一是提供對新浪博客、天涯論壇、新浪微博、新浪新聞醫療輿情網頁抓取的接口。另外可以提供對新浪博客、天涯論壇、新浪微博、新浪新聞實時抓取新數據的接口。本模塊使用的軟件及工具有:1)Eclipse環境及jdk 1.8.0_131的java語言。2)WebMagic爬蟲框架,采用其0.7.2開源版本。3)quartz任務調度框架,采用其2.2.3開源版本。4)selenium 框架,采用其2.44.0開源版本。5)chrome的自動化軟件。
爬蟲爬取具體步驟:
1) 創建詞庫、并且分類。
如圖2所示,創建表。
2) 分析網頁、編寫爬蟲
(1) 根據關鍵詞、標題、排序等參數編寫url。
(2) 分析該網頁的文章url的格式、找到規律,編寫正則表達式。
(3) 將該網頁中所有符合“文章正則表達式”的網頁添加到待爬取隊列當中。
(4) 將該頁的分頁也編寫正則表達式,并且將符合“分頁正則表達式”的網頁添加到待爬取隊列當中。
(5) 將文章的網頁中的標題、正文、日期、作者等相關信息通過webmagic框架中的方法提取出來,并且存到數據庫中。
3) 根據需要、實時抓取
可以將以上爬蟲簡寫成只爬取前兩頁的內容,但是獲取到的結果都要經過時間優先,且結果都要根據標題檢索。
3.2 醫療輿情知識庫模塊
醫療輿情知識庫模塊由醫療事件庫、醫療關鍵詞庫、關注站點庫和微博虛擬身份庫組成。醫療事件庫收集了近年來具有較大社會影響力的50多個涉及醫療糾紛、醫患關系、醫療事故等的醫療領域事件。醫療關鍵詞庫收集了200多個醫療關鍵詞組,為識別醫療信息提供幫助。微博虛擬身份庫包含兩百多個重點關注用戶,有助于提高數據抓取的目標性。
3.3 醫療事件預警模塊
3.3.1 預警系數構成
根據系統采集到的數據,制定了輿情發布、輿情發布者兩個一級系數,輿情發布廣度、輿情發布活速率、輿情發布者具有的影響力、輿情發布者活躍程度四個二級系數,以及六個三級系數,如表1所示。
3.3.2 預警模型構造
根據前期采集到的醫療事件,采用多元Logistic回歸訓練模型,可判別出對醫療事件預警起關鍵作用的指數,同時訓練出各個指數的權重值。
醫療輿情事件的預警可以認為是一個具有兩個值的因變量的Logistic回歸模型,研究因變量y取值為1(預警)的概率p與自變量x之間的關系。自變量x是一個向量,它是影響y的因素。設在向量x條件下y=1的概率是p=p(y=1|x),那么所得出的公式(1)就是此條件下的多元Logistic回歸模型。
(1)
以某個醫療輿情事件的預警系數為識別變量,對此事件對應的六個預警系數作為模型擬合數據,構建Logistic回歸分析模型,從而可獲得該事件未來輿情危機爆發的預警級別。預警機制可根據嚴重程度的不同,分為輕度危機,普通危機,重大危機以及特大危機等,最后可對重大危急事件進行預警。
根據已建立的醫療輿情知識庫中近期的50個醫療事件的六個醫療輿情預警系數統計計算的值,經過歸一處理后作為輸入,使用軟件SPSS 24.0中的向前逐步回歸法選擇變量,經過10次迭代可獲取預警模型,最后一次迭代結果如下表所示。
如果p>0.5,則進行預警,否則,不進行預警。
4 結束語
總之,基于Logistic回歸模型,通過對爬取下來的有關醫療網絡輿情信息進行處理、統計、計算和分析,得到了p值作為預警指標,從而可對重大危急事件進行預警,便于醫院管理部門采取必要措施將醫療輿情危機消滅在初始狀態。但此模型的精度還不是很高,下一步,需增加更多的醫療輿情預警系數來調整此模型的建模。
參考文獻:
[1] China Internet Network Information Center. 第40次中國互聯網絡發展狀況統計報告[EB/OL]. http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201708/P020170807351923262153.pdf.
[2] 錢海峰. 公立醫院危機成因與應對[D]. 上海: 復旦大學, 2011.
[3] 張寅榮, 王超超. 醫療機構網絡輿情的應對策略[J]. 中國醫院, 2010, 14(7):41-42.
[4] 溫舟, 婁芳蕾, 史虹婷, 等. 錦州市綜合氣象預報預警服務平臺設計與實現[J]. 電腦知識與技術, 2017, 13(7):74-76.
[5] 趙軍, 趙玉玲, 段琪慶. 基于logistic回歸的區域房地產預警模型[J]. 中國人口·資源與環境, 2013, 23(11):454-457.
[6] 方匡南, 章貴軍, 張惠穎. 基于Lasso-logistic模型的個人信用風險預警方法[J]. 數量經濟技術經濟研究, 2014(2):125-136.