吳文慧 李亮 葛渟 華萍


摘要:該文介紹了在大數據時代背景下針對藥品安全網絡輿情監測現狀,梳理分析了藥品安全網絡輿情監測系統需求,根據需求和網絡輿情監測的特點,提出了藥品安全網絡輿情監測系統的軟件設計框架,介紹了實現該系統所需的主要輿情監測處理技術。該系統設計該設計集監測、預警、分析、報告于一體,合理融合了大數據處理與自然語言處理技術,同時提出了用傳統統計分析和深度學習方法來解決輿情分析中“文本分類和情感分析”等關鍵技術問題。最后,從用戶交互的層面給出了藥品安全網絡輿情監測系統的可視化方案,為藥品安全行業網絡輿情監測提供了一種實現途徑。
關鍵詞:藥品安全;網絡輿情;監測;大數據;系統設計
Abstract: This article introduces the background in the era of big data in drug safety network public opinion monitoring at present, the comb demand, drug safety network public opinion monitoring system are analyzed according to the requirements and the characteristics of the network public opinion monitoring, drug safety network of public opinion monitoring system software design framework, this paper introduces the implementation of the system main public opinion monitoring and treatment technology. The design of the system integrates monitoring, early warning, analysis and report, reasonably integrates big data processing and natural language processing technology, and proposes the traditional statistical analysis and deep learning methods to solve the "text classification and emotion analysis" and other key technical problems in public opinion analysis. Finally, the visualization scheme of the drug safety network public opinion monitoring system is presented from the perspective of user interaction, which provides a way to realize the network public opinion monitoring in the drug safety industry.
Key words: drug safety;online public opinion;monitoring; big data;system design
隨著人們生活水平的提高,與人們身體健康密切相關的藥品安全問題越來越受到大眾關注,與藥品安全有關的網絡輿情也越來越多,容易產生消極的非理性情緒,這種情緒容易在網絡上幾何級疊加,非理性情緒疊加可能會導致嚴重的社會危機。藥品安全網絡輿情既具有影響力廣、突發性強等網絡輿情的普遍特點,還具有敏感度高、代入性強的行業特點,傳統輿情應對存在反饋反應滯后、引導被動、預案不完善等不足,按照“發現、處置、積累”的循環關系,這些不足產生的源頭還體現在對輿情的監測、響應、處置、宣傳等工作快速發現、反應的能力不足上[1]。有報告指出,近90%的藥品安全輿情事件均未取得令人滿意的效果[2]。因此,迫切需要利用自然語言處理和大數據等新技術對藥品網絡安全輿情進行快速抓取、分析、預警,為后續采取積極應對、處置提供盡可能足夠的反應時間和信息輔助決策,實現藥品安全監管的輿情監測、預警、處置的快速反應[3-8]。
1 藥品安全網絡輿情監測系統需求
根據藥品安全網絡輿情監測的業務特點和需求,系統需要提供基于大數據的智能抓取、數據預處理、熱點分析、圖形顯示等技術,重點收集藥品安全行業的關鍵詞,并按照行業分類,加大藥品安全輿情監管詞庫配置。依據藥品安全關鍵詞行業分類,設立“藥品安全”“中藥安全”等輿情專題,對新聞網頁、博客、論壇等評論進行定點采集與解析,對熱點信息進行定位及追蹤,對敏感信息實時監控及預警,從復雜的社會信息中挖掘出有用的信息[9]。提供統一的搜索功能方便用戶進行關鍵詞檢索,得到最相關的輿情信息,對事件傳播進行分析,實現對事件的全生命周期監控,形成完整的生態鏈條管理體系,范圍須涵蓋網絡媒體、論壇博客、微博等全媒體,囊括事前預警、事中分析、事后處理功能,有效實現對藥品安全網絡輿情監測,對互聯網上發生的與相關的輿情信息實現第一時間監測,并且以最直觀的方式預警出來。
根據輿情監測注重快速反應的時效性特點,系統要提供輿情采集管理調度、自動采集狀態監測、異常信息自動恢復等功能,保證輿情信息24小時無人值守的持續采集。系統能對采集的信息結合藥品安全行業關鍵詞,按文章屬性、情感傾向、傳播熱度、發布載體、主題內容等進行分類;對信息源輿情屬性進行相關、關注、負面、過濾、排除等進行輿情信息的多維度分析研判,做到自動生成熱點、輿情熱度計算、熱度排序。通過按載體、時間、來源、特征篩選和可視化圖表分析等監測手段,對事件監測結果進行實時跟蹤分析與預警,對于重大活動或突發事件,系統能夠對論壇、博客、微博的發帖、跟帖情況等進行分析,形成藥品安全網絡輿情分析報告。
2 藥品安全網絡輿情監測系統使用的主要技術
藥品安全網絡輿情監測系統分為離線和在線兩部分,藥品安全網絡輿情分析流程如圖1所示。離線部分包括數據標注、模型訓練、模型評估等;在線部分通過爬蟲技術進行持續數據采集,利用自然語言處理技術、中文分詞技術、數據預處理技術,大數據處理技術等對信息進行垃圾過濾、去重、相似性聚類、情感分析、提取摘要、自動聚類等,構建藥品安全網絡輿情大數據的實時索引,為輿情預警、決策分析、處置提供支持。
1)網絡爬蟲技術
網絡爬蟲技術是根據設置的爬取規則和算法從網絡上獲取數據,爬取數據過程中采取一定的爬行策略(如聚焦網絡爬蟲的基于內容、鏈接結構評價和增強學習等策略,增量爬蟲的統一更新、個體更新和分類更新策略等),從采集對象的服務器上爬取數據后進行預處理和建立索引保存到數據庫[2,10]。
2)中文分詞技術
根據目標群體的語言使用情況,利用中文分詞方法(如:基于字符串匹配、基于統計和基于深度學習的分詞方法等)將句子序列切分成單獨的詞列表,達到計算機能夠識別句子意義的程度,并作為進一步分析的基礎數據,通過自然語言進行分割處理,使用基于規則的實體識別方法、基于統計學習的實體識別方法或基于深度學習的實體識別方法指從句子中識別出實體項等,提高搜索與分析效率[7]。
3)文本分類技術
文本分類首先對文本進行初步過濾,主要有語種的判別、借助詞典過濾掉敏感內容以及文本長度限制等;在滿足初篩條件后,對待分類文本進行自然語言處理、分詞、去除標點符號和停用詞后,按照分類模型的設定對文本內容進行截斷并提取文本特征;然后調用預先訓練好的分類模型,依據文本特征進行分類判別并輸出結果[11-13]。
4)情感分析技術
情感分析主要有基于情感詞典和基于深度學習兩類方法。基于情感詞典的方法先對句子進行分詞和停用詞等預處理,再結合情感詞典對句子中的情感詞進行情感正負面傾向計算;基于深度學習的方法先對語句進行分詞、停用詞等進行預處理、詞向量編碼等,用智能算法提取特征和進行分析得到情感類別[14-15]。
5)輿情可視化技術
輿情可視化技術是輿情信息按照一定的屬性變量數字化后的視覺表現形式,輿情數據通過圖形、圖表、導圖等數據圖表和事件相關數據圖表來解釋輿情信息,并直觀展示給用戶[16-17]。輿情可視化可提高用戶獲得輿情信息的效率,便于進行輿情分析研斷。
3 藥品安全網絡輿情監測系統設計實現
基于上述需求,系統采用爬蟲技術收集設置的藥品安全相關關鍵詞的各種網頁、論壇、微博、微信、App等內容,對抓取后的數據進行分析提取,形成結構化等數據,利用輿情分析的分詞、文本提取和情感分析等技術實現對藥品安全網絡輿情事件的實時預警和決策。實現藥品安全網絡輿情的“采集、分析、監測、預警、管理” 的一體化[18-22]。主要分為數據的采集與存儲、數據的處理與分析和輿情的管理和應用三部分,具體藥品安全網絡輿情監測系統架構如圖2所示。
1)數據采集與存儲
輿情監測注重時效性,通過網絡爬蟲技術對新聞網站、論壇、App、微博、微信等媒體平臺內容進行實時抓取,將抓取的信息通過用自然語言處理算法對數據進行處理,按規則提取藥品安全輿情相關信息,預處理后分類存儲。其中結構化數據直接存儲在關系數據庫中,可直接在系統中調用,非結構化數據(如文本文件、圖片等)將建立索引并存入相應的數據庫中[22]。系統提供輿情采集調度功能,對數據采集狀態進行自動監測,實現24小時不間斷無人值守信息采集。支持對監測對象的設置、采集的可視化、采集的任務設定、采集的基本屬性、爬蟲的爬取規則、信息抽取規則及其存儲與索引的配置功能[23]。
2)數據處理與分析
數據采集后通過分詞技術,自然語言處理后進行數據可視化處理,識別出信息的正負面,通過標注數據建立數據模型,實現在線文本聚類、情感分析、文本分類、文本標簽、文本相似度以及關系抽取等在線、離線計算,實現內容的智能搜索、熱點話題的聚類、相關內容的推薦、特定事件的輿情監測、自動預警及其傳播路徑分析等交互可視化服務。能夠與信息源輿情屬性進行相關、關注、負面、過濾、排除等輿情信息進行多維度分析研判[22]。系統提供信息自動抽取,熱點自動生成、輿情熱度計算等功能,提供大數據挖掘、多維度過濾、知識詞典加載、結構化與非結構化數據融合等輿情規則的設置。
3)輿情管理與應用
通過對輿情信息的采集和分析,實現輿情信息的管理與應用,提供依據藥品安全行業關鍵詞,按文章屬性、情感傾向、傳播熱度、發布載體、主題內容等進行輿情信息分類,通過按載體、時間、來源、特征篩選和可視化圖表分析等監測功能對事件監測結果進行實時跟蹤分析與預警。提供郵件、短信、微信、App、PC彈窗等5種輿情預警方式。對于重大活動或突發事件,系統能夠對論壇、博客、微博的發帖、跟帖情況等進行分析,并自動搜尋定位用戶所設定專題的相關信息,進行多角度的統計分析(如:統計其新聞報道數、主帖數、回帖數和博客、微博報道數和輿情發展趨勢評估等)[24-25]。提供支持事件走勢、網站統計、數據類型、關鍵詞、傳播路徑、相關詞、網民觀點、輿情總結等多維度的分析報告,為輿情熱點發現、處置提供便利化方案。
4 總結
本文介紹了在大數據時代背景下針對藥品安全網絡輿情監測現狀,梳理分析了藥品安全網絡輿情監測系統需求,根據需求和網絡輿情監測的特點,提出了藥品安全網絡輿情監測系統的軟件設計框架,介紹了實現該系統所需的主要輿情監測處理技術。該系統設計合理融合了大數據處理與自然語言處理技術,同時提出了用傳統統計分析和深度學習方法來解決輿情分析中“文本分類和情感分析”等關鍵技術問題。最后,從用戶交互的層面給出了藥品安全網絡輿情監測系統的可視化方案,為藥品安全行業網絡輿情監測提供了一種實現途徑。
參考文獻:
[1] 阮夢黎.食品藥品安全事件網絡輿情傳播控制模型研究[J].計算機與數字工程,2019(9):2196-2200.
[2] 張文學,王瑩,徐靜.基于Hadoop的藥品安全輿情的話題跟蹤模型與算法[J].計算機科學與應用,2019,9(11):2045-2051.
[3] 馬麗,張君.地方政府網絡輿情監測系統的研究與設計[J].通信技術,2017,50(11):2600-2603.
[4] 潘琪,王廣平.我國藥品安全網絡輿情現狀及應對措施[J].醫藥導報,2015(4):562-565.
[5] 姜肇財,孫寧,宋黎.基于產品安全事件的網絡輿情監測與預警方法研究[J].標準科學,2020(7):44-49.
[6] 由川雁.機制建設在輿情監測研判中的應用[J].中小企業管理與科技,2020(17):136-137.
[7] 李夢月,李建忠,劉奕然, 等.汽車網絡輿情監測系統的設計與實現[J].產業與科技論壇,2020,19(11):41-42.
[8] 洪小娟,宗江燕,于建坤, 等.網絡輿情監測系統的分析與設計[J].軟件工程,2019,22(8):37-39,13.
[9] 李雙,張才明.大數據時代的職工輿情監測分析 ——以網絡大數據監測分析系統的構建與應用為中心[J].新視野,2020(3):94-100.
[10] 管小衛.網絡爬蟲探討及應用[J].科技創新與應用,2020(27):178-179.
[11] 杜錦繡,蔡靜.網絡輿情監測的數據采集與文本分類技術分析[J].無線互聯科技,2019,16(15):123-124.
[12] 王健.文本分類的關鍵技術[J].科教導刊-電子版(中旬),2019(5):288.
[13] 周晶,沈雋城.基于大數據的機器學習技術對文本分類的研究[J].信息通信,2020(6):5-6.
[14] 孟偉,張黎.基于人工智能技術對網絡輿情內容中語義情感分析的策略研究[J].科技傳播,2020,12(14):165-167.
[15] 章蓬偉,賈鈺峰,劉強, 等.基于數據挖掘技術的文本情感分析技術研究[J].信息通信,2020(1):77-78.
[16] 張偉.可視化分析技術在網絡輿情研究中的應用[J].現代情報,2016,36(11):82-86.
[17] 王威.可視化技術與"兩微一端"輿情傳播機制[J].理論導報,2017(7):20-21.
[18] 王微,孟麗娟,王新愛.自媒體時代高校網絡輿情監測機制研究[J].高教學刊,2020(1):77-79.
[19] 何炎祥,喻濤,陳彥釗, 等.物聯網環境中數據存儲與查詢機制研究[J].計算機科學,2015,42(3):185-190.
[20] 鄭風玉.基于智能算法的食品安全網絡輿情監測方法研究[J].新型工業化,2020,10(4):112-119.
[21] 陳剛,李弼程,郭志剛, 等.網絡輿情監測預警系統模型與關鍵技術[J].信息工程大學學報,2019,20(1):116-121.
[22] 肖卓明,吳嫻.輿情監測分析系統關鍵技術實現方案[J].科技與創新,2018(2):16-18.
[23] 楊森,王黎,李超.基于主動監測引擎和大數據的網絡輿情烈度演化分析系統[J].價值工程,2020,39(17):201-203.
[24] 曾宇.基于大數據的網絡輿情實時監測系統的構建[J].漳州職業技術學院學報,2020,22(2):92-99.
[25] 肖雪露,李洋,張同.網絡輿情監測與預警系統的研究與設計[J].數字化用戶,2019,25(14):267.
【通聯編輯:代影】