黑龍 孫育華 黃成哲 呂松濤 趙峰 呂瑞 高佳明 趙金梅



摘要:隨著移動互聯網的蓬勃發展,以微博等為代表的網絡媒體已經成為人們生活中不可缺少的重要組成部分。在災難發生時,微博中包含了大量有關災難的實時信息。對于救災工作而言,信息的時效性最為重要,如何快速地掌握災難信息以及物資的供給信息是一個難題。微博為災難時供需分析提供了重要的參考價值。本文以此為出發點,應用人工智能技術,識別災難發生時與供需相關的微博,并對供需關系進行了匹配。
Abstract: With the rapid development of mobile Internet, the Internet media represented by microblog has become an indispensable part of people's life. When disaster happens, microblog contains a lot of real-time information about disaster. For disaster relief work, the timeliness of information is the most important, how to quickly grasp disaster information and material supply information is a problem. Microblog provides an important reference value for the analysis of supply and demand in disaster. Based on this, this paper uses artificial intelligence technology to identify microblogs related to supply and demand when disasters happen, and matches the supply and demand relationship.
關鍵詞:微博;災難信息;需求微博;供給微博;供需匹配
Key words: microblog;disaster information;demand microblog;supply microblog;supply and demand matching
中圖分類號:TP37? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2020)02-0224-02
1? 概述
Twitter等微博網站已經成為災害事件信息的重要來源。然而,由于微博內容簡短,包含不同的語言、表情符號和干擾信息等,處理識別特定的微博和匹配相關微博具有挑戰性。并且在社交媒體的影響力下,微博等提供微博服務的網站也越來越受歡迎,除充當對外的窗口之外,這些也是溝通和收集信息的重要來源之一,尤其是在緊急或災難期間顯得尤為突出。
面向微博的災難供需分析研究關鍵在于供需微博的識別和需求微博和供給微博的匹配,本文以Twitter為例,應用人工智能技術識別災難發生時與供需相關的微博,并對供需關系進行了匹配。
2? 災難供需微博識別模型
2.1 方法選擇
更確切的說,災難供需微博識別可以被看作是兩類分類。如果我們將識別供需微博的任務形式化為分類問題,我們的目標集中在回答以下兩個問題:
①哪些基于分類的方法可以有效地應用于識別微博。
②哪些特征應該用于分類器。
對于分類任務D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{0,1},其中xi是特征向量,yi是特征標簽。使用AdaBoost、SVM-L和SVM-NL分類器來分別預測需求信息和供給信息。
對于供需微博識別中的問題①,我們使用SVM-L分類模型。這個模型的原理是利用超平面對數據進行分類,從正樣本點到超平面作為排序結果。
對于供需微博識別中的問題②,我們使用AdaBoost,這是一個可以增強弱學習者學習能力的算法。分類器的工作原理是從基學習者的初始訓練集開始,根據基學習者的表現對訓練樣本分布情況進行新的調整。在以往案例中,錯誤的學習者的訓練樣本在后續的過程中受到更多的關注,這樣訓練下一個學習者時就可根據調整后的樣本分布來訓練,并以正概率大于0.5的概率值作為排序結果。
在供需微博識別存在殘缺的問題,使用SVM-NL。分類原則是利用內積函數而不是利用高緯度空間來對正負離的非線性映射進行分離。在測試過程中,分類器為正面情況預測概率,并使用概率值作為排序結果。
2.2 功能設計
基于內容的微博過濾方法,影響微博需求微博或可用性微博因素,是微博的特征。對于基于內容的過濾方法,單詞是自然特征。選擇1110個災難相關詞作為微博災難特征詞。特征詞可以濾除噪聲詞,提高分類器的分類效率。對于特征提取做出了模型分析。
一般情況下,文本模型維數都比較大,如果不進行一定的降維操作,那么對于下一步的分析無疑是艱難的。所以要進行一定的降維操作,所以文本特征提取也至關重要。目前主要的特征提取方法有:特征詞的文檔頻率法DF、信息增益法IG、互信息法MI、卡方擬合檢驗法。
文檔頻率法DF(Document Frequency),DF是最簡單的一種特征評估函數,DF不需要依賴類信息,是一種無監督的特征選擇,在文本預處理過程中,常被用來刪除出現次數過少或者出現次數過多的單詞以提高后續處理的效率。
一個特征項的信息增益就是在不考慮任何特征項的文檔集的熵和考慮該特征項后的文檔集的熵的差值,即公式(1):
其中H(C)表示分類系統的熵,H(C|T)表特征值T被固定時的條件熵。所以信息增益公式如(2)所示:
不同的文本采取不同的特征提取方法得到的特征詞匯可能會不一樣,所以選取特征提取的方法對后續的研究都有影響。表1顯示十八個具有說服力的特征詞:
通過分析選定的特征關鍵詞,我們發現medical、doctors、blood、hospital、ambulance等用于醫療信息。relife、electricity、food和medical都是人們生活的保障項目。提取的特征詞可以代表災難中的微博信息。
2.3 災難供需微博匹配模型
災難供需微博匹配要求災難供需微博識別中的需求微博匹配由被災難供需微博識別所搜索。其中需求微博作為查詢設置Q,可用性微博可以用作集合文件D。我們使用統計語言模型來解決災難供需微博匹配的問題。根據語言的用法,語言模型用于評估什么樣的單詞序列更為典型,如果文檔語言模型給出的查詢概率很高,那么根據文檔語言模型,這意味著查詢詞經常在文檔中顯示。
2.3.1 相關性
相關性計算如圖1所示。使用Need-Twitter作為查詢集合Q,A作為文檔集合D,然后進行相關性計算以獲得相關性R(Q,D)。
2.3.2 語言模型
根據需求微博和可用性微博的描述,我們將問題簡化如下。將檢索問題表示為IR=(Q,D,F,R(qi,di)),其中Q表示為需求微博,D表示為可用性微博,F為滿足相關排序規則的模型,R(qi,di)用于查詢qi和文件di的相關性。其中qi和di預測了災難供需微博識別中的需求微博和可用性微博。開放源代碼檢索工具indri用于災難供需微博匹配,在系統中我們使用基于Dirichlet的語言模型平滑和選擇KL(Kullback-Leibler Divergence)距離作為排序模型。基于Dirichlet平滑的語言模型和KL距離排序模型定義公式如下:
其中Q是查詢模型,D是文檔模型,將計算相應Q和D的估計值,w是詞匯表中所有單詞的集合。
其中Pml(w)是語言模型,而μ是平滑參數。
3? 匹配模型
匹配流程圖見圖2所示。該功能是由網頁獲取用戶點擊需求微博,系統根據所選的需求微博,在存儲所有災難供給微博的數據庫中查找能夠匹配需求微博的供給微博,并選擇匹配度大于0.01否則重新匹配下一條供給微博,最終在所有滿足匹配度中的微博中選取Top5的供給微博。其效果將是一條需求微博在頁面顯示時為用戶提供5條供參考的供給微博。
參考文獻:
[1]Youngjoong Ko,Jinwoo Park,Jungyun Seo. Improving text categorization using the importance of sentences[J]. Information Processing and Management,2004,40(1).
[2]鄭健珍.定題爬蟲搜索策略研究[D].廈門大學,2007.
[3]呂愛平,卞兆祥,陳可冀.Bridging the Traditional Chinese Medicine Pattern Classification and Biomedical Disease Diagnosis with Systems Biology[J]. Chinese Journal of Integrative Medicine,2012,18(12):883-890.
[4]賽金辰.基于Spark的SVM算法優化及其應用[D].北京郵電大學,2017.
[5]Saber Moazami,Roohollah Noori,Bahman Jabbarian Amiri,Bijan Yeganeh,Sadegh Partani,Salman Safavi. Reliable prediction of carbon monoxide using developed support vector machine[J]. Atmospheric Pollution Research,2016,7(3).
[6]Kyungho Lee,Minkee Choi. Hierarchically micro-/mesoporous Pt/KL for alkane aromatization: Synergistic combination of high catalytic activity and suppressed hydrogenolysis[J]. Journal of Catalysis,2016,340.