馬宇舸, 程 華, 寇曉淮, 林家駿
(華東理工大學信息科學與工程學院,上海 200237)
軟信息的概率特征關聯算法
馬宇舸, 程 華, 寇曉淮, 林家駿
(華東理工大學信息科學與工程學院,上海 200237)
基于軟信息的新聞事件態勢估計中,事件當前態勢的準確估計需融合事件的長期態勢。以長期詞典作為事件長期態勢的特征表達,提出了軟信息的長期特征與當前特征關聯融合的概率特征關聯算法。由事件的長期信息抽取得到長期詞典,基于特征詞相似度將長期特征與當前特征進行概率關聯,得到事件的全特征表達,并提出了特征的長期關聯度指標與類別關聯度指標評估概率特征關聯算法的有效性。實驗結果表明,概率特征關聯算法能夠有效地融合長期態勢,提升事件當前態勢的估計精度。
軟信息; 長期詞典; 概率特征關聯; 態勢估計
在線新聞信息通過公共事件的直觀報道,直接反映事件的當前態勢,例如“911”事件中,美國新聞媒體的報道反映了白宮對該事件的判斷,對在線新聞報道的分析可以為決策提供可靠的事件態勢估計。這類在線新聞信息來自人類觀察,相對于傳統的雷達測量信息,難以直接測量,計算機不能直接理解,稱為軟信息(Soft Information)[1-2]。對這類非結構化或半結構化的信息處理與融合是信息融合領域新的研究熱點和挑戰。相關研究有Pang[3]的文檔級情感極性分析、Agarwal[4]的微博級情感極性分析等,通過不同細粒度的情感分析進行事件的態勢估計。
傳統的目標跟蹤算法、PDA等數據關聯將傳感器獲得的觀測數據與已知目標航跡相關聯并最后確定正確的觀測配對。軟信息融合中也需要通過數據關聯實現多源融合估計。Llinas等[5]提出了基于圖形法的數據關聯算法;Hannigan等[6]以屬性圖的方式對軟信息進行數據關聯;Little等[7]提出了基于本體模型的增強型圖匹配算法;Gross等[8]提出了評價軟信息關聯算法的指標。上述關聯算法通常只對軟信息中的事件要素,如人物、時間、目的地等設置為圖節點的要素進行關聯,未考慮多個軟信息文本中語義信息的關聯。
本文基于軟信息特征詞項研究多文本語義層面的數據關聯,通過軟信息的特征詞項相似性完成事件長期特征(長期詞典中抽取)與當前報道特征的概率關聯。實驗表明,概率特征關聯算法能有效地關聯長期特征與當前特征,使融合后的特征能更準確地表達軟信息的語義,從而提升軟傳感器模型[9-10]對事件態勢估計的融合效果。
1.1 軟信息的結構化表示
軟信息(文本)的結構化采用向量空間模型VSM[11],向量空間模型是目前最基本、最有效的文本表示模型,在特征向量空間將文本表示為特征詞項的加權向量,即通過文本中n個特征詞項CFt={cwt,1,cwt,2,cwt,3,…,cwt,n}將文本表示為特征詞項的權重向量CVt={cvt,1,cvt,2,cvt,3,…,cvt,n},其中權重計算采用TF-IDF方法[11]。TF-IDF算法采用統計方法計算和表達某個詞或短語在文本中的重要程度,TF-IDF由TF(TermFrequency,詞頻)與IDF(InverseDocumentFrequency,逆向文檔頻率)兩部分組成,若某個詞或短語在一篇文本中出現頻率高,即TF值大,且在其他文本中很少出現,即IDF小,則認為此詞或者短語在文本中是較為重要特征詞項,TF-IDF權重的計算方式為
cvt,i=tfilg(M/ni+0.01)
(1)
其中:tfi為特征詞項cwt,i在軟信息文本中出現次數;M表示數據集中軟信息文本的總數;ni表示含有該特征詞項的軟信息文本數。
由此,通過n個特征詞項,將一個包含M篇軟信息的數據集表示成了一個n×M特征矩陣。
1.2 軟信息的長期詞典抽取
Endsley態勢估計功能模型[12]認為態勢估計為高層次的數據融合,先驗知識為融合中的原有態勢估計的修正提供了可靠的依據。對于某個新聞事件,定義從發生時刻到當前時間累積的所有新聞形式為該事件的長期信息,是其態勢評估的來源,本文采用其中的文本類新聞報道作為軟信息關聯融合的長期信息?;谲浶畔⑽谋镜慕Y構化表示,本文提出長期詞典法獲取事件長期信息中的長期態勢,即在VSM空間下抽取長期信息的文本特征權重向量(特征詞項權重向量),并取主要特征詞項權重向量構造軟信息的長期詞典,作為用于關聯融合的事件長期態勢向量。
特征詞項在長期詞典中的權重表達了該特征詞項在事件長期態勢中的重要性及相關性。設t時刻長期詞典LDt={lwt,1,lwt,2,lwt,3,…,lwt,q},其對應的TF-IDF權重向量表示為LVt={lvt,1,lvt,2,lvt,3,…,lvt,q},其中特征詞項lwt,i對應的權重為lvt,i。
根據統計學習方法的理論,文本內容與其中所包含的詞、短語等特征詞項有著必然的聯系,同一主題的文本之間總存在多個共同的特征詞項,而不同主題的文本所包含的特征詞項之間差異較大。將長期信息當作特征詞項集合,特征詞項的權值反映了其反映軟信息主題的程度,因此長期詞典的特征詞項向量對事件長期發展態勢進行了有效表示。
事件當前特征定義為從即時獲得的事件文本中采取軟信息結構化得到的特征詞項,即t時刻當前特征集合CFt={cwt,1,cwt,2,cwt,3,…,cwt,n},對應的TF-IDF權重向量CVt={cvt,1,cvt,2,cvt,3,…,cvt,n};長期詞典LDt={lwt,1,lwt,2,lwt,3,…,lwt,q},對應的TF-IDF權重向量LVt={lvt,1,lvt,2,lvt,3,…,lvt,q}。
基于事件長期特征和當前特征的表達形式的一致性,本文提出線性加權特征關聯算法,即采用線性加權方法實現當前特征重新組合與調整,當前特征權重按比例融合長期特征權重,反映當前軟信息受到事件長期態勢的影響。
定義當前特征集合CFt與長期詞典LDt的交集為長期特征集合conFt,即
conFt=CFt∩LDt
(2)
權重向量conCVt由CFt中對應長期特征詞項的權重構成,conLVt由LDt中對應長期特征詞項的權重構成。
當前特征集合CFt中剩下的特征詞項構成新特征集合newFt,即
newFt=CFt-CFt∩LDt
(3)
newFt所對應的權重向量newVt由CVt中對應新特征詞項的權重構成。
長期特征集合conFt中特征詞項的個數反映了當前軟信息文本與長期態勢的符合程度,個數越多則當前態勢的發展越符合長期態勢,長期特征權重以較大比例融合到當前特征權重中;反之,長期特征權重以較小比例融合到當前特征權重中。因此,基于長期特征集合conFt的權重向量conVt的調整方式為
(4)
最后將newVt與conVt重新拼接得到CFt對應的新的權重向量Vt,將此權重向量用于軟傳感器模型[9-10],得到當前事件的態勢融合估計。
3.1 概 述
線性加權特征關聯算法只將長期詞典與當前特征中的相同特征詞項進行關聯,忽略了長期詞典中當前特征同義詞的影響。本文提出以特征詞項的相似度為基礎,采取概率特征關聯實現長期特征與當前特征的融合。
3.2 關聯門的設置
關聯門利用詞的相似性算法過濾掉門限外與當前特征無關的特征詞項,實現長期詞典的門限過濾,限制長期詞典中無關長期特征對當前特征的影響。
若t時刻當前特征集合CFt與長期詞典LDt重合特征較多,事件的當前態勢特征在較大程度上符合長期態勢,長期特征對當前特征的實際狀態產生影響大,應當設置較大的關聯門;反之,當前特征集合CFt與長期詞典LDt重合特征較少,出現較多新特征,當前軟信息文本反映了新事件動態,長期態勢不能有效地反映當前事件態勢的發展,此時需設置較小的關聯門,減小長期詞典對當前特征權值的影響。當t時刻當前特征集合為CFt={cwt,1,cwt,2,cwt,3,…,cwt,n}時,針對當前特征詞項cwt,i,設置以cwt,i為中心的圓型關聯門,關聯門半徑Rt為
(5)

(6)
其對應的權重向量LCVt,i由CFt中對應長期特征詞項的權重構成。
3.3 基于word2vec的詞向量訓練
采用word2vec訓練得到的詞向量計算特征詞項之間的相似性。word2vec的語言模型采用沒有大量的矩陣乘法運算的Skip-gram模型[13],Skip-gram模型利用當前詞的詞向量預測指定窗口上下文的詞向量。對于訓練語料V,Skip-gram模型的目標函數為[13]

(7)

(8)
其中:參數c決定上下文窗口大小;Context(w)由w前后各c個詞構成。
word2vec網絡的輸出層采用基于二叉哈夫曼樹表示的層次softmax算法,將時間復雜度降到O(log2(|V|))。層次softmax算法定義的p(u|w)如下[13]:
(9)
其中:
(10)
訓練過程采用隨機梯度下降方法,得到詞的詞向量表示形式vec(cwx,y)。
3.4 概率特征關聯

(11)
關聯門內的每個長期特征都能對當前特征產生影響,但每個長期特征產生影響的程度不同,因此,基于關聯門內的長期特征,通過關聯概率計算得到當前特征的最優特征權值為
(12)
最后,得到CFt對應的最優當前特征權值向量Vt,將此權重向量用于軟傳感器模型,得到當前事件的態勢融合估計。
概率關聯算法流程如下:
輸入: 當前特征CFt,長期詞典LDt
計算關聯門半徑Rt
Foreachfeature1inCFt
Foreachfeature2inLDt
similar(feature1,feature2)
ifsimilar(feature1,feature2)≥1-Rt
更新落入關聯門內的特征LCFt,i.add(feature2)
計算關聯門內所有特征的關聯概率
計算當前特征的最優特征權值
輸出:最優當前特征權值向量
本文提出了以下兩個關聯指標,并對線性加權特征關聯算法與概率特征關聯算法的有效性進行評估。
(1) 長期關聯度。將當前特征集合CFt中被調節的特征詞項個數與CFt所有特征詞項個數之比稱為長期關聯度DegreeL,C,t,以此來衡量關聯算法中長期態勢與當前特征的關聯程度,計算公式為
(13)
式中,LCFt,i為特征詞項cwt,i關聯門內的特征集合。
(2) 類別關聯度。定義類別關聯度來衡量關聯算法對特征詞項類別的關聯效果。將具有情感極性的特征詞項分類為緊張類與緩和類,當前特征集合與長期詞典中分別用CFt,N、CFt,P與LDt,N、LDt,P表示;cwt,i關聯門內的特征集合為LCFt,i也可分為兩類LCFt,i,N、LCFt,i,P。將LDt,N中被當前特征集合CFt關聯到的特征詞項個數與LDt,N的特征詞項總數之比稱為趨勢緊張類關聯度,即
(14)
同理可以定義趨勢緩和類關聯度:
(15)
5.1 概 述
本文將描述事件發展的開源新聞文本信息作為軟信息,為了驗證概率特征關聯算法的有效性,以釣魚島事件為例,根據報道時間先后從新浪網、鳳凰網等新聞網站抓取了從2012年7月到2012年8月這62天664條描述釣魚島事件的新聞數據,構成實驗數據集。
5.2 關聯算法評估
采用長期關聯度指標與類別關聯度關聯指標對線性加權特征關聯與概率特征關聯算法的有效性進行評估。8月1日至16日長期關聯度對比結果如圖1所示,其中8月6日到8月15日發生了“香港部分人員組織強登釣魚島”、“日本購買釣魚島”等事件。由圖1可知:
(1) 在8月6日釣魚島事件有新動態時,兩個算法的長期關聯度均下降,當前特征引入新特征詞項,PFA算法關聯窗變小,用于特征關聯的當前特征詞項也減少,但LFA算法受長期態勢影響的詞更少。
(2) 對于特定的特征詞項,LFA算法只考慮了長期詞典中的同一特征詞項對當前特征項的影響,忽略了長期詞典中該特征詞項的同義詞影響,而PFA算法通過關聯門內界定了所有可能的長期特征,由圖1可知該類同義詞對態勢估計產生了較大的影響。
8月1日至16日趨勢緊張類關聯度對比、趨勢緩和類關聯度對比如圖2、圖3所示。由圖2、圖3可知:在事件態勢緊張及緩和的分類下,兩個算法都能夠關聯到長期詞典中對應類特征集合。PFA算法在8月6日事件態勢緊張時趨勢緊張類的關聯度上升,趨勢緩和類的關聯度下降,原因是當前特征中趨勢緊張類的特征詞項比例增高而趨勢緩和類的特征詞項相對減少。而LFA算法受長期態勢影響的特征詞項太少,算法也關聯部分特征詞,但沒有PFA算法關聯的效果明顯。

圖1 線性加權特征關聯算法與概率特征關聯算法長期關聯度對比

圖2 線性加權特征關聯算法與概率特征關聯算法趨勢緊張類關聯度對比

圖3 線性加權特征關聯算法與概率特征關聯算法趨勢緩和類關聯度對比
5.3 軟信息分類實驗結果
采用軟傳感器模型對釣魚島事件的軟信息進行態勢估計,其中重要步驟為軟信息的緩和與緊張分類,分類的實驗結果見表1。
從表1可以看出,LFA算法與PFA算法都對軟傳感器的分類結果產生了一定的影響,均提高了各類別上的查全率、查準率及F1測試值,表明這兩個算法有效地提升了文本軟信息的分類效果,從而確保軟信息融合精度的提高。實驗結果還表明,PFA算法對分類效果提升更高,即通過概率特征關聯算法能更好地與事件長期特征相關聯。
5.4 態勢估計結果及分析
采用軟傳感器模型對釣魚島事件進行態勢估計,其中分別采用LFA與PFA算法關聯的結果進行態勢的融合估計,8月1日至16日融合估計結果如圖4所示。

表1 情報文本分類實驗結果
8月6日至14日期間,發生了“香港部分人員組織強登釣魚島”、“日本購買釣魚島”等事件,局勢趨于緊張。此前(8月1日至5日),未發生特別事件,事件態勢處于緩和狀態,而在8月6日態勢直接出現拐點,由圖4可以識別出事件的轉折點。
由圖4可知,8月6日PFA算法得到的態勢估計值為0.59,遠小于LFA算法得到的值0.71;8月7日PFA算法的態勢估計值為0.67,小于LFA算法的值0.72。其中,PFA算法將長期態勢特征與當前特征進行了更大范圍的關聯,對當前特征權重有效地調節,長期態勢的引入使圖4中態勢曲線變化更平緩。顯然,此態勢曲線更符合整個釣魚島態勢發展狀態。

圖4 8月1日至16日的態勢融合估計結果
本文根據事件的長期信息抽取得到表達其特征的長期詞典,提出軟信息的概率特征關聯算法將長期特征與當前軟信息特征進行數據關聯,并通過軟傳感器模型對實驗和實際案例進行態勢估計,驗證了概率特征關聯算法能有效地將長期態勢引入軟信息的融合估計中,為決策提供可靠的態勢估計。隨著事件的發展,描述事件的軟信息逐漸累積,怎樣挖掘更深層次的歷史信息指導事件當前的態勢估計將成為下一步研究重點。
[1]KHALEGHI B,KHAMIS A,KARRAY F O,etal.Multisensor data fusion:A review of the state-of-the-art[J].Information Fusion,2013,14(1):28-44.
[2]LLINAS J.New challenges for defining information fusion requirements[C]//International Workshop on Information Fusion & Geographical Information Systems-IF&GIS’07.Petersburg,Russia:Springer,2007:1-17.
[3]PANG B,LEE L.Opinionmining and sentiment analysis[J].Foundations & Trends?in Information Retrieval,2008,2(1/2):1-135.
[4]AGARWAL A,XIE B,VOVSHA I,etal.Sentiment analysis of Twitter data[C]//The Workshop on Languages in Social Media.Stroudsburg,USA:Association for Computational Linguistics,2011:30-38.
[5]BLASCH E,LLINAS J,LAMBERT D,etal.High level information fusion developments,issues,and grand challenges:Fusion 2010 panel discussion[C]//2010 13th Conference on Information Fusion.Edinburgh:IEEE,2010:1-8.
[6]HANNIGAN M,MCMASTER D,LLINAS J,etal.Data association and soft data streams[C]//2011 13th Conference on Information Fusion.Edinburgh:IEEE,2011:1-8.
[7]LITTLE E,SAMBHOOS K,LLINAS J.Enhancing graph matching techniques with ontologies[C]//International Conference on Information Fusion.Cologne:IEEE,2008:1-8.
[8]GROSS G,DATE K,SCHLEGEL D R,etal.Systemic test and evaluation of a hard+soft information fusion framework:Challenges and current approaches[C]//2014 17th International Conference on Information Fusion (FUSION).Cologne:IEEE,2014:1-8.
[9]顧奕哲.基于VSM模型的文檔表示和貝葉斯網絡的軟傳感器研究[D].上海:華東理工大學,2014.
[10]顧奕哲,林家駿.基于軟信息的結構化轉換[J].華東理工大學學報(自然科學版),2014,40(5):631-638.
[11]WU H C,LUK R W P,WONG K F,etal.Interpreting TF-IDF term weights as making relevance decisions[J].ACM Transactions on Information Systems,2008,26(3):55-59.
[12]ENDSLEY M R.Toward a theory of situation awareness in dynamic systems[J].Human Factors the Journal of the Human Factors & Ergonomics Society,1995,37(1):32-64.
[13]XU R,CHEN T,XIA Y,etal.Word embedding composition for data imbalances in sentiment and emotion classification[J].Cognitive Computation,2015,7(2):226-240.
Probabilistic Feature Association Algorithm of Soft Information
MA Yu-ge, CHENG Hua, KOU Xiao-huai, LIN Jia-jun
(School of Information Science and Engineering,East China University of Science and Technology,Shinghai 200237,China)
The situation assessment based on news events should consider the long-term trend of the events.In this paper,the long-term dictionary is introduced to characterize the long-term trend,and then,a probabilistic feature association algorithm is proposed for long-term features and current features.In order to obtain the full feature of the news event,the proposed algorithm firstly extracts long-term dictionary based on long-term text information collection of a news event.Besides,the probabilistic feature association algorithm,which is based on the similar degree of the keywords,is utilized to fuse the long-term feature into the current feature.In order to evaluate the association algorithm performance,both long-term association degree and class association degree are proposed.The experimental results show that the probabilistic feature association algorithm can introduce the long-term trend and improve the accuracy of situation assessment.
soft information; long-term dictionary; probabilistic features association; situation assessment
1006-3080(2017)01-0084-06
10.14135/j.cnki.1006-3080.2017.01.014
2016-04-11
馬宇舸(1991-),男,浙江人,碩士生,主要研究方向為信息融合。E-mail:mayuge0707@hotmail.com
程 華,E-mail:hcheng@ecust.edu.cn
TP391
A