[摘 要]目前的TBT預警研究,使用經濟理論和數學模型分析產業數據進行預警,數據收集困難,時效性差。針對以上不足,本文首次將改進的話題檢測技術應用于TBT預警,設計了基于改進的話題檢測技術的TBT預警系統模型,將改進的話題檢測技術成功應用于TBT預警研究。實驗結果證明,改進的話題檢測技術顯著提高了話題檢測的精確度。
[關鍵詞]數據挖掘;話題檢測;TBT預警;文本挖掘
doi:10.3969/j.issn.1673-0194.2009.15.001
[中圖分類號]TP391.1[文獻標識碼]A[文章編號]1673-0194(2009)15-0004-03
1 引 言
1.1 話題檢測技術原理及應用現狀
話題檢測是通過計算機技術,自動將新聞數據流中的大量報道歸入不同的話題,從而發現知識的過程[1]。
圖1 話題檢測的基本思想
話題檢測是話題檢測與跟蹤(Topic Detection and Tracking,TDT)評測中的一項評測任務,在TDT評測研究的過程中,對話題檢測的建模和檢測算法進行了廣泛的研究。如文獻[2]基于Chow膨脹理論和依存剖析樹提出了依存結構語言模型,提高了話題檢測的建模準確度。文獻[3]提出了變量空間隱馬爾可夫模型,實驗證明,此模型降低了算法時間復雜度,且提高了話題檢測的精度。目前關于話題檢測的研究多集中在改進建模方法或算法,應用于特定領域的研究數量較少。
1.2 技術性貿易壁壘預警研究現狀
技術性貿易壁壘(Technical Barriers to Trade,TBT)預警對我國出口企業生存發展發揮著重要的作用,在當前經濟危機背景下,其作用更為重要。在目前的TBT預警系統研究中,多應用經濟理論和數學模型,對一個國家的宏觀經濟形勢、產業發展趨勢做TBT預警分析。在實際應用過程中有以下兩個不足:一是收集數據困難;二是模型復雜,時效性差。
2 基于話題檢測技術的TBT預警模型
2.1 預警系統的原理及模型
文獻[4]給出了TBT的實施原因:第一,為了保護環境和消費者健康,提高生活質量;第二,為了保護本國市場和企業等相關利益集團的利益。因此,當進口方環境受到威脅,消費者健康受到侵害,或者相關集團利益受到沖擊的時候,實施TBT的可能性就會很大。而在這個過程中,
圖2 基于話題檢測技術的TBT預警模型
新聞媒體會跟蹤報道這些相關事件,擴散事件的影響力,引起相關部門的重視,從而設置技術性貿易壁壘。
因此,通過話題檢測技術,分析相關媒體的報道,能夠做出TBT預警。
系統的模型如圖2所示。
2.2話題與報道建模
本研究采用向量空間模型來表示報道和話題,模型中包含兩個中心向量,分別是內容信息中心向量和產品信息中心向量。假設S是一篇經過預處理的報道或者話題,則S=C+P,C是指內容信息中心向量,P是產品信息中心向量。
內容信息中心向量的建模采用傳統文本挖掘中采用的方法。Cont 1,Cont 2,…,Cont k是從S中抽取的不同內容詞,k是出現在S中的k個不同的詞,那么C可以表示成:C=(Cont 1,wgt 1; Cont 2,wgt 2;…; Cont k,wgt k),wgt i是Cont i在S中的權值,由公式(1)中所表示的TFIDF公式計算得到。
wgti=tfi×logNni+0.01(1)
式中,tf i是Cont i在S中的詞頻,N是所有已經輸入報道的總數,ni是這N個報道中含有Cont i的報道的個數。
產品信息中心向量建模與內容信息中心向量建模方法相同,但其向量的權值wgt由兩部分組成:一部分由TFIDF公式計算得出,另一部分根據產品信息在報道中的位置信息得出。由公式(2)中所表示的公式計算得到。
wgti=tfi×logNni+0.01+Loc(nd)(2)
式中,tfi是Prdi在S中的詞頻,N是所有已經輸入報道的總數,ni是這N個報道中含有Prdi的報道的個數,Loc(nd)表示的是產品信息在報道中出現的位置信息。
2.3產品信息在報道中出現的位置
在一篇報道中,重要的信息往往出現在報道最開始的位置,在后面位置出現的信息則更大可能是在表述其他相關的事件,而不是本篇報道的核心事件[5]。通過如下公式計算產品信息出現的位置信息:
Loc(nd)=1-Pos(nd)|d|(3)
式中,|d|是指一篇報道中所包含的句子的數量,Pos(nd)是包含產品信息的句子在報道中的位置,第一個句子其值為0,第二個句子為1,依次類推。這樣,出現在第一個句子,則Loc(nd)為最大值1,出現在最后一個句子,Loc(nd)為0。
2.4 基于產品信息的聚類算法
考慮到leader-follower聚類更適合動態語言的聚類情況[6],因此,采用leader-follower聚類作為話題檢測系統的聚類算法。
定義該系統中的leader-follower聚類算法如下,其中wi表示第i類的當前聚類中心,η表示學習速度,θ代表閾值。
Begin initialize η,θ
W1←x
do 接收新x
j←ary min ||x-wj||(尋找最近鄰)
if ||x-wj||<θ
then wj←wj+ηx
else 加新的w←x
w←w/||w||(歸一化權值)
until 無其他模式
return w1,w2,…
end
2.5 相似度計算
最終的相似度,由內容相似度Simcontent和產品相似度Simproduct加權求和得出:
Simfinal(t,d)=α×Simcontent+(1-α)×Simproduct(4)
式中,α的值在不同的實驗中有不同的最優值,本研究將通過實驗來確定α在系統中的最優值。內容相似度Simcontent和產品相似度Simproduct采用Cosine相似度度量法來計算,基于TFIDF的話題t和輸入報道dj的相似度計算公式如下:
Sim(dj,t)=dj×q|dj|×|t|=∑ni=1wi,j×wi,q∑ni=1wi,j2×∑ni=1wi,t2(5)
wi,j=tftf+0.5+1.5docLengthavgDocLength×log(N/df)logN
式中,tf:報道中term的出現頻率;
Df:報道中包含此term的數量;
N:收集報道的數量;
docLength:報道中term的長度;
avgDocLength:收集報道的平均長度。
3 實驗方案設計
3.1 實驗流程
本研究中,將沒有加入產品信息的話題檢測系統命名為BaseSystem,將加入了產品信息的話題檢測系統,稱之為PrdSystem。
實驗分兩個階段,第一階段,通過改變公式(4)中α值由0.1到0.9之間變化,測出漏報率和誤報率,分析測定結果并確定使PrdSystem系統最優的α的值;第二階段,通過閾值θ的變化分別測試BaseSystem和PrdSystem,得出錯誤權衡曲線圖,通過錯誤權衡曲線圖分析兩個系統的優越性。
3.2 數據集
從美國的3家主流媒體Washington Post,LosAngeles Times和NewYork Times上選定產業評論專題48個,每個專題選定20篇報道,作為研究的測試數據集。首先將960篇報道混在一起放在時間軸上,通過系統檢測,丟失的話題為漏報,多出來的話題為誤報。
3.3 評價標準
本研究依據TDT評測標準,采用漏報率、誤報率以及歸一化檢測開銷評測系統性能。檢測錯誤代價CDet分別從漏報和誤報兩個角度進行評測,公式如下:
CDet=CMissPMissPtarget+CFAPFAPnon-target(6)
式中,PMiss和PFA分別表示系統的漏報率和誤報率,漏報即為系統未識別出新話題,誤報則是系統將舊話題的后續相關報道誤判為新話題;CMiss和CFA分別代表漏報和誤報的代價系數(CMiss = 1,CFA = 0.1);Ptarget和Pnon-target是先驗目標概率(Ptarget = 0.02,Pnon-target =1-Ptarget)[7]。
4 結果分析
4.1 第一階段:確定最優α值
為了確定最佳的α值,進行α值變量實驗:在測試環境不變的情況下,將α值由0.1梯度增加至0.9,測試PrdSystem的漏報率和誤報率,并計算Norm(CDet)值,測試結果如表1所示。
從表中可以看出,α值由0.1~0.9變化時,Norm(CDet)值都在1左右,說明PrdSystem的檢測取得了很好的效果。同樣可以發現,α值的變化給系統的檢測效果帶來了明顯的影響,當α值取0.6時,系統的Norm(CDet)值最小為0.657 39。因此本實驗得出結論:α為0.6時系統效果最佳。在接下來的PrdSystem系統測試中,取α值為0.6。
4.2 第二階段:繪制錯誤權衡曲線
第二階段的實驗中,分別測試BaseSystem和PrdSystem系統,根據漏報率與誤報率隨著閾值θ的變化趨勢,繪制錯誤權衡曲線,如圖3所示。
圖3 錯誤權衡曲線圖
從圖3中可以看出,相比于BaseSystem,PrdSystem的錯誤權衡曲線更靠近坐標系的左下方,這表明對于同樣的閾值,PrdSystem的誤報率和漏報率都低于BaseSystem,系統性能更優。因此可以得出結論,由于建模過程中產品信息的加入,PrdSystem性能顯著優于BaseSystem,提高了TBT預警的準確度。
5 結 論
本文首次將改進的話題檢測技術應用于TBT預警研究。實驗結果證明,改進的話題檢測技術顯著提高了話題檢測的精確度,為TBT預警領域引入了一個新思路,也是對話題檢測技術應用的擴展。
主要參考文獻
[1] James Allan, Jaime Carbonell, George Doddington, et al. Topic Detection and Tracking: Event-based Information Organization[M]. Norwell, Massachusetts: Kluwer Academic Publishers, 2002: 1-30.
[2] Changki Lee, Gary Geunbae Lee, Myunggil Jang. Dependency Structure Language Model for Topic Detection and Tracking[J]. Informaiton Processing and Management, 2007, 43(5):1249-1259.
[3] Jianping Zeng, Shiyong Zhong. Variable Space Hidden Markov Model for Topic Detection and Analysis[J]. Knowledge-Based Systems, 2007, 20(7):607-613.
[4] 魏建良, 謝陽群. 技術性貿易壁壘及其預警機制研究[J]. 科學管理研究, 2006(1):64-66.
[5] Yun Jin, Sung Hyon Myaeng, Yuchul Jung. Use of Place Information for Improved Event Tracking[J]. Informaiton Processing and Management, 2007, 43(2):365-378.
[6] Richard O Duda, Peter E Hart, David G Stork. Pattern Classification [M].2nd Edition. New York: Wiley-Interscience, 2000: 561-565.
[7] James Allan, Jaime Carbonell, George Doddington, et al. Topic Detection and Tracking Pilot Study Final Report[R]. In Proceeding of the DARPA Broadcast News Transcription and Understanding Workshop, Massachusetts, 1998: 1-24.
Study on Early Warning System for Technical Barriers to Trade
Based onImproved Topic Detectionin
JIANG Guo-rui, LIU Zhong-sheng, HUANG Ti-yun
(School of Management and Economics, Beijing University of Technology, Beijing 100124, P.R.China)
Abstract: The current study on TBT warning used economic theory and mathematical models to make early warning. This technique has two serious disadvantages. First, collecting industrial data is difficult. The second is the poor of timeliness. Early warning system for technical barriers to trade based on topic detection can present information in time rightly. This paper establishes system model.Its proved that the application is successful.
Key words: Data Mining; Topic Detection; Early Warning System for TBT; Text Mining