趙志超劉暢
(1 河北中信聯信息技術有限公司 河北 石家莊 050091)
(2 國網冀北電力有限公司秦皇島供電公司 河北 秦皇島 066000)
互聯網預定制信息的采集和監督研究
趙志超1劉暢2
(1 河北中信聯信息技術有限公司 河北 石家莊 050091)
(2 國網冀北電力有限公司秦皇島供電公司 河北 秦皇島 066000)
針對互聯網海量數據和目標對象的信息獲取和狀態監控需求,采用預定制特征元素集控制信息采集,經過去重、正文抽取、凈化去噪、分詞和過濾后,構建詞匯/文本向量矩陣,采用隱性語義分析、奇異值分解、正則逼近和偽文本壓縮等處理技術,實現了對獲取向量信息的相似計算和排序,得出最佳搜索結果和監測目標的狀態向量,同時降低了相似文本排序的計算量。
信息采集詞匯/文本向量矩陣隱性語義分析
互聯網每天都在產生TB以上規模的數據,人們每天都在追逐著這些人們制造出來的海量“大數據”,知道其中有人們求之難得的,能解決所需問題的信息和知識,卻常常苦于被這個大海淹沒,沒有順手的方法和工具,能快速、準確和高效地從這浩瀚的“數據洋”中挖取人們需要的數據,然后再從中提煉滿足人們需要的信息和知識。雖然,有些著名的搜索引擎可用,但是他們找到的數據常常也是動輒十萬和百萬條,甚至更多,在這些被排序的數據中找到為人們所用的數據,也是費時耗力且低效的。
運用網絡數據挖掘技術、語義分析技術、統計分析和機器學習等方法,對特定需求的目標進行信息挖掘和狀態監控仍具有實用意義,可以廣泛應用于情報研究、科技探索、輿情監督、行業市場跟蹤、用戶研究和競爭對手分析等領域,討論的采集和處理方法的目標對象均以中文和英文信息表述。
人們經常有從互聯網挖掘由多元數據集限定的,而不是僅僅靠一兩個詞或語句用搜索引擎完成的,面向特定主題信
息的搜索采集需求。這些多元數據集從多個方面對人們需要搜尋的主題信息進行了限定,當各元素之間沒有次序關系時,構成特征元素集合;如果各元素之間具有次序關系要求,則構成特征數據向量。經過對互聯網上內容信息的按特征元素集信息的采集提取,可以獲得更準確吻合人們需要主題的信息。這些特征元素集是隨著每次的采集挖掘主題需求不同而改變的,也就是可以靈活調整和定制的。
主題特征元素集的構成,可以是結構化數據,非結構化數據,甚至可以是網站的結構信息。當特征元素集是普通文字、數據或音視頻數據時,人們關心的是網站內容的差異;當特征元素集是網站結構信息時,人們關心的是網站的特定功用,是網站狀態間的差異。
通過對特征元素集的搜索、定位和定期比對,可以實現對重點信息和網站的動態監督。研究準確和高效地從互聯網上找到含有人們需要特征元素集的信息,并且能隨時掌握這些信息的動態變化的應用軟件系統,對于快速準確地情報分析研究、科技發展探索、輿情動態監督、行業市場走向跟蹤、用戶需求趨勢研究和競爭對手動向分析等領域應用具有重要意義。
根據上述需求和目前技術發展,預定制信息挖掘系統的實現需要綜合運用搜索引擎技術、文本處理技術、自然語言處理、智能分析技術和網站結構分析等技術,其系統基本構成如圖1所示。

圖1 系統構成示意圖
該模塊確定信息采集的特定目標、主題集合和模式等參數,對信息采集模塊的行為進行定性控制。主題特征元素集信息可以采用人工錄入,或者由系統反饋的指令,如進行深入采集和監控采集指令等,實現連續自動采集和跟蹤。
當系統采集的信息經過處理后,可能需要調整元素組合集;深入挖取或拓展采集時,當設定的監控對象發生狀態變化時,或者進行必要的停止和持續追蹤時或擴展挖取時,都需要調整特征元素集的主題規劃。
互聯網信息采集常用爬蟲技術實現,此類系統可用的開源程序很多,在此基礎上開發對特征組合信息進行動態配置的爬蟲。系統采用主題和限定爬蟲,根據特征元素集組合的需求,設置爬蟲的挖掘行為參數[1,2]。爬蟲模塊負責從互聯網上采集信息,爬蟲的數量、抓取速度、起始URL和符合采集要求的URL正則表達式和爬蟲線程終止條件等的設置受到特征元素集要求的約束。對獲取的網頁,通過網頁清洗預處理模塊清除網頁中與特征元素集要求和正文無關的材料,如廣告和導航條信息等噪聲,提取出相關網頁內容的標題、正文、鏈接地址和時間戳等信息,導入數據庫。
該模塊主要任務是將信息采集模塊所獲取的網頁內容材料作進一步的信息處理,包括文本去重、凈化抽取、文本分詞、虛詞及停用詞的凈化等。
⑴文本去重
互聯網存在著大量的重復內容,有些網頁是完全一樣的,為了減少后續工作量、提高搜索質量和節省空間,需要先去除重復以及近似重復的文檔。
此階段采用比較文檔內容checksum值的方法來判斷完全相同的文檔,如果2個文檔的checksum值不匹配,則認為這2個文檔不相同。當然,也可能有不同的文檔具有相同的checksum值,但可選擇適當的checksum計算過程,使得不同的文檔產生相同的checksum值的概率很小,從而大大縮減后續處理的工作量。在后續的正文抽取、分詞、矢量化的過程中仍會根據處理的方法進行不同層面的去重工作。
⑵正文抽取
人們需要的內容常常都在網頁和文檔的正文中,可以根據網頁及文件存儲結構的格式,利用統計分析技術、HtmlParser、PDFBox和Apache的POI等抽取工具從中抽取文本內容,并剔除廣告、分割條、導航鏈接、搜索服務和版權信息等噪聲[1]。
網頁凈化過程一般可以分為網頁內容結構的表示和網頁內容塊的取舍。HTML標識語言定義了一套標簽來刻畫網頁顯示時的頁面布局。因此,對于HTML網頁最常用的結構表示方法是構造網頁的標簽樹。根據內容差異,網頁可以分為主題
網頁、目錄網頁和圖片網頁3類,其凈化方法各不相同。目錄網頁是將網頁中間區域的內容塊作為網頁的主題內容,而邊緣的內容塊則通過與主題內容計算相似性的方法來決定取舍。圖片網頁則采用保留網頁中間區域的圖片型內容塊達到網頁凈化。主題網頁凈化方法為:先識別出網頁中的主題內容塊,再依據主題內容在剩余內容塊中識別出與主題相關的內容塊,最后區分出噪音內容塊。
⑶正文的分詞、過濾
經過去噪后的文本仍然只是數據形式,進行語義分析需要對其分成具有意義的獨立詞元組合。英文的分詞可以采用空格和標點符號進行分割實現,而中文詞法分析是中文信息處理的基礎與關鍵。采用中國科學院汁算技術研究所研制的漢語詞法分析系統(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS),ICTCLAS采用了層疊隱馬爾可夫模型(Hierarchical Hidden Markov Model),主要功能包括中文分詞、詞性標注、命名實體識別和新詞識別,同時支持用戶詞典,支持繁體中文,是目前最好的漢語詞法分析器[3]。
對去噪后的文本用ICTCLAS進行分詞,分詞后根據得到的詞性標注將介詞、助詞、嘆詞、語氣詞、擬聲詞、標點符號和停用詞去掉,得到該文本內容的特征文檔詞條。
為了避免因使用常見的詞條檢索方法,可能導致作者選定使用的特征元素集中的詞匯隱含意義相同,但字面不同而使文本被漏檢,選用隱性語義分析法(Latent Semantic Analysis, LSA)完成最接近特征元素集的文本集合的采集提取。LSA是一種自然語言處理的方法。其出發點是假設文本中的詞匯與詞匯之間存在某種聯系,即存在某種隱性的語義結構,這種隱性的語義結構隱含在文本中詞匯的上下文中[4,5]。
⑴構建表示詞匯/文本的矩陣
為了便于分析處理,將經過預處理的文本詞條表示成在向量模型空間中的所有特征元素集詞匯的向量,m個特征元素集詞匯和n篇文本被表示為詞匯/文本矩陣,其中每一行代表主題規劃確定的特征元素集的一個詞匯ti在各文本中的權重,每一列代表文本集中的一個文本dj針對主題規劃確定的特征元素集的參數向量,如下式所示。

式中,aij代表特征詞ti在文本dj中的權重,采用目前廣泛采用的權重計算公式TF-IDF公式:

式中,tfij代表特征詞ti在文本dj中出現的頻率,稱為“詞頻因子”;N表示采集到文本集中全部的文本數;ni表示這些文本中出現特征詞ti的文本頻數;自然對數log(N/ni)代表特征詞ti反比于特征詞出現的文本頻數,稱為“反文檔頻數因子”
[5-6]。
⑵對矩陣A的奇異值分解
隱性語義分析通過重點應用了矩陣的奇異值分解(SVD)將詞和文檔映射到隱性語義空間,去除了原始向量空間中的一些“噪音”,提高了信息檢索的精確度。
不失一般性,假設詞匯/文本矩陣A是m行n列的一個稀疏矩陣,已知rank(A)=r。可得A的奇異值分解為:

式中:T0的各列正交且長度為1,即T0T0T=I;D0的各列正交且長度為1,即D0D0T=I;S0稱為矩陣A的奇異值標準型,是一個單值的對角矩陣,即:
S0=diag(λ1,λ2,…,λm),且有λ1≥λ2≥…≥λr≥λr+1=…=0是A的奇異值。
⑶構建詞匯/文本矩陣的最佳逼近
當k滿足貢獻率不等式:

式中,θ為包括原始信息的閾值;選取前k個最大的奇異值,其余設置為0,獲得新的對角矩陣S。同時,取T0和D0的前k個列,分別獲得矩陣T和D,這樣得到的矩陣運算結果記為Ak,是原始矩陣A的一個近似值,其秩為k。可以證明,矩陣Ak是所有秩為k的矩陣中與A用F-范數評價時的最佳逼近,且均方誤差為1-θ[6]。

LSA通過對詞匯/文本矩陣A進行截斷的奇異值分解,得到秩為k的“近似矩陣”,得到的語義空間表示含有原始矩陣A的θ%的關鍵信息,達到信息過濾和去除噪聲的目的。
⑷構建偽文本向量
系統根據主題規劃特征元素集的詞頻信息生成查詢向量q,把其當作一個“偽文本”,則在k維語義空間中可表示為:
q+=qTT S-1
這樣,在k維空間中,q+和其他文本向量之間的相似度可用他們向量間夾角的余弦來進行計算,如:

式中,q+h為查詢向量的第h個詞匯的權重;djh為第j個文本向量的第h個詞匯的權重;k為語義空間的維度。cos(q+,dj)的絕對值越接近于1,說明向量q+和dj之間的夾角越小,相互
關聯性越大。
⑸按相似度高低排列文本
通過反復計算比較q+和dj(1≤j≤n)文檔向量之間的余弦夾角數值,最后按相似度高低排列文本,根據用戶的要求將文本列表提供給用戶。對于監控對象,則根據初始需求確定出目標對象的狀態向量。
實際上從特征元素集信息采集的目標需求,近似重復的文檔也是具有一定的保留和參考價值的。因此,需要將有序文本集提供反饋展示,供用戶選擇,并根據需要進行存儲。
對關注目標的狀態監控分析需求,狀態向量前后變化的差異才是需要對比跟蹤的。監督跟蹤可以根據需要設定為定期的和不定期實施。實施中采用決策樹結構[5],將監督目標對象的初始多維狀態向量設定為決策節點,節點通過率傳達了目標狀態變化的程度,可供選擇跟蹤決策。獲取的信息和監控狀態都可能成為新的規劃主題,或者調整特征元素信息的新需求,繼續深化進行上述過程[6]。
在文檔詞條構建向量矩陣過程中,原始文檔中的次序信息損失了,且類似語句結構的語義信息也損失了,但這樣的詞條向量在后續檢索中仍是非常有效的。
采用LSA將文本和詞匯的高維表示投影在低維的隱性語義空間中,縮小了問題的規模,得到詞匯和文本的不再稀疏的低維表示,同時這種低維表示揭示出了詞匯/文本之間語義上的聯系。使用k-秩近似矩陣使得原m個特征元素集偽文本壓縮到k維向量,降低了相似文本夾角余弦計算量,對于固定的查全率,提高了檢索的查準率。閾值θ與k的相關,也即與奇異值序列分布相關,適當選擇θ可以在查準率損失不大的情況下,使k的選擇盡量小,從而降低運算量。
[1]羅剛,王振東.自己動手寫網絡爬蟲[M].北京:清華大學出版社,2010.
[2]MARMANIS H.智能web算法[M].阿穩,等,譯.北京:電子工業出版社,2011.
[3]劉群,張華平,等.基于多層隱馬模型的漢語詞法分析研究[OL].http://www.ictclas.org/.
[4]DAVID H.數據挖掘原理[M].張銀奎,等譯.北京:機械工業出版社,2003.
[5]PETER H.機器學習實戰[M].李銳,等譯.北京:人民郵電出版社,2013.
[6]CHRISTOPHER D M,HINRICH S,PRABHAKAR R.信息檢索導論[M].王斌譯.北京:人民郵電出版社,2010.
Research on Acquisition and Monitoring of Predetermined Information on Internet
ZHAO Zhi-chao1LIU Chang2
(1.Hebei UniWin Information Technology Co.,Ltd.,Shijiazhuang Hebei 050091,China)
(2.Qinhuangdao Power Supply Company of State Grid Jibei Electric Power Co.,Ltd.,Qinhuangdao Hebei 066000,China)
Aiming at the requirements of information acquisition and status monitoring of mass data and goal object on Internet,this paper uses the predetermined characteristic element set to control the information acquisition,builds the term-document matrix after reduplication removing,text extraction,purification and de-noising,word segmentation as well as filtering,uses such technologies as latent semantic analysis,singular value decomposition,regularized approximation and pseudo-text compression to implement the similarity calculation and seqencing of acquired vector information,get the best search result and the status vector of monitoring target, and reduce the amount of calculation of similarity text sequencing at the same time.
information acquisition;term-document matrix;latent semantic analysis
TP393
A
1008-1739(2014)16-69-4
定稿日期:2014-07-26