999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

互聯網預定制信息的采集和監督研究

2014-02-17 09:32:28趙志超劉暢
計算機與網絡 2014年16期
關鍵詞:詞匯特征文本

趙志超劉暢

(1 河北中信聯信息技術有限公司 河北 石家莊 050091)

(2 國網冀北電力有限公司秦皇島供電公司 河北 秦皇島 066000)

互聯網預定制信息的采集和監督研究

趙志超1劉暢2

(1 河北中信聯信息技術有限公司 河北 石家莊 050091)

(2 國網冀北電力有限公司秦皇島供電公司 河北 秦皇島 066000)

針對互聯網海量數據和目標對象的信息獲取和狀態監控需求,采用預定制特征元素集控制信息采集,經過去重、正文抽取、凈化去噪、分詞和過濾后,構建詞匯/文本向量矩陣,采用隱性語義分析、奇異值分解、正則逼近和偽文本壓縮等處理技術,實現了對獲取向量信息的相似計算和排序,得出最佳搜索結果和監測目標的狀態向量,同時降低了相似文本排序的計算量。

信息采集詞匯/文本向量矩陣隱性語義分析

1 引言

互聯網每天都在產生TB以上規模的數據,人們每天都在追逐著這些人們制造出來的海量“大數據”,知道其中有人們求之難得的,能解決所需問題的信息和知識,卻常常苦于被這個大海淹沒,沒有順手的方法和工具,能快速、準確和高效地從這浩瀚的“數據洋”中挖取人們需要的數據,然后再從中提煉滿足人們需要的信息和知識。雖然,有些著名的搜索引擎可用,但是他們找到的數據常常也是動輒十萬和百萬條,甚至更多,在這些被排序的數據中找到為人們所用的數據,也是費時耗力且低效的。

運用網絡數據挖掘技術、語義分析技術、統計分析和機器學習等方法,對特定需求的目標進行信息挖掘和狀態監控仍具有實用意義,可以廣泛應用于情報研究、科技探索、輿情監督、行業市場跟蹤、用戶研究和競爭對手分析等領域,討論的采集和處理方法的目標對象均以中文和英文信息表述。

2 面向主題信息搜索系統的需求

人們經常有從互聯網挖掘由多元數據集限定的,而不是僅僅靠一兩個詞或語句用搜索引擎完成的,面向特定主題信

息的搜索采集需求。這些多元數據集從多個方面對人們需要搜尋的主題信息進行了限定,當各元素之間沒有次序關系時,構成特征元素集合;如果各元素之間具有次序關系要求,則構成特征數據向量。經過對互聯網上內容信息的按特征元素集信息的采集提取,可以獲得更準確吻合人們需要主題的信息。這些特征元素集是隨著每次的采集挖掘主題需求不同而改變的,也就是可以靈活調整和定制的。

主題特征元素集的構成,可以是結構化數據,非結構化數據,甚至可以是網站的結構信息。當特征元素集是普通文字、數據或音視頻數據時,人們關心的是網站內容的差異;當特征元素集是網站結構信息時,人們關心的是網站的特定功用,是網站狀態間的差異。

通過對特征元素集的搜索、定位和定期比對,可以實現對重點信息和網站的動態監督。研究準確和高效地從互聯網上找到含有人們需要特征元素集的信息,并且能隨時掌握這些信息的動態變化的應用軟件系統,對于快速準確地情報分析研究、科技發展探索、輿情動態監督、行業市場走向跟蹤、用戶需求趨勢研究和競爭對手動向分析等領域應用具有重要意義。

3 預定制信息搜索系統構成

根據上述需求和目前技術發展,預定制信息挖掘系統的實現需要綜合運用搜索引擎技術、文本處理技術、自然語言處理、智能分析技術和網站結構分析等技術,其系統基本構成如圖1所示。

圖1 系統構成示意圖

4 特征主題規劃

該模塊確定信息采集的特定目標、主題集合和模式等參數,對信息采集模塊的行為進行定性控制。主題特征元素集信息可以采用人工錄入,或者由系統反饋的指令,如進行深入采集和監控采集指令等,實現連續自動采集和跟蹤。

當系統采集的信息經過處理后,可能需要調整元素組合集;深入挖取或拓展采集時,當設定的監控對象發生狀態變化時,或者進行必要的停止和持續追蹤時或擴展挖取時,都需要調整特征元素集的主題規劃。

5 信息采集

互聯網信息采集常用爬蟲技術實現,此類系統可用的開源程序很多,在此基礎上開發對特征組合信息進行動態配置的爬蟲。系統采用主題和限定爬蟲,根據特征元素集組合的需求,設置爬蟲的挖掘行為參數[1,2]。爬蟲模塊負責從互聯網上采集信息,爬蟲的數量、抓取速度、起始URL和符合采集要求的URL正則表達式和爬蟲線程終止條件等的設置受到特征元素集要求的約束。對獲取的網頁,通過網頁清洗預處理模塊清除網頁中與特征元素集要求和正文無關的材料,如廣告和導航條信息等噪聲,提取出相關網頁內容的標題、正文、鏈接地址和時間戳等信息,導入數據庫。

6 采集信息的預處理

該模塊主要任務是將信息采集模塊所獲取的網頁內容材料作進一步的信息處理,包括文本去重、凈化抽取、文本分詞、虛詞及停用詞的凈化等。

⑴文本去重

互聯網存在著大量的重復內容,有些網頁是完全一樣的,為了減少后續工作量、提高搜索質量和節省空間,需要先去除重復以及近似重復的文檔。

此階段采用比較文檔內容checksum值的方法來判斷完全相同的文檔,如果2個文檔的checksum值不匹配,則認為這2個文檔不相同。當然,也可能有不同的文檔具有相同的checksum值,但可選擇適當的checksum計算過程,使得不同的文檔產生相同的checksum值的概率很小,從而大大縮減后續處理的工作量。在后續的正文抽取、分詞、矢量化的過程中仍會根據處理的方法進行不同層面的去重工作。

⑵正文抽取

人們需要的內容常常都在網頁和文檔的正文中,可以根據網頁及文件存儲結構的格式,利用統計分析技術、HtmlParser、PDFBox和Apache的POI等抽取工具從中抽取文本內容,并剔除廣告、分割條、導航鏈接、搜索服務和版權信息等噪聲[1]。

網頁凈化過程一般可以分為網頁內容結構的表示和網頁內容塊的取舍。HTML標識語言定義了一套標簽來刻畫網頁顯示時的頁面布局。因此,對于HTML網頁最常用的結構表示方法是構造網頁的標簽樹。根據內容差異,網頁可以分為主題

網頁、目錄網頁和圖片網頁3類,其凈化方法各不相同。目錄網頁是將網頁中間區域的內容塊作為網頁的主題內容,而邊緣的內容塊則通過與主題內容計算相似性的方法來決定取舍。圖片網頁則采用保留網頁中間區域的圖片型內容塊達到網頁凈化。主題網頁凈化方法為:先識別出網頁中的主題內容塊,再依據主題內容在剩余內容塊中識別出與主題相關的內容塊,最后區分出噪音內容塊。

⑶正文的分詞、過濾

經過去噪后的文本仍然只是數據形式,進行語義分析需要對其分成具有意義的獨立詞元組合。英文的分詞可以采用空格和標點符號進行分割實現,而中文詞法分析是中文信息處理的基礎與關鍵。采用中國科學院汁算技術研究所研制的漢語詞法分析系統(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS),ICTCLAS采用了層疊隱馬爾可夫模型(Hierarchical Hidden Markov Model),主要功能包括中文分詞、詞性標注、命名實體識別和新詞識別,同時支持用戶詞典,支持繁體中文,是目前最好的漢語詞法分析器[3]。

對去噪后的文本用ICTCLAS進行分詞,分詞后根據得到的詞性標注將介詞、助詞、嘆詞、語氣詞、擬聲詞、標點符號和停用詞去掉,得到該文本內容的特征文檔詞條。

7 信息分析與處理

為了避免因使用常見的詞條檢索方法,可能導致作者選定使用的特征元素集中的詞匯隱含意義相同,但字面不同而使文本被漏檢,選用隱性語義分析法(Latent Semantic Analysis, LSA)完成最接近特征元素集的文本集合的采集提取。LSA是一種自然語言處理的方法。其出發點是假設文本中的詞匯與詞匯之間存在某種聯系,即存在某種隱性的語義結構,這種隱性的語義結構隱含在文本中詞匯的上下文中[4,5]。

⑴構建表示詞匯/文本的矩陣

為了便于分析處理,將經過預處理的文本詞條表示成在向量模型空間中的所有特征元素集詞匯的向量,m個特征元素集詞匯和n篇文本被表示為詞匯/文本矩陣,其中每一行代表主題規劃確定的特征元素集的一個詞匯ti在各文本中的權重,每一列代表文本集中的一個文本dj針對主題規劃確定的特征元素集的參數向量,如下式所示。

式中,aij代表特征詞ti在文本dj中的權重,采用目前廣泛采用的權重計算公式TF-IDF公式:

式中,tfij代表特征詞ti在文本dj中出現的頻率,稱為“詞頻因子”;N表示采集到文本集中全部的文本數;ni表示這些文本中出現特征詞ti的文本頻數;自然對數log(N/ni)代表特征詞ti反比于特征詞出現的文本頻數,稱為“反文檔頻數因子”

[5-6]。

⑵對矩陣A的奇異值分解

隱性語義分析通過重點應用了矩陣的奇異值分解(SVD)將詞和文檔映射到隱性語義空間,去除了原始向量空間中的一些“噪音”,提高了信息檢索的精確度。

不失一般性,假設詞匯/文本矩陣A是m行n列的一個稀疏矩陣,已知rank(A)=r。可得A的奇異值分解為:

式中:T0的各列正交且長度為1,即T0T0T=I;D0的各列正交且長度為1,即D0D0T=I;S0稱為矩陣A的奇異值標準型,是一個單值的對角矩陣,即:

S0=diag(λ1,λ2,…,λm),且有λ1≥λ2≥…≥λr≥λr+1=…=0是A的奇異值。

⑶構建詞匯/文本矩陣的最佳逼近

當k滿足貢獻率不等式:

式中,θ為包括原始信息的閾值;選取前k個最大的奇異值,其余設置為0,獲得新的對角矩陣S。同時,取T0和D0的前k個列,分別獲得矩陣T和D,這樣得到的矩陣運算結果記為Ak,是原始矩陣A的一個近似值,其秩為k。可以證明,矩陣Ak是所有秩為k的矩陣中與A用F-范數評價時的最佳逼近,且均方誤差為1-θ[6]。

LSA通過對詞匯/文本矩陣A進行截斷的奇異值分解,得到秩為k的“近似矩陣”,得到的語義空間表示含有原始矩陣A的θ%的關鍵信息,達到信息過濾和去除噪聲的目的。

⑷構建偽文本向量

系統根據主題規劃特征元素集的詞頻信息生成查詢向量q,把其當作一個“偽文本”,則在k維語義空間中可表示為:

q+=qTT S-1

這樣,在k維空間中,q+和其他文本向量之間的相似度可用他們向量間夾角的余弦來進行計算,如:

式中,q+h為查詢向量的第h個詞匯的權重;djh為第j個文本向量的第h個詞匯的權重;k為語義空間的維度。cos(q+,dj)的絕對值越接近于1,說明向量q+和dj之間的夾角越小,相互

關聯性越大。

⑸按相似度高低排列文本

通過反復計算比較q+和dj(1≤j≤n)文檔向量之間的余弦夾角數值,最后按相似度高低排列文本,根據用戶的要求將文本列表提供給用戶。對于監控對象,則根據初始需求確定出目標對象的狀態向量。

8 反饋展現和跟蹤

實際上從特征元素集信息采集的目標需求,近似重復的文檔也是具有一定的保留和參考價值的。因此,需要將有序文本集提供反饋展示,供用戶選擇,并根據需要進行存儲。

對關注目標的狀態監控分析需求,狀態向量前后變化的差異才是需要對比跟蹤的。監督跟蹤可以根據需要設定為定期的和不定期實施。實施中采用決策樹結構[5],將監督目標對象的初始多維狀態向量設定為決策節點,節點通過率傳達了目標狀態變化的程度,可供選擇跟蹤決策。獲取的信息和監控狀態都可能成為新的規劃主題,或者調整特征元素信息的新需求,繼續深化進行上述過程[6]。

9 結束語

在文檔詞條構建向量矩陣過程中,原始文檔中的次序信息損失了,且類似語句結構的語義信息也損失了,但這樣的詞條向量在后續檢索中仍是非常有效的。

采用LSA將文本和詞匯的高維表示投影在低維的隱性語義空間中,縮小了問題的規模,得到詞匯和文本的不再稀疏的低維表示,同時這種低維表示揭示出了詞匯/文本之間語義上的聯系。使用k-秩近似矩陣使得原m個特征元素集偽文本壓縮到k維向量,降低了相似文本夾角余弦計算量,對于固定的查全率,提高了檢索的查準率。閾值θ與k的相關,也即與奇異值序列分布相關,適當選擇θ可以在查準率損失不大的情況下,使k的選擇盡量小,從而降低運算量。

[1]羅剛,王振東.自己動手寫網絡爬蟲[M].北京:清華大學出版社,2010.

[2]MARMANIS H.智能web算法[M].阿穩,等,譯.北京:電子工業出版社,2011.

[3]劉群,張華平,等.基于多層隱馬模型的漢語詞法分析研究[OL].http://www.ictclas.org/.

[4]DAVID H.數據挖掘原理[M].張銀奎,等譯.北京:機械工業出版社,2003.

[5]PETER H.機器學習實戰[M].李銳,等譯.北京:人民郵電出版社,2013.

[6]CHRISTOPHER D M,HINRICH S,PRABHAKAR R.信息檢索導論[M].王斌譯.北京:人民郵電出版社,2010.

Research on Acquisition and Monitoring of Predetermined Information on Internet

ZHAO Zhi-chao1LIU Chang2
(1.Hebei UniWin Information Technology Co.,Ltd.,Shijiazhuang Hebei 050091,China)
(2.Qinhuangdao Power Supply Company of State Grid Jibei Electric Power Co.,Ltd.,Qinhuangdao Hebei 066000,China)

Aiming at the requirements of information acquisition and status monitoring of mass data and goal object on Internet,this paper uses the predetermined characteristic element set to control the information acquisition,builds the term-document matrix after reduplication removing,text extraction,purification and de-noising,word segmentation as well as filtering,uses such technologies as latent semantic analysis,singular value decomposition,regularized approximation and pseudo-text compression to implement the similarity calculation and seqencing of acquired vector information,get the best search result and the status vector of monitoring target, and reduce the amount of calculation of similarity text sequencing at the same time.

information acquisition;term-document matrix;latent semantic analysis

TP393

A

1008-1739(2014)16-69-4

定稿日期:2014-07-26

猜你喜歡
詞匯特征文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
如何表達“特征”
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 青青青国产视频手机| 极品国产一区二区三区| 国产精品成人一区二区不卡 | 国产99视频免费精品是看6| 好吊色国产欧美日韩免费观看| 成人亚洲视频| 国产欧美日韩综合一区在线播放| 精品伊人久久久香线蕉 | 色久综合在线| 人人看人人鲁狠狠高清| 免费观看成人久久网免费观看| 一本大道无码高清| 日本a∨在线观看| 99热这里只有精品久久免费| 国产丝袜啪啪| 在线不卡免费视频| 免费一级全黄少妇性色生活片| 日韩高清一区 | 国产精品嫩草影院视频| 无码视频国产精品一区二区| 波多野吉衣一区二区三区av| 少妇精品在线| 99热这里只有精品5| 国产精品v欧美| 999精品免费视频| 国产麻豆va精品视频| 国产最爽的乱婬视频国语对白| 国产极品美女在线观看| 亚洲日本精品一区二区| 99视频在线免费看| 亚洲一区第一页| 日本成人福利视频| 国产免费a级片| 国产毛片一区| 国产综合无码一区二区色蜜蜜| 91福利片| 亚洲人成影院午夜网站| 在线另类稀缺国产呦| 91无码网站| 综合亚洲网| 中国国产一级毛片| jizz在线免费播放| 呦女精品网站| 国产在线97| 乱人伦99久久| 538国产视频| 午夜一级做a爰片久久毛片| 亚洲最大情网站在线观看| 怡春院欧美一区二区三区免费| 欧美在线一二区| 伊人激情综合| 国产精品久久国产精麻豆99网站| 日本一区二区不卡视频| Jizz国产色系免费| 国产人人乐人人爱| 毛片免费网址| 18黑白丝水手服自慰喷水网站| 国产精品第页| 国产精品护士| 成人va亚洲va欧美天堂| 国产香蕉97碰碰视频VA碰碰看| 91久久青青草原精品国产| 国产h视频免费观看| 色九九视频| 成人亚洲天堂| 伊人久综合| 免费无码AV片在线观看国产| 88av在线| 成人福利一区二区视频在线| 国产9191精品免费观看| 久久精品aⅴ无码中文字幕 | 国产91精品最新在线播放| 不卡视频国产| 国内精品小视频在线| 女人18毛片久久| 久久人体视频| 中文字幕日韩丝袜一区| 欧美精品啪啪| 无码中文字幕乱码免费2| 亚洲人成网址| 国产白浆一区二区三区视频在线| 日韩在线视频网|