柳兆峰,楊 奇,霍永華,謝志敏
(1.中國(guó)人民解放軍31001部隊(duì),北京 100094; 2.中國(guó)電子科技集團(tuán)公司第五十四研究所,河北 石家莊050081; 3.中國(guó)人民解放軍海洋環(huán)境專(zhuān)項(xiàng)辦公室,北京 100181)
情報(bào)是指按照用戶需求,針對(duì)特定情景實(shí)現(xiàn)特殊作用和價(jià)值的信息數(shù)據(jù)和知識(shí)。情報(bào)分析亦稱(chēng)信息分析或情報(bào)研究,是根據(jù)社會(huì)用戶的特定需求,將分布分散、雜亂的海量信息采用科學(xué)的研究方法和技術(shù)手段進(jìn)行收集、整理,生成有價(jià)值的情報(bào)數(shù)據(jù),為不同層次的用戶提供科學(xué)決策服務(wù)。我國(guó)提供了良好的情報(bào)分析研究工作環(huán)境,形成了以高校和圖書(shū)館為主導(dǎo),以科技情報(bào)為核心的應(yīng)用領(lǐng)域和以政府與企業(yè)為主導(dǎo),以路線規(guī)劃、前景預(yù)測(cè)、綜合決策為目標(biāo)的應(yīng)用領(lǐng)域[1-3]。
情報(bào)數(shù)據(jù)質(zhì)量是進(jìn)行情報(bào)分析并以此做出有效決策的重要基礎(chǔ)。互聯(lián)網(wǎng)和大數(shù)據(jù)背景下,科技情報(bào)研究的數(shù)據(jù)來(lái)源被大大拓寬,因此不可避免地出現(xiàn)數(shù)據(jù)分類(lèi)錯(cuò)誤、重復(fù)、缺失、格式不一致等現(xiàn)象,這些異常數(shù)據(jù)對(duì)于情報(bào)分析是無(wú)用的,甚至?xí)?duì)分析結(jié)果和效率產(chǎn)生很大的負(fù)面影響,所以需要對(duì)其進(jìn)行檢測(cè)和處理,以提高數(shù)據(jù)的質(zhì)量[4]。本文重點(diǎn)解決科技情報(bào)中數(shù)據(jù)分類(lèi)錯(cuò)誤問(wèn)題。
異常檢測(cè)作為數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要研究方向,主要用來(lái)檢測(cè)數(shù)據(jù)集中偏離正常分布模式的異常數(shù)據(jù)。異常檢測(cè)技術(shù)能夠從大量、模糊的復(fù)雜數(shù)據(jù)中檢測(cè)出異常信息,在大數(shù)據(jù)處理中得到廣泛應(yīng)用。現(xiàn)有的異常檢測(cè)技術(shù)主要包含基于監(jiān)督的和基于無(wú)監(jiān)督的2種方法。基于監(jiān)督的異常檢測(cè)方法主要包括概率統(tǒng)計(jì)、模式預(yù)測(cè)、神經(jīng)網(wǎng)絡(luò)、增量式SVM異常檢測(cè)等方法;基于無(wú)監(jiān)督的異常檢測(cè)方法主要包括K-means聚類(lèi)、基于核自適應(yīng)的AP聚類(lèi)異常檢測(cè)、引入約束條件的密度聚類(lèi)異常檢測(cè)等方法[5-8]。
但是這些檢測(cè)方法僅針對(duì)數(shù)值型的數(shù)據(jù),并不完全適用于情報(bào)分析領(lǐng)域。與數(shù)值型數(shù)據(jù)為主要研究對(duì)象的大數(shù)據(jù)分析不同,科技情報(bào)分析大多以文本文獻(xiàn)作為數(shù)據(jù)的對(duì)象和基礎(chǔ),包括論文、專(zhuān)利、科技報(bào)告及網(wǎng)頁(yè)文本等。目前情報(bào)領(lǐng)域的異常檢測(cè)方法研究成果較少,鑒于此,本文基于無(wú)監(jiān)督CURE聚類(lèi)算法,提出了一種針對(duì)科技情報(bào)數(shù)據(jù)的異常檢測(cè)方法。
科技情報(bào)異常監(jiān)測(cè)過(guò)程模型如圖1所示,主要分為3個(gè)階段:信息采集與預(yù)處理階段、文本處理階段以及聚類(lèi)分析階段。

圖1 科技情報(bào)異常數(shù)據(jù)檢測(cè)模型
與傳統(tǒng)情報(bào)存儲(chǔ)和傳輸方式不同,互聯(lián)網(wǎng)背景下,各類(lèi)結(jié)構(gòu)不一的情報(bào)流轉(zhuǎn)在網(wǎng)頁(yè)、博客、論壇以及社交媒體等網(wǎng)絡(luò)媒介中,依靠人工很難高效地獲取這些情報(bào)數(shù)據(jù),必須依靠技術(shù)手段批量獲取。
本階段主要根據(jù)情報(bào)分析需求,利用主題網(wǎng)絡(luò)爬蟲(chóng)技術(shù)有選擇地自動(dòng)訪問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲取所需要的科技情報(bào)。為了極大地減少冗余信息,可以通過(guò)網(wǎng)頁(yè)排重技術(shù)去除冗余網(wǎng)頁(yè),同時(shí)利用網(wǎng)絡(luò)去噪技術(shù)剔除Web頁(yè)面中如導(dǎo)航條、廣告信息、版權(quán)信息以及調(diào)查問(wèn)卷等與主題不相關(guān)的內(nèi)容,最后將爬取到的原始情報(bào)信息以統(tǒng)一的格式存儲(chǔ)在文本緩存區(qū)中,實(shí)現(xiàn)從非結(jié)構(gòu)化至結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換存儲(chǔ)。
從互聯(lián)網(wǎng)或者數(shù)據(jù)庫(kù)獲得情報(bào)信息大多是以文本形式存儲(chǔ),為了實(shí)現(xiàn)基于CURE的異常檢測(cè)和為后續(xù)的情報(bào)分析提供方便,需要對(duì)文本數(shù)據(jù)進(jìn)行一系列文本處理,最終以多個(gè)特征值表示的形式存儲(chǔ)在數(shù)據(jù)庫(kù)中。這一過(guò)程一般包括以下4個(gè)步驟:
① 中文分詞
中文分詞(Chinese Word Segmentation)技術(shù)是將連續(xù)的字序列按一定的規(guī)范重新組合成詞序列的過(guò)程。目前流行的中文分詞算法主要是基于字符串匹配、統(tǒng)計(jì)方法和理解分析3種方式,依靠這幾類(lèi)算法,國(guó)內(nèi)外出現(xiàn)了許多成熟的開(kāi)源分詞軟件。如中國(guó)科學(xué)院計(jì)算技術(shù)研究所開(kāi)發(fā)了NLPIR軟件,清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室開(kāi)發(fā)了THU-LAC軟件,還有python中常用的結(jié)巴(jieba)分詞。本文選擇THU-LAC軟件作為原始情報(bào)文本的分詞工具。
② 去停用詞
情報(bào)文本中含有大量的例如“了、呢、的”一類(lèi)的對(duì)情報(bào)分析工作沒(méi)有實(shí)際意義的詞語(yǔ),這些詞稱(chēng)為停用詞,為了降低詞典和文本特征向量空間,減少計(jì)算量,提升異常檢測(cè)效率,要在原始的情報(bào)文本中剔除掉停用詞。
③ 關(guān)鍵詞提取
關(guān)鍵詞是指反映一段情報(bào)文本核心內(nèi)容的詞語(yǔ)。關(guān)鍵詞提取是利用降維的方法對(duì)情報(bào)文本進(jìn)行特征選擇和提取,并對(duì)特征項(xiàng)的重要程度用權(quán)重加以區(qū)分,從而提高后續(xù)對(duì)信息進(jìn)行分類(lèi)、聚類(lèi)、主題分析等操作的結(jié)果精度。因此關(guān)鍵詞提取是異常檢測(cè)的重要前提和基礎(chǔ)。
通過(guò)爬蟲(chóng)等技術(shù)手段采集的情報(bào)數(shù)據(jù)并不會(huì)像專(zhuān)業(yè)期刊論文一樣列出關(guān)鍵詞,在海量數(shù)據(jù)的背景下依靠人工進(jìn)行關(guān)鍵詞提取顯然是不可取的。因此,通過(guò)技術(shù)手段自動(dòng)提取關(guān)鍵詞就成為情報(bào)分析研究的重點(diǎn)。目前文本提取關(guān)鍵詞算法主要有基于統(tǒng)計(jì)、基于詞語(yǔ)網(wǎng)絡(luò)、基于詞語(yǔ)共現(xiàn)圖3種。常見(jiàn)的有基于布爾權(quán)重、詞頻[8]、TFIDF值[9]等方法。本文采用TFIDF值對(duì)特征值進(jìn)行選取和加權(quán)。計(jì)算方法如下:

(1)
式中,xi為關(guān)鍵詞,N為文檔總數(shù),n為該關(guān)鍵詞出現(xiàn)的文檔數(shù)。TFik(xi)表示關(guān)鍵詞出現(xiàn)在文檔集的頻數(shù),分母為歸一化因子。
通過(guò)預(yù)先設(shè)定一個(gè)閾值,當(dāng)wik(xi) 低于這一閾值時(shí),可認(rèn)為該關(guān)鍵詞幾乎沒(méi)有處理價(jià)值,可以直接將其忽略。剩余關(guān)鍵詞保留,權(quán)重為wik(xi)。
④ 文本特征表示
特征表示是指用一組特征項(xiàng)來(lái)表示文本信息。特征表示模型有布爾模型、向量空間模型及概率模型等。本文利用向量空間模型(Vector Space Model,VSM)對(duì)文本進(jìn)行向量化。VSM的思想是用一組特征項(xiàng)及其特征項(xiàng)對(duì)應(yīng)的權(quán)重來(lái)表示一個(gè)文本信息,將文本簡(jiǎn)化為特征空間中的一個(gè)點(diǎn)。即對(duì)于一個(gè)含有n個(gè)特征值的文本D,可以表示為:
D={(t1,w2),(t2,w2),...,(tn,wn)},
(2)
式中,ti表示第i個(gè)特征詞,wi為第i個(gè)特征詞的權(quán)重。將分詞、提取關(guān)鍵詞和特征向量之后的文本信息標(biāo)記,存入數(shù)據(jù)庫(kù)中。
聚類(lèi)分析階段是本文異常數(shù)據(jù)檢測(cè)的關(guān)鍵步驟,通過(guò)聚類(lèi)分析的方法對(duì)離群數(shù)據(jù)(即不良數(shù)據(jù))進(jìn)行識(shí)別和定位。下一節(jié)給出了基于CURE聚類(lèi)算法的異常數(shù)據(jù)檢測(cè)方法的具體步驟。
CURE聚類(lèi)算法是一種自底向上的層次聚類(lèi)算法,利用該算法對(duì)向量化后的情報(bào)文本集(即具有n維特征屬性的點(diǎn)集)進(jìn)行聚類(lèi),可以對(duì)異常數(shù)據(jù)進(jìn)行識(shí)別和定位。檢測(cè)出來(lái)的異常數(shù)據(jù)主要來(lái)自?xún)煞矫妫阂粋€(gè)是在首次聚類(lèi)時(shí)增長(zhǎng)較為緩慢的簇;另一類(lèi)是聚類(lèi)后期包含對(duì)象明顯偏少的簇。涉及到的定義如下。
定義 1:初始聚類(lèi)劃分的數(shù)據(jù)分區(qū)可以用若干個(gè)分散的代表點(diǎn)來(lái)表示。即數(shù)據(jù)簇s表示為s.mPi(s.mean,s.n),其中Pi為該簇的代表點(diǎn),m為代表點(diǎn)的個(gè)數(shù),s.mean為該簇的中心點(diǎn),s.n代表簇的容量即數(shù)據(jù)對(duì)象的個(gè)數(shù)。
代表點(diǎn)的選擇方法如下:
① 首先確定代表點(diǎn)的數(shù)目m和收縮因子α;
② 選取初始m個(gè)代表點(diǎn)。第一個(gè)代表點(diǎn)是距離該簇中心點(diǎn)最遠(yuǎn)的點(diǎn),其后的代表點(diǎn)是選取距離前一個(gè)選出的代表點(diǎn)最遠(yuǎn)的數(shù)據(jù)點(diǎn);
③ 用收縮因子α收縮代表點(diǎn),調(diào)節(jié)類(lèi)的形狀,排除孤立點(diǎn)的影響。收縮公式為:

(3)
定義 2:離散度。用歐氏距離表示樣本中一個(gè)對(duì)象點(diǎn)距離代表點(diǎn)的離散程度,離散度越大說(shuō)明距離該代表點(diǎn)越遠(yuǎn)。設(shè)代表點(diǎn)的集合為P,任一樣本數(shù)據(jù)點(diǎn)xi對(duì)于集合P中代表點(diǎn)Pi的離散度如下:

(4)
式中,xij為樣本點(diǎn)xi的第j特征值,Pij為代表點(diǎn)Pi的第j特征值,n為VSM模型的維度,該式代表了2個(gè)文檔之間的距離。
定義 3:設(shè)每一個(gè)樣本點(diǎn)的離散度集為D,取離散度的平均值為該樣本數(shù)據(jù)的離散判定值A(chǔ)D:
(5)
定義 4:設(shè)異常判定界限參數(shù)為δ:

(6)
式中,min(di)為離散度最小值。
定義 5:對(duì)于離散度集D中任意di∈D,若di>δ×AD,則di對(duì)應(yīng)的代表點(diǎn)Pi為離散點(diǎn),其所在的簇中的樣本點(diǎn)即為孤立異常數(shù)據(jù)。
基于CURE聚類(lèi)算法的異常數(shù)據(jù)檢測(cè)方法的基本思想是:首先確定情報(bào)分析的主題類(lèi)別,通過(guò)信息采集和預(yù)處理階段得到原始的樣本集,然后經(jīng)過(guò)文本處理階段獲得文本向量化后的樣本集。之后,對(duì)樣本集進(jìn)行聚類(lèi)。首次聚類(lèi)先將樣本劃分為n個(gè)規(guī)模相同的數(shù)據(jù)分區(qū)(或簇),每個(gè)簇的數(shù)據(jù)容量為m/n。然后計(jì)算簇中每個(gè)點(diǎn)的離散判定值(AD)及離群參數(shù)(δ);對(duì)滿足di>δ×AD的異常點(diǎn)進(jìn)行標(biāo)注,并從樣本中刪除;之后對(duì)距離最近的簇進(jìn)行合并,然后對(duì)「n/q?個(gè)簇進(jìn)行二次聚類(lèi),同時(shí)對(duì)包含對(duì)象數(shù)目明顯偏少的簇進(jìn)行標(biāo)注和刪除,剩余的數(shù)據(jù)點(diǎn)就是正常數(shù)據(jù)。最后將標(biāo)注的異常數(shù)據(jù)作為異常檢測(cè)的結(jié)果輸出。
專(zhuān)利情報(bào)分析是科技情報(bào)研究的熱點(diǎn)課題,本文以專(zhuān)利情報(bào)為實(shí)例說(shuō)明情報(bào)異常數(shù)據(jù)檢測(cè)過(guò)程。以國(guó)家專(zhuān)利網(wǎng)站專(zhuān)利信息作為研究對(duì)象,利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)爬取了國(guó)家專(zhuān)利網(wǎng)站計(jì)算機(jī)類(lèi)專(zhuān)利和醫(yī)療類(lèi)專(zhuān)利各200條,原始文檔包括專(zhuān)利類(lèi)別(計(jì)算機(jī)類(lèi)/醫(yī)療類(lèi))、專(zhuān)利名稱(chēng)、專(zhuān)利號(hào)及摘要等基本信息,部分原始數(shù)據(jù)如圖2所示。

圖2 原始專(zhuān)利數(shù)據(jù)
受爬蟲(chóng)程序和網(wǎng)頁(yè)解析等方面的影響,爬取到的專(zhuān)利信息可能存在數(shù)據(jù)格式混亂、專(zhuān)利內(nèi)容與主題類(lèi)別不符和數(shù)據(jù)重復(fù)等問(wèn)題,這類(lèi)數(shù)據(jù)稱(chēng)為異常數(shù)這據(jù)。圖2中編號(hào)為5的樣本是在醫(yī)學(xué)類(lèi)主題下爬取的,但是由其專(zhuān)利名稱(chēng)和文摘內(nèi)容可以推斷出,它應(yīng)屬于計(jì)算機(jī)類(lèi),所以該樣本屬于異常點(diǎn),其中“類(lèi)別”一項(xiàng)的描述錯(cuò)誤。同理編號(hào)205的樣本也屬于異常點(diǎn)。對(duì)上述樣本的專(zhuān)利名稱(chēng)和摘要進(jìn)行分詞、去停用詞、關(guān)鍵詞提取和特征向量化,得到數(shù)據(jù)向量表示的樣本集。然后使用第2節(jié)中的基于CURE聚類(lèi)算法的異常檢測(cè)方法對(duì)樣本集進(jìn)行聚類(lèi),最終得到2個(gè)點(diǎn)簇(標(biāo)號(hào)為1和2)和1個(gè)異常點(diǎn)集合(標(biāo)號(hào)為3),如表1所示。
表1 異常檢測(cè)結(jié)果

編號(hào)樣本類(lèi)別檢測(cè)結(jié)果111211311411513(異常集)………20523(異常集)………40022
其中一個(gè)簇代表醫(yī)學(xué)類(lèi)專(zhuān)利,另一個(gè)代表計(jì)算機(jī)類(lèi)專(zhuān)利。結(jié)果顯示,異常點(diǎn)集合包括編號(hào)5和編號(hào)205,這說(shuō)明本文算法能夠準(zhǔn)確識(shí)別異常點(diǎn)。
為了進(jìn)一步說(shuō)明本文異常檢測(cè)方法的有效性,避免上述實(shí)驗(yàn)結(jié)果的偶然性,在原始各200條樣本的基礎(chǔ)上,繼續(xù)爬取國(guó)家專(zhuān)利網(wǎng)站上計(jì)算機(jī)類(lèi)專(zhuān)利和醫(yī)療類(lèi)專(zhuān)利,將每類(lèi)專(zhuān)利測(cè)試樣本集的容量擴(kuò)大至500條、1 000條、1 500條和2 000條。分別進(jìn)行異常檢測(cè)實(shí)驗(yàn),測(cè)試結(jié)果見(jiàn)表2和表3。下面以每類(lèi)專(zhuān)利樣本容量2 000條(即總樣本容量為4 000條)為例,給出具體實(shí)驗(yàn)步驟:
① 確定專(zhuān)利分析的主題類(lèi)別為“計(jì)算機(jī)”和“醫(yī)療”,通過(guò)信息采集和預(yù)處理階段得到原始的樣本集各2 000條。
② 首先用人工標(biāo)記方法找出其中的實(shí)際異常數(shù)據(jù),作為測(cè)試結(jié)果的評(píng)判標(biāo)準(zhǔn)。其中計(jì)算機(jī)類(lèi)實(shí)際異常數(shù)據(jù)共117條,醫(yī)療類(lèi)實(shí)際異常數(shù)據(jù)共121條。
③ 對(duì)原始樣本進(jìn)行文本處理,經(jīng)過(guò)中文分詞、去停用詞、關(guān)鍵詞提取和文本特征表示4個(gè)步驟獲得文本向量化后的樣本集。經(jīng)反復(fù)測(cè)試,關(guān)鍵詞數(shù)目為1 600時(shí)就能達(dá)到較好的測(cè)試精度和效率,部分關(guān)鍵詞及其權(quán)重如圖3所示。所以文本向量空間為1 600維,每條情報(bào)樣本由1 600個(gè)特征詞權(quán)重表示。

圖3 部分關(guān)鍵詞及其權(quán)重
④ 對(duì)向量化后的樣本集進(jìn)行CURE聚類(lèi),過(guò)程如圖4所示。首次聚類(lèi)先將樣本劃分為10個(gè)規(guī)模相同的數(shù)據(jù)分區(qū)(或簇),每個(gè)簇的包含400條文本向量化后的測(cè)試樣本,每條樣本記為簇中的一個(gè)點(diǎn)。設(shè)本次實(shí)驗(yàn)的收縮因子α=0.5,代表點(diǎn)個(gè)數(shù)m=4,按照第2節(jié)中介紹的方法,得到最能代表以上10個(gè)簇形狀的代表點(diǎn)集合。然后計(jì)算簇中每個(gè)點(diǎn)的離散判定值A(chǔ)D值及離群參數(shù)δ;對(duì)滿足di>δ×AD的異常點(diǎn)進(jìn)行標(biāo)注,并從樣本中刪除。
⑤ 之后對(duì)距離最近的簇進(jìn)行合并,并對(duì)包含樣本數(shù)目明顯偏少的簇進(jìn)行標(biāo)注并刪除,然后對(duì)合并后的簇進(jìn)行再次聚類(lèi),即重新選取代表點(diǎn)和識(shí)別異常點(diǎn),重復(fù)上述過(guò)程直到簇的數(shù)目減少至預(yù)先設(shè)定的目標(biāo)類(lèi)個(gè)數(shù)2。最終經(jīng)過(guò)4次合并得到2個(gè)正常簇和1個(gè)標(biāo)注的異常點(diǎn)集合(下面簡(jiǎn)稱(chēng)為異常簇),合并過(guò)程如圖4所示。2個(gè)正常簇分別代表計(jì)算機(jī)類(lèi)和醫(yī)療類(lèi),異常簇里的數(shù)據(jù)作為異常檢測(cè)的結(jié)果輸出(其中包含表1所述樣本5和樣本205)。

圖4 聚類(lèi)過(guò)程
本文定義了2個(gè)指標(biāo)—準(zhǔn)確率α和誤檢率β來(lái)衡量異常檢測(cè)結(jié)果的有效性,如式(7)和式(8)所示:

(7)

(8)
式中,N為實(shí)際異常數(shù)據(jù)的個(gè)數(shù),n1為檢測(cè)異常數(shù)據(jù)中正確識(shí)別的異常個(gè)數(shù),n2為檢測(cè)異常數(shù)據(jù)中錯(cuò)誤識(shí)別的異常個(gè)數(shù)與未檢測(cè)出的實(shí)際異常個(gè)數(shù)之和。測(cè)試結(jié)果如表2和表3所示 。
表2 計(jì)算機(jī)類(lèi)專(zhuān)利信息異常識(shí)別率

樣本數(shù)目實(shí)際異常數(shù)據(jù)數(shù)目檢測(cè)異常數(shù)據(jù)數(shù)目正確檢測(cè)數(shù)目錯(cuò)誤識(shí)別數(shù)目未檢測(cè)的異常數(shù)目準(zhǔn)確率/%誤檢率/%5001918180194.745.261 0005856560296.553.451 5008485832198.813.572 0001171181135496.587.69
表3 醫(yī)療類(lèi)專(zhuān)利信息異常識(shí)別率

樣本數(shù)目實(shí)際異常數(shù)據(jù)數(shù)目檢測(cè)異常數(shù)據(jù)數(shù)目正確檢測(cè)數(shù)目錯(cuò)誤識(shí)別數(shù)目未檢測(cè)出異常數(shù)目準(zhǔn)確率/%誤檢率/%5001515141193.3313.331 0004947470295.924.081 5009087870396.673.332 0001211231185397.526.61
實(shí)驗(yàn)結(jié)果表明,針對(duì)不同容量的樣本,本文提出的異常檢測(cè)方法均保持較高的檢測(cè)準(zhǔn)確率和較低的誤檢率,為后續(xù)的異常數(shù)據(jù)處理打下了基礎(chǔ),同時(shí)對(duì)于情報(bào)數(shù)據(jù)分析提供了重要的參考價(jià)值。
將機(jī)器學(xué)習(xí)應(yīng)用到情報(bào)領(lǐng)域,有助于解決多源異構(gòu)的海量情報(bào)數(shù)據(jù)所導(dǎo)致的分析時(shí)效性低和準(zhǔn)確性差等問(wèn)題。情報(bào)數(shù)據(jù)集的質(zhì)量是進(jìn)行情報(bào)分析和知識(shí)發(fā)現(xiàn)的基礎(chǔ)。本文提出了一種針對(duì)情報(bào)分析的異常檢測(cè)方法,分為信息采集與預(yù)處理階段、文本處理階段、CURE聚類(lèi)分析階段3個(gè)部分。通過(guò)專(zhuān)利情報(bào)實(shí)例驗(yàn)證了所提異常檢測(cè)方法的有效性和可行性,對(duì)于企業(yè)競(jìng)爭(zhēng)、圖書(shū)館情報(bào)學(xué)等眾多互聯(lián)網(wǎng)情報(bào)研究領(lǐng)域有著一定的借鑒意義。