謝積鑒 李榮 唐青青 胡婷婷 鐘雪梅
(廣西壯族自治區科學技術情報研究所,廣西南寧 530022)
在文獻資源的分類及存儲過程中的特征提取,是從擬處理標準文本中去找出可以全面描述文獻的內容并可以區分其他文獻的特征向量,通常由特征詞及權重構成,特征提取是文本向量空間降維的有效方法,同時特征提取可挑選出類別特征項。特征提取可分為無監督及有監督訓練方法,有監督模型是基于標注的方法進行訓練,通過分類實現特征提取,繼而采用分類模型判別詞語是否是索引詞匯,其較多見的方法又包含C4.5決策樹分類器及樸素貝葉斯分類器等[1];無監督模型通常利用文本、圖、主題及詞的使用頻率統計等模型挖掘特征詞的關系,無監督模型的代表性特征詞通過相關權重挑選出來。TFIDF算法[2]根據詞的使用頻率統計,TextRank算法[3]的特征提取是根據主題模型及圖模型。
文獻資源特征提取的過程可以分為3個步驟:(1)對原數據集執行去停用詞或分詞等預處理,獲得初始特征集T。(2)繼而對特征集合T執行權重分配,并依據權重值降序排列獲得特征集T1。(3)最終依據對應評估函數,選取獲得一個最具代表性的文本類別信息的特征子集T2。
特征子集啟發搜索策略主要包括Wrapper包裝式搜索策略及Filter過濾式搜索策略[4]。Wrapper包裝式搜索策略為了獲得特征子集是通過訓練學習實現的,Wrapper包裝式搜索策略的最大特點是依據選擇標準執行特征的選擇;Filter過濾式搜索策略依據數據信息選出與目標最相關的特征,Filter過濾式搜索策略利用了聚類功能。其為了獲得特征子集,依據差異性獲得特征區分度。最后,Filter過濾式搜索策略通過排名選出與目標最相關的特征子集。
Wrapper包裝式搜索策略[5]在執行特征搜索時依賴于監督式的訓練學習,Wrapper包裝式搜索策略針對數據量較小的文獻時,處理效果比較好,因為該方法要經過監督訓練過程才可實現特征搜索。
Wrapper包裝式搜索策略的過程主要包含3個步驟:(1)為提高數據搜索模式的質量,執行預處理,獲得初步特征子集T。(2)進行訓練集的實驗。訓練學習過程依據訓練集樣本數據評判規則,建立模型。(3)在學習器上進行試驗集實驗,依據訓練集模型判別性能優劣。
Wrapper包裝式搜索策略大多情況下是依據分類器分類性能判別特征的有效性,然而,在實際應用中大多情況下是將隨機搜索策略和Wrapper包裝式搜索策略結合。在特征選擇中,Wrapper包裝式搜索策略需在分類器的訓練及驗證上花費較多時間,效率低,所以較少應用于實際,和Wrapper包裝式搜索策略對比,Filter過濾式搜索策略分類性能低,但效率高。Wrapper方法計算開銷高、效率低,因此,Wrapper多用于文獻資源分類,Filter方法多用于海量文獻資源。
Filter過濾式搜索策略[6]是一種屬性選擇搜索策略,該搜索策略不依賴訓練集,相對獨立性強,依據評估函數,搜索出代表文獻資源的特征集合。特征集合依據評估函數不同可將Filter過濾式搜索策略的屬性選擇算法分為距離測度以及信息測度。
1.2.1 基于距離測度的特征聚類選擇算法
距離測度[7]根據特征項間距離衡量樣本相似度,該算法通過計算不同區域中特征項間的距離代表相似性。如果特征項的距離越小,則特征項越相似。如果特征項距離越大,則特征項相似性越小,可劃分性就越強。依據距離判斷文本相似度的方法眾多,包括閔可夫斯基距離、歐氏距離S階Minkowski測度等。
在文本檢索領域,特征聚類是重要研究方向之一。聚類分析[8]是進行各個對象的內部特征分析,其中,聚類分析中劃分在同組表示性質相近,劃分在不同組表示性質相差較大,它依據相似性度量,特征空間被劃分為若干簇的子集,經過分組,從而確定特征相似性。同組數據相似性大,不同組之間的相似性小,進而完成特征聚類。聚類算法的描述:(1)特征詞先經過相似度及權值計算,按順序排列。(2)執行特征聚類,簇中心在所有簇中隨機選擇。(3)將簇中心和特征項比較相似性。例如,如果特征相似性大就進行簇中心替換,否則不替換。(4)所有簇的簇中心保留下來,其他的特征項剔除,直到全部特征項對比結束。
聚類方法較多,其中,經常使用的有K均值聚類及分層聚類方法。分層聚類方法通過計算向量相似度實現聚類,相似度最大的兩類合并,直到滿足閾值條件,則聚類結束。K均值聚類方法是通過指定K值實現聚類,該方法通過聚類的個數進行特征聚類。
1.2.2 基于信息測度的特征選擇
信息測度是經常使用的屬性選擇算法,信息測度根據特征項之間的信息量衡量特征項。在特征選擇時,需要進行特征詞的重要程度量化。比如,在特征選擇時,含信息越多的特征項成為特征項的可能性越大。因此,基于信息測度的特征選擇很重要的一步是將概率和信息量的大小結合。
基于信息測度的屬性選擇算法眾多。以下對經常使用的屬性選擇算法進行分析:
(1)文檔頻率[9](DF)。DF是最容易的評估函數,表示訓練文本中包含某特征項的文本頻率,其步驟可概括為:1)設定文本頻率閾值。2)統計出所有特征詞的文本頻率值M,和設定文本頻率閾值比較。3)假設M超出閾值范圍,則剔除該特征詞。4)若M值過大,表示類別區分度較小;若M值過小,表示類別區分度較大。該方法算法容易及復雜性小,因此,實際應用中效率較高,適用于復雜數據集,該方法可以降低特征空間維數。但是,該方法不足之處是去除小于閾值的特征詞,該方法會濾掉一些文本頻率較低的特征詞。采用該方法,有些被濾掉的特征詞也許包含重要的類別信息影響到分類判別的準確性。
(2)文本頻率-逆文本頻率[10](TF-IDF),TF-IDF是Salton建立的方法,該方法主要根據文本頻率TF及逆頻率IDF進行計算,TF-IDF比較適合特征權重函數計算。TFIDF是經常使用的特征搜索方法,廣泛應用于文本分類領域,該方法在特征權重函數計算中取得的效果較好。TFIDF原理是:文章中的短語或詞多次出現,但這些短語或詞卻很少出現在其他類中,則認為該短語或詞對該文很重要,說明該詞分類能力好。TF代表某短語或詞在某文中出現的次數,即詞頻。IDF代表含某一個短語或詞文本數目的倒數,如果含某一個短語或詞的文本數目少,則該短語或詞IDF值高。IDF值越高,該短語或詞的類別區分度越高。
(3)信息增益[11](IG)。在文本中,IG評估方法給出了特征詞的信息熵差。IG計算公式如下:
式中:P(Ci)表示Ci類文本數與文本總數的比值。P(t)表示含特征詞T的文本比例。p(ci|t)表示在ci類文本中出現特征詞T的條件概率。p(ci|t)表示在ci類文本中特征詞T不出現的條件概率;n表示文本類別數。
信息熵和信息增益分別用公式(1)和公式(2)表示。IG考慮兩種情況:特征T出現及不出現。信息增益值代表某特征詞的重要性,增益值和信息越重要程度成正相關。
(4)開方校驗[12](CHI統計)。開方校驗中,x2表示統計量,表示的特征詞和文本類別之間的分布關系。x2統計量用于衡量特征和類之間獨立性。假設特征T和類是相互獨立的,則x2值為0。x2值越低,特征詞和類別的相互關聯性越小。公式如下:
A為文本中T和ci同時出現的次數。B為文本中T出現但ci不出現的次數。C表示文本中ci出現但T不出現的次數。D表示文本中ci與T都不出現的概率。N為文本總數。
在本類別及其他類別文本中,CHI統計偏向于高頻出現的特征詞,在實際應用中較為可靠,閾值穩定,不會隨著訓練集的變化而變化。但缺點是CHI統計分類效果不佳。
組合式屬性選擇算法是將Wrapper方法及Filter方法相結合[13],其原理是:先用Filter模型初步進行特征選擇,去除冗余特征,獲得的特征子集,進而降低特征空間維度;再用Wrapper模型進一步進行特征搜索,獲得最優特征子集。
IGICA是一種兩階段屬性選擇算法[14],第一階段,先通過信息增益對特征項進行排名,第二階段,特征選擇中加入ICA。分析結果顯示,構建的方法分類能力強,優于其他算法。兩階段的屬性選擇算法,在對傳統向量空間模型進行計算的時候無需考量詞語之間的語義關系,先用潛在的語義索引,再結合新組建詞間語義空間,因此效率高。有的研究在進行文本特征搜索的時候采用潛在遺傳算法(GA)及語義索引(LSI)。VSM(向量空間模型)[15]在對特征向量進行降維中利用了LSI(朗格利爾飽和指數)。VSM(向量空間模型)結合奇異值分解,并采用遺傳算法降低了維度。因此,VSM(向量空間模型)充分發揮了二者優點,使效率得到了提升。近年來,混合改進特征選擇的方法不斷涌現,如DTFS特征選擇法,提高了郵件分類性能。DTFS特征選擇法同時了考慮文本的頻率及詞的使用頻率[16]。首先,利用ODFFS(最佳文本頻率)特征選擇法和閾值特征選擇法進行組合,選擇最佳特征。其次利用OTFFS(最優詞頻率)與閾值進行組合,選擇最佳特征。啟發式搜索策略的出現,則是組合了OTFFS及ODFFS的功能,利用樸素貝葉斯(NB)分類器及模糊支持向量機(FSVM)對語料進行分類。有部分研究針對文本證據權、信息增益、CHI統計算法中冗余信息干擾的局部性,提出CWFS算法(競爭優勝者屬性選擇算法),解決了傳統算法分類性能差及效率低的問題。
大數據時代的到來,為海量的非結構化文獻資源處理提供了重要的技術支撐。本文針對文獻資源分類、儲存過程的特征提取處理過程,分別分析了Wrapper包裝式的屬性選擇算法、Filter過濾式的屬性選擇算法、組合式的屬性選擇算法的基本原理和各自優劣,為文獻資源特征提取處理提供了有益的參考。本文認為,可以通過約束學習、同義詞相互補充、特征權重分配的深度學習算法使得特征更具有合理性及可解釋性,提高語義信息表達的準確程度,從而優化文獻資源分類、儲存過程的特征提取處理,進而提升文獻信息檢索過程的用戶體驗。