999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文獻資源分類、存儲過程中的特征提取選擇方法研究

2022-12-05 08:53:22謝積鑒李榮唐青青胡婷婷鐘雪梅
中國科技縱橫 2022年20期
關鍵詞:特征提取特征文本

謝積鑒 李榮 唐青青 胡婷婷 鐘雪梅

(廣西壯族自治區科學技術情報研究所,廣西南寧 530022)

0.引言

在文獻資源的分類及存儲過程中的特征提取,是從擬處理標準文本中去找出可以全面描述文獻的內容并可以區分其他文獻的特征向量,通常由特征詞及權重構成,特征提取是文本向量空間降維的有效方法,同時特征提取可挑選出類別特征項。特征提取可分為無監督及有監督訓練方法,有監督模型是基于標注的方法進行訓練,通過分類實現特征提取,繼而采用分類模型判別詞語是否是索引詞匯,其較多見的方法又包含C4.5決策樹分類器及樸素貝葉斯分類器等[1];無監督模型通常利用文本、圖、主題及詞的使用頻率統計等模型挖掘特征詞的關系,無監督模型的代表性特征詞通過相關權重挑選出來。TFIDF算法[2]根據詞的使用頻率統計,TextRank算法[3]的特征提取是根據主題模型及圖模型。

1.啟發式特征選擇

文獻資源特征提取的過程可以分為3個步驟:(1)對原數據集執行去停用詞或分詞等預處理,獲得初始特征集T。(2)繼而對特征集合T執行權重分配,并依據權重值降序排列獲得特征集T1。(3)最終依據對應評估函數,選取獲得一個最具代表性的文本類別信息的特征子集T2。

特征子集啟發搜索策略主要包括Wrapper包裝式搜索策略及Filter過濾式搜索策略[4]。Wrapper包裝式搜索策略為了獲得特征子集是通過訓練學習實現的,Wrapper包裝式搜索策略的最大特點是依據選擇標準執行特征的選擇;Filter過濾式搜索策略依據數據信息選出與目標最相關的特征,Filter過濾式搜索策略利用了聚類功能。其為了獲得特征子集,依據差異性獲得特征區分度。最后,Filter過濾式搜索策略通過排名選出與目標最相關的特征子集。

1.1 Wrapper包裝式的屬性搜索策略

Wrapper包裝式搜索策略[5]在執行特征搜索時依賴于監督式的訓練學習,Wrapper包裝式搜索策略針對數據量較小的文獻時,處理效果比較好,因為該方法要經過監督訓練過程才可實現特征搜索。

Wrapper包裝式搜索策略的過程主要包含3個步驟:(1)為提高數據搜索模式的質量,執行預處理,獲得初步特征子集T。(2)進行訓練集的實驗。訓練學習過程依據訓練集樣本數據評判規則,建立模型。(3)在學習器上進行試驗集實驗,依據訓練集模型判別性能優劣。

Wrapper包裝式搜索策略大多情況下是依據分類器分類性能判別特征的有效性,然而,在實際應用中大多情況下是將隨機搜索策略和Wrapper包裝式搜索策略結合。在特征選擇中,Wrapper包裝式搜索策略需在分類器的訓練及驗證上花費較多時間,效率低,所以較少應用于實際,和Wrapper包裝式搜索策略對比,Filter過濾式搜索策略分類性能低,但效率高。Wrapper方法計算開銷高、效率低,因此,Wrapper多用于文獻資源分類,Filter方法多用于海量文獻資源。

1.2 Filter過濾式的屬性搜索策略

Filter過濾式搜索策略[6]是一種屬性選擇搜索策略,該搜索策略不依賴訓練集,相對獨立性強,依據評估函數,搜索出代表文獻資源的特征集合。特征集合依據評估函數不同可將Filter過濾式搜索策略的屬性選擇算法分為距離測度以及信息測度。

1.2.1 基于距離測度的特征聚類選擇算法

距離測度[7]根據特征項間距離衡量樣本相似度,該算法通過計算不同區域中特征項間的距離代表相似性。如果特征項的距離越小,則特征項越相似。如果特征項距離越大,則特征項相似性越小,可劃分性就越強。依據距離判斷文本相似度的方法眾多,包括閔可夫斯基距離、歐氏距離S階Minkowski測度等。

在文本檢索領域,特征聚類是重要研究方向之一。聚類分析[8]是進行各個對象的內部特征分析,其中,聚類分析中劃分在同組表示性質相近,劃分在不同組表示性質相差較大,它依據相似性度量,特征空間被劃分為若干簇的子集,經過分組,從而確定特征相似性。同組數據相似性大,不同組之間的相似性小,進而完成特征聚類。聚類算法的描述:(1)特征詞先經過相似度及權值計算,按順序排列。(2)執行特征聚類,簇中心在所有簇中隨機選擇。(3)將簇中心和特征項比較相似性。例如,如果特征相似性大就進行簇中心替換,否則不替換。(4)所有簇的簇中心保留下來,其他的特征項剔除,直到全部特征項對比結束。

聚類方法較多,其中,經常使用的有K均值聚類及分層聚類方法。分層聚類方法通過計算向量相似度實現聚類,相似度最大的兩類合并,直到滿足閾值條件,則聚類結束。K均值聚類方法是通過指定K值實現聚類,該方法通過聚類的個數進行特征聚類。

1.2.2 基于信息測度的特征選擇

信息測度是經常使用的屬性選擇算法,信息測度根據特征項之間的信息量衡量特征項。在特征選擇時,需要進行特征詞的重要程度量化。比如,在特征選擇時,含信息越多的特征項成為特征項的可能性越大。因此,基于信息測度的特征選擇很重要的一步是將概率和信息量的大小結合。

基于信息測度的屬性選擇算法眾多。以下對經常使用的屬性選擇算法進行分析:

(1)文檔頻率[9](DF)。DF是最容易的評估函數,表示訓練文本中包含某特征項的文本頻率,其步驟可概括為:1)設定文本頻率閾值。2)統計出所有特征詞的文本頻率值M,和設定文本頻率閾值比較。3)假設M超出閾值范圍,則剔除該特征詞。4)若M值過大,表示類別區分度較小;若M值過小,表示類別區分度較大。該方法算法容易及復雜性小,因此,實際應用中效率較高,適用于復雜數據集,該方法可以降低特征空間維數。但是,該方法不足之處是去除小于閾值的特征詞,該方法會濾掉一些文本頻率較低的特征詞。采用該方法,有些被濾掉的特征詞也許包含重要的類別信息影響到分類判別的準確性。

(2)文本頻率-逆文本頻率[10](TF-IDF),TF-IDF是Salton建立的方法,該方法主要根據文本頻率TF及逆頻率IDF進行計算,TF-IDF比較適合特征權重函數計算。TFIDF是經常使用的特征搜索方法,廣泛應用于文本分類領域,該方法在特征權重函數計算中取得的效果較好。TFIDF原理是:文章中的短語或詞多次出現,但這些短語或詞卻很少出現在其他類中,則認為該短語或詞對該文很重要,說明該詞分類能力好。TF代表某短語或詞在某文中出現的次數,即詞頻。IDF代表含某一個短語或詞文本數目的倒數,如果含某一個短語或詞的文本數目少,則該短語或詞IDF值高。IDF值越高,該短語或詞的類別區分度越高。

(3)信息增益[11](IG)。在文本中,IG評估方法給出了特征詞的信息熵差。IG計算公式如下:

式中:P(Ci)表示Ci類文本數與文本總數的比值。P(t)表示含特征詞T的文本比例。p(ci|t)表示在ci類文本中出現特征詞T的條件概率。p(ci|t)表示在ci類文本中特征詞T不出現的條件概率;n表示文本類別數。

信息熵和信息增益分別用公式(1)和公式(2)表示。IG考慮兩種情況:特征T出現及不出現。信息增益值代表某特征詞的重要性,增益值和信息越重要程度成正相關。

(4)開方校驗[12](CHI統計)。開方校驗中,x2表示統計量,表示的特征詞和文本類別之間的分布關系。x2統計量用于衡量特征和類之間獨立性。假設特征T和類是相互獨立的,則x2值為0。x2值越低,特征詞和類別的相互關聯性越小。公式如下:

A為文本中T和ci同時出現的次數。B為文本中T出現但ci不出現的次數。C表示文本中ci出現但T不出現的次數。D表示文本中ci與T都不出現的概率。N為文本總數。

在本類別及其他類別文本中,CHI統計偏向于高頻出現的特征詞,在實際應用中較為可靠,閾值穩定,不會隨著訓練集的變化而變化。但缺點是CHI統計分類效果不佳。

1.3 組合式的屬性選擇算法

組合式屬性選擇算法是將Wrapper方法及Filter方法相結合[13],其原理是:先用Filter模型初步進行特征選擇,去除冗余特征,獲得的特征子集,進而降低特征空間維度;再用Wrapper模型進一步進行特征搜索,獲得最優特征子集。

IGICA是一種兩階段屬性選擇算法[14],第一階段,先通過信息增益對特征項進行排名,第二階段,特征選擇中加入ICA。分析結果顯示,構建的方法分類能力強,優于其他算法。兩階段的屬性選擇算法,在對傳統向量空間模型進行計算的時候無需考量詞語之間的語義關系,先用潛在的語義索引,再結合新組建詞間語義空間,因此效率高。有的研究在進行文本特征搜索的時候采用潛在遺傳算法(GA)及語義索引(LSI)。VSM(向量空間模型)[15]在對特征向量進行降維中利用了LSI(朗格利爾飽和指數)。VSM(向量空間模型)結合奇異值分解,并采用遺傳算法降低了維度。因此,VSM(向量空間模型)充分發揮了二者優點,使效率得到了提升。近年來,混合改進特征選擇的方法不斷涌現,如DTFS特征選擇法,提高了郵件分類性能。DTFS特征選擇法同時了考慮文本的頻率及詞的使用頻率[16]。首先,利用ODFFS(最佳文本頻率)特征選擇法和閾值特征選擇法進行組合,選擇最佳特征。其次利用OTFFS(最優詞頻率)與閾值進行組合,選擇最佳特征。啟發式搜索策略的出現,則是組合了OTFFS及ODFFS的功能,利用樸素貝葉斯(NB)分類器及模糊支持向量機(FSVM)對語料進行分類。有部分研究針對文本證據權、信息增益、CHI統計算法中冗余信息干擾的局部性,提出CWFS算法(競爭優勝者屬性選擇算法),解決了傳統算法分類性能差及效率低的問題。

2.結論

大數據時代的到來,為海量的非結構化文獻資源處理提供了重要的技術支撐。本文針對文獻資源分類、儲存過程的特征提取處理過程,分別分析了Wrapper包裝式的屬性選擇算法、Filter過濾式的屬性選擇算法、組合式的屬性選擇算法的基本原理和各自優劣,為文獻資源特征提取處理提供了有益的參考。本文認為,可以通過約束學習、同義詞相互補充、特征權重分配的深度學習算法使得特征更具有合理性及可解釋性,提高語義信息表達的準確程度,從而優化文獻資源分類、儲存過程的特征提取處理,進而提升文獻信息檢索過程的用戶體驗。

猜你喜歡
特征提取特征文本
如何表達“特征”
在808DA上文本顯示的改善
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于MED和循環域解調的多故障特征提取
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲天堂精品视频| 黄片一区二区三区| 伊人中文网| 一区二区三区在线不卡免费| 综合色88| 欧美成人亚洲综合精品欧美激情| 无码精品国产VA在线观看DVD| 日本久久免费| 好吊妞欧美视频免费| 中文字幕资源站| 美女国产在线| 亚洲最大在线观看| 中文字幕人成乱码熟女免费| www.91在线播放| 亚洲中文久久精品无玛| 中文字幕在线一区二区在线| 蜜臀AVWWW国产天堂| 久久人搡人人玩人妻精品 | 国产浮力第一页永久地址 | 夜夜操天天摸| 看国产一级毛片| 国产无码高清视频不卡| 91成人在线观看视频| 久久精品国产电影| 欧美亚洲一区二区三区在线| 一级成人欧美一区在线观看| 国产一区二区视频在线| 久久免费观看视频| 九九视频免费看| 亚洲成人一区在线| 色成人综合| 自拍欧美亚洲| 亚洲精品成人片在线播放| 色婷婷在线播放| 亚洲精品天堂自在久久77| 国产国产人成免费视频77777| 99久久99视频| 精品久久久无码专区中文字幕| 激情影院内射美女| 国产h视频在线观看视频| 91精品亚洲| 欧美日韩成人| www.亚洲天堂| 国产小视频a在线观看| 久久伊人操| 婷五月综合| 久久99国产综合精品女同| 四虎国产精品永久在线网址| 国产一区二区三区免费| AⅤ色综合久久天堂AV色综合| 小蝌蚪亚洲精品国产| 日韩无码黄色网站| 亚洲第一黄色网| 国产精品私拍99pans大尺度| 色偷偷综合网| 狠狠综合久久| 丰满人妻一区二区三区视频| 久久精品人人做人人| 免费观看成人久久网免费观看| 波多野结衣无码视频在线观看| 日韩精品无码免费专网站| 伊人久久久久久久| 国产精品视频公开费视频| 久久精品这里只有精99品| 国产在线观看第二页| 黄网站欧美内射| 午夜日b视频| 国产在线啪| 色婷婷在线影院| 又黄又湿又爽的视频| 无码AV动漫| 久久久无码人妻精品无码| 91色爱欧美精品www| 中文字幕av一区二区三区欲色| jizz在线观看| 国产成人1024精品| 99国产精品国产| 国产情侣一区| 国产精品亚洲一区二区在线观看| 亚洲熟女中文字幕男人总站| 亚洲午夜综合网| 久久semm亚洲国产|