
摘 要:遷移學習是研究如何利用大量的源領域標記數據,幫助少量標記甚至無標記的相關領域來解決特征稀疏問題的一種方法。針對遷移學習的研究大多只是從特征項表層對數據進行分析并沒有考慮到源領域與目標領域之間的語義相關性問題,提出一種基于潛在語義分析的遷移學習方法。通過實驗表明,本文算法可以較大提高分類器的精確度。
關鍵詞:遷移學習;機器學習;潛在語義分析;語義相關
1 潛在語義分析方法(LSA)
潛在語義分析是一種將文本信息組織成空間語義結構的新模型,其基本思想是假設文本中的特征項與特征項之間存在某種聯系,通過對大量的文本集進行統計分析,從中提取出特征項的上下文使用含義。
潛在語義分析的基本過程是:首先構造典型特征項—文本矩陣M,然后應用奇異值分解技術,把特征項匯和文本從高維空間降到了低維潛在語義空間。最后得到一個新的矩陣M’。潛在語義分析只取前k個最大的奇異值,而將剩余的值設為零。
2 基于潛在語義分析方法的遷移學習
2.1 數據的矩陣表示
潛在語義分析出發點是文本中的特征項與特征項之間存在某種聯系,采用統計計算的方法,對大量的文本進行分析來尋找這種潛在的語義結構。在遷移學習語義分析的實現方法中文本矩陣的元素值并不僅僅是詞頻信息以及對單個文本的貢獻度,它還體現著特征項在文本集中區別、分辨類標簽的能力。因此對特征項權重的計算方法包括文本貢獻權重和類標簽貢獻權重兩部分。最后將兩個權重相乘,得到最終特征項權重。
2.2 建立源領域與目標領域之間的橋梁
由于兩個領域間的相似性,可能存在一個低維的潛在語義空間,成為連接源領域和目標領域之間的橋梁,從而幫助完成源領域到目標領域的分類方法的遷移。
本文采用潛在語義分析方法挖掘源領域與目標領域中這一共同的低維潛在語義空間。使用奇異值分解技術,將源領域與目標領域的高維數據特征表示,映射到低維潛在語義空間中。
2.3 源領域到目標領域特征項的遷移
通過建立的低維潛在語義空間可得到文本和特征項的k維特征表示。但是在這個潛在空間中,源領域數據與目標領域數據擁有共同的特征表示,這有利于計算、分析有用的特征項,進而實現源領域中有用特征項到目標領域的遷移。從源領域篩選有用特征項主要分兩步完成。首先要消除同義詞“噪音”影響,然后從源領域中查找有用特征項。通過兩步矩陣調整,即可得到目標領域數據的新的特征表示。
2.4 算法描述(Tr_LSA)
輸入:兩個訓練數據集Ta和Tb,一個未標記的測試數據集S,一個傳統的分類器。
輸出:測試數據集S的標簽
(1)對訓練數據做去停用詞、詞干化等處理,得到特征項-文本矩陣M。(2)對矩陣M進行奇異值分解,將M中特征項與文本映射到低維潛在語義空間,建立聯系Ta與Tb之間的橋梁。(3)去除“噪音”,從Ta中找出Tb中特征項的同義詞,調整矩陣M結構;根據調整后的矩陣M,從Ta中找出遷移詞,再對矩陣M進行調整。(4)分析調整后的矩陣M,得到目標領域數據新的特征表示,利用傳統分類器,在訓練數據集中得到一個最終分類器,對測試數據集S進行分類。
由于Tr_LSA算法對特征項和文本的處理都是在低維空間中計算的,所以在一定程度上提高了算法的時間效率。
3 實驗結果與分析
3.1 數據集
本文使用20 newsgroups數據集,采用層次化的組織方式,包含7個頂級類別、20個子類別,并將其分成5組數據集。
3.2 對比算法
為了驗證基于潛在語義分析的遷移學習方法的有效性,選取了傳統文本分類器SVM和NB做對比,并使用TrAdaBoost算法與本文方法作對比。表1展示了傳統分類器和遷移學習算法在不同數據集上精確度對比,可遷移學習算法在處理不同分布數據集時,其分類性能明顯優于傳統分類器。另外,與TrAdaBoost算法相比,Tr_LSA算法也基本比TrAdaBoost算法的精度高。
表1 各種算法下實驗精確度
數據集SVMNBTrAdaBoostTr_LSA
comp vs rec0.6330.6010.8140.865
rec vs sci0.7070.6230.7850.819
sci vs talk0.6280.5990.7920.820
comp vs sci0.6930.7040.8110.841
comp vs talk0.7140.7110.7950.840
4 結論
遷移學習方法放松了對訓練數據和測試數據同分布假設的要求,利用相似領域的數據幫助目標領域數據分類。本文提出一種基于潛在語義分析的遷移學習方法,首先通過對大量數據進行統計分析,通過奇異值分解技術,對訓練數據挖掘其深層的語義含義,得到源領域與目標領域的一個低維的潛在語義空間。然后以此為橋梁,挖掘特征項與文本之間的關聯關系,去除同義詞”噪音”影響,進而從源領域中篩選出與目標領域文本關聯度較大的特征項,作為遷移詞。在大量實驗數據中表明,本算法能較大提高分類的精確度。同時本算法的可擴展性強,算法可擴展性強,當資源不斷增多,算法的時間復雜度與空間復雜度不會明顯增加。
[參考文獻]
[1]Dietterich T G,Domingos P,Getoor L,et al.Structured machine learning:the next ten years [J].Machine Learning,2008,73(1):3-23.
[2]董秀杰.基于LSA的文本分析[D].北京理工大學.2008.
[3]劉昌鈺,唐常杰,于中華,杜永萍,郭穎.基于潛在語義分析的BBS文本Bayes鑒別器[J].計算機學報,2004,27(4):566-572.