999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于潛在語義分析的遷移學習方法

2014-04-29 00:00:00李亞麗等
無線互聯科技 2014年4期

摘 要:遷移學習是研究如何利用大量的源領域標記數據,幫助少量標記甚至無標記的相關領域來解決特征稀疏問題的一種方法。針對遷移學習的研究大多只是從特征項表層對數據進行分析并沒有考慮到源領域與目標領域之間的語義相關性問題,提出一種基于潛在語義分析的遷移學習方法。通過實驗表明,本文算法可以較大提高分類器的精確度。

關鍵詞:遷移學習;機器學習;潛在語義分析;語義相關

1 潛在語義分析方法(LSA)

潛在語義分析是一種將文本信息組織成空間語義結構的新模型,其基本思想是假設文本中的特征項與特征項之間存在某種聯系,通過對大量的文本集進行統計分析,從中提取出特征項的上下文使用含義。

潛在語義分析的基本過程是:首先構造典型特征項—文本矩陣M,然后應用奇異值分解技術,把特征項匯和文本從高維空間降到了低維潛在語義空間。最后得到一個新的矩陣M’。潛在語義分析只取前k個最大的奇異值,而將剩余的值設為零。

2 基于潛在語義分析方法的遷移學習

2.1 數據的矩陣表示

潛在語義分析出發點是文本中的特征項與特征項之間存在某種聯系,采用統計計算的方法,對大量的文本進行分析來尋找這種潛在的語義結構。在遷移學習語義分析的實現方法中文本矩陣的元素值并不僅僅是詞頻信息以及對單個文本的貢獻度,它還體現著特征項在文本集中區別、分辨類標簽的能力。因此對特征項權重的計算方法包括文本貢獻權重和類標簽貢獻權重兩部分。最后將兩個權重相乘,得到最終特征項權重。

2.2 建立源領域與目標領域之間的橋梁

由于兩個領域間的相似性,可能存在一個低維的潛在語義空間,成為連接源領域和目標領域之間的橋梁,從而幫助完成源領域到目標領域的分類方法的遷移。

本文采用潛在語義分析方法挖掘源領域與目標領域中這一共同的低維潛在語義空間。使用奇異值分解技術,將源領域與目標領域的高維數據特征表示,映射到低維潛在語義空間中。

2.3 源領域到目標領域特征項的遷移

通過建立的低維潛在語義空間可得到文本和特征項的k維特征表示。但是在這個潛在空間中,源領域數據與目標領域數據擁有共同的特征表示,這有利于計算、分析有用的特征項,進而實現源領域中有用特征項到目標領域的遷移。從源領域篩選有用特征項主要分兩步完成。首先要消除同義詞“噪音”影響,然后從源領域中查找有用特征項。通過兩步矩陣調整,即可得到目標領域數據的新的特征表示。

2.4 算法描述(Tr_LSA)

輸入:兩個訓練數據集Ta和Tb,一個未標記的測試數據集S,一個傳統的分類器。

輸出:測試數據集S的標簽

(1)對訓練數據做去停用詞、詞干化等處理,得到特征項-文本矩陣M。(2)對矩陣M進行奇異值分解,將M中特征項與文本映射到低維潛在語義空間,建立聯系Ta與Tb之間的橋梁。(3)去除“噪音”,從Ta中找出Tb中特征項的同義詞,調整矩陣M結構;根據調整后的矩陣M,從Ta中找出遷移詞,再對矩陣M進行調整。(4)分析調整后的矩陣M,得到目標領域數據新的特征表示,利用傳統分類器,在訓練數據集中得到一個最終分類器,對測試數據集S進行分類。

由于Tr_LSA算法對特征項和文本的處理都是在低維空間中計算的,所以在一定程度上提高了算法的時間效率。

3 實驗結果與分析

3.1 數據集

本文使用20 newsgroups數據集,采用層次化的組織方式,包含7個頂級類別、20個子類別,并將其分成5組數據集。

3.2 對比算法

為了驗證基于潛在語義分析的遷移學習方法的有效性,選取了傳統文本分類器SVM和NB做對比,并使用TrAdaBoost算法與本文方法作對比。表1展示了傳統分類器和遷移學習算法在不同數據集上精確度對比,可遷移學習算法在處理不同分布數據集時,其分類性能明顯優于傳統分類器。另外,與TrAdaBoost算法相比,Tr_LSA算法也基本比TrAdaBoost算法的精度高。

表1 各種算法下實驗精確度

數據集SVMNBTrAdaBoostTr_LSA

comp vs rec0.6330.6010.8140.865

rec vs sci0.7070.6230.7850.819

sci vs talk0.6280.5990.7920.820

comp vs sci0.6930.7040.8110.841

comp vs talk0.7140.7110.7950.840

4 結論

遷移學習方法放松了對訓練數據和測試數據同分布假設的要求,利用相似領域的數據幫助目標領域數據分類。本文提出一種基于潛在語義分析的遷移學習方法,首先通過對大量數據進行統計分析,通過奇異值分解技術,對訓練數據挖掘其深層的語義含義,得到源領域與目標領域的一個低維的潛在語義空間。然后以此為橋梁,挖掘特征項與文本之間的關聯關系,去除同義詞”噪音”影響,進而從源領域中篩選出與目標領域文本關聯度較大的特征項,作為遷移詞。在大量實驗數據中表明,本算法能較大提高分類的精確度。同時本算法的可擴展性強,算法可擴展性強,當資源不斷增多,算法的時間復雜度與空間復雜度不會明顯增加。

[參考文獻]

[1]Dietterich T G,Domingos P,Getoor L,et al.Structured machine learning:the next ten years [J].Machine Learning,2008,73(1):3-23.

[2]董秀杰.基于LSA的文本分析[D].北京理工大學.2008.

[3]劉昌鈺,唐常杰,于中華,杜永萍,郭穎.基于潛在語義分析的BBS文本Bayes鑒別器[J].計算機學報,2004,27(4):566-572.

主站蜘蛛池模板: 2022国产无码在线| 精品少妇人妻无码久久| 青青久视频| 亚洲天堂在线免费| 亚洲国产成人综合精品2020| 国产美女在线免费观看| 漂亮人妻被中出中文字幕久久| 99人妻碰碰碰久久久久禁片| 在线观看免费人成视频色快速| 多人乱p欧美在线观看| 亚洲欧美成人在线视频| 亚洲黄色片免费看| 欧美日韩免费| 日本免费a视频| 97国产成人无码精品久久久| 成人久久18免费网站| 区国产精品搜索视频| 久久国产精品电影| 欧美啪啪精品| 99久久无色码中文字幕| 国产成人a在线观看视频| 中文字幕中文字字幕码一二区| 亚洲a级毛片| 中文无码精品A∨在线观看不卡| 亚洲精品卡2卡3卡4卡5卡区| 亚洲天堂网在线视频| 无码久看视频| 午夜精品影院| 亚洲视频二| 亚洲男人的天堂在线观看| 青青草一区| 亚洲精品男人天堂| 欧美无专区| 华人在线亚洲欧美精品| 国产欧美日韩综合一区在线播放| 色噜噜狠狠色综合网图区| 精品亚洲麻豆1区2区3区| 91免费观看视频| 亚洲AV电影不卡在线观看| 日韩午夜福利在线观看| 国产黄色片在线看| 亚洲国产91人成在线| 亚洲免费福利视频| 精品第一国产综合精品Aⅴ| 无码精品福利一区二区三区| 精品精品国产高清A毛片| 99福利视频导航| 国产99欧美精品久久精品久久| 亚洲 成人国产| 免费国产好深啊好涨好硬视频| 四虎永久在线精品国产免费| 亚洲综合激情另类专区| 五月婷婷综合网| 免费福利视频网站| 91亚洲免费视频| 少妇极品熟妇人妻专区视频| 婷婷亚洲视频| 久久99国产精品成人欧美| 国产午夜福利在线小视频| 女人爽到高潮免费视频大全| 精品国产香蕉在线播出| 欧美午夜小视频| 国产成人精品免费视频大全五级| 在线国产综合一区二区三区 | 亚洲欧州色色免费AV| 人人91人人澡人人妻人人爽| 91精品国产综合久久香蕉922| 欧美日本在线播放| 中文字幕日韩欧美| 少妇精品在线| 欧美一区二区三区香蕉视| 91破解版在线亚洲| 亚洲高清在线天堂精品| 99在线观看免费视频| 国产在线观看高清不卡| 精品福利视频导航| 欧美不卡视频一区发布| 国产女人在线| 女人天堂av免费| 综合人妻久久一区二区精品| 国产精品网拍在线| 波多野衣结在线精品二区|