摘要:針對局部線性嵌入算法(LLE)應用于非監(jiān)督機器學習中的缺陷,將該算法與半監(jiān)督思想相結合,提出了一種基于半監(jiān)督局部線性嵌入算法的文本分類方法。通過使用文本數(shù)據(jù)的流形結構和少量的標簽樣本,將LLE中的距離矩陣采用分段形式進行調整;使用調整后的矩陣進行線性重建從而實現(xiàn)數(shù)據(jù)降維;針對半監(jiān)督LLE中使用歐氏距離的缺點,采用高斯核函數(shù)將歐氏距離進行變換,并用新的核距離取代歐氏距離,提出了基于核的半監(jiān)督局部線性嵌入算法;最后通過仿真實驗驗證了改進算法的有效性。
關鍵詞:局部線性嵌入算法;半監(jiān)督學習;流形學習;文本分類;核函數(shù)
中圖分類號:TP311文獻標志碼:A
文章編號:1001-3695(2010)01-0064-04
doi:10.3969/j.issn.10013695.2010.01.018