馬元元



摘要:特征選擇是數據挖掘和機器學習領域中聚類分析的一種常用分析處理方式,目前已廣泛運用于文本資源分類和數據集的聚類中,在未被標記的資源集處理環境中,讓計算機自己學習使用一些特征相關度量的選擇方法。總結了一種基于多特征選擇算法的聚類方法(MFSC),在資源集中,對多特征進行聚類特征方法選擇、分類,將關系相關性較強的劃分為同類簇群,再依次從每個簇群中輪詢特征代表性較強的歸為一類集合,最終達到去除弱依賴特征和特征冗余的結果。實驗證明MFSC特征集約效果較高、性能較穩定。
關鍵詞:特征選擇;多特征;聚類;MFSC
中圖分類號:TP301 文獻標識碼:A 文章編號:1007-9416(2017)05-0139-03
Clustering Research Based on Multiple Feature Selection
Ma Yuanyuan
(Information Engineering School, Zhongshan Polytechnic, Zhongshan Guangdong 528404)
Abstract:feature selection is the clustering analysis of data mining and machine learning in the field of a common analysis method, has been widely used in text classification and clustering of resource data sets, in the unlabeled set of resources processing environment, let the computer choose their own learning methods using some characteristics related to measure. To explore and summarize a multiple feature selection algorithm (MFSC) feature selection and clustering method, which use the characteristic interval intermediate key single feature clustering, clustering method which features the concentration of resources in the feature selection classification, divides the relationship is strong for the same cluster, then from each cluster in the polling feature representative is classified as a class set, to remove the weak dependence and feature redundancy results. Experimental results show that the MFSC feature is highly effective and stable.
Key Words:Feature selection;Multi feature;Clustering;MFSC
1 引言
近年來,隨著大數據、云計算、人工智能等前沿技術的廣泛應用,互聯網龐大的信息的處理和使用,成為了廣大業內學者研究的重要課題之一。這類課題研究都產生于標記資源集的數據處理中,對未知或者說未標記的資源集的處理研究則顯得相對薄弱。其原因是因為:(1)未標記資源集特征選擇是基于計算機自我學習和自我提升處理能力的;(2)未標記資源集特征選擇是利用上下文(一組帶屬性的有序序列),進行自我對象認知和激活的過程,要求是自動服務,如同步數據到資源庫、實時激活、事物的再處理的過程中充滿了許多不確定性,獲取的結果也難以驗證和解釋。本文對多特征選擇聚類算法(Multiple feature selection clustering algorithm)進行研究,以降低特征空間維數、提升聚類的效果[1]。
2 文本分類的相關技術
聚類在web文本數據的歸類中作為一種手段,利用的是計算機的自我分析和聚合。例如兩個職員對音樂有興趣,一個喜歡哲學,一個喜歡運動。這些數據并沒有被預先計算好,它們是實時的從匹配查詢語句的文檔中動態計算生成的。首先將文本中挖掘的數據集分成若干個數據簇,要求有較強的依賴和相關性,而不同的數據簇相關性盡可能的小,然后對文本進行聚類分析后的分類信息可作為對用戶行為相似度的分析[2]。
通常對文本數據采用向量空間標記來進行聚類描述。在這一設計模型中,每一單詞都作為特征空間中的一維坐標系,而每一文本的數據簇作為一個向量。這種分析方法雖然簡單和直接,但是在多維稀疏矩陣文本聚類中,效率和性能卻很難讓人滿意。
為了解決上述問題,我們通過特征選擇來進行分級匯總進行特征值的降序排序,根據標記和未標記資源集的特征選擇進行分類。比如,在對文檔的聚類中,文檔歸屬于一種類型(type),而這些聚類分析后的類型存在于索引(index)中,我們對其中的字段(fields)進行搜索,步驟如下所示:
Relational DB -> Databases -> Tables -> Rows -> ColumnsSearch -> Indices -> Types -> Documents -> Fields
3 特征選擇聚類算法研究endprint
在未標記的數據集中,數據的特征并不是孤立表現的,而是相關聯的表現相似特征,這就構成了多特征的集。針對這些在區分類別時存在的冗余現象,本文提出了基于上下文多特征選擇的聚類算法。主要思想是根據數據集表現的特征的相似度,對相似屬性類的特征進行聚類匯總,然后在每個簇群中選擇一個特征作為主鍵,簇群中的其他特征從候選特征集中標記為外鍵或對依賴性弱的進行剔除,這樣保證特征集的相對獨立性、降低高冗余度,進而對剩余的特征進行信息篩選后特征歸類。
3.1 特征區間的選擇
我們以web文本為例,對于DocType類型的文本中的每一特征作為一類的特征區間。如文檔內容、URI和web的訪問日志,對于文檔內容和URI我們可以用向量區間模型表示,通過對語義的劃分表示權值。但對于用戶訪問過的log信息,如果沒有定義信息來源類別,將得不到任何關于詞分類的信息。因此引入了一種從開發到用戶使用之間的關系向量。
假設日志信息包含了m個上下文樣本記錄和n個查詢特征,特征集F可表示為:
F=,(1≤K≤n).K指的是特征集,F進行聚類時被劃分了K個不同的特征簇。
對于特征選擇后的聚類,不確定性是特征評價的指標,它也是針對計算機信息增減變化的度量指標和依賴程度,可以理解為數據簇之間共同相似的信息含量。如果用ω表示web頁面的上下文本記錄,j表示查詢次的訪問過的頁面,表示特征向量的空間。
V(ω) =
則可以利使用以上公式計算每個web頁面的特征向量空間,對每個特征區間進行聚類匯總了。
3.2 多特征選擇聚類算法(MFSC)
在聚類的選擇特征中,對特征類型的分類是一個反復進行的過程,首先對探測到的未標記的數據集進行相關度計算并形成類別區間,基于多特征選擇聚類的算法,會在此基礎上進行降序特征排序,然后通過聚類算法在不同的子空間中檢索數據簇,確定標記主鍵,然后形成特征子集的特征簇群。其處理過程如圖1所示。
在實際的應用中,多特征選擇聚類算法充分利用文本的多特征特性,為特征類的聚集確定主鍵,并進行分離出具有代表性的特征子集,這樣在得到不同類別的類集后,在各個類集上進行特征選擇并利用合并函數得到結果集。設M表示每個特征區間的數據集,代表一維的特征向量,代表聚類選擇的第i個特征區間,CF代表合并的函數。那么算法程序的偽代碼可以表示為:
for (n iterations of clustering) {
for (M feature character) {
Do clustering in feature char m
}
for (M feature character) {
for feature character m, do feature index using results in all freature character;
then
to combined score
f(x) = Voting(value())
}
}
其中,在程序代碼的實現中利用到的算法,可以具體表示為:
Voting(value)
= (1)
公式(1)中,value可以用3.1節中標記資源集的特征選擇聚集函數公式來計算,st是特征選擇的閥值,可以通過以往統計的數據推出設定值。從算法中,我們可以發現基于上下文進行多特征選擇的聚類方法在聚類時是利用主鍵的方式進行表示,采用分類別的簇間的不同性選擇特征子集。在每一次特征集簇群選擇后,聚類都會重新降序排列匯總,得到一組高聚類的特征子集。
3.3 實驗結果比較
對于特征選擇算法的評估,我應考慮到:(1)特征分類所獲的結果相同時,子集的區間距離越短,其性能越優;(2)在大數據集測試時,特征分類的越穩定,其算法越好。
表1和表2分別對比了Raw(特征全集)、TS、FCBF、FSFC、MFSC等算法,在K-Means和Nave bayes分類器的分類結果,并由實驗結果可以看出:(1)MFSC算法結果正態分布的穩定性;(2)MFSC在未標記數據集上的分類用時是高于其他特征方法的,其原因在于多特征的選擇的分量,類區間內距離分量相比其他更小。(3)MFSC在數據集上的分類上,由于特征選擇的子集區間分量較小,準確率相比其他更高和錯誤率更低[3]。
4 結論
本文提出一種在未被標記的資源集處理環境中,讓計算機自己學習使用多特征相關的選擇聚類的方法——MFSC。使用這一算法將有無標記或有無監督的特征選方法成功的運用到了聚類分析,利用了上下文的多種相似特征進行主成分分析,確立主鍵和區間內距離,并對子區間也進行了特征值降序排列,從而達到較為理想的效果。
參考文獻
[1]樊東輝.基于文本聚類的特征選擇算法研究[D].西北師范大學,2012.
[2]樊東輝,王治和,陳建華,許虎寅.基于DF算法改進的文本聚類特征選擇算法[J].甘肅聯合大學學報(自然科學版),2012(1):51-54.
[3]徐峻嶺,周毓明,陳林,徐寶文.基于互信息的無監督特征選擇[J].計算機研究與發展,2012(2):372-382.endprint