999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多特征選擇的聚類方法研究

2017-09-07 11:49:02馬元元
數字技術與應用 2017年5期

馬元元

摘要:特征選擇是數據挖掘和機器學習領域中聚類分析的一種常用分析處理方式,目前已廣泛運用于文本資源分類和數據集的聚類中,在未被標記的資源集處理環境中,讓計算機自己學習使用一些特征相關度量的選擇方法。總結了一種基于多特征選擇算法的聚類方法(MFSC),在資源集中,對多特征進行聚類特征方法選擇、分類,將關系相關性較強的劃分為同類簇群,再依次從每個簇群中輪詢特征代表性較強的歸為一類集合,最終達到去除弱依賴特征和特征冗余的結果。實驗證明MFSC特征集約效果較高、性能較穩定。

關鍵詞:特征選擇;多特征;聚類;MFSC

中圖分類號:TP301 文獻標識碼:A 文章編號:1007-9416(2017)05-0139-03

Clustering Research Based on Multiple Feature Selection

Ma Yuanyuan

(Information Engineering School, Zhongshan Polytechnic, Zhongshan Guangdong 528404)

Abstract:feature selection is the clustering analysis of data mining and machine learning in the field of a common analysis method, has been widely used in text classification and clustering of resource data sets, in the unlabeled set of resources processing environment, let the computer choose their own learning methods using some characteristics related to measure. To explore and summarize a multiple feature selection algorithm (MFSC) feature selection and clustering method, which use the characteristic interval intermediate key single feature clustering, clustering method which features the concentration of resources in the feature selection classification, divides the relationship is strong for the same cluster, then from each cluster in the polling feature representative is classified as a class set, to remove the weak dependence and feature redundancy results. Experimental results show that the MFSC feature is highly effective and stable.

Key Words:Feature selection;Multi feature;Clustering;MFSC

1 引言

近年來,隨著大數據、云計算、人工智能等前沿技術的廣泛應用,互聯網龐大的信息的處理和使用,成為了廣大業內學者研究的重要課題之一。這類課題研究都產生于標記資源集的數據處理中,對未知或者說未標記的資源集的處理研究則顯得相對薄弱。其原因是因為:(1)未標記資源集特征選擇是基于計算機自我學習和自我提升處理能力的;(2)未標記資源集特征選擇是利用上下文(一組帶屬性的有序序列),進行自我對象認知和激活的過程,要求是自動服務,如同步數據到資源庫、實時激活、事物的再處理的過程中充滿了許多不確定性,獲取的結果也難以驗證和解釋。本文對多特征選擇聚類算法(Multiple feature selection clustering algorithm)進行研究,以降低特征空間維數、提升聚類的效果[1]。

2 文本分類的相關技術

聚類在web文本數據的歸類中作為一種手段,利用的是計算機的自我分析和聚合。例如兩個職員對音樂有興趣,一個喜歡哲學,一個喜歡運動。這些數據并沒有被預先計算好,它們是實時的從匹配查詢語句的文檔中動態計算生成的。首先將文本中挖掘的數據集分成若干個數據簇,要求有較強的依賴和相關性,而不同的數據簇相關性盡可能的小,然后對文本進行聚類分析后的分類信息可作為對用戶行為相似度的分析[2]。

通常對文本數據采用向量空間標記來進行聚類描述。在這一設計模型中,每一單詞都作為特征空間中的一維坐標系,而每一文本的數據簇作為一個向量。這種分析方法雖然簡單和直接,但是在多維稀疏矩陣文本聚類中,效率和性能卻很難讓人滿意。

為了解決上述問題,我們通過特征選擇來進行分級匯總進行特征值的降序排序,根據標記和未標記資源集的特征選擇進行分類。比如,在對文檔的聚類中,文檔歸屬于一種類型(type),而這些聚類分析后的類型存在于索引(index)中,我們對其中的字段(fields)進行搜索,步驟如下所示:

Relational DB -> Databases -> Tables -> Rows -> ColumnsSearch -> Indices -> Types -> Documents -> Fields

3 特征選擇聚類算法研究endprint

在未標記的數據集中,數據的特征并不是孤立表現的,而是相關聯的表現相似特征,這就構成了多特征的集。針對這些在區分類別時存在的冗余現象,本文提出了基于上下文多特征選擇的聚類算法。主要思想是根據數據集表現的特征的相似度,對相似屬性類的特征進行聚類匯總,然后在每個簇群中選擇一個特征作為主鍵,簇群中的其他特征從候選特征集中標記為外鍵或對依賴性弱的進行剔除,這樣保證特征集的相對獨立性、降低高冗余度,進而對剩余的特征進行信息篩選后特征歸類。

3.1 特征區間的選擇

我們以web文本為例,對于DocType類型的文本中的每一特征作為一類的特征區間。如文檔內容、URI和web的訪問日志,對于文檔內容和URI我們可以用向量區間模型表示,通過對語義的劃分表示權值。但對于用戶訪問過的log信息,如果沒有定義信息來源類別,將得不到任何關于詞分類的信息。因此引入了一種從開發到用戶使用之間的關系向量。

假設日志信息包含了m個上下文樣本記錄和n個查詢特征,特征集F可表示為:

F=,(1≤K≤n).K指的是特征集,F進行聚類時被劃分了K個不同的特征簇。

對于特征選擇后的聚類,不確定性是特征評價的指標,它也是針對計算機信息增減變化的度量指標和依賴程度,可以理解為數據簇之間共同相似的信息含量。如果用ω表示web頁面的上下文本記錄,j表示查詢次的訪問過的頁面,表示特征向量的空間。

V(ω) =

則可以利使用以上公式計算每個web頁面的特征向量空間,對每個特征區間進行聚類匯總了。

3.2 多特征選擇聚類算法(MFSC)

在聚類的選擇特征中,對特征類型的分類是一個反復進行的過程,首先對探測到的未標記的數據集進行相關度計算并形成類別區間,基于多特征選擇聚類的算法,會在此基礎上進行降序特征排序,然后通過聚類算法在不同的子空間中檢索數據簇,確定標記主鍵,然后形成特征子集的特征簇群。其處理過程如圖1所示。

在實際的應用中,多特征選擇聚類算法充分利用文本的多特征特性,為特征類的聚集確定主鍵,并進行分離出具有代表性的特征子集,這樣在得到不同類別的類集后,在各個類集上進行特征選擇并利用合并函數得到結果集。設M表示每個特征區間的數據集,代表一維的特征向量,代表聚類選擇的第i個特征區間,CF代表合并的函數。那么算法程序的偽代碼可以表示為:

for (n iterations of clustering) {

for (M feature character) {

Do clustering in feature char m

}

for (M feature character) {

for feature character m, do feature index using results in all freature character;

then

to combined score

f(x) = Voting(value())

}

}

其中,在程序代碼的實現中利用到的算法,可以具體表示為:

Voting(value)

= (1)

公式(1)中,value可以用3.1節中標記資源集的特征選擇聚集函數公式來計算,st是特征選擇的閥值,可以通過以往統計的數據推出設定值。從算法中,我們可以發現基于上下文進行多特征選擇的聚類方法在聚類時是利用主鍵的方式進行表示,采用分類別的簇間的不同性選擇特征子集。在每一次特征集簇群選擇后,聚類都會重新降序排列匯總,得到一組高聚類的特征子集。

3.3 實驗結果比較

對于特征選擇算法的評估,我應考慮到:(1)特征分類所獲的結果相同時,子集的區間距離越短,其性能越優;(2)在大數據集測試時,特征分類的越穩定,其算法越好。

表1和表2分別對比了Raw(特征全集)、TS、FCBF、FSFC、MFSC等算法,在K-Means和Nave bayes分類器的分類結果,并由實驗結果可以看出:(1)MFSC算法結果正態分布的穩定性;(2)MFSC在未標記數據集上的分類用時是高于其他特征方法的,其原因在于多特征的選擇的分量,類區間內距離分量相比其他更小。(3)MFSC在數據集上的分類上,由于特征選擇的子集區間分量較小,準確率相比其他更高和錯誤率更低[3]。

4 結論

本文提出一種在未被標記的資源集處理環境中,讓計算機自己學習使用多特征相關的選擇聚類的方法——MFSC。使用這一算法將有無標記或有無監督的特征選方法成功的運用到了聚類分析,利用了上下文的多種相似特征進行主成分分析,確立主鍵和區間內距離,并對子區間也進行了特征值降序排列,從而達到較為理想的效果。

參考文獻

[1]樊東輝.基于文本聚類的特征選擇算法研究[D].西北師范大學,2012.

[2]樊東輝,王治和,陳建華,許虎寅.基于DF算法改進的文本聚類特征選擇算法[J].甘肅聯合大學學報(自然科學版),2012(1):51-54.

[3]徐峻嶺,周毓明,陳林,徐寶文.基于互信息的無監督特征選擇[J].計算機研究與發展,2012(2):372-382.endprint

主站蜘蛛池模板: 欧美亚洲日韩中文| 国产超碰一区二区三区| 72种姿势欧美久久久久大黄蕉| jizz在线观看| 毛片卡一卡二| 国产成人调教在线视频| 久久中文无码精品| 国产乱肥老妇精品视频| 色噜噜在线观看| 少妇精品久久久一区二区三区| 一区二区日韩国产精久久| 伦精品一区二区三区视频| 成人午夜天| 午夜精品久久久久久久99热下载| 欧美成人日韩| 国内精品九九久久久精品| 91青草视频| 露脸国产精品自产在线播| av性天堂网| 国产午夜无码专区喷水| 日本AⅤ精品一区二区三区日| 欧美日韩中文字幕在线| 日本精品影院| 波多野结衣中文字幕久久| av一区二区三区在线观看 | 国产真实乱了在线播放| 精品国产美女福到在线不卡f| 久久天天躁狠狠躁夜夜2020一| 亚洲一区波多野结衣二区三区| 嫩草国产在线| 久久激情影院| 色婷婷狠狠干| 久久国产精品波多野结衣| 欧美日韩资源| 成人国产一区二区三区| 精品撒尿视频一区二区三区| 国产成人高清精品免费软件| 国内精自视频品线一二区| 黄色网页在线播放| 四虎精品免费久久| 亚洲国产AV无码综合原创| 高清不卡一区二区三区香蕉| 国产一级小视频| 国产精品福利尤物youwu| 91麻豆精品国产91久久久久| 久久不卡国产精品无码| 91福利国产成人精品导航| 强奷白丝美女在线观看| 国产免费羞羞视频| 四虎影视库国产精品一区| 久久久久国色AV免费观看性色| 日韩AV无码一区| 久久综合一个色综合网| 中国黄色一级视频| 亚洲最猛黑人xxxx黑人猛交| 亚洲妓女综合网995久久 | 成人年鲁鲁在线观看视频| a色毛片免费视频| 中文字幕在线播放不卡| 欧美亚洲国产精品第一页| 伊人福利视频| 午夜国产大片免费观看| a毛片在线播放| 中文字幕人妻av一区二区| 91人人妻人人做人人爽男同| 国产免费黄| 亚洲视频黄| 伊人成人在线视频| 日韩午夜伦| 国产精品妖精视频| www.youjizz.com久久| 亚洲精品不卡午夜精品| 日日拍夜夜嗷嗷叫国产| 色综合久久88色综合天天提莫 | 久久黄色视频影| 女人18一级毛片免费观看| 无码精品福利一区二区三区| 欧美69视频在线| 91福利免费视频| 乱人伦视频中文字幕在线| AV色爱天堂网| 免费a在线观看播放|