999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于信息增益的中醫體質多標記分類方法研究

2019-06-30 02:00:27呂慶莉
中國中醫藥信息雜志 2019年6期

呂慶莉

摘要:目的? 為降低中醫體質傳統分類方法主觀性誤差,兼顧兼夾體質,提出基于信息增益的中醫體質多標記分類方法。方法? 采用多標記方法進行中醫體質分類。為解決多標記分類方法中不同特征對分類標簽的影響不同的問題,通過體質分類數據計算各特征項的信息增益,計算體質分類特征對分類標簽的權重,進而通過加權的多標簽分類器,得出體質數據多標記分類。結果? 與傳統判別分析法相比,基于信息增益的多標記分類方法在1-錯誤率(16.33%)、漢明損失(15.44%)、平均準確率(82.61%)方面均有一定優勢。結論? 基于信息增益的多標記分類方法在保證準確率同時可兼顧兼夾體質,實現對體質特征差異性及趨同性的更好描述。

關鍵詞:中醫體質分類;信息增益;多標記分類

中圖分類號:R2-05;R229??? 文獻標識碼:A??? 文章編號:1005-5304(2019)06-0097-04

Abstract: Objective To propose a multi-label classification method of TCM constitutions based on information gain; To reduce the subjective error of traditional classification methods of TCM constitutions and take into account the combination of constitutions. Methods The multi-label method was used to classify TCM constitutions. In order to solve the problem that different features of multi-label classification method had different influence on the classification label, the information gain of each feature item was calculated by the physique classification data, and the weight of classification features were calculated. Then multi-label classification of physique data was obtained by weighted multi-label classifier. Results Compared with the traditional discriminant analysis method, the multi-label classification method based on information gain had certain advantages in 1-error rate (16.33%), hamming loss (15.44%), and average accuracy (82.61%). Conclusion The multi-label classification method based on information gain can ensure the accuracy. Taking into account the combination of constitutions can realize the better description of the difference in constitution characteristics and convergence.

Keywords: TCM constitutions; information gain; multi-label classification

中醫體質學以體質特征為研究主體,以體質調節為目的,是中醫基礎理論的重要組成部分。目前,機器學習、復雜網絡等大數據相關技術在中醫體質相關研究中應用范圍仍相對局限。目前體質分類多采用《中醫體質分類與判定自測表》(以下簡稱“自測表”),基于專家經驗的判別分析法(DA)進行。自測表通過分值表示各條目與體征描述的符合程度,但該判定過度依賴于被調查者的主觀,且受專家認知等影響,分類結果存在一定誤差;同一體質分類中各指標小項權重無區分,而預實驗發現部分小項對體質判定具有更好的分類貢獻;無權重數據容易稀釋特征值,導致兼夾體質的缺失[1];此外,該方法無法滿足大數據時代海量醫療數據的處理需求。

因此,為解決實驗樣本量與質的矛盾,降低實驗分類結果的人為誤差,為后續病體相關性研究提供分類依據,本研究從中醫體質的內涵出發,提出一種基于信息增益的中醫體質多標記分類方法,通過信息增益定義不同特征對分類標簽的貢獻,作為多標記分類器中相似性的權重,通過計算加權的余弦相似度的K近鄰算法,得出體質數據的多標記分類。

1? 信息增益

2? 多標記學習

標記學習旨在通過抽象待分類對象的特征空間與類別標記間的函數表示,實現待分類對象到類別的映射[5],即從{()|1≤i≤N}中習得f∶x→y,其中為待分類對象的特征向量集合,yi∈Y為xi屬于類別集合中類別li的標記,即xi屬于類別li,為類別集合。

3? 基于信息增益的多標記分類方法

傳統的多標簽學習方法忽略了不同特征間對標簽分類貢獻的區別,且文本的特征表示限制了文本分類性能的提升[10-11]。為解決該問題,通過加權的方式實現特征項與各分類標簽間相關性的描述,突出特定特征對分類的重要性,提出基于信息增益的多標簽分類方法(TMLKNN)。加權后的(4)式表示為:

在中醫體質分類研究中,一般根據體質分類與判定自測表獲取受訪者的測試數據,該自測表共分為陽虛質、陰虛質、氣虛質、痰濕質、濕熱質、血瘀質、特稟質、氣郁質及平和質9個亞量表,采用5級評分法衡量受訪者具有該特征指標的程度。為與傳統自測表做更好的對照,本研究未對自測表中相似問題做合并和歸一,即以傳統自測表為基礎,將自測表中9個體質類別的問題(每個體質類別判定包含6~8個自測問題)作為對應文本的特征項,將1~5的評分結果作為每個特征項在該文本中的取值,轉換為8×9的數值矩陣(其中,0表示該體質分類在該項無特征,即該體質在該處無自測問題)作為后續實驗處理的測試樣本。以1份男性受訪者的自測表數據為例,整理得到自測文本,見表1。

4? 實驗結果

4.1? 數據特征

實驗采用514份自測數據,其中400份作為訓練樣本,114份作為測試樣本。樣本數據年齡與性別分布見表2。

4.2? 信息增益結果

經計算,自測表中各特征項的信息增益見表4。

5? 小結

中醫體質作為個體機能的載體及健康程度的表征,揭示病癥病理具有一定的臨床意義,已成為中醫學的研究熱點。為解決傳統方法在中醫體質研究中的問題,本研究以體質研究的基礎分類為例,提出一種基于信息增益的中醫體質多標記分類方法,通過信息增益計算體質分類特征對分類標簽的權重,進而通過加權的多標簽分類器,得出體質數據的多標記分類。實驗結果表明,與傳統的分類方法DA相比,該方法在保證準確率同時,可有效兼顧兼夾體質,實現對體質特征差異性及趨同性的更好描述。

參考文獻:

[1] 危凌云,李燦東,黃文金,等.中醫體質類型分布及兼雜規律研究[J].山東中醫藥大學學報,2016,40(2):102-104.

[2] 彭長根,丁紅發,朱義杰,等.隱私保護的信息熵模型及其度量方法[J].軟件學報,2016,27(8):1891-1903.

[3] 李學明,李海瑞,薛亮,等.基于信息增益與信息熵的TFIDF算法[J].計算機工程,2012,38(8):37-40.

[4] 陳科文,張祖平,龍軍.文本分類中基于熵的詞權重計算方法研究[J].計算機科學與探索,2016,10(9):1299-1309.

[5] ZHANG M L, ZHOU Z H. ML-KNN:A lazy learning approach to multi- label learning[J]. Pattern Recognition,2007,40(7):2038-2048.

[6] 廣凱,潘金貴.一種基于向量夾角的k近鄰多標記文本分類算法[J].計算機科學,2008,35(4):205-206.

[7] 張順,張化祥.用于多標記學習的K近鄰改進算法[J].計算機應用研究,2011,28(12):4445-4446.

[8] GUO G, WANG H, BELL D, et al. KNN model-based approach in classification[C]//OTM Confederated International Conferences on the Move To Meaningful Internet Systems. Berlin, Heidelberg:Springer, 2003:986-996.

[9] 李峰,苗奪謙,張志飛,等.基于互信息的粒化特征加權多標簽學習k近鄰算法[J].計算機研究與發展,2017,54(5):1024-1035.

[10] 潘主強,張林,張磊,等.中醫臨床疾病數據多標記分類方法研究[J].計算機科學與探索,2017,12(8):1295-1304.

[11] 郝春風,王忠民.一種用于大規模文本分類的特征表示方法[J].計算機工程與應用,2007,43(15):170-172.

[12] 馮雪東.基于一對一分解的多標簽分類算法研究[D].南京:南京師范大學,2013.

[13] 龔靜,黃欣陽.基于隱性語義索引的多標簽文本分類集成方法[J].計算機工程與設計,2017,38(9):2556-2561.

(收稿日期:2018-06-10)

(修回日期:2018-07-14;編輯:向宇雁)

主站蜘蛛池模板: 亚洲综合色区在线播放2019| 国产成人超碰无码| 亚洲an第二区国产精品| 日韩毛片视频| 热re99久久精品国99热| 久久五月视频| 操国产美女| 国产SUV精品一区二区6| 日韩成人免费网站| 亚洲成人高清无码| 亚洲动漫h| 日韩在线2020专区| 中文字幕乱码二三区免费| 国产幂在线无码精品| 亚洲第一极品精品无码| 中文国产成人精品久久| 国内精品视频在线| 亚洲午夜福利精品无码| 在线视频亚洲欧美| 九九热在线视频| 一级一级一片免费| 日本AⅤ精品一区二区三区日| 久久a毛片| 一本久道久久综合多人| 丁香婷婷激情综合激情| 国产区免费精品视频| 九九九久久国产精品| 77777亚洲午夜久久多人| 亚洲第一视频网| 久久综合九色综合97网| 久久久久久高潮白浆| 亚洲成人手机在线| 自偷自拍三级全三级视频| 亚洲精品天堂自在久久77| 亚洲欧美成人影院| 国产成人1024精品| 日本久久久久久免费网络| 爱做久久久久久| 久久中文字幕不卡一二区| 国产99热| 国产h视频在线观看视频| 国产一级毛片高清完整视频版| 欧美亚洲一二三区| 麻豆AV网站免费进入| 激情综合五月网| 国产一区二区三区日韩精品| 久久国产精品影院| 日韩a级片视频| 欧美性猛交一区二区三区| 国产91麻豆免费观看| 精品国产一区91在线| 久久国产免费观看| 久久综合九九亚洲一区| 国产一二三区视频| 91人妻日韩人妻无码专区精品| 狠狠色婷婷丁香综合久久韩国 | 国产美女在线观看| 亚洲 欧美 日韩综合一区| 综合五月天网| 久久久久国产精品熟女影院| 永久免费AⅤ无码网站在线观看| 99精品国产自在现线观看| 亚洲不卡网| 97国产在线视频| 午夜限制老子影院888| 波多野结衣无码AV在线| 激情综合五月网| av大片在线无码免费| 亚洲成网777777国产精品| 久久99国产精品成人欧美| 国产亚洲精品精品精品| 国产在线观看一区精品| 欧美一级一级做性视频| 国产无人区一区二区三区| 成人在线亚洲| 国产一区二区丝袜高跟鞋| 天天做天天爱天天爽综合区| 亚洲国产91人成在线| www.国产福利| 亚洲V日韩V无码一区二区| 亚洲欧洲免费视频| 成AV人片一区二区三区久久|