999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分類詞典的文本相似性度量方法

2017-12-22 09:08:26李海林鄒金串
智能系統學報 2017年4期
關鍵詞:提取分類

李海林,鄒金串

(1.華僑大學 信息管理系,福建 泉州 362021; 2.華僑大學 現代應用統計與大數據研究中心,福建 廈門 361021)

基于分類詞典的文本相似性度量方法

李海林1,鄒金串2

(1.華僑大學 信息管理系,福建 泉州 362021; 2.華僑大學 現代應用統計與大數據研究中心,福建 廈門 361021)

針對現有基于語義知識規則分析的文本相似性度量方法存在時間復雜度高的局限性,提出基于分類詞典的文本相似性度量方法。利用漢語詞法分析系統ICTCLAS對文本分詞,運用TF×IDF方法提取文本關鍵詞,遍歷分類詞典獲取關鍵詞編碼,通過計算文本關鍵詞編碼的近似性來衡量原始文本之間的相似度。選取基于語義知識規則和基于統計兩個類別的相似性度量方法作為對比方法,通過傳統聚類與KNN分類分別對相似性度量方法進行效果驗證。數值實驗結果表明,新方法在聚類與分類實驗中均能取得較好的實驗結果,相較于其他基于語義分析的相似性度量方法還具有良好的時間效率。

文本挖掘;語義分析;分類詞典;關鍵詞提取;詞語編碼;相似性度量;聚類;分類

大數據時代,相似性度量方法通常作為數據挖掘任務的基礎, 使得相應的算法和技術能夠在復雜數據中發現具有潛在價值的信息與知識[1-2],文本挖掘技術與方法通常用于處理與分析非結構化文本數據,其中相似性度量質量的好壞將很大程度上影響文本挖掘質量和效率,與文本相關的數據挖掘任務結合,也廣泛存在于現實應用中, 例如聚類與分類、信息檢索、機器學習、網絡信息認定[3]與人工智能等文本信息處理。

根據文獻[4]中提到的概念層次理論,文本相似性度量建立在句子相似性度量之上,句子相似性度量進一步以詞語的相似性為前提。因此,詞語相似性度量結果的好壞直接影響文本相似性度量以及文本聚類、分類等后續文本挖掘任務與工作的質量。

詞語相似度指在不同位置,詞語可以互相替換使用的程度,文本相似性度量通常分為基于語義知識規則的相似性度量和基于統計的相似性度量。基于語義知識規則的文本相似度計算主要建立在基于Wordnet[5-6]、MindNet[7]、FramNet[8]等語義知識庫的基礎上。20世紀90年代開始,涌現出大量基于Wordnet的語義相似度計算算法,主要針對外文長文本的語義相似度計算[9]。現有基于語義分析的中文文本相似性度量方法主要依托于同義詞詞林[10]與知網[11]。劉群等[12]以知網為依托,將詞語相似性度量分為義原相似性度量、概念相似性度量和詞語相似性度量3個步驟,并提出了基于知網的詞語相似度計算方法(ZW_Sim)。由于該方法的適用性和有效性,部分學者在此基礎上對該相似度計算方法進行改進。林麗等[13]在基于知網的詞語相似度計算中引入弱義原的概念,即通過計算除區分能力弱的第一基本義原外的其他義原來計算詞語相似度,以減少計算時間和提高計算精度;王小林[14]在原始基于知網方法的基礎上,改進不同類別義原在詞語相似度計算中所占權重的計算方法提高計算精度,通過義項詞性判斷降低相似性計算復雜度;張亮等[15]利用知網,從義項的主類義原、主類義原框架和義項特性描述三方面綜合分析詞語相似度,并從語義特征相似度和句法特征相似度兩方面來描述詞語相似度;田久樂等[16]提出基于同義詞詞林的詞語相似度計算方法(CL_Sim),并通過人工測試、非人工測試以及與ZW_Sim方法進行比較,證明了方法的可行性;徐慶等[17]在此基礎上對詞語相似度計算公式進行改進,并將該方法應用于中文實體關系抽取,取得了較好的實驗結果;鄭紅艷等[18]將詞林與TF×IDF方法相結合,過濾同義詞并對詞語權重賦值進行文本特征提取,新的方法具有更好的特征提取結果。各位學者將基于知網與詞林的相似性度量方法在參數與時間復雜度方面不斷完善,使方法的準確性與時間效率都一定程度上有所提高。基于語義知識庫的相似性度量方法均需要對語義知識庫多次遍歷,各位學者雖不同程度提高了方法的時間效率,但時間復雜度高的問題依然存在。

蘇新春教授編寫的《現代漢語分類詞典》[19]與《同義詞詞林》在結構上具有相似性,但《現代漢語分類詞典》對詞語分類更細,詞語間相似度只需通過兩個詞語編碼進行計算比較,相較于ZW_Sim方法,不需要對詞語相似度進行分層計算,時間復雜度大大降低。基于距離的語義相似度計算主要包括語義重合度(共同祖先節點數)、語義深度、語義密度、語義距離等4個方面的度量。多級分類體系使得基于分類詞典的相似性度量結果可以直接反映兩個詞語在語義樹中的重合度、深度與距離。在此基礎上,本文提出一種基于現代漢語分類詞典的文本相似性度量方法(Similarity measure based on Cidian, CD_Sim)。CD_Sim方法通過中科院研制出的漢語詞法分析系統對待分析文檔進行分詞等一系列基本處理,統計詞語與文檔間的詞頻矩陣,結合TF×IDF算法構建詞語文檔的向量空間模型[20],對向量空間模型進行標準化處理、排序等操作實現對文檔的特征提取。通過AP聚類[21]、Kmeans聚類[22]、譜聚類[23]3種聚類算法以及KNN分類[24]方法對方法計算結果進行檢驗分析。方法理論簡單、易于應用,對降低同義詞、同類詞導致的誤差有一定作用,在短文本相似度量應用中相較于基于統計學的方法可以降低度量誤差,相較于基于知識庫的方法簡單易行。數值實驗結果表明,CD_Sim方法在聚類與分類實驗中均能取得較好的實驗結果,證明了方法的可行性與度量效果。

1 相關理論基礎

1.1 現代漢語分類詞典

我國現代漢語首部分類詞典是《同義詞詞林》,按照詞語的概義來對詞語進行分類編排。但現在《同義詞詞林》一定程度上不能很好地反映當前語言現狀。《現代漢語分類詞典》在吸收前人成果的基礎上,收錄了8.3萬條通用性詞語,較《同義詞詞林》新增常用詞2.9萬條,按五級語義層編排,包含9個一級類,62個二級類,508個三級類,2 057個四級類,12 659個五級類。

《現代漢語分類詞典》用5層編碼代表分類詞典的5層結構,例如“B03Cc04”是“灰漿”和“砂漿”的編碼,示例編碼中各層編碼意義如表1,表示“灰漿”和“砂漿”均是“具體物”類別下“材料”類別中“建筑材料”范疇內“水泥石灰瀝青”小類中的“灰漿”類別。若兩個詞語各級編碼均相同,則二者是同義詞,相似度為1。

表1 分類詞典編碼方式示例

1.2 向量空間模型

向量空間模型是當前使用較多的文本表示方法,向量空間矩陣為待分析文本樣本詞語-文檔權重矩陣。假設待分析樣本D中有n個文檔dj(j=1,2,…,n),用m個詞語ti(i=1,2,…,m)在文檔中出現的頻數組成的向量對一篇文檔進行向量表示,根據詞語在該文檔中出現的概率及在整個樣本中出現的概率對該特征詞的重要性賦值權重wij,則樣本D表示為

式中:wij表示第i個詞語在第j篇文檔中重要程度的權值。

詞語權重的計算方法有多種,經典權重計算方法如TF×IDF算法:

式中:TFij指特征詞ti在文檔dj中出現的次數pij占文檔dj中總詞數pj的比重:

IDFi為逆文檔頻率,計算公式為

式中:N為樣本中文檔總數,ni為樣本中出現過特征詞ti的文檔數。

2 文本相似度計算

針對目前基于語義知識規則的文本相似性度量方法存在計算過程中多次遍歷語義知識庫導致方法時間復雜度高的局限性,提出了基于現代漢語分類詞典的文本相似性度量方法(Similarity measure based on Cidian, CD_Sim)。方法側重于詞語相似度量方法的改進,最終應用于文本相似度量,且度量方法較基于統計學的方法可以一定程度降低同義詞、同類詞導致的誤差,故方法效果通過文本相似度量結果進行對比衡量。方法以《現代漢語分類詞典》作為語義知識庫,以基于TF×IDF方法的向量空間模型作為文本關鍵詞提取依據,文本相似性度量過程包括詞語編碼獲取、詞語相似度計算和文本相似度計算3個步驟。

2.1 詞語相似度計算

基于語義知識庫的詞語相似度通常通過計算義原相似度(ZW_Sim方法)或者詞語編碼相似度(CL_Sim方法)來計算。CD_Sim方法通過遍歷分類詞典,在分類詞典中搜索關鍵詞,用該關鍵詞在分類詞典中對應的編碼替換關鍵詞進行關鍵詞相似度計算。樣本D中各文檔以關鍵詞編碼集的形式表示。

分類詞典中每一個大類均可以看做一棵語義樹,同一個節點下的葉子節點為同義詞,且同義詞編碼相同。通常詞語相似性通過其在語義樹中的位置進行度量計算,包括語義密度、語義深度、語義重合度、語義距離四方面衡量。分類詞典對所有詞語均采用5級分類,即所有詞語語義深度相同,語義重合度與語義距離可通過公式計算互換(見式(8)),故可僅取其中一種衡量方式進行計算(涉及時間復雜度,語義密度暫不考慮)。

定義關鍵詞A的編碼為“a1a2a3a4a5”,關鍵詞B的編碼為“b1b2b3b4b5”,兩關鍵詞語義重合度計算公式:

i=1時,

i>1時,

任意兩個編碼(假設兩編碼前三位相同,后兩位不同)的語義重合度與語義距離在編碼中可表示為式(8)形式:

則根據a1?b1,a2?b2,a3?b3前三對編碼位相同,語義重合度(即相同父節點數)記為3,語義距離(即從末位編碼開始向上遍歷編碼位,經過第一共同編碼位再到另一編碼末位編碼所經過的不同編碼位的路徑數)表示為a5→a4→b4→b5,記為3。根據語義重合度和語義距離的概念與計算規則,通過換算,得到任意兩編碼語義距離公式為

根據編碼語義重合度和語義距離的計算公式,列出3個編碼,分別求兩兩編碼的語義重合度和語義距離,驗證計算公式的正確性與可行性。 二者換算示例如表2。

表2語義重合度與語義距離換算示例

Table2Exampleofconversionbetweencoincidenceanddistanceofsemantic

編碼深度重合度/距離B03Cc04B03Dc03C02Cb01B03Cc0455/02/50/9B03Dc0352/55/00/9C02Cb0150/90/95/0

考慮到語義重合度與語義距離可互相換算,CD_Sim方法中詞語相似度均采用語義重合度進行計算,將語義重合度標準化公式:

將關鍵詞轉化為編碼可以更加直觀表示關鍵詞在詞典中所屬類別,在關鍵詞相似度計算過程中直接通過編碼計算,不需要多次訪問語義知識庫,提高了計算的時間效率。

2.2 相似度計算

文本相似度計算建立在詞語相似性度量之上,每個關鍵詞與對比文檔中關鍵詞的距離取該關鍵詞與對比文檔中所有關鍵詞相似度的最大值。設文檔d1(t1,t2,…,tp)(p=1,2,…,x)有x個關鍵詞,文檔d2(t1,t2,…,tq)(q=1,2,…,y)有y個關鍵詞,計算d1與d2中所有關鍵詞的相似度矩陣

式中:spq表示文檔d1中的第p個關鍵詞與文檔d2中的第q個關鍵詞的相似度。根據兩文本關鍵詞相似度矩陣可求文本相似度為

關鍵詞與比較文本關鍵詞相似度取該關鍵詞與比較文本所有關鍵詞相似度最大值,即對關鍵詞相似度矩陣每行每列均取最大值,平均值即為兩文本相似度。

基于現代漢語分類詞典的文本相似性度量算法Z=CD_Sim(D):

輸入待分析樣本D;

輸出樣本D中所有文本間相似度集合Z。

1)對樣本D中所有文檔進行分詞、過濾停用詞處理;

2)對處理后的結果構建詞語-文檔頻數矩陣,并結合TF×IDF方法構建樣本的向量空間模型D′;

3)根據向量空間模型D′對每篇文檔按照一定的規則進行關鍵詞提取;

4)fori=1:size(D,1)-1

①forj=i+1:size(D,1)

a)根據式(10)計算文檔i和文檔j中所有關鍵詞相似度,并按式(11)將計算結果存入相似度矩陣Sim;

b)將相似度矩陣Sim按式(12)進行計算,得到文檔i和文檔j的相似度SIM(di,dj);

②End

5)End

6)得出樣本D中所有文本間相似度集合Z。

根據方法介紹,CD_Sim方法與CL_Sim方法時間復雜度均為O(n2),ZW_Sim方法時間復雜度為O3(n2)。

3 仿真實驗

為檢驗CD_Sim方法的結果在應用中的準確性與時間效率,從搜狗分類語料庫[25]中隨機選擇5類數據作為實驗樣本,采用中科院分詞軟件對樣本進行預處理,通過TF×IDF方法對處理結果進行關鍵詞提取,選擇基于語義知識規則和基于統計兩類詞語相似性度量方法作為對比方法,用聚類與分類兩種方法對相似性度量結果進行檢驗。文中文本相似性度量方法仿真實驗對每篇文檔取詞語權值排序前15位詞語作為文本關鍵詞進行數值實驗。

3.1 實驗數據與實驗設計

實驗語料數據選自搜狗實驗室提供的搜狗分類語料庫,該語料庫包含了環境、計算機、交通、教育、經濟、軍事、體育、醫藥、藝術和政治10個類別文本文檔。

數值實驗選取了環境、交通、政治、教育、體育5個類別,每個類別隨機選取20個文本文檔共100個文本文檔進行實驗。實驗中通過TF_IDF特征選擇方法在100個文本中分別選擇15個關鍵詞進行相似性度量,其中,由于基于統計方法的特殊性,該類方法采用整個詞語-文檔權重矩陣進行相似度計算。

實驗選擇基于LSA的文本相似性度量方法、基于詞林的文本相似性度量方法和基于知網的語義相似性度量方法作為對比方法,分別采用AP聚類、Kmeans聚類、譜聚類以及KNN分類對相似性度量結果進行檢驗。

3.2 聚類分析

相似性度量結果的好壞直接影響文本聚類算法的精度,在已知文檔類別的樣本中,聚類精度可以反過來檢驗文本相似性度量結果的好壞。比較經典的基于距離矩陣的聚類算法有Kmeans,AP聚類及后來發展起來的譜聚類算法等。Kmeans與譜聚類算法均是給定聚類數目的聚類算法,時間復雜度低,聚類準確度高;在聚類數目未知的情況下,上述兩種方法聚類結果會產生較大的偏差。AP聚類沒有事先給定聚類數目,根據數據自身的特性進行聚類,聚類結果與聚類對象特征更加吻合。將相似性度量方法實驗結果做聚類分析,數值實驗結果如表3。

表3 基于聚類檢驗方法的數據實驗結果

數值實驗中,聚類結果通過熵值和純凈度來度量。聚類結果熵值越低、純凈度越高,則聚類結果越好。NUM記錄了將各相似性度量方法結果進行AP聚類所得聚類類別數。基于LSA的相似性度量算法,K值取[10,20,…,100]這10組數據值進行實驗,每種聚類檢驗方法中均取熵值最小且純凈度最高的實驗結果作為基于LSA的相似性度量算法的實驗結果。

根據聚類實驗結果分析,對4種相似性度量方法進行比較。AP聚類中,CD_Sim方法聚類結果最好,但數值實驗樣本僅包含5類文檔,CD_Sim方法聚類數目達18種,存在一定的不合理性。在譜聚類算法中,CD_Sim方法聚類檢驗結果明顯優于其他相似性度量方法,在4種相似性度量方法中,熵值最小,純凈度最高。Kmeans聚類算法中,CD_Sim方法實驗結果純凈度較低、熵值較大,但結果仍優于其他相似性度量方法。

根據實驗結果,對3種基于語義知識規則的相似性度量方法聚類實驗結果進行比較分析,CD_Sim方法實驗結果優于CL_Sim方法和ZW_Sim方法,聚類熵值最小、純凈度最高。

3.3 分類實驗

分類檢驗采用KNN算法進行分析,算法從每個類別樣本中均選取一半作為已知類別樣本,剩下一半作為實驗集,檢驗結果以分類準確率進行度量,分類算法K值分別取[1,2,…,10],得出10組不同K值下的KNN分類結果并取平均值mean。采用不的相似性度量方法作為文本之間近似性度量方法, 結合KNN方法進行數值實驗, 其實驗結果如表4所示。

表4基于分類檢驗方法的數據實驗結果

Table4Experimentresultsbasedonclassifiedmethod

方法分類12345678910meanCL_Sim0.600.580.640.640.720.680.700.620.700.780.67ZW_Sim0.220.240.240.260.240.260.260.240.260.280.25CD_Sim0.800.840.840.900.900.840.880.900.860.840.86LSA_Sim0.820.840.840.840.840.840.860.760.780.800.82

數值實驗結果表明,4種相似性度量方法中,CD_Sim方法分類實驗結果最好,分類準確率最高,LSA_Sim方法實驗結果次之,優于其他方法分類實驗結果。3種基于語義知識規則的相似性度量方法分類檢驗結果進行比較,CD_Sim方法分類實驗結果優于CL_Sim方法和ZW_Sim方法,分類準確度最高。

3.4 時間復雜度分析

實驗中方法的時間復雜度是除準確性外方法可行性的重要指標,實驗過程中對各方法100個文檔的相似度矩陣計算時間計時,結果如表5。

表5 相似性度量方法時間復雜度

根據表5實驗數據,4種文本相似性度量方法中,基于統計的文本相似性度量方法時間效率較高,基于語義知識規則的文本相似性度量方法較基于統計的方法時間效率較低。在3種基于語義知識規則的文本相似性度量方法中,CD_Sim方法時間效率最高,CL_Sim方法時間效率次之,ZW_Sim方法時間效率最低。CD_Sim方法遍歷知識庫的次數為樣本中所有文檔關鍵詞的個數m,CL_Sim方法遍歷知識庫次數為(m+O(n2)),ZW_Sim方法遍歷知識庫次數為m。綜合文本相似性度量方法時間復雜度與遍歷知識庫的次數,CD_Sim方法在3種基于語義知識規則的文本相似性度量方法中時間效率最高。

3.5 方差分析

方法的穩定性也是方法可行性的重要指標。通常方差用來檢驗數據的穩定性,方差值越小,數據越穩定。分別對4種方法的4個實驗結果準確率求方差,來驗證4種相似性度量方法實驗穩定性:

根據表6,ZW_Sim方法實驗結果最穩定,CD_Sim方法次之,LSA_Sim方法方差最大,實驗結果穩定性相對較差。

表6 相似性度量方法方差

綜合聚類實驗、分類實驗、時間復雜度和穩定性,CD_Sim方法準確性優于對比方法,穩定性優于大部分對比方法,時間效率優于其他基于語義知識規則的對比方法,對比基于統計的方法時間效率仍有差距。

4 結束語

文本相似性計算的關鍵在于關鍵詞相似度計算,文本可以看作詞語的集合,關鍵詞根據其提取方法認為是不同篩選程度下文本中能夠區別于其他文本的詞語,各位學者的語義方法均是在不同程度關鍵詞篩選結果的基礎上進行。文章提出了基于分類詞典的文本相似性度量方法,對樣本進行分詞、計算詞語權重、提取文本關鍵詞等一系列基本處理,定義基于關鍵詞編碼的詞語相似度計算公式,構建文檔關鍵詞相似度矩陣,根據關鍵詞相似度矩陣計算文檔相似度。通過聚類與分類實驗對相似性度量結果進行驗證,驗證了該方法的合理性。方法采用分類詞典作為知識庫,分類詞典相較于詞林和知網收錄了更多的詞語,詞語編碼匹配成功概率更高,對文本相似性度量影響較小;計算過程中僅在詞語編碼匹配一個階段訪問知識庫,提高了基于語義知識庫方法的時間效率;提出了新的詞語相似度計算方法,計算結果優于其他基于語義知識庫的方法。由于各領域的發展都會不斷產生新的詞語,文本實驗過程中出現部分分類詞典中未收錄的詞語,這部分詞語不參加文本相似度計算,一定程度上會導致實驗結果的誤差;相較于基于統計的相似度計算方法,方法的時間效率有待提高。在保證方法準確度的前提下提高時間效率是CD_Sim方法未來的研究方向。

[1]李海林,郭韌,萬校基.基于特征矩陣的多元時間序列最小距離度量方法[J].智能系統學報, 2015, 10(3): 442-447, 2015.

LI Hailin, GUO Ren, WAN Xiaoji. A minimum distance measurement method for a multivariate time series based on the feature matrix[J]. CAAI transactions on intelligent systems, 2015, 10(3): 442-447.

[2]XU R, WUNSCH D. Survey of clustering algorithms[J]. IEEE transactions on neural networks, 2005, 16(3): 645-678.

[3]CHEN Wei, HUO Junge. Judicial determination of malicious forwarding cyber false information[J]. Journal of Chongqing university: social science edition,2017( 5) : 103-113.

[4]苗傳江.HNC(概念層次網絡理論)引導[M]. 北京:清華大學出版社,2005.

[5]PARK E K, RA D Y, JANG M G. Techniques for improving web retrieval effectiveness[J]. Information processing and management, 2005, 41(5): 1207-1223.

[6]WordNet Documentation [EB/OL]. [2010-10-27].http://wordnet.princeton.edu/wordnet/documentation/.

[7]RICHARDSON S D, DOLAN W B.VANDERWENDE L. MindNet: Acquiring and structuring semantic information from text[C]//Proceeding of the 17th International Conference on Computer Linguistics Volume 2.Stroudsburg: Association for Computational Linguistics, 1998: 1098-1102.

[8]BAKER C F, FILLMORE C J, LOWE J B. The Berkeley framenet project[C]//Proceeding of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computer Linguistics Volume 1. Stroudsburg: Association for Computational Linguistics, 1998: 86-90.

[9]翟延東,王康平. 一種基于WordNet的短文本語義相似性算法[J]. 電子學報, 2012, 40(3): 617-620.

ZHAI Yandong, WANG Kangping. An algorithm for semantic similarity of short text based on WordNet[J]. Acta electronica sinica, 2012, 40(3): 617-620.

[10]梅家駒,竺一鳴,高蘊琦,等.同義詞詞林[M].上海:上海辭書出版社,1996.

[11]董振東,董強. 知網簡[EB/OL].http://www.keenage.com.

[12]劉群,李素建. 基于“知網”的詞匯語義相似度計算[C]//第三屆漢語詞匯語義學研究會論文集.臺北,中國, 2002: 59-76.

[13]林麗,薛方,任仲晟. 一種改進的基于知網的詞語相似度計算方法[J].計算機應用,2009, 29(1): 217-220.LIN Li, XUE Fang, REN Zhongsheng. Modified word similarity computation approach based on Hownet[J]. Journal of computer applications, 2009, 29(1): 217-220.

[14]王小林,楊林,王東. 基于知網的新詞語相似度算法研究[J]. 情報科學, 2015, 33(2): 67-71.

WANG Xiaolin, YANG Lin, WANG Dong. New word similarity algorithm research based on HowNet[J]. Information science, 2015, 33(2): 67-71.

[15]張亮,尹存燕.基于語義樹的中文詞語相似度計算與分析[J]. 中文信息學報, 2007, 21(3): 99-105.

ZHANG Liang, YIN Cunyan. Chinese word similarity computing based on semantic tree[J]. Journal of Chinese information processing, 2007, 21(3): 99-105.

[16]田久樂,趙蔚. 基于同義詞詞林的詞語相似度計算方法[J]. 吉林大學學報: 信息科學版,2010, 26(6): 602-608.

TIAN Jiule, ZHAO Wei. Word similarity algorithm based on Yongyici Cilin in Semantic Web adaptive learning system[J]. Journal of Jilin university: information science edition, 2010, 26(6): 602-608.

[17]徐慶,段利國.基于實體語義相似度的中文實體關系抽取[J]. 山東大學學報:工學版, 2015, 45(6): 7-14.

XU Qing, DUAN Liguo. Chinese entity relation extraction based on entity semantic similarity[J]. Journal of Shandong university: engineering science, 2015, 45(6): 7-14.

[18]鄭紅艷,張東站.基于同義詞詞林的文本特征選擇方法[J]. 廈門大學學報:自然科學版, 2012, 5(2): 200-203.

ZHENG Hongyan, ZHANG Dongzhan. A text feature selection method based on TongYiCi CiLin[J].Journal of Xiamen University: Natural Science, 2012, 5(2): 200-203.

[19]蘇新春.現代漢語分類詞典[M]. 上海:商務印書館, 2013.

[20]SALTON G. The transformation analysis and retrival of information by computer[M]. Wesley Reading Massach-uetts, 1989.

[21]FREY B J, DUECK D. Clustering by passing messages between data points[J]. Science, 2007, 315(5814): 972-976.

[22]FORGY E W. Cluster analysis of multivariate data: efficiency versus interpretability of classifications[J]. Biometric, 1965, 21: 768-769.

[23]丁世飛,賈洪杰.基于自適應Nystrom采樣的大數據譜聚類算法[J]. 軟件學報, 2014, 25(9): 2037-2049.

DING Shifei, JIA Hongjie. Spectral clustering algorit-hm based on adaptive nystrom sampling for big data analysis[J]. Journal of software, 2014, 25(9): 2037-2049.

[24]WU Xindong, KUMAR V, QUINLAN J R, et al. Top 10 algorit-hms in data mining[J]. Knowledge and information systems, 2008, 14(1): 1-37.

[25]搜狗實驗室語料[EB/OL]. http://www.sogou.com/labs/resource/list_yuliao.php.

Textsimilaritymeasuremethodbasedonclassifieddictionary

LI Hailin1, ZOU Jinchuan2

(1. Department of Information Systems, Huaqiao University, Quanzhou 362021,China; 2.Research Center of Applied Statistics and Big Data, Huaqiao University, Xiamen 361021, China)

Existing text-similarity measurement methods based on the semantic knowledge rules analysis have the limitation of high time complexity. In this paper, we propose a text-similarity measurement method based on the Classified Dictionary. First, we segmented texts using the Chinese Lexical Analysis System. Then, we extracted text keywords using the term frequency-inverse document frequency (tf*idf) method and performed keywords coding by traversing the dictionary. By calculating the coding similarity of the text keywords, we can determine the similarity of the original texts. As our two comparison methods, we selected similarity measurement methods based on semantic knowledge rules and statistics. We verified our similarity measurement results using traditional clustering algorithms and the k-nearest neighbors classification method. Our numerical results show that our proposed method can obtain relatively good results in clustering and classification experiments. In addition, compared with other semantic analysis measurement methods, this method has better time efficiency.

data mining; semantic analysis; classified dictionary; keywords extraction; encoder; similarity measure; clustering; classification

2016-08-30.

國家自然科學基金項目(61300139);福建省自然科學基金項目(2015J01581);華僑大學中青年教師科研提升計劃項目(ZQN-PY220);華僑大學研究生科研創新能力培育計劃項目(1511307006).

鄒金串.E-mail:Zou_jinchuan@163.com.

10.11992/tis.201608010

TP301

A

1673-4785(2017)04-0556-07

中文引用格式:李海林,鄒金串.基于分類詞典的文本相似性度量方法J.智能系統學報, 2017, 12(4): 556-562.

英文引用格式:LIHailin,ZOUJinchuan.TextsimilaritymeasuremethodbasedonclassifieddictionaryJ.CAAItransactionsonintelligentsystems, 2017, 12(4): 556-562.

李海林,男,1982年生,副教授,博士,主要研究方向為數據挖掘與決策支持,主持國家自然科學基金1項和省部級基金2項,發表學術論文40余篇,其中被SCI檢索11篇,EI檢索20余篇。

鄒金串,女,1993年生,碩士研究生,主要研究方向為文本挖掘。

猜你喜歡
提取分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
現場勘查中物證的提取及應用
土壤樣品中農藥殘留前處理方法的研究進展
中學生開展DNA“細”提取的實踐初探
淺析城市老街巷景觀本土設計元素的提取與置換
蝦蛄殼中甲殼素的提取工藝探究
科技視界(2016年22期)2016-10-18 17:02:00
主站蜘蛛池模板: 欧美97欧美综合色伦图| 久久96热在精品国产高清| 伊人AV天堂| 四虎综合网| 欧美午夜精品| 精品国产免费观看| 免费观看亚洲人成网站| 男女性色大片免费网站| 亚洲天堂啪啪| 亚洲第一区欧美国产综合| 国产日韩丝袜一二三区| 小蝌蚪亚洲精品国产| 国产一区二区丝袜高跟鞋| 欧美天堂在线| 波多野结衣视频网站| 亚洲免费成人网| 免费中文字幕一级毛片| 91精品国产丝袜| 久久狠狠色噜噜狠狠狠狠97视色| 99久久亚洲综合精品TS| 国产高清无码第一十页在线观看| 国产欧美日韩另类精彩视频| 2021国产乱人伦在线播放| 国产欧美自拍视频| 免费在线国产一区二区三区精品| 久久亚洲精少妇毛片午夜无码| 伊人久久综在合线亚洲91| 亚洲成人高清无码| 欧美成人精品欧美一级乱黄| 丁香五月亚洲综合在线| 免费在线色| 美女国产在线| 色综合天天综合中文网| 日韩欧美国产三级| 青青青国产视频手机| 自拍亚洲欧美精品| 欧美黄色网站在线看| 激情综合网激情综合| 无码中文字幕乱码免费2| 国产JIZzJIzz视频全部免费| 99激情网| 亚洲最新网址| 欧美一级夜夜爽| 91麻豆久久久| 午夜精品区| 麻豆精选在线| 亚洲视频四区| 欧美精品亚洲精品日韩专区| 五月婷婷导航| 99re精彩视频| 朝桐光一区二区| 欧美成人精品高清在线下载| 午夜激情福利视频| 国产精品女主播| 亚洲激情99| 超碰91免费人妻| 亚洲成a人片77777在线播放| 日韩欧美中文字幕在线韩免费| 91啪在线| 亚洲va在线∨a天堂va欧美va| 在线免费观看a视频| 中文字幕在线观看日本| 国产一级一级毛片永久| 黄色不卡视频| 欧美日韩在线亚洲国产人| 日韩精品一区二区三区swag| 黄色网在线免费观看| 91精品国产情侣高潮露脸| 亚洲天堂啪啪| 麻豆国产原创视频在线播放| 国产精品人人做人人爽人人添| 三级国产在线观看| 国产在线第二页| 日韩成人高清无码| 国产精品自在自线免费观看| 性激烈欧美三级在线播放| 国内精品伊人久久久久7777人| 午夜福利免费视频| 日本高清免费一本在线观看 | 永久免费精品视频| 五月婷婷激情四射| 精品国产91爱|