莊建昌,武 嬌,顧興全,洪彩鳳
(1.中國計量大學 理學院,浙江 杭州 310018;2.中國計量大學 標準化學院,浙江 杭州 310018)
一個充分發展的領域必然充斥著大量的文本數據,對于關注領域現狀和未來發展的人們,需要對領域內海量文本數據進行分析。然而,領域內的信息往往具有冗余性,并且具有各個子領域分布不平衡的特點。因此,復雜領域內的關鍵詞提取并不容易[1]。
領域關鍵詞的研究大致可分為領域關鍵詞提取技術以及領域關鍵詞的應用。領域關鍵詞的應用研究廣泛,存在于領域主題提取[2-3]、醫學腫瘤領域[4-5]、納米技術領域[6]、情報學領域[7]以及交叉學科領域[8-9]。這反映出研究領域關鍵詞提取技術的重要意義。高繼平等人[10]提出使用多詞共現技術提取領域關鍵詞,并用關鍵詞的共現技術刻畫領域的研究熱點。潘瑋等人[11]提出一種數據清洗方法,結合詞共現技術提取領域關鍵詞。詞共現技術提取領域關鍵詞能夠反映出關鍵詞的耦合性,但是其多以詞頻為特征,在多文本中提取關鍵詞的效果并不好。Luo[12]等人提出了一種基于詞頻逆文檔頻率的多文本域關鍵字提取方法TDDF,該方法比以詞頻逆文檔頻率作為特征項的關鍵詞提取方法更有效。
然而,上述方法還存在以下問題:1)提取的關鍵詞不含有語義信息,這不利于進一步分析領域特征。為此,文獻[13]和文獻[14]提出了基于word2vec模型[15]的領域關鍵詞提取方法。由于word2vec模型能夠表征語義信息,因此這些方法提取的領域關鍵詞的可解釋性得到了提高。……