沈漫竹,于慧嫻,李 倩,袁紅梅
(沈陽藥科大學(xué)工商管理學(xué)院,遼寧沈陽 110016)
專利技術(shù)主題是對專利技術(shù)內(nèi)容的高度凝練和概括[1],它代表了某一研究領(lǐng)域的技術(shù)核心。精準(zhǔn)高效地對技術(shù)主題進行識別和挖掘可以幫助研究人員全面深入地了解領(lǐng)域研究概況和趨勢,掌握技術(shù)發(fā)展機會,進而為研究人員的技術(shù)創(chuàng)新研發(fā)決策提供科學(xué)支持。近年來,隨著科學(xué)技術(shù)的迅猛發(fā)展,生物技術(shù)、信息技術(shù)等領(lǐng)域新興技術(shù)大量涌現(xiàn)[2],相關(guān)專利的申請數(shù)量也迅速增長,對于分析技術(shù)發(fā)展的專業(yè)人員來說,顯然已經(jīng)不能通過主觀判斷對該領(lǐng)域技術(shù)進行準(zhǔn)確、快速的分析。因此,研究自動化處理大量專利文本數(shù)據(jù)以識別和挖掘?qū)@夹g(shù)主題的有效方法具有重要意義。
在過去十幾年中,研究人員廣泛探索將專利文獻計量和文本數(shù)據(jù)轉(zhuǎn)化為深刻、有價值的文本挖掘方法,目前也有較多利用文本挖掘識別技術(shù)主題的研究成果,其中主題模型和詞嵌入這兩種方法最為常用。
作為最著名的主題建模方法之一,潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)根據(jù)詞匯出現(xiàn)在文檔中的概率以及詞匯之間的共現(xiàn)頻率對文檔集進行建模[3],通過概率生成模型從而識別潛在主題。隨著LDA 模型在專利主題分析中的研究越來越深入,LDA 模型的改進和拓展逐漸成為研究重點[4]。部分學(xué)者根據(jù)特定的問題設(shè)置和數(shù)據(jù)改進LDA,例如相關(guān)主題模型(correlated topic model,CTM),層次主題模型(Hierachical LDA,HLDA)和拓展生成分布假設(shè)的結(jié)構(gòu)主題模型(structural topic modeling,STM)[5-6]。部分學(xué)者為了達到研究目的,依據(jù)結(jié)構(gòu)信息添加時間、作者等維度改進LDA,例如狄利克雷多項式回歸 (Dirichlet-multinomial regression,DMR) 明確提到以作者和引用時間作為結(jié)構(gòu)數(shù)據(jù)[7];發(fā)明人-專利權(quán)人主題模型(inventorcompany-topic,ICT)融入發(fā)明人和專利權(quán)人數(shù)據(jù)[8];動態(tài)主題模型(dynamic topic model,DTM)增加時間動態(tài)性[9];連續(xù)時間模型(Topics over Time,TOT)對共現(xiàn)詞和文檔時間戳共同建模[10];作者主題模型(author model,AT)和作者主題模型(author-topic model ,ATM)融入作者數(shù)據(jù)[11];WI-LDA 模型融入IPC 和單詞結(jié)合成二元組等[12]。還有部分學(xué)者為了增強主題建模語義,使用SAO(subject-action-objec)三元組作為單位詞匯[13]。可見,主題建模及其拓展依舊是技術(shù)主題分析研究的流行方法。
從主題識別的角度來看,單詞嵌入在過去兩年中也引起了科學(xué)文本挖掘研究人員的極大興趣。針對專利短文本的高維稀疏特點和語法結(jié)構(gòu)特點,word2vec 模型則可以很好地提取專利文本的語義信息。word2vec 模型是專門用來檢測詞之間關(guān)系的強大工具,在語義分析中經(jīng)常被采用[14],該方法在映射向量空間中的術(shù)語和概念以及發(fā)現(xiàn)潛在語義相關(guān)性方面顯示出了強大的能力。例如,Zhang 等[15]人提出了一種新的核心k 均值聚類方法,通過結(jié)合詞嵌入,有效地從文獻計量學(xué)數(shù)據(jù)中提取主題;Greiner-Petter 等[16]人應(yīng)用詞嵌入的方法從科學(xué)文章中檢索數(shù)學(xué)信息;Lee 等[17]人將詞嵌入與詞網(wǎng)絡(luò)結(jié)合并學(xué)習(xí),進行語義相關(guān)性和相似性測量。一般來說,詞嵌入的目的是將詞匯表中的單詞映射成數(shù)字向量,基本假設(shè)是上下文相似的單詞具有相似的含義。
雖然目前已有很多文本挖掘和主題識別的研究方法,但是仍然存在一個根本且明顯的問題沒有解決,也就是提取的主題混亂、界定模糊、不易解釋,原因在于,就專利數(shù)據(jù)自身的獨特性來說,無論是LDA 主題模型、LDA 拓展模型還是神經(jīng)網(wǎng)絡(luò)word2vec 模型,在對專利文本進行技術(shù)主題識別時都各自存在一定缺陷,其缺陷總結(jié)如下:
(1)LDA 主題模型及其拓展模型缺乏語境和語義。LDA 和大部分LDA 拓展模型以“詞袋”假設(shè),采用無監(jiān)督學(xué)習(xí)為每個主題生成離散的單詞分布,并為每個文檔生成主題分布,該方法只根據(jù)術(shù)語和單詞共現(xiàn)頻率提取主題,然而專利文本的高維稀疏特點影響了主題提取的準(zhǔn)確性,而且這些模型的訓(xùn)練語料都是獨立、分離的詞/詞組,是uni-gram 形式,而單個單純的詞/詞組所包含的語境和語義信息有限,導(dǎo)致主題不易解釋[12]。盡管部分模型使用SAO 三元組作為單位詞匯來增強語義,但由于專利為法律文本,語言晦澀難懂,其句法結(jié)構(gòu)也限制了提取效率,增強語義的效果不佳。
(2)word2vec 模型缺乏全局信息。盡管近幾年許多研究廣泛使用基于上下文語義的word2vec 模型,但相較于LDA 對文本全局信息的描述,word2vec 模型雖包含序列詞匯的語義關(guān)聯(lián),其挖掘范圍也只是鄰近詞匯的語義關(guān)系,缺乏全局信息[18],不能描述不同文章的主題。如何在識別技術(shù)主題時將全局信息和上下文語義有效結(jié)合是值得研究的。
(3)忽略專家對于專利分類的意見,專利結(jié)構(gòu)數(shù)據(jù)結(jié)合程度低。無論是主題模型還是word2vec 模型都是根據(jù)詞匯的各種規(guī)律對專利進行絕對客觀的分類提取,忽略了專家對于專利的主觀分類判斷。一項專利往往包含多個技術(shù),一個技術(shù)又可能應(yīng)用于多個領(lǐng)域,僅僅依據(jù)詞匯而忽略專家意見將會使提取的主題出現(xiàn)偏差、難以解釋界定等問題。盡管WI-LDA 等相關(guān)模型使用了代表專家意見的IPC 結(jié)構(gòu)數(shù)據(jù),但該模型依然存在構(gòu)建空間巨大、忽略細粒度數(shù)據(jù)等問題[19],對專利結(jié)構(gòu)數(shù)據(jù)的結(jié)合程度低。
綜上所述,技術(shù)主題識別工具已成為技術(shù)分析及技術(shù)創(chuàng)新的重要手段,但是隨著該方法的廣泛運用,其存在的弊端也日益凸顯,致使研發(fā)人員無法真正了解領(lǐng)域技術(shù)核心內(nèi)容,阻礙研究人員快速掌握受限技術(shù)領(lǐng)域的當(dāng)前專利格局。因此,需要開發(fā)一種方法來一并解決上述所提到的缺乏語境、語義、忽略專家主觀分類等具有挑戰(zhàn)性的問題,進而提高文本挖掘工具的精確度和高效性。本研究旨在探索更高效優(yōu)質(zhì)的主題識別方法,以期幫助研究人員清晰、快捷、全面地了解技術(shù)發(fā)展,為研發(fā)策略提供支持,避免社會資源的浪費。
本研究旨在克服上述問題,提出了一種精準(zhǔn)、高效的技術(shù)主題識別方法。首先,從Incopat 數(shù)據(jù)庫中檢索所需專利數(shù)據(jù)并進行預(yù)處理,提取專利結(jié)構(gòu)數(shù)據(jù)IPC 分類號信息,使用bi-gram 添加雙詞組作為詞庫;其次,為了結(jié)合專家意見、提高專利結(jié)構(gòu)數(shù)據(jù)結(jié)合程度、增強語境解釋,本研究將完整的IPC信息引入LDA 主題模型,為了實現(xiàn)科學(xué)引入,我們參考作者主題模型(ATM),結(jié)合專利獨有的結(jié)構(gòu)信息IPC 分類號,將作者概念替換為IPC,形成由IPC 和專家分類意見為指導(dǎo)的IPC-LDA 主題模型。同時,采用word2vec 模型獲取基于文本語義的詞向量;最后將主題詞向量進行權(quán)值歸一化計算,并對文本語義詞向量進行余弦相似計算,再將二者進行向量集成拼接,實現(xiàn)主題建模全局信息和上下文語義相結(jié)合,得到最終包含語境、語義和專家分類建議的主題詞矩陣。本研究提出的方法細粒度地利用了專利結(jié)構(gòu)數(shù)據(jù),平衡了統(tǒng)計評估和人工解釋,而且發(fā)現(xiàn)了主題建模和word2vec 各自的缺點和互補點,將二者完美結(jié)合以解決主題識別方法缺少語義語境和忽略全局信息的不足,使獲取的主題詞更加精準(zhǔn)、完整。本研究的框架如圖1 所示。

圖1 研究框架
2.2.1 IPC-LDA 主題模型提取主題-詞矩陣
本步驟以LDA 的拓展模型作者主題模型ATM為依據(jù),用IPC 替換作者概念,形成IPC-LDA 主題模型。作者主題模型 (ATM)是一種概率模型[20],它以單詞作為分析單位,采用四級結(jié)構(gòu)對語料庫進行建模,以文檔的原始文本和作者(分類屬性)為輸入,輸出每個文檔的主要主題和每個作者關(guān)注的主要主題。該模型在探討不同作者研究傾向時表現(xiàn)極好,但在主題識別過程中,由于一個作者可能涵蓋多個主題,因此存在多余主題分布干擾[21],而IPC 符號通常只驅(qū)動文本語言,IPC 分類號可以直接映射到單個主題,即IPC-LDA 主題模型的主題不直接分配給文檔,而是產(chǎn)生一個主題到 IPC 的映射,通過主題到 IPC 和 IPC 到文檔的分配,實現(xiàn)主題到文檔的分配,主題和 IPC 符號之間通過一個矩陣建模鏈接,該矩陣分配每個IPC 屬于每個主題的可能性概率,擴展了 LDA 使用詞頻合并標(biāo)簽的方法,也解決了干擾主題識別的問題。同時,IPC 是一個獨立于語言的符號分層系統(tǒng),它代表了發(fā)明專利的功能和應(yīng)用,是專家根據(jù)不同的技術(shù)領(lǐng)域?qū)@M行分類的標(biāo)準(zhǔn),通過引入完整的IPC,可以利用IPC 自身語境和專家分類判斷來指導(dǎo)LDA 提取主題的過程。
首先,我們使用bi-gram 添加雙詞組,實現(xiàn)與命名實體識別相同的目標(biāo),即查找具有某些特定意義的相鄰單詞作為詞庫。其次,采用IPC-LDA 主題模型。不同于WI-LDA 模型只使用主分類號的小類,IPC-LDA 模型使用每個專利的所有完整分類號,得到更加準(zhǔn)確、細粒度的提取結(jié)果。IPC-LDA 主題模型如圖2 所示,圖2 中符號θ為IPC,α為作者超參數(shù)(影響作者的主題混合),ad為給定文檔的實際IPC,x為對給定詞負責(zé)的IPC,z為詞主題分配,w為觀察詞本身,φ為主題,β 為主題超參數(shù)(影響一個主題的詞混合),N、D、T、A分別為單詞數(shù)、文檔數(shù)、主題數(shù)和IPC 數(shù)。IPC-LDA 主題模型由 Gensim 工具包實現(xiàn)[22]。

圖2 IPC-LDA 主題模型
IPC-LDA 主題模型使用 Gibbs 抽樣,提供了一種在 Dirichlet 先驗下獲得參數(shù)估計的簡單方法,我們有兩組潛在變量:z和x。我們將每一對(zi、xi)作為一個組,條件是所有其他變量如下:


2.2.2 Word2vec 獲取語義詞向量
為了解決基于概率的統(tǒng)計主題建模技術(shù)缺少語義表示的局限性,本研究采用基于神經(jīng)網(wǎng)絡(luò)的詞嵌入算法Word2vec,實現(xiàn)單詞表示從uni-gram向 n-gram 的轉(zhuǎn)變[23]。Word2vec 將語料庫中的單詞表示為具有上下文理解的向量。在向量空間中,兩個向量之間的距離越近,兩個詞的相似度越高。Word2vec 的結(jié)果取決于定義的參數(shù):向量表示m的維度(即大小),以及句子中單詞與單詞周圍單詞之間的最大距離(即窗口)δ。Word2vec 有兩種配置方式:skip-gram 和連續(xù)詞袋(CBOW)。本文選擇的訓(xùn)練skip-gram 模型如圖3 所示。

圖3 word2vec 的skip-gram 模型
skip-gram 預(yù)測了給定一個目標(biāo)詞周圍的上下文。wt被定義為目標(biāo)詞,wt+c、wt+2、wt+1、wt-1、wt-2和wt-c指的是wt的上下文。根據(jù)對wt的上下文(如wt+c,wt+2,…,wt-c)的分析,可以得到wt的概率分布,因此,可以定量評估任意兩個詞之間的語義關(guān)系[19]。
2.2.3 向量拼接
IPC-LDA 主題模型和word2vec 模型對專利文本向量化時,有各自的側(cè)重點: IPC-LDA 雖描述了文本全局信息,但缺乏對深層語義的挖掘;word2vec模型包含序列詞匯的語義關(guān)聯(lián),但缺乏全局信息[24]。由此看出,二者信息互為補充,因此本研究提出向量拼接,在IPC-LDA 主題模型提取的主題詞表示的基礎(chǔ)上挖掘遺漏的單詞表示。
(1) IPC-LDA 主題詞向量權(quán)值歸一化。本研究認為,對于每個主題,概率值最高的前h個單詞被認為是對該主題貢獻最大的(以下簡稱“貢獻詞”),代表了本主題的主要內(nèi)容。我們計算了每個貢獻詞的所有向量的加權(quán)平均值,以獲得該主題的唯一向量表示。將權(quán)值向量設(shè)置為IPC-LDA 輸出的歸一化詞比例b。獲得的主題-詞矩陣中將前h個單詞以外的向量均設(shè)置為0。該步驟作為與word2vec 向量拼接的前提準(zhǔn)備。加權(quán)平均值公式如下:

(2) Word2vec 詞 向 量 余 弦 相 似 聚 類。Word2vec 將語料庫中的每個詞向量化為m維詞向量vt∈Rm。采用余弦相似度進行詞聚類,為每個單詞{w1,w2,w3,…,wt}分配其最接近的單詞并得出相似度值,得到單詞-單詞余弦相似值矩陣,保留矩陣中數(shù)值最大的前j個單詞值,其余均設(shè)置為0。
通過這兩部分的計算,降低了后續(xù)向量拼接的計算強度。
(3)進行向量拼接。為了將主題映射到向量上,本文將上述兩個步驟得到的結(jié)果進行拼接,最終得到精確主題詞向量。向量拼接過程如圖4 所示。

圖4 矩陣向量拼接
肺癌占所有惡性腫瘤的11.6%,是全球最常見的惡性腫瘤,也是癌癥相關(guān)死亡的最常見原因,其中非小細胞肺癌(NSCLC)最為常見,且死亡率最高[25]。隨著生物療法和基因療法的迅速發(fā)展,新藥物、新療法、新檢測診斷方法不斷被研發(fā)出世,大大提高了非小細胞肺癌的治療效率[26]。在患病率持續(xù)增加的情況下,非小細胞肺癌治療已成為腫瘤領(lǐng)域的熱點和重要的研究課題。因此,對該領(lǐng)域進行技術(shù)主題識別至關(guān)重要,所以本研究選擇非小細胞肺癌治療領(lǐng)域進行實證研究。
本研究專利數(shù)據(jù)來自incopat 專利信息數(shù)據(jù)庫,經(jīng)過閱讀文獻和咨詢專家意見,確定檢索式為TIAB=( 非小細胞肺癌)OR TIAB=(non-small cell lung cancer) OR TIAB=(NSCLC),檢索時間截止到2021 年12 月31 日,專利類型選取發(fā)明專利,共檢索到9 353 條專利,識別并剔除不相關(guān)專利以及IPC分類號不完整專利,確定8 960 條專利作為最終實證數(shù)據(jù)。
由于技術(shù)主題識別主要以專利標(biāo)題和摘要作為依據(jù),因此,本研究使用python 對數(shù)據(jù)集文件夾進行爬網(wǎng),讀取專利標(biāo)題、摘要,并對文本進行預(yù)處理,包括刪除標(biāo)點符號和數(shù)字、刪除非索引字、刪除停用詞、將所有空格換位單個空格、標(biāo)記化文本、詞形還原以及刪除頻繁詞和罕見詞,以保證結(jié)果的客觀科學(xué)性,此步驟由spacy 工具包實現(xiàn)。
IPC-LDA 主題模型還需要專利IPC 分類號數(shù)據(jù)集。本研究將各專利文本文檔編號,隨后采用爬網(wǎng)提取每個專利的所有IPC 分類號,進而構(gòu)造從IPC到文檔編號的映射,以txt 形式保存為數(shù)據(jù)集。本研究選擇提取每個專利的所有IPC 分類號,而不是主分類號,因為一項專利被分配的多個專利號代表了這項專利所涉及的完整技術(shù)范圍。為了進行更加細粒度的分析,最終選擇提取到IPC 分類號的小組層級。本步驟獲得1 848 個IPC 分類號。
對于IPC-LDA 主題模型,本研究首先使用N-gram 語言模型添加雙詞組bi-gram,預(yù)測單詞的聯(lián)合概率,生成文檔的向量化表示,為下面主題模型的使用做準(zhǔn)備。
為了使IPC-LDA 主題模型獲得的結(jié)果可解釋,我們通過Gensim 對IPC-LDA 主題模型進行訓(xùn)練,使用top_topics 方法評估模型的主題一致性,并選擇主題一致性最高的模型。通過閱讀文獻,結(jié)合專家意見和訓(xùn)練結(jié)果,以平衡統(tǒng)計評估和可解釋性為目的,將主題數(shù)量num_topics 設(shè)置為10,遵循現(xiàn)有研究中超參數(shù)α和β的通用設(shè)置,設(shè)置α=0.5 和β=0.01,應(yīng)用2000 吉布斯抽樣迭代來推斷潛在的變量和分布。
對于word2vec 模型,本研究通過Genism 工具包在專利語料庫上訓(xùn)練單詞向量。由此,我們構(gòu)造了一個統(tǒng)一的向量空間。考慮本研究的數(shù)據(jù)量和唯一單詞量,參考以往研究中使用的參數(shù)值,我們將窗口大小設(shè)置為10,向量維數(shù)設(shè)置為150。
將IPC-LDA 主題模型的結(jié)果進行權(quán)值歸一化計算作為向量拼接過程中的權(quán)重,并將word2vec 模型的詞向量輸出做余弦相似度計算,最后進行向量拼接,獲取更精準(zhǔn)、更易解釋的主題詞向量。根據(jù)拼接結(jié)果,本研究選擇每個主題下概率值最高的前10個單詞作為對每個主題的解釋,獲取的技術(shù)主題分布如表1 所示。

表1 非小細胞肺癌治療領(lǐng)域主題分布
技術(shù)主題1 中概率值排名靠前的單詞有“monoclonal(單克隆)”“antibody(抗體)”“hybridoma(雜交瘤)”等,可以清晰地確定技術(shù)主題1 為單克隆抗體。在非小細胞肺癌領(lǐng)域,單克隆抗體被廣泛應(yīng)用于放射免疫顯像、肺癌類型識別檢測、靶向治療和免疫治療中。新型單克隆抗體、包含新型單克隆抗體的藥物制劑、治療試劑和診斷試劑等是該領(lǐng)域的熱點研發(fā)技術(shù),尤其是對具有高親和力、高特異性、毒副作用小的人源化和全人源抗體藥物的研發(fā)。
技 術(shù) 主 題2 中 的 單 詞 有“inhibitor( 抑 制劑)”“inhibit(抑制)”“EGFR(表皮生長因子受體)”“ALK(間變性淋巴瘤激酶)”“salt(鹽)”等,可以確定技術(shù)主題2 為靶向抑制劑。靶向抑制劑屬于對非小細胞肺癌的靶向治療,其作用原理為發(fā)現(xiàn)并攻擊非小細胞肺癌癌細胞中的特定物質(zhì)、區(qū)域,或者檢測、阻止癌細胞內(nèi)發(fā)送的細胞生長信息。為了延長非小細胞肺癌患者的生存期,解決靶向抑制劑耐藥等問題,不斷對EGFR 抑制劑等靶向抑制劑的鹽、晶型、制備方法以及應(yīng)用等方面進行研發(fā),目前已研發(fā)出第四代靶向抑制劑藥物[27]。因此,靶向抑制劑一直是非小細胞肺癌領(lǐng)域上的重要技術(shù)主題。
技術(shù)主題3 中的概率值排名靠前的單詞有“antibody(抗體)”“peptide(肽)”“vaccine(疫苗)”“tumor(腫瘤)”等,可以確定技術(shù)主題3為非小細胞肺癌疫苗。非小細胞肺癌疫苗是一種新型免疫治療方法,通過調(diào)動免疫系統(tǒng)抑制、攻擊非小細胞肺癌癌細胞,可延長患者生存期[28]。目前非小細胞肺癌疫苗的研發(fā)涉及用于免疫治療方法的肽、蛋白質(zhì)、核酸、細胞,特異于Kras G12V 或HER2-ITD 新抗原的結(jié)合蛋白和高親和力重組T 細胞受體(TCR),活性(免疫刺激性)組合物等等,并將上述成果用于制備疫苗。目前已有治療性疫苗獲批或進行臨床試驗,對疫苗的研究和開發(fā)也是非小細胞肺癌治療領(lǐng)域中的重要技術(shù)主題。
技術(shù)主題4 中包括“detection(檢測)”“kit(試劑盒)”“gene(基因)”“biomarker(生物標(biāo)記物)”“marker(標(biāo)記)”等詞,可以確定技術(shù)主題4 為檢測及試劑盒。對非小細胞肺癌患者進行檢測是治療的基礎(chǔ),領(lǐng)域?qū)I(yè)人員意在獲得檢測譜廣、準(zhǔn)確度高、靈敏度高、成本低,的方法,目前該技術(shù)包括使用基因標(biāo)志、生物標(biāo)志物、生物標(biāo)志物組合等多種方法進行檢測,還提供了用于檢測非小細胞肺癌標(biāo)志物的探針組合,試劑盒和生物芯片等技術(shù)。
同理即可得到技術(shù)主題5 ~10 分別是“藥物組合物”“融合蛋白質(zhì)”“免疫治療的肽”“RET(激酶)抑制劑”“治療藥物制備技術(shù)”“非小細胞肺癌診斷”。
由于非小細胞肺癌治療屬于癌癥治療和肺癌治療的分支,各種治療技術(shù)都有著較大的關(guān)聯(lián)性,因此在主題提取和解釋方面存在較大的困難,但從本研究獲得的主題結(jié)果可以看出,可以很輕松地對各個主題作出解釋和總結(jié),各個主題之間界限較為清晰,而且得出結(jié)果較為精準(zhǔn)細致,可以進行細粒度解讀。經(jīng)過閱讀大量文獻以及咨詢專家意見,上述的主題本符合非小細胞肺癌領(lǐng)域的研究現(xiàn)狀,反映了該領(lǐng)域的熱點技術(shù)主題,可以幫助研究人員對熱點研究技術(shù)進行判定。
本研究針對目前技術(shù)主題識別方法存在的主題可解釋性差、界定模糊問題,提出了一種有效的技術(shù)主題識別方法,采用IPC-LDA 模型結(jié)合專利獨有的結(jié)構(gòu)數(shù)據(jù),將IPC 分類號引入主題模型指導(dǎo)技術(shù)主題識別,同時使用word2vec 模型得到包含上下文語義的詞向量,最后進行二者的向量拼接,獲得精確的主題詞表示,并以非小細胞肺癌治療領(lǐng)域作為實證案例證明方法的有效性。本研究提出的技術(shù)主題識別框架一次性解決了現(xiàn)有主題挖掘方法缺乏語境、語義、忽略專家分類意見等的缺陷,降低了主題界定和解釋的難度,提高了技術(shù)主題識別的準(zhǔn)確度和精確度,為領(lǐng)域研究人員掌握技術(shù)發(fā)展現(xiàn)狀提供幫助,為未來研發(fā)方向決策提供科學(xué)依據(jù)。
本研究的技術(shù)主題識別方法也存在局限和不足。首先,在word2vec 得出的結(jié)果中使用余弦相似度性確定相似詞,沒有考慮詞匯對主題的貢獻度,后續(xù)將對word2vec 詞向量結(jié)果做加權(quán)處理;其次,本研究只提供了技術(shù)主題識別方法,在未來研究中考慮將本方法用于相對領(lǐng)域新興主題或?qū)@M合進行預(yù)測。