














摘 要:隨著技術(shù)預(yù)見定量分析方法以及文本挖掘技術(shù)的發(fā)展,通過主題模型挖掘?qū)@墨I(xiàn)的潛在語義來獲取技術(shù)發(fā)展趨勢逐漸成為研究熱點(diǎn)之一。盡管LDA(Latent Dirichlet Allocation)模型依然是文本主題建模領(lǐng)域應(yīng)用最廣泛的方法,但傳統(tǒng)LDA建模存在主題可解釋性差以及未能充分利用專利文本上下文的語義關(guān)聯(lián)等問題,導(dǎo)致部分有價(jià)值的技術(shù)情報(bào)未能完全呈現(xiàn)。為了進(jìn)一步拓展傳統(tǒng)LDA方法在專利文本挖掘和技術(shù)預(yù)見領(lǐng)域的應(yīng)用,綜合集成LDA模型的文本聚類功能與KeyBERT算法的關(guān)鍵詞生成與語義分析能力,構(gòu)建了一種面向技術(shù)預(yù)見量化分析的集成框架,并通過對工業(yè)互聯(lián)網(wǎng)領(lǐng)域的技術(shù)預(yù)見分析驗(yàn)證了所提出模型的有效性,從而進(jìn)一步豐富了當(dāng)前基于文本建模和語義計(jì)算的技術(shù)預(yù)見方法體系。
關(guān)鍵詞:技術(shù)預(yù)見;專利挖掘;主題模型;KeyBERT;工業(yè)互聯(lián)網(wǎng)
中圖分類號:TP18;G353.1 " 文獻(xiàn)標(biāo)志碼:A " "文章編號:1671-0037(2023)7-53-13
DOI:10.19345/j.cxkj.1671-0037.2023.7.005
0 引言
技術(shù)預(yù)見(Technology Foresight)是一種系統(tǒng)化的、創(chuàng)新的預(yù)測方法,用于評估科技在未來可能產(chǎn)生的影響、遇到的機(jī)遇和挑戰(zhàn)。目前,技術(shù)預(yù)見被政府、企業(yè)、研究機(jī)構(gòu)等各種組織廣泛應(yīng)用,以提供科技創(chuàng)新決策的依據(jù)[1]。隨著新一輪科技革命和產(chǎn)業(yè)變革的興起,技術(shù)更迭周期不斷縮短,技術(shù)發(fā)展的不確定性和風(fēng)險(xiǎn)也隨之增加,由此科學(xué)嚴(yán)謹(jǐn)?shù)年P(guān)鍵核心技術(shù)預(yù)見活動(dòng)成為爭取國際科技創(chuàng)新主動(dòng)權(quán)的重要措施,世界各國對技術(shù)預(yù)見活動(dòng)和項(xiàng)目的重視程度也越來越高。同樣,我國對于技術(shù)預(yù)見也愈加重視。究其原因,除了滿足自身的發(fā)展需求外,還為了應(yīng)對美國及其盟友針對我國尖端科技領(lǐng)域的封鎖,因此需要進(jìn)一步加強(qiáng)自主創(chuàng)新和技術(shù)研發(fā)能力。黨的二十大報(bào)告明確強(qiáng)調(diào),要加快實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,堅(jiān)決打贏關(guān)鍵核心技術(shù)攻堅(jiān)戰(zhàn),進(jìn)一步完善科技創(chuàng)新體系。技術(shù)預(yù)見可以幫助決策部門充分了解和掌握未來科技發(fā)展的趨勢及方向,從而更好地規(guī)劃與布局國家的科技戰(zhàn)略和創(chuàng)新政策。這將有助于我國科技發(fā)展實(shí)現(xiàn)從“跟跑”到“并跑”再到“領(lǐng)跑”的目標(biāo),提升國家整體的綜合實(shí)力和國際地位。
當(dāng)前,進(jìn)行技術(shù)預(yù)見的方法主要分為定性和定量兩類。其中,定性的分析方法有德爾菲法、專家訪談和情境分析等;定量的分析方法有文獻(xiàn)計(jì)量、專利分析、知識(shí)圖譜和文本挖掘等。從技術(shù)預(yù)見的主流范式看,目前大部分學(xué)者都采用多種技術(shù)預(yù)見方法融合以及定性和定量分析方法相結(jié)合的方式進(jìn)行技術(shù)預(yù)見活動(dòng),而定量分析是目前技術(shù)預(yù)見研究領(lǐng)域的一個(gè)重要趨勢[2]。近年來,隨著大數(shù)據(jù)、人工智能、文本挖掘等的理論、模型和算法日漸成熟及應(yīng)用推廣,技術(shù)預(yù)見的方法也逐步與這些新興的信息技術(shù)相融合。其中,主題建模(Topic Modeling)作為一種有效的文本分析方法,在專利文本分析領(lǐng)域引起了廣泛關(guān)注和討論。應(yīng)用主題建模方法,不僅可以從龐雜的專利文本中自動(dòng)識(shí)別和提取出具有代表性的核心主題及相關(guān)技術(shù)情報(bào),還可以自動(dòng)分類并識(shí)別技術(shù)領(lǐng)域中的不同主題和演化趨勢,從而幫助研究人員或科技政策制定部門更好地了解技術(shù)演變趨勢和創(chuàng)新發(fā)展方向。因此,通過主題建模進(jìn)行技術(shù)預(yù)見依然是當(dāng)前較為熱門的研究方向之一[3]。
在文本主題建模領(lǐng)域,應(yīng)用較為廣泛的是LDA(Latent Dirichlet Allocation,隱含狄利克雷分布)法。其假設(shè)一篇文檔是通過一定的概率選擇某些主題以及每個(gè)主題又以一定的概率選擇某些單詞而生成的,它是一種文檔主題生成式模型,也稱三層貝葉斯模型。傳統(tǒng)LDA法存在一些不足之處:一是LDA模型輸出的是主題—單詞概率分布,從而導(dǎo)致主題的可解釋性較差;二是傳統(tǒng)LDA模型仍是基于詞袋模型的假設(shè),這使得主題下的關(guān)鍵詞選擇未考慮詞與詞之間的上下文聯(lián)系。因此,本文將傳統(tǒng)的LDA模型與基于語義計(jì)算的BERT模型進(jìn)行融合,從而進(jìn)一步增強(qiáng)對專利文本語義的挖掘效果。
1 文獻(xiàn)綜述
基于LDA的文本主題挖掘是一種無監(jiān)督的機(jī)器學(xué)習(xí)算法。LDA又是一個(gè)樸素的貝葉斯推理假設(shè),即每篇文檔都由多個(gè)主題組成,而每個(gè)主題又由一組單詞組成,因而詞語—主題—文檔之間存在某種基于概率的隸屬關(guān)系。主題建模的目標(biāo)是推斷出每篇文檔中包含哪些主題,以及每個(gè)主題中包含哪些單詞,由此可以實(shí)現(xiàn)從大量文本數(shù)據(jù)中自動(dòng)發(fā)掘隱藏在其中的主題結(jié)構(gòu);而計(jì)算機(jī)也可以通過主題模型對文本進(jìn)行分析和自動(dòng)分類或聚類,從而更好地理解文本潛在的語義信息。Newman等[4]指出,主題模型在減少技術(shù)分析所需的時(shí)間、降低分析復(fù)雜性等方面具有實(shí)用性,使得研究人員針對技術(shù)文獻(xiàn)全文進(jìn)行研究成為可能。
主題模型的理論基礎(chǔ)是由Salton[5]在20世紀(jì)70年代提出的向量空間模型(Vector Space Model,VSM)。他提出將文本內(nèi)容轉(zhuǎn)換為可以運(yùn)算的數(shù)學(xué)模型即轉(zhuǎn)變?yōu)橄蛄浚@樣就可以很方便地通過線性代數(shù)方法計(jì)算兩個(gè)向量之間的距離,以此來判斷文本之間的相似度。目前,該方法被廣泛應(yīng)用于新聞文本話題挖掘以及文本相似度的計(jì)算上。但由于只考慮詞語的因素,未考慮不同詞語可表達(dá)同一意思的情況,當(dāng)文本數(shù)據(jù)非常大時(shí),文檔的表示向量將達(dá)到一個(gè)超高的維度,因而計(jì)算困難,這些問題使得模型的效果不佳。為此,Deerwester等[6]在1990年提出了隱形語義索引模型(Latent Semantic Analysis,LSA),首次用詞語的語義刻畫近義詞,并將其引入Doc—Word(文檔—詞語)的向量空間里,解決了傳統(tǒng)詞語向量模型中存在的“多詞一意”的問題。但該模型假設(shè)Doc—Word是服從聯(lián)合正態(tài)分布的,而實(shí)際觀測實(shí)驗(yàn)表明,文檔和詞語其實(shí)是符合泊松分布的。于是Hofmann[7]在1999年提出了一種引入多項(xiàng)式分布的模型,即概率潛在語義分析模型(Probabilistic Latent Semantic Analysis,PLSA)。PLSA是一個(gè)有向圖模型,其將概率論的簡單貝葉斯網(wǎng)絡(luò)引入到模型中,對識(shí)別潛在語義主題有著不錯(cuò)的表現(xiàn)。之后,Blei等[8]在此模型基礎(chǔ)上,在語義分析中引入狄利克雷先驗(yàn)分布(Dirichlet Allocation),構(gòu)建了隱含狄利克雷分布模型(Latent Dirichlet Allocation,LDA)。該模型假設(shè)一篇文檔的生成過程是按照某種概率分布選出多個(gè)單詞并形成主題,再由這些主題按照某種概率分布生成一篇文檔。其由于出色的挖掘潛在主題結(jié)構(gòu)的能力以及優(yōu)秀的性能表現(xiàn),近些年來在文本分析、文本聚類中得到了廣泛應(yīng)用。岳麗欣等[9]通過LDA模型對技術(shù)創(chuàng)新路徑進(jìn)行研究;張晨晨[10]通過LDA模型對網(wǎng)絡(luò)輿情進(jìn)行情感分析,得到中國網(wǎng)民在新冠疫情期間的情感變化趨勢;張會(huì)兵等[11]將LDA模型與K-Means算法結(jié)合,并應(yīng)用到用戶評論聚類上,經(jīng)實(shí)驗(yàn)驗(yàn)證取得了不錯(cuò)的結(jié)果。
針對傳統(tǒng)LDA模型存在的問題,有學(xué)者提出了一些積極的改進(jìn)思路。例如,針對LDA模型主題的可解釋性差的問題,El-Kishky等[12]提出了PhraseLDA模型,通過構(gòu)建一個(gè)新的短語挖掘框架,將文檔分割成單詞和多字短語并作為LDA模型的輸入?yún)?shù),一定程度上使得模型輸出主題所表達(dá)的意思更容易被理解。但其在處理低頻詞上表現(xiàn)不佳,可能導(dǎo)致信息丟失和語義混淆。馬建紅等[13]通過提高將低頻但語義相似的短語分配到同一主題下的概率,來解決上述模型的這一問題。但該模型需要提前設(shè)置的參數(shù)對于模型效果影響很大,因此在處理大量數(shù)據(jù)時(shí)會(huì)耗費(fèi)許多人力物力在預(yù)處理上。而針對提高模型對于文本上下文信息理解的問題,Blei等[14]提出了HMM-LDA模型,在傳統(tǒng)LDA模型中使用隱馬爾科夫模型(Hidden Markov Model,HMM)來獲取文檔的上下文結(jié)構(gòu)信息。但該模型假設(shè)文檔中的每個(gè)詞匯都與當(dāng)前的主題標(biāo)簽有關(guān),即它類似于一個(gè)隨機(jī)馬爾科夫過程(E-ProM),這導(dǎo)致HMM-LDA模型無法對較長距離的依賴關(guān)系進(jìn)行建模;此外,HMM-LDA模型需要對文本數(shù)據(jù)進(jìn)行標(biāo)注,即將每個(gè)詞匯與它所屬的主題標(biāo)簽關(guān)聯(lián)起來,這在大規(guī)模數(shù)據(jù)處理上是非常耗時(shí)且困難的。在此模型基礎(chǔ)上,Gruber等[15]打破各個(gè)主題之間獨(dú)立的假設(shè),并考慮文檔中的發(fā)現(xiàn)性主題和潛在的狀態(tài)轉(zhuǎn)移,提出了HTMM(Hidden Topic Markov Models)模型,但該模型在處理大數(shù)據(jù)上同樣表現(xiàn)不佳。近年來,隨著BERT模型的崛起,由于其出色的上下文理解能力,已有眾多學(xué)者通過將BERT模型與LDA模型結(jié)合的方式來解決傳統(tǒng)LDA模型存在的問題。王秀紅等[16]通過將BERT模型的語義特征向量與LDA模型的主題—關(guān)鍵詞向量進(jìn)行拼接,并利用K-Means算法進(jìn)行語義聚類,實(shí)證研究農(nóng)業(yè)機(jī)器人關(guān)鍵技術(shù)識(shí)別,結(jié)果表明融合算法具有較高的準(zhǔn)確率和召回率。為了進(jìn)一步提升效果,阮光冊等[17]利用Sentence-BERT與LDA模型結(jié)合的方式增強(qiáng)了主題的語義連貫性,但由于增加了模型的復(fù)雜度,其消耗的算力較BERT-LDA多得多,因此該模型在處理大量文本數(shù)據(jù)時(shí)的表現(xiàn)仍有待提升。
綜上所述,當(dāng)前大部分學(xué)者僅針對傳統(tǒng)LDA模型存在的其中一個(gè)問題進(jìn)行分析,或者所提出的改進(jìn)模型在處理大量數(shù)據(jù)上表現(xiàn)不佳。為此,本文嘗試通過集成LDA模型和KeyBERT算法各自的優(yōu)勢,提出一種融合算法,并將其應(yīng)用到技術(shù)預(yù)見領(lǐng)域。在傳統(tǒng)LDA模型的基礎(chǔ)上,結(jié)合KeyBERT算法,將短語嵌入主題—特征詞向量中,提高主題的可解釋性,并利用KeyBERT算法的雙向注意力機(jī)制增強(qiáng)模型對于上下文的理解能力。一方面,為解決傳統(tǒng)LDA模型存在的問題提供了一種新的視角;另一方面,也進(jìn)一步豐富了技術(shù)預(yù)見定量分析的方法體系。
2 研究設(shè)計(jì)
將LDA-KeyBERT模型用于技術(shù)預(yù)見的流程大致如圖1所示。
圖1中的LDA-KeyBERT融合模型具體包括以下步驟。①數(shù)據(jù)的獲取與預(yù)處理:收集研究領(lǐng)域的專利數(shù)據(jù),將數(shù)據(jù)預(yù)處理為模型待輸入形式;②獲取文檔—主題概率分布:利用傳統(tǒng)LDA模型優(yōu)秀的文本聚類功能,得到每一篇文檔對應(yīng)的主題概率分布;③獲取主題—短語分布:利用KeyBERT獲取文檔—關(guān)鍵短語相似度分布,結(jié)合第2步所獲得的文檔—主題概率分布,獲取每一個(gè)主題下的關(guān)鍵短語分布;④主題演化趨勢分析:通過分析每個(gè)主題在不同時(shí)間的強(qiáng)度變化趨勢,判斷未來有持續(xù)研究價(jià)值的主題,并由此得出技術(shù)預(yù)見的結(jié)果。LDA-KeyBERT模型實(shí)施的整體流程則按照獲取數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)和輸出結(jié)果的邏輯進(jìn)行,即在獲取所研究的技術(shù)領(lǐng)域的專利數(shù)據(jù)后,提取所需的文本數(shù)據(jù),進(jìn)行預(yù)處理,之后利用LDA-KeyBERT模型輸出技術(shù)預(yù)見的分析結(jié)果。
2.1 數(shù)據(jù)的獲取與預(yù)處理
首先,基于專利數(shù)據(jù)庫,根據(jù)專利檢索式搜尋對應(yīng)的技術(shù)領(lǐng)域?qū)@@取必要的字段,包括專利號、標(biāo)題、摘要和專利申請年份等。
其次,為了構(gòu)建模型待輸入的專利文本語料庫,需要對所研究的文本(本文采用標(biāo)題和摘要)進(jìn)行預(yù)處理,包括分詞、小寫化、詞性轉(zhuǎn)化和去停用詞處理等。其中,對文本數(shù)據(jù)進(jìn)行分詞是為了滿足模型的輸入要求,構(gòu)建文檔—詞語的向量。進(jìn)行小寫化是將所有的單詞轉(zhuǎn)換為小寫形式,以便統(tǒng)一相同單詞的不同形式,減少數(shù)據(jù)的維度。詞性轉(zhuǎn)化是將單詞轉(zhuǎn)換為其基本形式或詞根形式,這有助于識(shí)別不同變化形式的單詞是否本質(zhì)上是相同的。例如,將“running”“ran”和“runner”都轉(zhuǎn)換為“run”。去停用詞是為了減少一些意義不大的詞語,可以進(jìn)一步降低詞向量的維度,從而提高模型的運(yùn)行效率。
2.2 獲取文檔—主題概率分布
這一部分使用LDA模型獲取文檔—主題的概率分布。LDA模型是一種無監(jiān)督的生成式概率模型,用于從文檔集合中推斷出隱含的主題信息。通過這種方式,可以得出每一篇文檔屬于某個(gè)主題的概率,模型的運(yùn)行步驟如下。
①初始化參數(shù):設(shè)定初始化的主題數(shù)量(K)。
②隨機(jī)分配:為每個(gè)文檔中的每個(gè)單詞隨機(jī)分配一個(gè)主題。此時(shí),每個(gè)文檔都具有一個(gè)暫時(shí)的主題分布,每個(gè)主題也具有一個(gè)暫時(shí)的詞分布。
③Gibbs抽樣或變分推斷:通過Gibbs抽樣或變分推斷進(jìn)行迭代更新,重新為每個(gè)單詞分配主題,同時(shí)更新文檔—主題和主題—詞分布。根據(jù)概率模型進(jìn)行迭代,直至收斂或達(dá)到最大迭代次數(shù)。
④估計(jì)參數(shù):在訓(xùn)練過程結(jié)束后,按照最終的迭代結(jié)果計(jì)算文檔—主題概率分布θ。
其中的一個(gè)難點(diǎn)是如何確定最佳主題數(shù)K。如果K過小,模型可能沒有能力很好地捕捉文本中的復(fù)雜關(guān)系和隱藏主題;而如果K過大,模型可能會(huì)過度擬合并且難以解釋。目前常用的方法是通過計(jì)算模型的困惑度(Perplexity)[8]和一致性指標(biāo)(Coherence)[18]得出K值。
困惑度是指模型對于輸入文本的不確定性,即模型不能確定輸入文本所屬的主題。一般而言,困惑度越高,表明模型的效果越差。一致性指標(biāo)則是用來評估主題內(nèi)部詞語的連貫性以及主題之間的差異性。一致性指標(biāo)越高,表明模型的效果越好。經(jīng)過文獻(xiàn)研究發(fā)現(xiàn),困惑度指標(biāo)存在一定的爭議性[18-19]。由此,本文采用一致性指標(biāo)計(jì)算最佳主題數(shù)。一致性指標(biāo)主要是通過計(jì)算每個(gè)主題之間的特征詞的平均相似度得到的,如式(1)所示[20]。
[Coherence=ilt;jscore(wi,wj,ε)] " " " " " " " (1)
其中:w表示某個(gè)主題下的一系列特征詞;ε表示平滑指數(shù)[20]。
2.3 獲取主題—短語分布
這一模塊主要分為兩個(gè)步驟:第一步是利用KeyBERT算法獲取文檔—關(guān)鍵短語相似度分布;第二步是將上面所獲取的文檔—主題分布按照公式(2)進(jìn)行計(jì)算,得到主題—關(guān)鍵短語分布。
[Sk,n=mM(?m,k·θm,n)] " " " " " " " " " " " " (2)
其中:Sk,n是指k主題下第n個(gè)關(guān)鍵短語的相似度;[?m,k]是指第m篇文檔中第k個(gè)主題的概率值;M為文檔總數(shù);[θm,n]是指第m篇文檔中第n個(gè)關(guān)鍵短語的相似度值。
KeyBERT是一個(gè)基于BERT模型架構(gòu)的關(guān)鍵詞/短語提取模型,其采用最小而有效的對抗性訓(xùn)練方法(Maximal Marginal Relevance,MMR)來提取關(guān)鍵詞/短語。這種方法結(jié)合了文本的嵌入以及詞—文檔矩陣來找到與文檔相關(guān)的關(guān)鍵詞,同時(shí)盡量減少關(guān)鍵詞之間的語義相似性[21]。已有研究文獻(xiàn)證明,相較于其他關(guān)鍵詞提取方法,KeyBERT可以生成更高質(zhì)量的文檔關(guān)鍵詞[22-23]。
2.4 主題演化趨勢分析
主題演化分析是指站在時(shí)間的角度理解主題的變化趨勢,可以更好地促進(jìn)技術(shù)決策或機(jī)會(huì)發(fā)現(xiàn)[24]。在主題模型中,可以通過主題強(qiáng)度(Topic Strength)指標(biāo)衡量主題的演化趨勢。其主要描述某主題在一段時(shí)間內(nèi)的研究熱門程度[25],計(jì)算過程如式(3)所示。
[Ts(zk)=m=1Mwmθm,k/m=1Mwm] " " " " " " " " "(3)
其中:
[wm=1-entropy(dm)maxentropy(d1),...,entropy(dM) ](4)
[entropy(dm)=-k=1Kθm,klog2θm,k] " " " " " " (5)
上式中:[θm,k]代表第m個(gè)文檔在第k個(gè)主題上分布的估計(jì)值。當(dāng)該文檔只屬于這一個(gè)主題時(shí),則權(quán)重賦值為1;當(dāng)該文檔在其所屬的所有主題上均勻分布時(shí),則權(quán)重賦值為0,即最小值,也就說明該文檔對于各個(gè)主題都不能提供支持。M為模型的所有文檔數(shù)。K為模型的所有主題數(shù)。
3 實(shí)證分析
本文以工業(yè)互聯(lián)網(wǎng)為例進(jìn)行分析。工業(yè)互聯(lián)網(wǎng)(Industrial Internet)是一種新型的工業(yè)模式,通過將現(xiàn)代信息技術(shù)和工業(yè)化深度融合,實(shí)現(xiàn)設(shè)備、產(chǎn)品、生產(chǎn)線、工廠等工業(yè)要素之間的互聯(lián)互通和數(shù)據(jù)共享。其以先進(jìn)計(jì)算和制造、普適感知、泛在網(wǎng)絡(luò)連接的融合為支撐,利用先進(jìn)的數(shù)據(jù)分析方法,輔助提供智能工業(yè)操作,從而提高生產(chǎn)效率、降低生產(chǎn)成本、實(shí)現(xiàn)產(chǎn)業(yè)升級和創(chuàng)新發(fā)展。可以說,工業(yè)互聯(lián)網(wǎng)是一種包含物品、機(jī)器、計(jì)算機(jī)和人的互聯(lián)網(wǎng),它將會(huì)改變商業(yè)產(chǎn)出并且重塑全球工業(yè)生態(tài)系統(tǒng)[26],也為工業(yè)乃至產(chǎn)業(yè)數(shù)字化、網(wǎng)絡(luò)化、智能化發(fā)展提供了實(shí)現(xiàn)途徑,是第四次工業(yè)革命的重要基石。對于我國來說,工業(yè)互聯(lián)網(wǎng)是一個(gè)歷史機(jī)遇,發(fā)展工業(yè)互聯(lián)網(wǎng)可以加快我國的產(chǎn)業(yè)轉(zhuǎn)型升級,提高制造業(yè)競爭力以及產(chǎn)業(yè)發(fā)展水平,實(shí)現(xiàn)從“中國制造”到“中國智造”的轉(zhuǎn)變。因此,對工業(yè)互聯(lián)網(wǎng)技術(shù)的發(fā)展現(xiàn)狀和發(fā)展趨勢進(jìn)行分析,具有重要的實(shí)踐意義。
3.1 數(shù)據(jù)收集
由于專利數(shù)據(jù)量大,技術(shù)要求高,故而選擇一個(gè)可靠的專利數(shù)據(jù)庫來檢索特定領(lǐng)域的專利文獻(xiàn)是必要的。目前,業(yè)內(nèi)應(yīng)用較為廣泛的有德溫特?cái)?shù)據(jù)庫(Derwent Innovations Index,DII)、谷歌專利數(shù)據(jù)庫(Google Patents)、Innography數(shù)據(jù)庫等。其中,Innography是一個(gè)先進(jìn)的專利搜索和分析平臺(tái),能夠提供全面的專利信息資源,幫助企業(yè)、研究機(jī)構(gòu)和專利代理人更有效地了解專利信息、市場動(dòng)態(tài)和競爭狀況。它涵蓋了世界主要的專利數(shù)據(jù)庫,如美國專利商標(biāo)局(USPTO)、歐洲專利局(EPO)、世界知識(shí)產(chǎn)權(quán)組織(WIPO)等,包含了超過100個(gè)國家的專利、商標(biāo)和設(shè)計(jì)數(shù)據(jù),是目前世界上公認(rèn)的專業(yè)可靠的專利數(shù)據(jù)庫之一。考慮到國內(nèi)外許多學(xué)者都利用Innography數(shù)據(jù)庫進(jìn)行專利分析和技術(shù)研究,本文最終確定采用Innography專利數(shù)據(jù)庫作為本實(shí)驗(yàn)的數(shù)據(jù)源。
關(guān)于專利的檢索式,參考以往學(xué)者針對工業(yè)互聯(lián)網(wǎng)的研究[27-29],并考慮到不同國家或地區(qū)對于工業(yè)互聯(lián)網(wǎng)的表述以及簡寫形式可能不同,最終確定檢索式為〔@(abstract,title,topic,claims) “Intelligent Manufacturing” OR “Industry Internet” OR “Industry Internet of Things” OR “Advanced Manufacturing” OR “Iiot” OR “iiot” OR “Industry 4.0” OR “Industry 5.0”〕,篩選申請日期在2000-01-01至2022-12-31之間的專利,共檢索出14 710條數(shù)據(jù)。由于同一專利可能在不同國家進(jìn)行注冊申請,因此會(huì)存在重復(fù)專利,刪除標(biāo)題和摘要均相同的專利,還剩下13 896條數(shù)據(jù)。為了了解工業(yè)互聯(lián)網(wǎng)專利申請的基本情況,繪制如圖2所示的專利申請趨勢圖。
從圖2中可以看出,2015年后,工業(yè)互聯(lián)網(wǎng)專利數(shù)開始快速增長。由于專利從申請到公開一般需要18個(gè)月[30],因此2021年和2022年的數(shù)據(jù)存在一定的滯后性。但根據(jù)2020年之前的數(shù)據(jù)趨勢所擬合的公式看,2021年、2022年仍處于高速增長階段,2022年的專利申請量將超過5 000件。
3.2 實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證LDA-KeyBERT模型在技術(shù)預(yù)見方面的有效性,本文對所獲取的數(shù)據(jù)進(jìn)行拆分,結(jié)果如表1所示。將工業(yè)互聯(lián)網(wǎng)專利數(shù)據(jù)按照專利申請日期分為兩個(gè)不同的數(shù)據(jù)集:第一類數(shù)據(jù)集稱之為訓(xùn)練集,包括申請日期在2000—2020年之間的專利,共有8 341條數(shù)據(jù);另外一類為驗(yàn)證集,包含申請日期在2021—2022年之間的專利,共有5 555條數(shù)據(jù)。
在獲取數(shù)據(jù)之后,首先需要進(jìn)行預(yù)處理。本文使用自然語言處理(NLP)技術(shù)進(jìn)行數(shù)據(jù)清理、分詞、停用詞去除和詞干提取等預(yù)處理操作。本文中所有的文本預(yù)處理都是通過Python進(jìn)行的,為技術(shù)預(yù)見研究做好數(shù)據(jù)準(zhǔn)備。
3.3 技術(shù)預(yù)見研究
利用LDA-KeyBERT模型對訓(xùn)練集進(jìn)行技術(shù)預(yù)見研究。在數(shù)據(jù)預(yù)處理后,第一步是利用LDA模型獲取文檔—主題概率分布。本文利用Python中Gensim庫的LDA模型進(jìn)行實(shí)驗(yàn),設(shè)定初始主題數(shù)為1~20,迭代次數(shù)為500,得到一致性指標(biāo)變化的趨勢圖,如圖3所示。由圖3可知,當(dāng)K=4時(shí),模型的一致性指標(biāo)值最大,由此確定最佳主題數(shù)為4。
重新設(shè)定最佳主題數(shù)為4,運(yùn)行模型,得到文檔—主題概率分布,如表2所示。
第二步是利用KeyBERT算法獲取文檔—關(guān)鍵短語相似度分布,并根據(jù)式(2)獲得主題—關(guān)鍵短語分布。本文利用Python中的KeyBERT庫進(jìn)行實(shí)驗(yàn),設(shè)置的具體參數(shù)如表3所示。
運(yùn)行模型后,首先得到文檔—關(guān)鍵短語相似度分布,再與第一步中獲得的文檔—主題概率分布結(jié)合,得到主題—關(guān)鍵短語的分布情況如詞云圖圖4所示。
第三步是進(jìn)行主題演化趨勢分析,根據(jù)式(3)計(jì)算每個(gè)主題的變化趨勢,如圖5所示。
由此判斷得出:主題3和主題4具有持續(xù)研究價(jià)值,在未來幾年的研究熱度仍處于高位。針對驗(yàn)證集,其作為驗(yàn)證技術(shù)預(yù)見結(jié)果的數(shù)據(jù)集,可以直接根據(jù)關(guān)鍵詞的詞頻來判斷研究的熱門程度。本文仍采用KeyBERT算法求得詞頻靠前的關(guān)鍵詞,如表4所示。
3.4 LDA-KeyBERT模型效果驗(yàn)證
首先,對比訓(xùn)練集中有持續(xù)研究價(jià)值主題下的關(guān)鍵短語和驗(yàn)證集的TopN熱門關(guān)鍵詞,可以很容易發(fā)現(xiàn),大部分訓(xùn)練集關(guān)鍵短語都在驗(yàn)證集中再次出現(xiàn),如圖6所示。這驗(yàn)證了將LDA-KeyBERT模型用于技術(shù)預(yù)見的有效性。
其次,為了比較LDA-KeyBERT模型與傳統(tǒng)LDA模型在技術(shù)預(yù)見上的效果,本文提出詞的平均相似度的概念,即利用模型中有持續(xù)研究價(jià)值主題下的TopN特征詞與驗(yàn)證集的TopM關(guān)鍵詞之間的平均相似程度來衡量技術(shù)預(yù)見的效果。其中:訓(xùn)練集中具有持續(xù)研究價(jià)值的主題代表著該主題在未來幾年的研究熱度依舊處于較高水平,將其作為技術(shù)預(yù)見的結(jié)果;驗(yàn)證集中的TopM關(guān)鍵詞代表著驗(yàn)證時(shí)期內(nèi)的研究熱點(diǎn)。通過分析訓(xùn)練集與驗(yàn)證集關(guān)鍵詞之間的相似程度,就可以判斷模型技術(shù)預(yù)見效果的好壞,即平均相似度高則代表模型的技術(shù)預(yù)見效果好。而兩個(gè)詞之間的相似度采用Word2Vec模型計(jì)算。該模型是一個(gè)簡單的神經(jīng)網(wǎng)絡(luò)模型,通過詞嵌入(Word Embedding)的方式可以捕捉到詞義和上下文信息,并將這些信息以向量的形式表示。已有文獻(xiàn)證明,該模型在驗(yàn)證詞之間的相似度方面有著不錯(cuò)的效果[31]。本文使用Python中Gensim庫的Word2Vec方法訓(xùn)練模型,主要參數(shù)設(shè)置如表5所示。
最終,兩個(gè)模型的詞的平均相似度與驗(yàn)證集TopM關(guān)鍵詞的變化趨勢如圖7所示。
由圖7可以發(fā)現(xiàn),當(dāng)預(yù)測的關(guān)鍵詞數(shù)大于5之后,LDA-KeyBERT模型的平均相似度開始明顯高于LDA模型,即說明LDA-KeyBERT模型的技術(shù)預(yù)見效果明顯優(yōu)于傳統(tǒng)LDA模型,再次證明了LDA-KeyBERT融合模型的可行性和優(yōu)越性。
3.5 技術(shù)預(yù)見結(jié)果
在LDA-KeyBERT模型效果得到驗(yàn)證之后,對于工業(yè)互聯(lián)網(wǎng)完整的專利數(shù)據(jù),需要重新運(yùn)行模型從而得到技術(shù)預(yù)見結(jié)果。與上文的操作相同,在對完整專利數(shù)據(jù)進(jìn)行預(yù)處理之后,運(yùn)行LDA模型得到模型的最佳主題數(shù),如圖8所示。可以看到,當(dāng)K=9時(shí),模型的一致性指標(biāo)達(dá)到最大值。由此可以判斷,最佳主題數(shù)為9。
緊接著重新設(shè)定最佳主題數(shù)以獲取文檔—主題概率分布,利用KeyBERT模型獲取主題—短語分布,并進(jìn)行主題強(qiáng)度演化分析,最終結(jié)果如圖9所示。
由此得出,有持續(xù)研究價(jià)值的主題為Topic1、Topic5、Topic6。根據(jù)這3個(gè)主題下的關(guān)鍵短語,得到相關(guān)的研究熱點(diǎn)如下。
①智能設(shè)備。在工業(yè)互聯(lián)網(wǎng)的場景下,區(qū)別于傳統(tǒng)制造業(yè),設(shè)備與設(shè)備以及設(shè)備與系統(tǒng)之間需要實(shí)現(xiàn)數(shù)據(jù)交互和智能化控制,這樣可以更好地提高生產(chǎn)效率、降低成本、提升產(chǎn)品質(zhì)量,實(shí)現(xiàn)生產(chǎn)過程的全面數(shù)字化和自動(dòng)化,并提高設(shè)備的安全性和可靠性,減少或避免生產(chǎn)中斷等生產(chǎn)事故發(fā)生。而智能設(shè)備則是實(shí)現(xiàn)這些功能的前提條件。可以說,智能設(shè)備是工業(yè)互聯(lián)網(wǎng)實(shí)現(xiàn)的基礎(chǔ)。隨著工業(yè)互聯(lián)網(wǎng)的不斷發(fā)展,針對智能設(shè)備的研發(fā)也必將是一個(gè)熱點(diǎn)問題,其將沿著多樣化、普遍化的趨勢發(fā)展,不斷擴(kuò)大應(yīng)用場景從而推動(dòng)整個(gè)工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展。
②數(shù)據(jù)采集、傳輸、處理。在工業(yè)互聯(lián)網(wǎng)的場景下,設(shè)備與設(shè)備以及設(shè)備與系統(tǒng)之間的信息交互是十分關(guān)鍵的,是實(shí)現(xiàn)工業(yè)互聯(lián)網(wǎng)的關(guān)鍵環(huán)節(jié)之一。設(shè)備與設(shè)備之間的信息交互可以實(shí)現(xiàn)生產(chǎn)設(shè)備的互聯(lián)互通,從而實(shí)現(xiàn)生產(chǎn)過程的數(shù)字化和自動(dòng)化;設(shè)備與系統(tǒng)之間的信息交互可以實(shí)現(xiàn)生產(chǎn)數(shù)據(jù)的實(shí)時(shí)采集和分析,從而實(shí)現(xiàn)智能制造和智能管理。由此,針對數(shù)據(jù)采集、傳輸、存儲(chǔ)、處理和管理的研發(fā)將是一個(gè)重要的研究方向和趨勢。如何更快地傳輸數(shù)據(jù),更優(yōu)地處理數(shù)據(jù),更好地保障數(shù)據(jù)安全等都是值得重點(diǎn)關(guān)注的問題。
未來,隨著數(shù)字化、智能化的深入發(fā)展,工業(yè)互聯(lián)網(wǎng)領(lǐng)域會(huì)不斷增加更多的數(shù)據(jù)源和數(shù)據(jù)類型。同時(shí),人工智能、大數(shù)據(jù)、區(qū)塊鏈等新技術(shù)也將被不斷應(yīng)用于數(shù)據(jù)處理中。這些技術(shù)的發(fā)展和結(jié)合,將進(jìn)一步提高數(shù)據(jù)采集、傳輸、處理的能力,進(jìn)一步增強(qiáng)生產(chǎn)過程的可視化、透明化和智能化程度,從而實(shí)現(xiàn)更高效、綠色、可持續(xù)的制造。
③人工智能。在工業(yè)互聯(lián)網(wǎng)的場景下,人工智能技術(shù)將會(huì)有很大的應(yīng)用空間。例如,工業(yè)互聯(lián)網(wǎng)中各種設(shè)備和傳感器所采集到的大量數(shù)據(jù),包括生產(chǎn)過程中的各種參數(shù)、工藝數(shù)據(jù)、能耗數(shù)據(jù)等,可以通過深度學(xué)習(xí)等技術(shù)進(jìn)行處理和分析,進(jìn)而提取出生產(chǎn)過程中的異常數(shù)據(jù)、設(shè)備的健康狀態(tài)等有價(jià)值的信息,最終實(shí)現(xiàn)生產(chǎn)過程的優(yōu)化和智能化控制。此外,人工智能還可以被應(yīng)用于預(yù)測分析和優(yōu)化決策方面。例如,通過數(shù)字孿生技術(shù)對歷史數(shù)據(jù)進(jìn)行分析和建模,可以預(yù)測未來生產(chǎn)過程中可能出現(xiàn)的問題,從而采取相應(yīng)的措施進(jìn)行預(yù)防和控制。
目前,人工智能技術(shù)仍處于不斷迭代和創(chuàng)新的階段,如何將已有或最新的人工智能技術(shù)運(yùn)用到工業(yè)互聯(lián)網(wǎng)場景是一個(gè)研究熱點(diǎn)。其能夠更好地幫助企業(yè)實(shí)現(xiàn)生產(chǎn)過程的智能化、數(shù)字化和自動(dòng)化,提高生產(chǎn)效率和產(chǎn)品質(zhì)量,降低生產(chǎn)成本和風(fēng)險(xiǎn)。
4 結(jié)論與啟示
近年來,通過以LDA模型為代表的主題模型挖掘?qū)@[藏主題信息進(jìn)行技術(shù)預(yù)見研究是一個(gè)熱門研究方向。但傳統(tǒng)LDA模型存在主題可解釋性差以及未考慮上下文之間的關(guān)系這兩個(gè)問題,且已有的改進(jìn)方法往往僅針對其中一個(gè)問題,或者改進(jìn)模型在訓(xùn)練大量文本數(shù)據(jù)時(shí)表現(xiàn)不佳。由此,本文提出LDA-KeyBERT融合模型,在利用傳統(tǒng)LDA模型獲得文檔—主題概率分布的基礎(chǔ)上,引入KeyBERT算法,將由僅根據(jù)詞頻發(fā)掘出的單詞構(gòu)成的主題轉(zhuǎn)變?yōu)榭紤]上下文關(guān)系的關(guān)鍵短語組成的主題,進(jìn)一步豐富了相關(guān)研究,并為改進(jìn)LDA模型提供了一個(gè)新的視角。此外,本文還基于2000—2022年工業(yè)互聯(lián)網(wǎng)的專利數(shù)據(jù),驗(yàn)證了LDA-KeyBERT模型在技術(shù)預(yù)見上的應(yīng)用效果。實(shí)驗(yàn)結(jié)果表明,在技術(shù)預(yù)見的效果方面,LDA-KeyBERT模型優(yōu)于傳統(tǒng)LDA模型,在處理大量數(shù)據(jù)上也具有一定優(yōu)勢。而利用LDA-KeyBERT模型對工業(yè)互聯(lián)網(wǎng)進(jìn)行技術(shù)預(yù)見的結(jié)果顯示,在未來幾年,智能設(shè)備的研發(fā)、數(shù)據(jù)管理以及與人工智能技術(shù)結(jié)合等是工業(yè)互聯(lián)網(wǎng)領(lǐng)域的重點(diǎn)研究方向。
當(dāng)然,本研究還存在一些局限,主要體現(xiàn)在:一是缺乏與其他類似的模型進(jìn)行對比分析;二是實(shí)證部分工業(yè)互聯(lián)網(wǎng)的專利檢索式有待進(jìn)一步完善;三是實(shí)證分析時(shí)僅采用了工業(yè)互聯(lián)網(wǎng)的專利數(shù)據(jù),其他文本信息(如技術(shù)論文)也會(huì)反映一部分技術(shù)趨勢。此外,為了提高模型的技術(shù)預(yù)見效果,未來將考慮針對多源數(shù)據(jù)進(jìn)行分析,并將LDA-KeyBERT模型應(yīng)用于其他領(lǐng)域的技術(shù)預(yù)見研究,從而進(jìn)一步檢驗(yàn)?zāi)P偷聂敯粜院头夯芰Α?/p>
參考文獻(xiàn):
[1] 陳紅.科技創(chuàng)新下的技術(shù)預(yù)見[J].創(chuàng)新科技, 2013(6):8-9.
[2] 李牧南.技術(shù)預(yù)見研究熱點(diǎn)的演進(jìn)分析:內(nèi)容挖掘視角[J].科研管理,2018, 39(3):141-153.
[3] 張碩,汪雪鋒,喬亞麗,等.技術(shù)預(yù)測研究現(xiàn)狀、趨勢及未來思考:數(shù)據(jù)分析視角[J].圖書情報(bào)工作,2022,66(10):4-18.
[4] NEWMAN N C, PORTER A L, NEWMAN D, et al. Comparing methods to extract technical content for technological intelligence[J]. Journal of Engineering and Technology Management, 2014, 32: 97-109.
[5] SALTON G. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11):613-620.
[6] DEERWESTER S, DUMAIS S T, FURNAS G W, et al. Indexing by latent semantic analysis[J]. Journal of the American Society for Information Science, 1990, 41(6):391-407.
[7] HOFMANN T. Probabilistic latent semantic analysis[C]//Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence.[S.l.]: Morgan Kaufmann Publishers Inc., 1999: 289-296.
[8] BLEI D M, NG A Y, JORDAN M I, et al. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003 (3):993-1022.
[9] 岳麗欣,劉自強(qiáng),劉春江,等.融合引用和文本特征的技術(shù)創(chuàng)新路徑識(shí)別研究[J].圖書情報(bào)工作,2023,67(3):49-60.
[10] 張晨晨.基于LDA模型的輿情情感主題研究[D].阜陽:阜陽師范大學(xué),2022.
[11] 張會(huì)兵,鐘昊,胡曉麗.基于主題分析的用戶評論聚類方法[J].計(jì)算機(jī)科學(xué),2019,46(8):50-55.
[12] EL-KISHKY A, SONG Y, WANG C, et al. Scalable topical phrase mining from text corpora[J]. Proceedings of the Vldb Endowment, 2014, 8(3):305-316.
[13] 馬建紅,姬帥,劉碩.面向?qū)@闹黝}短語提取[J].計(jì)算機(jī)工程與設(shè)計(jì), 2019,40(5):1365-1369,1382.
[14] BLEI D M, GRIFFITHS T L, STEYVERS M, et al. Integrating topics and syntax[C]// Advances in Neural Information Processing Systems 17 [Neural Information Processing Systems, NIPS 2004, December 13-18, 2004, Vancouver, British Columbia, Canada]. MIT Press, 2004.
[15] GRUBER A, WEISS Y, ROSEN-ZVI M. Hidden topic markov models[J]. Proceedings of Artificial Intelligence amp; Statistics, 2007(2):163-170.
[16] 王秀紅,高敏.基于BERT-LDA的關(guān)鍵技術(shù)識(shí)別方法及其實(shí)證研究:以農(nóng)業(yè)機(jī)器人為例[J].圖書情報(bào)工作,2021,65(22):114-125.
[17] 阮光冊,黃韻瑩.融合Sentence-BERT和LDA的評論文本主題識(shí)別[J].現(xiàn)代情報(bào),2023,43(5):46-53.
[18] 關(guān)鵬,王曰芬.科技情報(bào)分析中LDA主題模型最優(yōu)主題數(shù)確定方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2016(9):42-50.
[19] ARORA S, GE R, HALPERN Y, et al.Learning topic models provably and efficiently[J]. Communications of the ACM,2018,61(4): 85-93.
[20] STEVENS K, KEGELMEYER P, ANDRZEJEWSKI D, et al. Exploring topic coherence over many models and many topics[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2012: 952-961.
[21] SHARMA P, LI Y. Self-supervised contextual keyword and keyphrase retrieval with self-labelling[J]. Preprints, 2019.DOI:10.20944/PREPRINTS201908.0073.V1.
[22] MATHUR A, SUCHITHRA M. Application of abstractive summarization in multiple choice question generation[C]//2022 International Conference on Computational Intelligence and Sustainable Engineering Solutions (CISES). IEEE, 2022: 409-413.
[23] KHAN M Q, SHAHID A, UDDIN M I, et al. Impact analysis of keyword extraction using contextual word embedding[J]. PeerJ Computer Science, 2022, 8: e967.
[24] CHEN H, ZHANG G, ZHU D, et al. Topic-based technological forecasting based on patent data: a case study of Australian patents from 2000 to 2014[J]. Technological Forecasting and Social Change, 2017, 119: 39-52.
[25] 羅棋,閔超,顏嘉麒,等.國際區(qū)塊鏈研究主題挖掘及演化分析[J].現(xiàn)代情報(bào),2021,41(9):157-166.
[26] 沈蘇彬,楊震.工業(yè)互聯(lián)網(wǎng)概念和模型分析[J].南京郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2015,35(5):1-10.
[27] SISINNI E, SAIFULLAH A, HAN S, et al. Industrial internet of things: challenges, opportunities, and directions[J]. IEEE Transactions on Industrial Informatics, 2018, 14(11): 4724-4734.
[28] ARDITO L, PETRUZZELLI A M, PANNIELLO U, et al. Towards Industry 4.0: mapping digital technologies for supply chain management-marketing integration[J]. Business Process Management Journal, 2019,25(2):323-346.
[29] 王玉榮,段玉婷,卓蘇凡.工業(yè)互聯(lián)網(wǎng)對企業(yè)數(shù)字創(chuàng)新的影響:基于傾向得分匹配的雙重差分驗(yàn)證[J].科技進(jìn)步與對策, 2022,39(8):89-98.
[30] 邢曉昭,任亮,雷孝平,等.基于專利主題演化的顛覆性技術(shù)識(shí)別研究:以類腦智能領(lǐng)域?yàn)槔跩].情報(bào)科學(xué), 2023,41(3):81-88.
[31] JATNIKA D, BIJAKSANA M A, SURYANI A A. Word2Vec model analysis for semantic similarities in English words[J]. Procedia Computer Science, 2019,157:160-167.
Technology Foresight Based on the LDA-KeyBERT Model: An Instance of Industrial Internet
Li Munan1,2, Wang Yexin1
(1. School of Business Administration, South China University of Technology, Guangzhou 510641, China;
2. Guangdong Key Laboratory on Innovation Methods amp; Decision Management Systems, Guangzhou 510641, China)
Abstract:With the enormous emergence of various new technologies, the cycle of technological update iteration is shorter. In this case, governments, scientific research institutions, "and enterprises need to carry out corresponding technological forecasting and foresight in the process of making strategic decisions. Generally speaking, the traditional technology foresight method adopts the comprehensive integration method of expert interviews, questionnaires, and expert opinions. Such approach needs a long cycle, since it not only fully reflects the knowledge and experience of experts, but also coordinates the conflicts and contradictions among experts. In contrast, the traditional technology prediction method based on qualitative analysis and experience is to some extent subjective and limited, further causing misjudgment and uncontrollable risks. In recent years, interest in technology-foresight methods based on text mining and knowledge graph analysis has skyrocketed. The use of these cutting-edge information technologies could accurately analyze and predict the future trend of science and technology, further laying basis for enterprises and governments to make decisions. Recently, it is one of the hot topics in the technology-foresight literature to mine the topic model of patent text and obtain its potential semantics, so as to partially present the trend of technical topics. Latent Dirichlet Allocation (LDA) is the most widely accepted method in the text topic modeling, however, the traditional LDA modeling has poor topic interpretability and fails to make full use of the semantic association of "the patent text. Such deficiency would lead to some valuable technical information partly being presented. In order to further expand the application of traditional LDA method in the field of patent text mining and technical foresight, this paper comprehensively integrated the text clustering function of LDA as well as the keyword generation and semantic analysis ability of KeyBERT model, so as to make full use of their advantages to carry out technology-foresight analysis. Specifically, the LDA model is employed to cluster documents into different topics, and the KeyBERT model is used to extract key phrases under each topic. Doing so would improve the interpretability of each topic on the one hand, and enhance ethe semantic understanding ability of the model on the other hand. Further, a new computing framework for quantitative analysis of technology foresight would be built. Such approach enriches the current technology-foresight method systems based on text modeling and semantic computing. In addition, in the empirical analysis, we conducted model verification by splitting the patent data of the industrial Internet field into training sets and test sets. Next, we designed an index of \"average similarity\" to assist in evaluating the effect of technology foresight. Theoretical and empirical results show that the average similarity of the LDA-KeyBERT model is 50% higher than that of the traditional LDA model. Namely, the effect of the LDA-KeyBERT model in technology foresight/forecasting is significantly better than that of the traditional LDA model. The empirical analysis of technology foresight for the industrial Internet shows that future directions in the next few years would be the research and development of intelligent devices related to the industrial Internet, data transmission and management, and how to combine with emerging artificial intelligence technologies.
Key words: technology foresight; patent mining; topic model; KeyBERT; industrial internet
(欄目編輯:賀躍通)
收稿日期:2023-04-22
基金項(xiàng)目:國家自然科學(xué)基金面上項(xiàng)目“基于多源數(shù)據(jù)融合與機(jī)器學(xué)習(xí)的新興技術(shù)風(fēng)險(xiǎn)挖掘研究”(72074081);廣東省軟科學(xué)研究計(jì)劃重點(diǎn)項(xiàng)目“智慧城市和工業(yè)互聯(lián)網(wǎng)前沿領(lǐng)域的技術(shù)預(yù)測研究”(2019B101001002);廣東省自然科學(xué)基金面上項(xiàng)目“關(guān)鍵共性技術(shù)識(shí)別及其演化趨勢研究:多源數(shù)據(jù)融合與知識(shí)圖譜視角”(2020A1515010438)。
作者簡介:李牧南(1974—),男,博士,教授,研究方向:信息管理、科學(xué)計(jì)量和技術(shù)預(yù)見;王業(yè)信(1998—),男,碩士研究生,研究方向:信息系統(tǒng)和信息管理。