999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于產品生命周期的專利技術主題演化分析

2022-07-30 01:19:58馬建紅王晨曦
情報學報 2022年7期
關鍵詞:語義產品分析

馬建紅,王晨曦,閆 林,姚 爽

(1. 河北工業大學人工智能與數據科學學院,天津 300401;2. 天津工創科技發展有限公司,天津 300000)

1 引 言

技術主題代表技術文獻的主要內容,其演變遵循著特殊的內在規律。掌握技術主題的演化規律,對企業來說,能夠把控技術研究現狀、洞察發展趨勢;對國家來說,能夠把握技術演變的方向、引導相關產業占領技術高地,保護國家的戰略利益。所以,研究產品技術文獻的技術演變、分析技術主題的演化規律具有重要意義。專利作為極具代表性的技術文獻,幾乎承載了產品所有的技術信息,其內容準確,技術性強,伴隨著每個產品的生命周期。如何利用科學有效的分析框架對數量龐大的專利進行準確高效的分析,對產品的技術主題演化分析有著重要的意義。

為刻畫專利中的技術趨勢,揭示技術演化的過程,不同的研究人員從不同的角度提出了很多研究方法。有學者嘗試利用專利的分類屬性作為其技術主題,例如,融合IPC 分類號、專利申請人等特征,分析某個產品相關專利的演化趨勢[1]。但專利技術主題眾多,而技術主題的識別度不高,勢必會影響主題演化的精確性。為更準確地挖掘專利的技術主題,有學者使用共現網絡[2]和圖[3]等方式研究主題,但是這類方法會出現時滯,無法保證主題演化的延續性。為兼顧主題的多樣性以及時間特征,使用SAO(subject-action-object) 結構語義相似度識別[4]、主題模型[5]或主題聚類[6-7]等方式從數據集中挖掘主題。但對于專利這種技術特點明顯的語料,上述方法普遍效果較差。在專利技術主題演化分析方面,借助技術主題的時間信息,使用詞對分析[8]、語義監督[9]、時間序列分析[10]等方法分析技術主題演化趨勢。但隨機性是技術創新過程中的普遍現象,這些分析方法容易忽視技術創新過程的隨機性,以及產品發展過程中的動態主題。

現有的主題演化分析模型,基本上都是采用概率主題模型或者聚類模型分析主題的時間特征,得到技術主題演化趨勢。對于專利文本,不同產品生命周期的專利主題信息所起到的作用不同,產品發展前期專利主題信息容易被大量數據所淹沒,造成產品技術主題演化分析的結果不準確;現有主題提取算法大多同等對待每個特征詞,而不同的詞匯對主題產生的貢獻是不同的,對于專利文本,這種問題尤為突出。

針對上述問題,本文在專利的基礎上,利用產品生命周期和改進權值的W-LDA (weighted latent Dirichlet allocation)主題模型[11-12]以及基于相似度的階段主題演化分析方法[13]構建一種基于產品生命周期的專利技術主題演化分析模型。該模型克服了主題提取結果的技術代表性差的問題,并通過產品生命周期得到隱含的主題信息,深度研究產品發展周期的主題語義信息,能夠更加準確地分析產品的發展趨勢。

2 產品生命周期與專利技術主題的關系

2.1 產品生命周期與專利數量的關系

產品的發展過程大致可以劃分為嬰兒期、成長期、成熟期、衰退期四個階段[14]。本文根據專利數量的增長規律,對產品生命周期不同的階段進行劃分(圖1)。

圖1 產品生命周期與專利數量的關系

(1)嬰兒期:專利新增數量較少,產品處于起步階段,專利數量曲線斜率接近于零,但始終有該產品的專利出現,研究重點在于技術的產品化,表明該產品處于其生命周期的嬰兒期。

(2)成長期:專利新增數量先是振蕩上升,之后趨于穩定,專利數量曲線斜率大于零,新的研究主題不斷涌現,核心技術不斷迭代,后期出現部分彌補缺陷專利。

(3)成熟期:專利新增數量呈快速增長趨勢,專利數量曲線斜率進一步增加,研究主題數量趨于穩定,但仍處于增長態勢,專利新增數量維持在一個較高的水平,主題內容開始大量向成本和彌補缺陷方向發展。

(4)衰退期:專利新增數量呈遞減趨勢,專利數量曲線斜率小于零,基本沒有新的研究主題出現,表明該產品正在衰退。

2.2 產品生命周期與專利技術主題演化分析的關系

生命周期可以結構性地描繪產品技術主題的演化[15]。專利的主題作為產品不同階段發展的體現,其生命周期與產品的發展周期基本一致,都包括產生、發展、成熟和消失四個過程。由于主題以詞語作為表現手段,詞語的含義和其構成的多樣性、復雜性就決定了主題在體現產品技術發展時的具體性和多樣性。

隨著產品生命周期的不斷發展,產品的技術主題會不斷發生變化,產品技術主題的語義信息會不斷豐富,產品技術的演化速度也會不斷加快。產品技術主題的構成由比較孤立的詞匯逐漸向多個詞匯組合演變,發生主題演化,在上一階段主題的基礎上發生復雜的分化和融合。

在主題演化分析的過程中,容易忽略細粒度的主題信息,難以把握產品技術主題的發展脈絡。使用產品生命周期,能結構化地分析主題演化,了解產品不同發展階段中技術主題的變化,以及階段間的聯系,為把握產品的發展提供合理有效的研究方法,從而得到產品生命周期的技術主題發展信息,而局部的主題演化信息又可以引導產品生命周期的劃分。產品生命周期與主題演化分析密切相關,兩者共同構建基于產品生命周期的專利技術主題演化模型。

3 基于產品生命周期的專利技術主題演化模型構建

基于產品生命周期的專利技術主題演化模型主要分為三個部分,產品生命周期劃分、產品專利技術主題提取MW-LDA(multiple weighted latent Dirichlet allocation)模型構建以及產品專利技術主題演化分析方法。如圖2 所示,利用專利文獻增長規律以及局部主題信息進行專利產品生命周期的劃分;構建產品專利技術主題提取MW-LDA 模型,得到各階段主題語義信息;構建產品技術主題向量,通過階段間技術向量的關聯程度,分析產品專利技術主題的演化規律。

圖2 基于產品生命周期的專利技術主題演化模型

3.1 產品生命周期劃分方法

首先利用擬合算法生成專利發表量與年份的擬合曲線,根據產品生命周期以及專利數量增長規律劃分產品的生命周期。但是僅根據專利數量增長規律來劃分,不僅理論上難以完全契合,而且往往與實際情況不相符。細粒度的主題信息更能代表生命周期的變化,因此,本文融合這兩種模式來刻畫產品生命周期,基于局部語義信息,使用滑動窗口的方式,分析局部主題語義相似度,進行生命周期劃分的調整,如圖3 所示。

圖3 產品生命周期劃分機制

(1)利用文獻信息統計方法統計產品的專利數量信息及其變化,分析產品專利數量信息的增長趨勢,通過每年專利發表量,利用曲線擬合算法,得到專利發表量年代分布擬合曲線。

(2)根據產品生命周期,利用專利發表量年代分布擬合曲線,進行產品生命周期的初步劃分,得到三個初始節點。

(3)以上一階段得到的每個初始節點為中心,在閾值范圍之內劃分一個時間區間,作為節點調整的范圍。

(4)以滑動窗口算法(sliding window algorithm)的方式在時間區間內劃過,設定滑動窗口的大小為2,計算每個滑動窗口的主題間的平均相似度,相似度最小的即為調整后的階段劃分節點,公式為

3.2 產品專利技術主題提取MW-LDA模型

主題模型中LDA(latent Dirichlet allocation)算法是一種混合概率增長模型,通過最大化詞語的共現概率尋找主題詞聚類,利用Dirichlet 先驗分布刻畫文檔生成過程,并限定文檔的主題數量,避免其他概率過擬合以及參數過多問題,從而高效提取文檔的隱含主題,并對文檔進行聚類。

如圖4 所示,M代表文檔,N代表詞,K代表主題,共同組成了LDA 主題模型的三層結構。θ代表文檔中主題的概率,由參數α控制。φ代表主題中特征詞的概率,由參數β控制。在文檔數據集中,將所有文檔劃分為一系列特征詞集合,LDA 主題模型采用吉布斯抽樣方法把文檔概率性地分配給各個主題,具體公式為

圖4 MW-LDA模型

LDA 模型的特點是不關注特征詞的語義區別,同等對待不同的特征詞。然而,不同的特征詞對主題的代表作用具有差異,在采用LDA 模型進行主題提取的過程中,得到的主題會向高頻特征詞傾斜,導致能夠代表文檔主題的核心特征詞被代表性較差的特征詞淹沒,降低LDA 模型訓練結果對文檔主題的代表性。而僅借助停用詞進行處理只能過濾掉部分表意能力極差的特征詞,而且這種直接過濾的方式并不適用于表意能力較差的詞匯。

進一步將LDA 模型用于主題提取時,發現不同的特征詞對主題提取的影響是不同的。如果賦予區分能力比較強的以及語義信息比較重要的特征詞較大的權重,同時,賦予區分能力比較差的以及語義信息比較不重要的特征詞較小的權重,能簡單高效地抑制噪聲特征對主題提取結果產生的不利影響。

因此,W-LDA 應運而生,該模型認為特征詞的生成不僅受概率影響,還與特征詞對文檔的重要性相關。為此,利用特征詞權重W改進吉布斯采樣公式,對不同的特征詞在不同的主題下賦予不同的權重,改進LDA 模型生成特征詞的概率,公式推導為

其中,W(ωi,d)權重公式的計算方式決定了結果的合理性。TF-IDF (term frequency-inverse document frequency)是目前被廣泛采用的權值計算公式,該方法從特征詞頻的角度考慮,特征詞在文檔中出現次數越多,表示該特征項越可以更好地代表該類別的信息;從反特征詞頻的角度考慮,認為在少數文檔中出現的特征詞比在多數文檔中出現的特征詞能更好地區分類別。

但是,基于TF-IDF 的加權策略依然存在較大問題。首先,需要利用去除停用詞等技術來解決TFIDF 向量過大,以及由詞匯數量所導致的稀疏問題。停用詞代表著常見卻缺乏實際含義的詞匯。對于加權工作影響比較大的便是TF-IDF 沒有考慮詞匯本身的特征,對于特殊文本數據來說缺陷明顯。

因此,本文針對產品專利文本數據,根據專利文本的技術性強、體系結構嚴謹的特點,提出MWLDA 的專利技術主題提取方法,通過改進LDA 模型生成特征詞的過程,監督吉布斯采樣的過程,以提高LDA 模型所生成主題的技術代表性。

其中,最重要的就是本文提出的新的加權策略。對于產品專利文本,本文融合特征詞的位置信息、語義信息、區分能力等,構建復合權值。本文將互信息引入原始的TF-IDF 計算公式,通過互信息衡量某個特征詞和主題之間的關聯關系,并融合位置與語義信息進行權重增益,權重公式為

其次,主題提取的效果不僅與主題提取的方法有關,而且與預設的主題數目K值的選取密切相關,不同的K值影響了后續的產品技術主題的演化分析。現有的主題模型,大多繪制困惑度(perplexity)曲線,根據曲線選取模型困惑度相對最小的K值作為主題數,并以此來衡量主題模型的好壞。而困惑度曲線往往是一條不斷下降的曲線,如果選取的K值偏大,就會導致主題之間相似度較大,影響主題演化分析。所以,本文采用主題一致性(topic coherence)來確定最優主題數,并評價主題模型,公式為

3.3 產品專利技術主題演化分析方法

隨著產品生命周期的進行,技術的分化與交叉融合不斷加快,相對應地,生命周期階段間的主題也發生了不同程度的分化與交叉融合,這種變化就是階段間主題關聯演化。產品專利技術主題演化指的是階段主題間隨著產品生命周期發生的變化,是分析產品專利技術主題演化的關鍵。階段主題間的演化路徑可以通過相鄰階段主題間的語義相似度來分析,不同的相似度代表不同階段主題的相關程度,可以識別主題之間的演化路徑,主要有繼承、融合和分化三種主要演化方向,如圖5 所示。

圖5 主題演化分析方法

(1)繼承:根據產品生命周期的先后,相鄰階段的主題之間有較高的相似度,代表了下一階段的主題延續了上一階段的語義信息,發生了主題繼承。

(2)分化:根據產品生命周期的先后,上一階段的主題與下一階段的多個主題有較高的相似度,代表了下一階段的多個主題由上一階段的主題分化產生,這些主題之間發生了主題分化。

(3)融合:根據產品生命周期的先后,上一階段的多個主題與下一階段的主題有較高的相似度,代表了下一階段的主題由上一階段多個主題融合產生,這些主題之間發生了主題融合。

在實際案例中,分化和融合往往是同時存在且相輔相成的。在概率主題模型中,主題指在語義信息上與主題相關的一組詞及其權重構成的向量組合,T=(p(ω1|T),p(ω2|T),…,p(ωi|T)),所以對于產品生命周期階段間技術主題的演化分析,使用主題間帶權重的余弦相似度來度量,對于主題T1和T2來說,

4 案例分析:電動車輛動力裝置的專利技術主題演化分析

4.1 數據來源及預處理

為驗證本文構建的基于產品生命周期的專利技術主題演化分析模型的有效性,選取電動車輛動力裝置的相關專利,檢索時間為1994—2017 年。經過去重、去除與主題無關的專利、去除無效專利等數據預處理,最終獲得電動車輛動力裝置專利語料27198 篇。再通過對原始語料庫進行中文分詞等自然語言處理,獲得最終的實驗用語料庫。

4.2 電動車輛動力裝置的生命周期劃分

根據1994—2017 年每年的專利發表量,繪制年份和年專利發表量的擬合曲線,如圖6 所示。從圖6 可知,電動車輛動力裝置的專利發表量呈現快速增長態勢。為了更細致地刻畫電動車輛動力裝置的生命周期,基于專利發表量曲線,結合產品生命周期,將電動車輛動力裝置的發展分為以下兩個階段。

圖6 專利發表量擬合曲線

(1)嬰兒期:1994—2004 年。這一階段該產品的年專利發表量在500 篇以內,專利發表的年增長量較低,說明該產品只是剛剛起步,處于嬰兒期。

(2)成長期:2005—2017 年。這一階段該產品的年專利發表量在500 篇以上,專利發表的年增長量較高,甚至快速上升,發文量逐漸增長到了嬰兒期的數倍。

根據以上分析,階段的劃分節點node 處于2003年和2004 年之間。但是,專利發表量只是刻畫產品生命周期的一個方面,要想更細致、更精確地刻畫電動車輛動力裝置的生命周期,還需要利用局部主題語義信息。

以階段劃分節點node 為中心,選取一個長度為6 的時間區間。以滑動窗口算法的方式在時間區間內劃過,設定滑動窗口的大小為2,計算每個滑動窗口的主題間的平均相似度(ESC),結果如表1 所示。

表1 各窗口的ESC值

由表1 可知,階段劃分節點應該移動到2004 年與2005 年之間。

4.3 電動車輛動力裝置的專利技術主題提取

對不同周期的專利,使用本文提出的MW-LDA技術主題提取方法分別進行主題提取,并使用主題一致性分數曲線確定K值。主題一致性分數是融合了主題間相似度的評判指標,相比于困惑度,能更好地衡量LDA 的主題提取的結果。當主題一致性分數指標最大時,主題抽取的結果最合理。實驗結果如圖7、圖8 所示,最優主題數分別為35 和80。

圖7 嬰兒期主題一致性分數

圖8 成長期主題一致性分數

4.4 電動車輛動力裝置的專利技術主題演化分析

相鄰階段主題間的相似度可以代表產品生命周期演化趨勢,結合經驗,閾值選取0.2,得到相似度大于閾值的主題組合,繪制圖譜,分析階段間產品技術主題演化趨勢。電動車輛動力裝置的技術主題部分語義演化現象如圖9 所示,其中每個主題下面的主題詞用最能代表該主題語義信息的5 個詞組成。

從圖9 可以看出,該產品主題在成長期產生了大量新的主題,并且很多嬰兒期的主題發生了不同程度的融合、分化和繼承。具體規律如下。

圖9 主題演化分析

(1) 分化:燃料電池(燃料電池、能量、燃料、供給、消耗)分化為了燃料電池原材料(燃料電池、燃料、空氣、氣體、氫氣)以及儲能回收(能量、儲能、回收、推進、吸收)兩個方向。

(2)融合:在嬰兒期和成長期的過渡當中,產品技術主題的融合不是單獨發生的,往往伴隨著產品技術主題的分化,兩者相輔相成。電動汽車太陽能(電動汽車、電能、太陽能、轉向、耦合)和蓄電裝置(電壓、蓄電池、溫度、直流電、交流電)發生了分化與融合,演化為電能儲備(電能、轉換、能源、儲存、用電)、太陽能電池板(蓄電池、太陽能、電池板、車體、車頂)、電動汽車電瓶(電動汽車、電瓶、二極管、輸出、三極管)以及電路電壓(電壓、模式、低電壓、切換、開路)等四個主題。

(3) 繼承:機動車的控制電路(電路、電容器、機動車、控制電路、串聯)演化為(電路、信號、控制電路、單片機、電平),出現了繼承,并產生了技術更新,技術側重點發生改變。

除此之外,還產生了許多與上一階段無關的主題,如電路保護裝置(保護、鋰離子、安全性、電路板、保護裝置)和成本優化(技術、節能、成本、燃油、設計)等。

4.5 模型對比分析

在以電動車輛動力裝置的語料為實驗對象的情況下,分別針對主題提取的效果以及演化分析的效果進行實驗對比分析,從不同角度驗證本文所提出的基于產品生命周期的專利技術主題演化分析模型的有效性。

首先,為了驗證本文所提出MW-LDA 的有效性,我們選擇與AD-LDA (approximate distributed LDA)[11]以及G-LDA(Gaussian LDA)[16]兩種模型進行對比。在對比實驗中,所有模型的Dirichlet 超參數α=50/K,β=0.1,主題數設為K=35, 80。如圖10 所示,分別在不同的階段、不同的主題數量K值下,得到不同模型的主題一致性分數,以對比不同模型的主題提取效果。主題一致性得分越高,主題提取效果越好,因此,本文所使用的主題提取算法均優于其他算法。

圖10 三種模型主題提取效果對比

其次,為了評估本文基于產品生命周期的專利技術主題演化分析方法的有效性,利用4.1 節所獲得的電動車輛動力裝置的專利文獻數據,同樣運用本文所提出的劃分方法以及實驗參數,使用同樣基于W-LDA 的AD-LDA 進行技術主題提取,得到部分主題數據,結果如表2 所示。

表2 AD-LDA生命周期各階段的主題

由表2 可以看出,AD-LDA 在電動車輛動力裝置的專利實驗數據下產生了嚴重的不適用性,所提取的主題界限不明顯,權重較高的主題詞匯大多被技術特點不夠明顯的詞匯代替,如信息、設備、系統、結構、安裝等,這些詞匯雖有一定的技術含義,但遠不足以代表主題的主要信息,對比本文所提出的技術主題提取方法所提取的主題詞,如燃料電池、電路、發動機等詞匯,存在不小的差距。而且,直接導致了嬰兒期和成長期的主題詞關聯程度偏低,不具備演化分析的基本條件,如果強行采用本文所提出的演化分析方法,會導致嬰兒期和成長期主題關聯度較低,無法形成有效的主題演化圖譜。而本文所提出方法由于更適用于專利文本的融合了專利體例結構、特征詞和主題之間的關聯關系以及特征詞的語意信息的復合加權策略,所得到的主題詞更能代表主題類別的信息,并且主題之間界限明顯,因此在演化分析時,如4.4 節所述,階段主題之間的關聯度更高,更能代表該產品的技術主題發展脈絡。

5 結束語

本文針對專利文本,結合產品生命周期以及加權LDA,嘗試提出一種新的技術主題演化分析模型。將專利按照時間特征和專利增長規律劃分,并利用局部主題信息刻畫產品的生命周期。同時,針對現有主題挖掘方法對專利的適用性差、主題技術特點不明顯等問題,提出MW-LDA 的專利技術主題提取算法,從不同角度改進詞匯權重并構造復合權值,改進LDA 模型生成特征詞的過程。在此基礎上,利用主題信息之間的相似度實現產品生命周期不同階段、不同層次的主題演化分析。

技術主題演化在技術發展的過程中,歷史的研究成果是新技術思想產生的基礎,這一過程是不可觀測的隱藏序列,之后的工作將致力于研究主題間隱含的轉移方向,進而確定技術主題的未來演化趨勢。

猜你喜歡
語義產品分析
隱蔽失效適航要求符合性驗證分析
語言與語義
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
2015產品LOOKBOOK直擊
Coco薇(2015年1期)2015-08-13 02:23:50
認知范疇模糊與語義模糊
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
新產品
玩具(2009年10期)2009-11-04 02:33:14
產品
個人電腦(2009年9期)2009-09-14 03:18:46
主站蜘蛛池模板: 久久中文无码精品| 中文字幕永久视频| 亚洲综合激情另类专区| 国产精品亚洲片在线va| 亚洲国产清纯| 曰韩免费无码AV一区二区| 国产国产人在线成免费视频狼人色| 国产日本欧美在线观看| 久久精品国产精品一区二区| 国产一区二区三区免费| 国产毛片片精品天天看视频| 国产真实乱子伦视频播放| 国产乱子伦手机在线| 538国产在线| 免费可以看的无遮挡av无码 | 色综合天天操| 无码 在线 在线| 99久久精品国产综合婷婷| 亚洲浓毛av| 日韩欧美中文字幕在线韩免费| 亚洲第一页在线观看| 国产97公开成人免费视频| 日韩无码视频专区| 久久午夜夜伦鲁鲁片不卡 | 在线一级毛片| 国产视频 第一页| 毛片基地视频| 精品一区二区三区自慰喷水| 香蕉国产精品视频| 婷婷开心中文字幕| 国产成人8x视频一区二区| 亚洲大学生视频在线播放| 国产区网址| 国产小视频a在线观看| 欧美成人综合在线| 亚洲美女一级毛片| 午夜a视频| 色婷婷亚洲十月十月色天| 无码一区二区三区视频在线播放| 成色7777精品在线| 国产永久在线观看| 国产精品三级av及在线观看| 毛片大全免费观看| 国产人人射| 热久久综合这里只有精品电影| 国产午夜福利在线小视频| 波多野结衣久久高清免费| 国产成人亚洲综合a∨婷婷| 无码日韩精品91超碰| 久久鸭综合久久国产| 亚洲浓毛av| 欧美午夜网站| 97se亚洲| 91视频青青草| 少妇精品在线| 91系列在线观看| 手机在线免费毛片| 亚洲欧美在线看片AI| 色视频国产| 91亚洲精品第一| 亚洲视屏在线观看| 欧美性久久久久| 天天色综网| 精品少妇人妻一区二区| 91九色视频网| 日本久久网站| 99ri精品视频在线观看播放| AV熟女乱| 日韩精品久久无码中文字幕色欲| 国产午夜看片| 精品国产电影久久九九| 日韩第一页在线| 91po国产在线精品免费观看| 久久婷婷五月综合色一区二区| 青青操国产| 欧美午夜视频在线| 一级毛片在线直接观看| 亚洲欧洲日韩综合| 欧美日韩综合网| 国产精品免费p区| 国产正在播放| 爱色欧美亚洲综合图区|