













關鍵詞: LDA 主題模型; 扎根理論; 高價值專利; 熱點主題; 專利評估; 專利價值預測
DOI:10.3969/j.issn.1008-0821.2024.08.014
〔中圖分類號〕G255.53 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 08-0153-18
據世界知識產權組織(WIPO)2022 年的年度報告顯示, 2007—2020年, 全球專利申請總量從最初的187 萬件增長至328 萬件, 專利授權量更是實現了兩倍以上的增長。至2021 年, 世界各地創新者共提交340 萬件專利申請, 同比增長3.6%, 全球有效專利數量在2021 年增長了4.2%, 達到約1 650萬件。然而專利申請與授權數量的激增必然會導致專利質量人工審核和評估的困難, 進而導致專利質量的下降。因此, 從海量專利中自動識別高價值專利具有重要的理論與實踐意義, 有效的專利評估和高價值專利識別可以為企業專利申請、技術布局、技術投資與并購決策提供知識與情報服務, 有助于企業降低專利申請及維護成本、最大化專利商業利潤, 是企業快速捕捉最先進技術趨勢、開發創新產品, 形成以高價值專利為核心的專利組合培育體系, 鞏固企業核心競爭力的關鍵。同樣, 政府可以制定其科技政策, 以增加國家競爭力, 刺激經濟增長。
專利多維價值和質量評估[1-2] 、高價值專利識別與預測[3-4] 、新興技術和顛覆性技術預測[5-6] 、領域技術熱點與前沿主題分析[7] 等高價值專利相關研究問題已經成為學術界和實踐者關注的焦點話題。國內外學者對于高價值專利的研究已經進入成熟階段, 大量研究人員持續不斷地關注高價值專利識別與預測研究過程中的新問題、新理論和新方法,涌現出大量相關研究文獻[8-10] 。盡管部分學者已經對高價值專利研究熱點與前沿進行了可視化圖譜分析和歸納總結[11-13] , 然而針對國際高價值專利研究的熱點主題范疇識別與扎根理論研究論文極少。基于此, 本文基于Web of Science 數據, 融合LDA主題模型和扎根理論方法對國際高價值專利研究進行領域熱點主題的自動識別, 并利用扎根理論對研究主題范疇進行三級編碼, 總結歸納國際高價值專利研究領域的熱點主題范疇并進行綜述, 為高價值專利的識別與預測研究實踐提供參考借鑒。
1數據與方法
1.1 國際高價值專利研究文獻數據與發展態勢
本文為了對國際高價值專利進行分析, 運用專業檢索式TI = (highly cited patent) OR TI = (highvalue patent) OR TI = (high-value patent) OR TI =(high quality patent) OR TI = (high-quality patent)OR TI=(promising patent) OR TI=(core patent) ORTI=(important patent) OR TI=(patent value) OR TI=(patent quality)檢索Web of Science 數據庫, 時間截至2022 年, 共檢索到765篇期刊文獻。
根據國際高價值專利的研究發展態勢, 將國際高價值專利研究劃分為3 個階段。第一個階段是1906—2005 年, 該階段是國際專利價值研究的起步階段。2005年國際專利申請數量已經達到13 萬件,但是研究人員還未意識到專利質量的重要性, 年發文量均小于10 篇, 僅僅從專利的經濟價值、法律價值進行探討, 主要研究專利保護權的私人價值。2006—2017 年, 專利價值分析進入成長期。每年申請的專利數量大幅度上漲, 僅2017 年國際專利申請數量就已經達到24 萬多件, 約是2005年申請數量的兩倍。此時注意到由于專利數量激增導致的專利質量下降問題, 進而開始對專利質量的影響因素、專利價值評價指標、專利價值評估等展開研究, 研究方法也從主觀評價逐漸向機器學習轉換, 文獻數量呈漸進式增長趨勢。2018—2022年, 專利價值的研究進入成熟期。國際專利申請數量高達135萬件,專利數據庫規模日益擴大, 亟需從海量專利數據中篩選高價值專利。而且前期對專利質量以及專利價值的研究為該階段的研究進展奠定了基礎, 使得越來越多的研究人員投入高價值專利的研究中。故高價值專利研究發文數量穩步上漲, 發文數量高達313篇, 研究領域開始逐漸轉向對高價值專利的研究。
1.2 研究框架與方法
1.2.1 研究框架
本文從國際高價值專利研究文獻數據入手, 首先展示了國際高價值專利研究的發展態勢及研究進展, 然后綜合使用LDA 主題模型和TF-IDF 算法識別出國際高價值專利研究的熱點主題, 并借助扎根理論對國際高價值專利研究熱點主題進行三級編碼,歸納總結國際高價值專利研究的熱點主題范疇并進行扎根理論綜述, 論文整體研究框架如圖2 所示。
1.2.2研究方法
1) 數據預處理方法
采用Web of Science 數據庫中的國際高價值專利研究論文數據, 通過專業檢索式檢索到765 篇論文, 使用Python 工具進行數據預處理。首先, 調用Pandas 包對數據中摘要列為空的行進行刪除, 保證后期數據的完整性, 處理后文獻總數為682 篇; 其次, 提取標題以及摘要列, 調用正則表達式、Jieba數據包對提取的數據進行規范化、去停用詞操作。停用詞表根據文本內容進行構建, 包含無意義的連接詞、介詞、感嘆詞、人稱代詞以及名詞縮寫等;最后, 對清洗后的數據構建詞袋: 使用Sklearn 中的CountVectorizer 將單詞轉化為頻次數組, 再使用Toarray 方法完成特征維度的構建。
2) TF-IDF算法
TF-IDF 算法: 詞頻—逆文本頻率, 是一種能夠準確提取文本關鍵詞的算法。該方法經常被用于數據挖掘、文本處理、信息檢索等領域。TF-IDF 算法的內涵如下:
TF(Term Frequency)指的是某個詞項在一個文檔中出現的次數。其反映出該詞項在該文檔中的重要性, 出現的次數越多則該詞項在該文檔中越重要。但是, TF 無法反映出該詞項在整個語料庫中的重要性。其計算公式如式(1) 所示:
IDF(Inverse Document Frequency)指的是逆文檔頻率, 是指在語料庫中出現過某個詞項的文檔數的倒數。當一個詞項在很多文檔中都出現, 則IDF 值較低, 說明該詞項并不特別突出。反之, 當一個詞項只在很少的文檔中出現, 則IDF 值較高, 說明該詞項比較重要。計算公式如式(2)、式(3) 所示:
綜上所述, TF-IDF 算法把一個詞項在文檔中出現的頻率和該詞項在整個語料庫中出現的文檔頻率的倒數相乘, 得到該詞項對于該文檔的重要性評分。因其可以對獲取到的所有文獻進行詞頻權重分析, 并提取其中權重較高的特征詞, 進而可以過濾掉文本中常見但沒有實際意義的詞語, 保留對文本具有影響力的詞語, 所以TF-IDF 算法比普通的詞頻統計法得到的結果更加準確、客觀。
3) LDA主題模型
潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)是Blei D M 等[14] 提出的一種對文本主題進行建模挖掘的概率主題模型。其由三層貝葉斯組成,分別是文檔層、主題層、特征詞層, 具有清晰的層次架構[15] , 其結構如圖3 所示。LDA 主題模型能夠利用無監督學習技術將大量文本數據轉化為一組主題, 并確定每個文檔在這些主題中的分布情況。其基本思想是假設每個文檔包含一組潛在的主題,且每個主題都由一組單詞構成。同時, 假設一篇文檔中的單詞由這些主題以一定的概率組合而成, 進而通過統計單詞在不同主題中出現的概率來確定文檔的主題分布情況。通常被用來識別大量文檔集或語料庫中潛在的主題信息, 可以對文本數據進行有效降維和挖掘潛藏主題信息[16] 。LDA 的概率模型如圖4所示。
圖4 中K 代表主題數量, M 是語料集中文檔的數量, Nm 指第m 篇文檔的總詞匯量, α 是主題的先驗概率, θm 代表第m 篇文檔主題多項式概率分布, β 是詞匯的先驗概率, φk 代表第k 個主題的詞匯多項式概率分布, zm,n 代表第m 篇文檔的第n個詞的主題, wm,n代表第m 篇文檔的第n 個詞。
LDA 主題模型生成文本的過程: ①從狄利克雷分布α 中取樣生成文檔m 的主題分布θm ; ②從主題的多項式分布中取樣生成文檔m 第n 個詞的主題zm,n ; ③從狄利克雷分布β 中取樣生成主題對應的詞項分布φk ; ④從詞項的多項式分布中取樣最終生成詞語wm,n 。
4) 主題強度
主題強度是描述主題在一定時段內受關注程度的指標, 在某個時段內包含該主題的文檔數目越多,則其主題強度越大, 越有可能認為其是熱點主題[17] 。基于LDA 主題建模分析的高價值專利文檔—主題概率矩陣, 獲得每篇文檔屬于每個主題的概率, 將所有的主題概率進行加總求平均值, 作為反映主題強度大小的指標。
5) 扎根理論
扎根理論是由社會學家Glaser B 和Strauss A 于1967 年在專著《扎根理論之發現: 質化研究的策略》中提出的一種自下而上的建構方法, 其主要研究原理是研究者直接帶著研究問題從原始資料中歸納出概念和命題, 進而上升到理論。主要研究程序包括開放式編碼、主軸式編碼、選擇式編碼、理論建設這4 個步驟, 循序漸進地對資料集進行概念歸納。扎根理論的三級編碼步驟如表1 所示。
2高價值專利相關概念
2.1專利價值與專利質量
專利價值的概念最早起源于Sanders B S 等[21]在1958年開展的一項問卷調查, 其向1220項專利轉讓人發送問卷調查表, 研究發現75%的專利具有經濟價值, 而且每項專利的凈收益相當可觀。在此基礎之上, 專利價值受到廣泛關注, 研究者開始加入到專利價值研究領域中。但是專利價值的衡量具有很大的難度, 研究表明專利價值分布具有嚴重的偏差, 有很長的右尾, 即大多數的專利沒有價值或價值很小[22] 。專利價值最初的衡量方法依賴于專利續期數據, 支付續展費以保持專利“生命力”的義務意味著專利持有人將專利保護延長一年的成本很高[23] 。因此, 大多數專利在法定有效期結束前不會續期, 例如, Schankerman M 等[24] 在德國、法國和英國頒發的專利中研究發現, 只有大約10%的專利在整個法定有效期內“有效”。Wolber W G[25]認為, 專利價值可能是申請專利給企業帶來的利潤以及國家知識產權利益, 還有就是專利知識產權到期后產生的社會利益。Trajtenberg M[26] 將專利發明的價值進行了界定, 認為專利價值包含私人價值和社會價值, 私人價值是指為其所有者增加的財產收入, 而社會價值是專利為社會創造的價值。早期專利價值主要指專利的壟斷性和創造性給專利授權人帶來的經濟價值。隨著技術創新地位的提高, 專利多維價值開始受到學者關注和研究, Wang B 等[27]將專利價值概括為三大類: 專利戰略價值、專利保護價值和專利應用價值。綜上所述, 專利多維價值主要包含技術、法律、市場、戰略、經濟價值這五大類。
專利質量的概念由世界知識產權組織(WIPO)專利法常設委員會于2017 年明確界定, 認為專利質量一方面是指專利的文件質量用于闡述創新發明技術的創新性和應用價值; 另一方面是指專利的授權質量, 主要用以檢驗專利申請、授予、公開等過程[28] 。專利價值和專利質量是密切相關的, 專利質量是指專利文件技術水平的高低、技術先進性和可實施性, 而專利價值則是指該專利對于持有人或市場的商業、技術或法律價值。專利質量高的專利往往具有更高的專利價值, 因為它們比其他專利更具有技術先進性、可實現性和商業價值, 對于公司的收入和市場地位會產生更積極的影響。一般來說,優質的專利具有更高的專利價值, 而低質量的專利則可能不具備商業化的應用前景, 因此其專利價值也低。綜上, 專利質量是保證專利價值的基礎。
2.2 高價值專利內涵
高價值專利是指具有高度創新性或技術含量、有利于推動科技進步、在經濟上具有重要價值并能夠在國際范圍內有效維護權利的專利。它們通常是在市場或產業競爭中起到重要作用的專利, 因此也被稱為“核心專利” 或“戰略專利”。專利的高價值主要體現在以下3 個方面: 技術先進性[29] 、法律權利要求[30] 和市場競爭力[31] 。孫智等[32] 認為,高價值專利主要指技術創新水平高、法律權利穩定、市場前景良好的專利。李睿等[33] 認為, 高價值專利應該反映企業的戰略布局, 是使企業擁有高產品競爭力、市場份額和利潤創造力的專利。對于高價值專利, 其技術、法律、市場價值相互影響, 技術價值是市場價值的重要基礎, 法律價值是市場價格的必要保障, 從而通過良好的市場機會最終體現為高市場價值[10] 。因此, 高價值專利是指具有高技術、法律和市場價值。
高價值專利的特點主要包括4 個方面: 第一,高價值專利具有創新性, 通常涉及前沿技術或者新穎的發明創造。這些發明具有代表性, 符合國際上的技術發展趨勢, 并且在該領域具有顯著的技術優勢。第二, 高價值專利具有專業性, 需要經過專業的審查、驗證和認證。這些專利應具有獨特性、非顯而易見性以及實用性等特征, 符合國際上的法律規定。第三, 高價值專利具有經濟性, 在經濟上具有戰略意義, 能夠有效地促進產業和市場的發展。它們往往涉及高附加值的產品和服務, 具有較高的商業利潤和價值。第四, 高價值專利具有維護性,其在國際范圍內能夠得到有效的維護和保護。這些專利應該在技術含量、專利文本和權利保護等方面具有強大的法律支撐, 并且能夠在國際專利爭議中獲得勝訴。總之, 國際高價值專利不僅是科技創新的重要成果, 也是國際產業競爭的重要資產。這些專利在保護知識產權、促進科技進步、推動經濟發展等方面具有重要作用, 因此被視為企業實施技術戰略的關鍵之一。同時, 也進一步說明了高價值專利具有高技術、法律、市場價值。
3國際高價值專利研究熱點主題識別
3.1最佳主題數
目前較為常見的主題確定方法有主題困惑度(Perplexity)和主題一致性(Coherence)方法。主題困惑度是用來衡量主題模型對于新文本的預測效果, 即對于從未見過的文本數據進行主題預測時的準確性和復雜度。因此, 主題困惑度指標更重要的是用于比較不同LDA 模型或不同LDA 參數下, 同一個數據集的好壞。相比之下, 主題一致性指標是用于衡量主題模型內部的一致性和解釋性, 它通過計算主題下相關詞語之間的相似性來評估主題的質量。因此, 主題一致性指標更注重“解釋性”, 能夠解釋哪些主題更有意義, 更容易理解, 并且也可以幫助對模型中每個主題的識別和標注, 該方法更多地考慮了主題上下文之間的語義關系。基于此,本文使用主題一致性(Coherence)方法確定主題數量。如圖5 給出了設定不同主題數量與Coherence大小的關系, 當聚類主題數為7 時一致性最高, 即將主題數量設定為7。同時調用Ldamodel 函數進行主題挖掘, 并進行參數設置: 主題數為11, 迭代次數100, 主題詞上限為10。然后使用pyLDAvis將主題識別結果進行可視化, 如圖6 展示了主題數量為7 時的聚類效果。
3.2主題識別
使用LDA 主題識別方法, 識別出國際高價值專利研究文獻的主題范疇, 采用Gensim 包對文獻摘要以及標題數據進行聚類, 構建主題模型。此外,為了剔除文檔中無意義但占比較大的詞項, 文章引用IF-IDF 算法提取關鍵詞, 使得構建的主題模型更加精確。如表2 所示,LDA 主題模型提取的主題詞, 依據主題詞以及對專利文獻的總體貢獻, 對主題進行總結歸納, 得到國際高價值專利的研究主題主要包括以下7 個方面: 專利組合能力、專利價值評估、臨床藥物市場應用、核心專利價值預測、醫學健康評估、專利法律價值以及藥品許可標準。但是僅僅依靠LDA 主題模型提取出的主題無法判斷哪些是熱點主題, 因此需要引入專利主題強度識別熱點主題。
3.3熱點主題識別
根據LDA 主題模型形成的“文檔—主題” 概率分布得到文檔屬于各個主題的概率, 用以計算主題強度, 根據式(4) 計算得到每個主題的主題強度, 并且使用式(5) 計算主題閾值, 用以識別熱點主題。熱點主題識別結果如表3 所示。根據表3可知, Topic3 和Topic1 是高價值專利研究中的熱點主題, 分別為專利價值評估和核心專利價值預測。專利價值評估是國際高價值專利研究的高頻熱點,主要包括專利多維價值指標體系的構建、專利價值的評估方法以及專利質量的影響因素這3 個不同層次的研究分析。核心專利價值預測是近幾年的研究熱點, 因專利數量的激增, 亟需從海量專利中識別有價值的專利, 來幫助預測新興技術進而推動科技高質量發展。
4國際高價值專利研究熱點主題綜述
4.1扎根理論三級編碼
為了更加深入地分析國際高價值專利研究主題范疇, 本文通過LDA 主題分析模型進行主題挖掘,將主題詞進行整合、凝聚后, 再次選取相關主題樣本數據, 運用扎根理論搭建理論框架, 全面解讀國際高價值專利的熱點主題范疇及進展。通過NVivo工具對LDA 主題模型提取出來的國際高價值專利研究熱點主題進行三級編碼。選取進行扎根編碼的樣本數據導入到NVivo 中, 對樣本數據進行自動編碼,但是由于編碼后主題數量較多, 需要對主題進行篩選, 找到研究所需主題, 再對篩選后的主題進行下一步的處理, 即選擇每個主題的代表性語句。完成對主題的開放式編碼后, 需要對主題的主軸式編碼和核心式編碼進行完善, 因為自動編碼還存在著一定的語義缺失。通過人工對編碼進行重命名, 達到最優的編碼效果。
4.2專利價值評估
如表3 所示, LDA 主題模型提取出來兩大類研究熱點主題: 專利價值評估和核心專利價值預測,選取具有代表性的論文進行扎根分析。針對第一個熱點主題專利價值評估, 從專利多維價值評價指標、專利價值評估方法以及專利質量影響因素3 個方面進行扎根綜述。
4.2.1專利多維價值評價指標
專利數據庫的規模越來越大, 且專利價值分布具有長尾特征, 屬于典型的馬太效應, 即只有極少部分的專利給專利權人帶來高額回報[22] 。因此, 亟需對專利多維價值進行識別, 對專利多維價值評價指標的扎根結果如表4 所示。專利多維價值評價指標是對專利進行價值評估的基礎, 只有構建合適的多維價值評價指標體系, 才能夠有效地評估專利價值。
由表4 可知, 當前專利多維價值評價指標主要涉及專利的法律價值、技術價值以及競爭價值。其中, 對于專利的法律價值: 專利家族規模與專利的存續時間高度相關, 高額的專利申請和維護費阻礙了公司的多個國家申請和更新專利, 因此擁有較多的專利家族數量通常表明該項技術發明不僅具有較為廣泛的應用領域, 而且在技術上具有一定的創新性和領先性[45] 。此外, 專利家族的規模與專利保護權呈正相關, 專利家族的規模越大, 專利權和侵權訴訟的法律保護就越強[35];專利權力要求是衡量專利法律價值的基本單位, 其包括對發明的法律定義,給予了受法律保護的專利所有權[49];在反對和撤銷程序中得到支持的專利尤其有價值, 平均8%的歐洲專利局專利遭到反對,14%的專利被撤銷。Merges RP 等[50] 認為, 歐洲專利局的反對制度似乎比美國專利商標局的復審程序更頻繁地使用, 因此在淘汰薄弱專利方面可能更有效。
對于專利技術價值: 專利第一次被引速度表明了專利的創新性。研究表明, 專利第一次被引用的速度越快, 專利的價值越高[51];IPC 分類號體現了專利的技術領域, 展現了專利技術特征的多樣性。因此, 一項專利的IPC 數量, 表明該專利的技術多樣性以及重要性[39];專利說明書的撰寫質量與專利申請人的起草風格以及申請策略緊密相關。專利說明書是申請人在申請專利時必須提交的文件, 其中包含完整的發明技術說明、權利要求范圍等信息,展示了專利最有價值的部分, 因此專利說明書的長度以及質量會影響專利價值; 對于專利續期指標,只有保證專利在經濟上有利可圖的情況下, 理性所有者才會更新專利[52], 所以專利續期指標能夠有效地評估專利的技術價值; 參考文獻的質量以及數量在一定程度上影響了專利的質量, 專利的發明通常是在前人的基礎上進行的, 可見參考文獻的數量是影響專利價值的一個重要因素。
專利競爭價值的評價指標有專利引證指標以及團隊規模。其中, 引證指標是專利評價最常用的指標, 其通過檢索專利被他人引用的次數來評價專利價值, 特別是其在技術領域中的影響[53] 。石靜等[54]研究發現, 專利的引用數據特征對科學指數的采納有顯著影響。專利被引的次數越多, 表明研究者對該專利的認可程度越高, 進而專利在市場上的競爭力越高; 對于團隊規模, 專利發明人的數量體現了專利的創新性, 專利發明人的數量越多, 組織內的水平就越高, 專利研究和開發的知識基礎就越夯實,因此專利具有更大的競爭潛力[55] 。已有研究表明,技術團隊的知識多樣性可以顯著提升技術團隊的創新績效[56] 。較多的專利權人在一定程度上表明專利具有較好的投資、維護和運營狀態, 有利于專利價值的持續實現。綜上所述, 專利價值評價指標涉及多個維度, 因此在對專利價值進行評估時, 應綜合考慮多維度的專利價值評價指標。這些指標涉及專利的市場價值、法律價值、技術價值3 個方面, 可以根據研究方向有針對性地選擇專利價值評價指標。
4.2.2專利價值評估方法
為了從海量專利中識別有價值的專利, 研究者提出了許多用于評估專利價值的方法, 具體的方法如表5 所示。
根據表5 可知, 當前國際用于專利價值評估的方法有很多種, 傳統的研究方法包括兩種: 第一種是最初對專利價值進行研究的經濟學方法, 運用經濟學理論, 從市場需求、市場競爭、專利轉讓等角度出發, 利用經濟學模型對專利進行價值評估。主要代表有實物期權法、成本法、市場法、收益法。成本法是用重置成本減去損耗來評估專利價值, 該方法往往會低估專利價值; 市場法是利用同類專利技術的市場價值來評估專利價值的方法, 但是受限于專利之間的不可比性; 收益法則將評估對象的預期收益折現為專利價值, 但是需要估算折算率等參數, 估算容易出現偏差[59] 。實物期權法是以金融市場中期權的特性來反映進行生產決策時的靈活性,該方法能夠較好地考慮市場的動態性和專利決策的選擇權價值, 預測結果更為合理準確, 但是計算公式復雜, 參數估計偏主觀性[69] 。后期大多數采用另一種研究方法即專家評估法, 例如, 層次分析法、模糊綜合評價法、德爾菲法等方法, 該方法基于專家經驗, 根據專利評價指標對專利進行價值評估,具有較強的主觀性。層次分析法的基本思想認為,復雜問題是由多個因素組成的, 通過兩兩比較的方法來確定各組成因素的重要性, 然后基于專家的判斷來進行權重的賦值[70] 。模糊綜合評價法是基于層次分析法來確定專利價值指標的權重, 然后構建綜合模糊評價模型來評價專利價值的方法[71] 。隨著對專利價值研究的發展, 研究者大多將研究方法進行兩兩結合來評估專利價值。
目前, 對專利價值進行評估的主流方法分別是機器學習方法、自然語言處理方法、社會網絡分析方法, 這些方法分別從不同的角度入手對專利價值進行評估。最為流行的是機器學習、支持向量機、神經網絡、CART 模型和深度學習等機器學習方法,此類方法可以通過訓練模型, 從海量專利數據庫中識別有價值的專利, 并且能夠實現對專利的自動分類[72] 。Ercan S 等[61] 利用機器學習將專利類型自動劃分為接受或拒絕, 幫助申請人增加專利授予的可能性。目前的研究熱點是通過機器學習方法實現自動評估專利價值, Trappey A J C 等[64] 通過自動選擇專利的價值指標, 利用深度神經網絡對專利價值進行評估, 解決了基于專家選擇專利價值評價指標的主觀性。第二種是基于文本挖掘和奇異值分解的自然語言處理方法, 該方法通過挖掘專利文本的語義對專利價值進行評估, 主要應用的領域有圖書情報領域。第三種就是基于引文分析方法的社會網絡分析方法, 其運用社會網絡分析技術, 從專利引用關系網絡中提取專利之間的聯系, 分析技術領域中的技術交叉和專利密度等指標, 輔助專利價值評估。專利引文網絡又可以分為直接引用網絡、間接引用網絡、耦合引用網絡和共引用網絡等類型, 目前研究者更傾向于使用綜合專利引文網絡來評估專利價值, 可以更加全面地梳理專利之間的網絡信息流[67] 。經研究發現, 專利價值評估的研究方法已經從過去依靠專家經驗的主觀性評價方法轉向了基于機器學習、文本挖掘以及專利引用網絡等方法的自動評估。這些新方法具有更高的識別效率和準確性。
4.2.3專利質量影響因素
專利價值和專利質量之間的關系是密不可分的,專利的質量從根本上決定了專利價值, 但是由于專利申請數量的激增導致審核人員工作堆積, 使得授予專利的質量有所下降。因此, 研究人員逐漸開始研究專利質量的影響因素, 本文從專利質量影響因素入手, 尋找提高專利質量的政策, 幫助提高專利價值。對于專利質量影響因素的扎根結果如表6 所示。
根據表6 可以得出專利質量的影響因素主要包括5 個方面: 第一個影響因素是政策方面, 不同國家(地區)對于申請專利的政策不同, 進而存在著不同的專利審查標準和程序, 這會影響專利的質量和審查結果。同時, 專利促進政策會促進專利申請和批準數量的擴大, 但這會對專利質量產生負面影響[74] 。第二個方面是法律方面, 專利權人獲得更廣泛的專利權利保護, 有利于提高專利的質量。Fleisher B M 等[81] 認為, 加強知識產權保護對中國全要素生產率(TFP)的增長做出了重大貢獻。第三個方面是技術方面, 專利技術水平的高低是專利質量的最直接決定因素, 一方面專利技術水平可以反映出其研究團隊的研發能力, 能夠確保專利的質量;另一方面技術水平高的專利能夠經得起審查, 具有較高的市場價值。專利技術涉及的技術領域展現了專利的創新性, 創新性越高, 專利質量越高[82] 。第4 個方面是人員和組織, 專利申請人或發明人的商業背景、專業領域、知識背景和創新思維能力, 這些因素既影響專利的質量, 也可以評估該專利的商業潛力。同時, 發明人數量與專利價值呈正相關,發明人數量代表了知識的多樣性[83] 。此外, 研究團隊對于創新和合作的態度也會一定程度地影響專利的質量, 研究人員可以通過合作來獲取組織內部無法獲取的資源, 進而探索新的機會和解決方案,反過來促進技術上有價值的創新的發展[84] 。第五個方面是經濟方面, 專利申請和授予的費用, 專利持有人的經濟實力以及專利的商業利用價值等經濟因素也對專利的質量產生影響。研究表明, 專利補貼申請費與專利質量呈負相關, 專利補貼費會降低專利的質量。Prud’homme D[85] 認為, 無論是專利申請補貼、貨幣激勵、出口補貼, 還是針對高科技企業的其他優惠待遇, 各種促進專利的法律和政策都不會達到預期效果, 反而可能帶來負面后果, 限制專利質量的進一步提高。政府資助政策主要對科研人員收入增加產生影響, 但對科研活動的影響有限。政府資助政策導致了專利申請數量的增加, 但會對專利質量產生負面影響[86] 。
綜上所述, 專利質量的影響因素具有多樣性,因此在衡量專利質量時應從多方面進行考慮, 不能片面評判。以上陳述的5 個方面又可以從微觀和宏觀兩個視角進行考慮。從微觀視角出發, 專利質量的主要影響因素是研發人員的個人能力及其技術水平。從宏觀視角考慮專利質量影響因素有國家政策、對專利保護的相關法律法規, 以及政府對于專利申請和授予的經濟支持。基于此, 為了提高專利質量,相關部門需要加強對專利知識產權的保護, 適當降低專利補貼費用, 鼓勵合作創新。通過提高專利質量, 既可以減少專利申請數量, 緩解審核人員的工作壓力, 又可以提高專利的法律價值、技術價值。
4.3核心專利價值預測
當前國內的研究重點已經轉移到高價值專利識別與預測領域, 相對而言, 國外對于高價值專利的識別和預測研究起步較晚, 發展較慢。從海量專利中識別出高價值專利有助于新興技術領域的預測,具有重大的實際意義。一方面, 面對爆發式增長的專利申請與授權量, 新時代知識產權形勢下的高價值專利識別與預測研究, 能夠促進組織迅速形成以高價值專利為核心的專利價值組合培育體系, 鞏固與提升組織的核心競爭力; 另一方面, 研究成果能夠有效促進和指導國家知識產權管理與服務部門的精品專利識別應用與推廣實踐, 極大程度提升專利審查與保護制度的精準監管和有效實施。而且盡早挖掘海量專利申請中的高價值創新發明, 能夠充分發揮潛在高價值專利成果的技術價值和科技發展驅動作用。本文對于核心專利價值預測從核心專利特征研究以及核心專利識別方法兩方面進行扎根綜述。
4.3.1 核心專利特征研究
當前對于核心專利的概念并沒有統一的描述,研究者根據構建的核心專利特征識別特定領域內的核心專利, 進而幫助識別新興技術領域, 對重要技術進行鏈路預測[87] 。國際對于核心專利特征研究的扎根結果如表7 所示。
國際領域內對核心專利的特征分析主要從專利的新穎性和重要性兩個方面展開研究。專利的新穎性主要度量指標有參考文獻數量、技術生命周期以及主題活躍度。參考文獻數量是反映一項專利新穎性的最佳指標: 如果一項專利的參考文獻列表較短[38] , 且主要由科技文獻組成, 則其是一項新技術的可能性更大[94] ; 技術生命周期則能夠直觀反映一項技術的發展脈絡。在起步階段, 技術成分表現不強。在成長階段, 其在第一階段遇到的問題已經得到有效解決, 研究進入快速增長, 此時, 專利的創新性得到有效體現[89] ; 主題活躍度是指通過對專利進行文本分析, 挖掘其潛在技術主題, 如果一項技術在現有研究中未被提及或者很少提及, 則該項專利在技術領域內是新穎的[90] 。
專利的重要性主要衡量指標有專利的共現強度、引用次數、PageRank 以及中心性度量。專利的共現強度, 是指利用專利主題共現或者關鍵詞共現等構建共現網絡, 進而計算專利的共現強度。共現強度越大, 專利集群占比越多, 在技術領域中重要性越高[91] ; 引用次數是衡量一項專利重要性的最直接指標, 一項專利如果被高度引用, 表明其對于后期技術研發起到奠基作用, 所蘊含的經濟價值越高,越有可能成為核心專利[95] ; PageRank 算法最初是由Google 用于衡量特定網頁相對于搜索引擎索引中的其他網頁而言的重要程度。在專利分析中, 利用PageRank 算法構建網絡節點中的PageRank 值字典,可以用于判斷節點重要性[96] ; 中心性度量包括專利的中介中心性、度數中心性、接近中心性等指標,常用于識別專利在網絡中的地位、對其他節點信息傳播的控制能力以及節點信息的傳遞能力[97] 。Pag?eRank 和中心性度量兩個指標主要用于衡量專利的影響力, 影響力越大, 專利重要性越高, 成為核心專利的可能性越大。綜上, 對于核心專利的特征研究主要側重于專利的新穎性和重要性兩個方面。因技術更新迭代速度較快, 故在識別核心專利時需要考慮其新穎性, 僅考慮專利的重要性可能使識別出的專利不具有時效性。
4.3.2核心專利識別方法
隨著機器學習、自然語言處理技術以及社會網絡分析方法的成熟, 核心專利識別方法朝著多樣化和智能化方向發展。目前, 核心專利識別方法如表8所示。
由表8 可知, 目前國際核心專利識別熱點研究方法有機器學習方法、文本挖掘方法以及引文網絡分析方法。識別核心專利的機器學習方法主要有支持向量機、關聯規則、鏈路預測、k-means 聚類、神經網絡等。利用機器學習技術對大量專利文獻數據進行分析, 從中發現高價值專利的規律和特征,但是該方法需要建立高質量的訓練集和特征工程,以獲得準確的分類和預測結果。Bass S 等[44] 使用樸素貝葉斯、邏輯回歸、C4.5、RIPPER、隨機森林、MetaCost 與C4. 5、MetaCost 與RIPPER 和MetaCost與隨機森林等一系列機器學習技術來尋找最具信息量的因素, 進而區分高價值和低價值專利。
大數據和人工智能快速發展背景下[108] , 文本挖掘技術已經成為當前核心專利識別的重要技術,主要通過對專利文獻中的摘要、關鍵詞等內容進行語義分析和文本特征提取, 以識別核心專利。主流的研究方法有基于關鍵詞、主題模型或主體抽取的文本挖掘方法。與傳統的數據挖掘分析側重于結構化數據不同, 文本挖掘分析強調使用大量非結構化文本數據來揭示有意義的知識模式或分類[109] 。ParkH 等[102] 使用TRIZ 演化趨勢和基于SAO 的文本挖掘技術來識別未來有前景的技術轉移專利。Zhu H等[101] 對專利標題和摘要采用詞嵌入技術進行分割和向量化, 然后基于對稱層次卷積神經網絡對專利進行自動分類。趙雪峰等[110] 利用LSTM-Seq-BERT模型分析專利申請文件, 提高了高價值專利的識別精度。吳柯燁等[111] 將文本挖掘和圖神經網絡鏈路預測方法相結合識別技術機會。此外, 有研究者基于文本挖掘構建專利領域的知識圖譜, 利用圖譜的特性進行高價值專利的識別和預測。知識圖譜可以解決專利語義問題和專利信息的互聯問題, 提高專利間的鏈接和可見性。
根據專利之間的引用特征, 構建專利引文網絡,用以識別核心專利, 也是目前比較流行的研究方法。該方法可以有效獲取特定技術領域內核心專利, 有利于提升技術主題識別的效率和準確性。專利引文網絡可以更好地理解一項技術的發展和擴散過程。采用關鍵節點、核心網絡和網絡拓撲分析對專利引用網絡進行描述, 可以深入了解技術領域、機構和國家(地區)之間的知識轉移過程[110] 。李姝影等[105]使用專利引文網絡的專利引文強度指標來篩選核心專利數據集, 用以抽取技術特征詞, 提高了技術主題識別的效率和準確性。同時, 還存在另外一種觀點, Yoon J 等[113] 和Aharonson B S 等[114] 認為, 離群專利技術飛躍的可能性更大, 更有可能是潛在高價值專利, 其專利價值更值得研究。
目前, 國外對于高價值專利的研究主要停留在專利價值的評估階段, 對于高價值專利的識別和預測研究相對較少。相對而言, 國內對于高價值專利的研究已經進入成熟階段, 尤其是國家“十四五”規劃首次將高價值專利納入經濟發展主要目標的政策出臺之后, 大量的學者涌入高價值專利研究領域。國際學者對于高價值專利的研究方法已經進入了成熟階段, 主要盛行的是使用機器學習、文本挖掘和引文網絡的方法, 其中不乏有學者將多種研究方法相結合用以提高識別效率。但是對于專利的研究大多局限于專利摘要和關鍵詞, 只有少數研究采用專利全文內容。因此, 基于專利全文的高價值專利挖掘研究存在較大的發展空間, 需要在今后的研究中進一步完善。同時, 國內外學者也傾向于通過對專利多維價值指標的測度和分析來預測新興技術領域[104,115] , 有助于企業把握新興技術發展動態并做出投資決策。
5 結論與展望
高價值專利的識別與預測對技術研發有重要實踐意義, 本文結合LDA 主題識別方法和扎根理論對WoS 數據庫中的國際高價值專利文獻進行了主題范疇的識別與熱點研究主題的扎根綜述, 歸納出目前國際高價值專利的研究熱點主題方向。有助于研究者了解高價值專利概念內涵以及目前國際高價值專利研究熱點主題范疇、高價值專利多維價值指標體系、高價值專利識別與預測方法, 進而幫助研究人員快速梳理國際高價值專利研究進展和未來發展方向。
本文采用LDA 主題識別方法挖掘高價值專利文獻的熱點主題, 結果顯示: 目前, 國際高價值專利的研究主題主要集中在專利組合能力、專利價值評估、臨床藥物市場應用、核心專利價值預測、醫學健康評估、專利法律價值和藥物許可標準這7 個主題范疇。其中, 臨床藥物市場應用、醫學健康評估以及藥物許可標準這3 個主題范疇的高價值專利研究旨在通過技術預測、專利價值識別等方法, 識別生物醫藥領域的潛在顛覆性技術[93] 。本文利用專利主題強度識別出國際高價值專利研究熱點主題為: 專利價值評估和核心專利價值預測這兩大類主題。為了對國際高價值專利進行深度剖析, 基于扎根理論對WoS 數據庫中的專利文獻進行三級編碼,進而歸納出目前國際高價值專利的研究熱點主題方向。研究發現: ①當前對于專利價值評估主題的研究主要集中在專利多維價值評價指標、專利價值評估方法以及專利質量影響因素這3 個方面。專利價值評價指標主要聚焦法律價值、技術價值以及競爭價值等重要專利價值維度, 對市場價值和經濟價值維度的考慮較少。專利質量受政策、法律、技術、經濟、人員和組織等多方面綜合影響, 需要從不同的角度綜合衡量; ②核心專利價值預測的主要研究包括核心專利特征研究與核心專利識別方法。
根據對國際高價值專利的梳理研究發現, 現有研究中存在以下問題: ①專利價值指標的選取受專家主觀意向的影響, 現有研究是在研究人員提出的專利多維價值指標體系的基礎上實現對高價值專利的評估篩選, 評價指標需要專家的人工篩選; ②傳統的專利價值評估方法易受主觀因素的影響且識別精度較差; 基于引文網絡分析專利價值需要考慮專利的引用時滯, 缺乏時效性; 自然語言處理方法在對文本進行處理時大多僅考慮了專利文本的摘要與標題, 缺乏對專利全文的深度分析; 機器學習方法可以有效實現專利的自動分類, 是目前專利價值評估的主流方法, 但是該方法忽略了專利多維價值指標之間的關聯性; ③核心專利特征研究缺乏對核心專利的概念進行規范, 學術界對其概念界限模糊;主要涉及專利的新穎性以及重要性兩方面的指標分析, 缺乏多維度、多指標識別體系。
未來研究思路: ①借助機器學習[116] 和自然語言處理等方法實現專利多維價值評估指標的自動測度和提取, 減少專家等主觀因素的影響; ②高價值專利識別方法需要突破創新, 打破現有研究現狀,可以綜合多種方法實現高價值專利的有效識別與預測; ③融合多源數據識別高價值專利, 注意專利文本的完整性和專利文本的語義信息; ④規范核心專利與普通專利界限, 明確核心專利性質類別, 構建核心專利識別多維度指標體系。