摘 要:[目的/意義]專利的創新性測度是專利技術質量評價的關鍵。基于傳統引用的專利創新性測度僅考慮物理引用的外部特征,無法充分反映發明創造過程中真實的知識吸收過程。引入語義引用信息的專利創新性測度有助于更為全面、準確地揭示專利的知識和技術基礎,為細粒度的專利創新評價提供支持。[方法/過程]本研究首先運用規則和句法分析抽取相關專利和論文中的知識元;其次,利用Sentence-BERT和Word2vec模型進行知識元的向量化,并計算向量的余弦相似度以確定專利語義引用;然后,從科學和技術知識吸收的數量、質量、廣度維度,以及技術影響的數量和質量維度實現專利創新性測度;最后,選取量子計算領域進行了實證研究。[結果/結論]實驗結果表明,本研究提出的方法能夠提升專利創新性測度的準確性和有效性,為專利審核和評估提供支持。
關鍵詞:專利創新性;語義引用識別;知識元;Sentence-BERT;Word2vec
DOI:10.3969/j.issn.1008-0821.2025.09.013
〔中圖分類號〕G250.252 〔文獻標識碼〕A 〔文章編號〕1008-0821(2025)09-0140-10
Measurement of Patent Novelty Incorporating Semantic Reference Information
Wu Haiting1 Tang Xiaobo2,3* Dong Ke1
(1.Research Center for Data Management amp; Innovation,Nanjing University,Suzhou 215163,China;
2.Center for Studies of Information System,Wuhan University,Wuhan 430072,China;
3.School of Information Management,Wuhan University,Wuhan 430072,China)
Abstract:[Purpose/Significance]Measuring patent novelty is crucial for evaluating the quality of patent technology.Traditional citation-based methods for measuring patent novelty focus solely on the external characteristics of physical citations,failing to adequately reflect the genuine process of knowledge absorption during invention creation.Incorporating semantic citation information into the measurement of patent novelty can help reveal the knowledge and technological foundation of patents more comprehensively and accurately,thus providing support for fine-grained evaluation of patent novelty.[Method/Process]The study first used rules and syntactic analysis to extract knowledge elements from relevant patents and papers.Next,the study applied Sentence-BERT and Word2vec models to vectorize these knowledge elements and calculated the cosine similarity of vectors to determine semantic citations.Then,the study measured patent novelty from the dimensions of quantity,quality,and breadth of scientific and technical knowledge absorption,as well as the quantity and quality of technological impact.Finally,an empirical study was conducted in the field of quantum computing.[Results/Conclusion]Experimental results show that the proposed method can improve the accuracy and effectiveness of measuring patent novelty,thereby supporting patent examination and evaluation.
Key words:patent novelty;semantic reference recognition;knowledge element;Sentence-BERT;Word2vec
科技創新是推動人類社會進步與經濟高質量發展的核心驅動力。專利作為科技創新活動的關鍵成果,其質量和數量是衡量創新能力和水平的重要指標。專利質量主要體現在新穎性、實用性和創新性上[1]。科學、準確、有效地測度專利的創新性,是專利質量評價的核心和關鍵步驟,對于揭示專利的知識吸收與擴散規律,支撐科研管理與科技決策具有重要意義。
傳統的專利創新性測度研究主要依賴物理引用,即通過分析專利文件中明確標識出的引用文獻來評估其創新性。此類方法存在明顯的局限:一方面,它將所有的引用等而視之,忽視了被引文獻或專利之間的質量差異;另一方面,由于各種主客觀因素的影響,一些緊密相關的文獻或專利在物理層面往往會存在漏標或錯標的情況[2]。上述局限導致單純依賴物理引用的專利創新性評估無法準確、全面地揭示專利的科學和技術知識基礎。鑒于此,本研究通過對專利和論文文本的深入挖掘,從知識元語義層面識別出專利的語義引用,實現了對缺失引用信息的補全,在此基礎上,構建科學知識基礎、技術知識基礎和技術影響力3個一級指標,在測度過程中通過專利的知識吸收質量指標來反映不同專利的引用質量差異,從而克服傳統單純基于物理引用的專利創新性測度存在的不足,實現專利創新性更細粒度的有效評估,力求為專利研發與技術創新提供支撐。
1 相關研究
1.1 專利創新性測度
目前,學術界對于專利的創新性尚未形成統一的看法。有學者從組合創新的角度,通過分析專利國際專利分類號(International Patent Classification,IPC)的新組合在專利IPC所有組合中的占比衡量專利的創新性[3],但該方法更多反映了專利的新穎性而非創新性。專利創新性是指專利技術對先前科學和技術的繼承、發展以及對后續相關技術領域的影響[4]。專利的引用信息能夠反映專利對知識的吸收情況和創新程度[5],例如,有學者利用專利的被引衡量專利創新[6],專利被引頻次也常被用于專利技術影響力和創新質量的測度中[7]。總體上看,國內外專利創新性測度研究大多基于IPC組合和專利引用信息。雖然已有研究實現測度專利創新性,但是較少深入到專利文獻的內容層面和語義層面,缺乏從細粒度深層語義層面綜合深入分析研究。
1.2 物理引用與語義引用
專利引用是指專利發明人或專利審查員在專利文獻中對先前的專利文獻或非專利文獻(通常是論文文獻)的使用和標注[8]。本研究根據是否明確標記在專利文獻中,將專利引用劃分為物理引用和語義引用兩種類型。其中,物理引用是指發明人或審查員在專利文本中明確標識出的引用。物理引用可能存在誤導性引用、有意遺漏引用或無意未引用的情形[9],這就影響了基于物理引用的專利分析結果的準確性和科學性。
語義引用在論文引用情境中稱為隱性引用[10]。金賢日等[11]學者通過文本內容相似性特征分析,發現隱性引用句相較于施引文獻在內容層面上與被引文獻之間的相似性更高,也有學者[12]認為專利語義引用是指專利文獻與前人的專利文獻或非專利文獻語義相似度達到閾值,但有意或無意未進行物理引用的情形。專利間的語義相似程度是區分、篩選和識別專利的語義引用的關鍵特征。
1.3 專利知識元及其抽取
知識元常被視作語義層面能夠相對完整地表達知識語義且構成知識結構的最小知識單元[13]。知識元具有相對獨立性、語義完整性、結構穩定性以及不可拆分性等特點,通常以短文本片段或句子形式呈現,專利與論文中均包含了大量的知識元。專利知識元的類型繁多,實際研究中,往往需要依據研究目標和研究對象,對特定領域的專利知識內容進行適當且合理的描述。例如,傅柱等[14]提出了題錄、權項、技術、案例、領域、背景和附圖七大類專利知識元。李曉曼等[15]著眼于專利主體和專利功效兩個維度,提出了技術概念、產品結構、方法步驟、材料成分、部件構造、應用領域、功能特性、技術性能等多種微觀層面的專利知識元。目前,論文知識元也未形成統一的描述框架,例如,秦春秀等[16]從知識元理論的角度提出了科學論文知識元的13個大類。李賀等[17]重點從研究問題、理論、研究方法以及研究結論四類知識元研究了學術論文內容
創新性問題。
知識元抽取是實現知識元有效組織與管理的基本前提[18],一般包括分離、分類、存儲3個步驟[19]。常見知識元抽取方法主要有人工標注、規則匹配、傳統機器學習和深度學習等。人工標注精確度高,但耗時耗力且嚴重依賴領域專家的經驗與判斷;傳統機器學習方法受限于使用的特征維度較為單一,抽取的準確率有待進一步提高[20];深度學習的抽取方法高度依賴大規模高質量訓練數據集。鑒于規則匹配方法在科技文獻知識元抽取中的較高準確率,且已積累了一定的實踐經驗基礎[21],因此,本研究將采用規則匹配和句法分析相結合的方法進行專利和論文的知識元抽取。
2 引入語義引用信息的專利創新性測度模型構建
本研究構建了引入語義引用信息的專利創新性測度模型,如圖1所示。該模型主要包括專利與論文知識元抽取、專利語義引用識別和專利創新性測度3個部分。首先,通過獲取專利數據集及相關領域的專利和論文,運用規則和句法分析抽取專利和論文的知識元,并利用預訓練模型對專利與論文知識元、專利文本及論文文本進行向量化表示;其次,通過計算向量的余弦相似度獲得專利與專利、專利與論文的特征相似度和整體相似度,從而確定專利的語義引用;最后,結合科學知識基礎、技術知識基礎以及技術影響力,實現專利創新性的細粒度評價。
圖1 引入語義引用信息的專利創新性測度模型Fig.1 Patent Novelty Measurement Model Incorporating Semantic Reference Information
2.1 數據獲取與預處理
本研究從德溫特創新索引數據庫(Derwent Innovation Index,DII)和Web of Science核心合集數據庫(WOS)分別采集專利和論文數據。DII囊括了自1966年以來全球40多個國家和地區專利機構的專利文獻,提供的專利數據包含專利標題(Title,TI)、摘要(Abstract,AB)、德溫特主入藏號(Derwent Primary Accession Number,GA)、專利申請日期(Priority Application Information and Date,PI)等字段,其中標題和摘要由領域專家團隊提煉編寫,內容精煉、用詞嚴謹且格式規范,為專利分析人員提供了專利技術的核心問題及其解決方案的關鍵信息。WOS整合了全球超過12 000種權威學術期刊數據,涵蓋廣泛的學科領域,其論文數據包括論文標題(TI)、摘要(AB)、作者(Author,AU)、出版日期(Publication Date,PD)、出版年份(Publication Year,PY)、研究方向(Research Directions,SC)、論文被引頻次(Citation Frequency Count,TC)等豐富的描述字段。
本研究對專利數據進行清洗,刪除重復專利數據、字段缺失數據和亂碼信息,剔除了實用新型專利和外觀設計專利,保留了在創新難度、技術貢獻度以及長期影響力更高的發明專利[22]。在論文數據方面,本研究刪除了亂碼、無摘要或摘要過短的論文,并剔除了書籍、會議論文等非期刊論文類型的數據。
2.2 基于規則的專利知識元抽取
2.2.1 專利知識元抽取
知識元抽取能夠將專利分析粒度從宏觀的篇章層面細化到更為微觀的詞句層面,有助于專利文本內容進行更加細粒度和精細化的分析,有利于過濾掉無關的冗余信息,減少噪聲對分析結果的干擾。專利文獻的標題和摘要濃縮了核心技術要點和技術方案精華,蘊含了豐富的知識元信息,能夠為專利知識元的提取提供保障[23]。因此,本研究總結了四類專利知識元,主要從標題和摘要進行提取。
1)產品/方法知識元。通常位于專利標題中,由名詞性或動名詞性短語構成,作為主語出現,并關聯諸如“include”“generate”“involve”“comprise”等核心動詞。本研究通過定位核心動詞來抽取產品/方法知識元。
2)用途知識元。常見于專利標題和摘要中的“USE”部分,以介詞短語形式出現在句子賓語位置,與“used in”“useful in”等核心動詞短語相關聯。核心動詞后的賓語即為用途知識元。
3)功效知識元。主要出現在摘要“ADVANTAGE”部分,通常位于核心動詞如“enable”“improve”“increase”等之后的賓語位置。通過提取核心動詞后的賓語內容,可以識別并抽取功效知識元。
4)組件知識元。一般出現在摘要“NOVELTY”和“DESCRIPTION OF DRAWING”部分。在“DESCRIPTION OF DRAWING”部分,專利組件會以序號形式標注,但并非所有專利摘要都包含詳細的“DESCRIPTION OF DRAWING”,因此可以從“NOVELTY”部分補充提取。
2.2.2 論文知識元抽取
學術論文的標題和摘要對研究目的、問題、方法及結論進行了高度凝練[24]。本研究主要從論文標題和摘要中,借助指示詞抽取問題知識元、方法知識元和結論知識元3種類型知識元。
1)問題知識元。指論文的研究主題或問題,通常在標題和摘要的前部出現,往往伴隨著諸如“we investigate”“this paper presents”“the aim of this study was to”等表達形式,常作為句子的賓語成分存在。
2)方法知識元。涉及研究過程中使用的技術手段或實驗方法,一般位于摘要中部,介于問題和結論之間。常見的指示詞包括“by means of”“via”“use”等,方法知識元也多以賓語的形式出現在句子中。
3)結論知識元。是對研究發現的總結,通常出現在摘要的尾部。相關的指示短詞有“we find”“results show”“it is demonstrated that”等。結論知識元也常出現在句子的賓語位置。
2.3 基于知識元的專利語義引用識別
量子計算技術在運算速度與存儲能力上遠超傳統計算,有望推動信息技術革命[25]。本研究以此領域的專利為實證分析對象,利用德溫特代碼T01-E05Q檢索截至2022年8月15日的量子計算專利,共采集4 562項專利記錄,經篩選保留4 402項發明專利。
本研究采用Sentence-BERT和Word2vec這兩種預訓練模型進行文本向量化,前者適用于句子或短語形式的知識元[26-27],后者則針對由多個詞組構成的組件知識元[28]。Word2vec模型通過指定語料庫訓練,將詞匯映射為向量,以捕捉語義差異,適用于文本相似度計算等任務。Sentence-BERT則擅長句子級語義表示,生成高維句向量,揭示深層語義特征,適用于文本相似度度量、句子嵌入等任務。
專利的引用專利主要分為同類、關聯和近似專利[29]。結合整體與局部語義特征的綜合策略計算語義相似度,能夠更準確且更全面地識別出專利的語義引用。通過計算余弦相似度量化文獻間語義相似度,若目標專利與先前文獻在整體或特征相似度上超過預設閾值,就可以認為存在語義引用關系。本研究根據實驗結果設定相似度的絕對閾值,其中,專利組件相似度閾值為95%,整體、用途、功效及產品/方法相似度閾值為90%,專利與論文相似度閾值為75%。
進一步地,本研究參照IPC分類G部類和丙肝領域專利平均引用數量(約12篇專利,5篇論文)[30-31],設定與目標專利相似度超過閾值的最多12篇專利與5篇論文為語義引用。上述相對閾值與絕對閾值相結合的方法平衡了嚴格標準與實際情況,確保了語義引用關系的有效識別與涵蓋。
2.4 引入語義引用信息的專利創新性測度
創新過程可以劃分為創新知識吸收、創新知識產出以及創新知識擴散3個階段[32]。創新知識吸收階段是指科技成果發表之前所處的階段,反映作者對科學知識和技術知識的獲取、吸收與利用的過程,主要體現在對專利文獻的引用和學術論文文獻的引用上[33]。創新知識產出階段是指科技成果發表時的時間點,是一個孤立狀態。創新知識擴散階段是指科技成果發表之后所處的階段;科技成果的擴散程度與擴散范圍能夠反映科技成果的影響力,體現出科技成果創新性被認可的情況。因此,本研究主要從專利的科學知識基礎、技術知識基礎和技術影響力3個方面進行專利創新性測度。
2.4.1 科學知識基礎
來自論文的科學知識能夠有效驅動專利創新[34-35]。本研究主要從科學知識吸收數量、質量和廣度3個維度測度專利的科學知識基礎(Scientific Knowledge Base,SK)。專利引用的論文(包括語義引用論文和物理引用論文,下同)數量反映了科學知識吸收數量(Number of Scientific Knowledge Absorption,NSA),NSA值越高,表明該專利吸收了越多的科學知識。本研究使用論文的最大被引數和
平均被引數乘積來測度科學知識吸收質量(Quality of Scientific Knowledge Absorption,QSA),QSA值越高,表明該專利吸收的科學知識質量越高。論文所涉及領域的數量能夠表征科學知識吸收廣度(Breadth of Scientific Knowledge Absorption,BSA),BSA值越高,表明該專利吸收了更為廣泛的不同領域的科學知識。
2.4.2 技術知識基礎
研究表明,來自前人專利中的技術知識能夠有效驅動后續專利創新[36-37],可作為專利創新的指示性指標[6],主要表現為專利對過往專利的引用。本研究從技術知識吸收數量、質量和廣度3個維度測度專利的技術知識基礎(Technical Knowledge Base,TK)。被引專利(包括語義引用專利和物理引用專利,下同)的數量反映了技術知識吸收數量(Number of Technological Knowledge Absorption,NTA),NTA值越高,表明該專利吸收了越多的技術知識。本研究使用專利的最大被引數和平均被引數乘積測度技術知識吸收質量(Quality of Technological Knowledge Absorption,QTA),QTA值越高,表明該專利吸收的技術知識質量越高。本研究使用被引專利的IPC分類號平均個數與專利自身IPC分類號個數的比值來測度技術知識吸收廣度(Breadth of Technological Knowledge Absorption,BTA),BTA值越高,表明該專利吸收了更為廣泛的不同領域技術知識。
2.4.3 技術影響力
專利的技術影響力反映了專利對后續專利技術創新活動產生的影響,也是測度專利創新性的重要指標[7]。專利對后續專利技術的影響越大,表明專利的技術重要性越高,體現了專利的創新程度。本研究利用專利技術影響數量和質量兩個維度測度專利的技術影響力(Subsequent Influence,SI)。引用目標專利的施引專利數量反映了專利技術影響數量(Number of Patent Technology Impact,NPI),NPI值越高,表明該專利影響了越多的后續專利技術。本研究使用施引專利的最大被引數和平均被引數乘積測度專利技術影響質量(Quality of Patent Technology Impact,QPI),QPI值越高,表明該專利影響的后續專利技術質量越高。
2.4.4 指標權重確定
本研究主要采用層次分析法(Analytic Hierarchy Process,AHP)確定各指標權重。本研究邀請了8位相關領域的研究人員參與調查,共回收問卷8份,回收率為100%,且8份問卷均通過一致性檢驗,都是有效問卷。問卷間一致性比率CR均低于0.1,表明比較結果具有一致性。根據計算得到最終專利創新性二級指標體系權重結果如表2所示。
目標專利的創新性Novelty計算方法如式(1)所示:
Novelty=w1SK+w2TK+w3SI(1)
其中,w1、w2、w3分別表示科學知識基礎、技術知識基礎和技術影響力的權重。指標的計算過程中,需對原始數據進行標準化處理,使其符合均值為0、方差為1的標準正態分布,確保數據間距一致。
3 實證研究
3.1 實驗數據采集與處理
本研究以量子作為主題詞,分別在DII數據庫以及WOS數據庫中進行檢索,以獲得相較于目標專利更為廣泛的相關專利和論文集合。考慮到影響力的產生存在一定時滯,本研究設定專利申請時間截至2022年8月15日,共收集到量子領域91 269項發明專利。同樣地,在WOS中使用相同的主題詞檢索論文,時間截至2023年6月30日,共獲取248 249篇量子領域相關的論文。
3.2 專利與論文知識元抽取結果與分析
本研究依據預設的抽取規則和句法依存關系進行知識元抽取,如圖2所示。從91 269項專利中共同提取產品/方法(91 269個)、用途(49 603個)、功效(40 407個)和組件(40 860個);從248 249篇論文中共提取問題(248 249個)、方法(193 796個)和結論(142 733個)。通過隨機抽樣,對20篇專利和20篇論文進行人工標注并與自動抽取結果對比,發現論文知識元抽取準確率為88.33%,專利知識元抽取準確率為87.5%,驗證了方法的有效性。
3.3 專利語義引用識別結果及分析
本研究以4 402項量子計算領域專利為實驗數據,經去重后統計,最終識別出11 634篇語義引用專利和4 150篇語義引用論文。為驗證識別方法的準確率,本研究從4 402篇專利中隨機選取10篇作為驗證對象,識別出137篇語義引用專利和56篇語義引用論文。人工審核結果顯示,147篇專利語義引用關系成立,46篇未構成語義引用,總體準確率為76.17%。
在計算語義引用識別方法的召回率時,面臨的主要挑戰是如何從龐大的文獻集合中人工識別所有相關的語義引用。本研究借鑒鞠秀芳[38]的研究中驗證引文有效性的思路,通過比較目標專利與其他三類文獻(語義引用、物理引用以及虛假引用文獻)的平均整體相似度來進行間接評估。本研究選擇了8篇具有物理引用數據的目標專利,并獲取了相應的物理引用專利(43篇)和物理引用論文(18篇)。為了構建對照組,本研究從去除了物理引用數據的專利池和論文池中隨機抽取了107篇專利作為虛假引用專利和39篇論文作為虛假引用論文,通過文本向量化計算各種文獻對之間的平均整體相似度。表3展示了目標專利與語義引用專利、物理引用專利和虛假引用專利之間的相似度,以及目標專利與語義引用論文、物理引用論文及虛假引用論文的相似度情況。
實驗結果顯示,目標專利及其語義引用專利的平均整體相似度主要在0.6~0.75,與物理引用專利的相似度主要在0.55~0.7。但虛假引用專利的相似度顯著較低,僅在0.2~0.35之間。在論文方面,目標專利與語義引用論文的相似度主要在0.55~0.7,與物理引用論文的相似度主要在0.45~0.7,虛假引用論文的相似度則低至0.1~0.26。整體相似度對比結果表明,語義引用識別方法能夠有效區分引用的真偽。
3.4 專利創新性測度結果
中國專利獎由中國國家知識產權局與世界知識產權組織聯合舉辦,是官方認可的國家級獎勵。本研究采用第17屆至24屆中國專利獎的獲獎專利,從中篩選出10項量子計算領域的獲獎專利作為高創新性樣本。同時,隨機選取了2011—2020年中國量子計算領域的20項非獲獎專利作為對照樣本。創新性得分排名結果顯示,9項正分專利中有6項為獲獎專利,且10項獲獎專利中6項獲獎專利位于前8名,僅1項位于后10名,表明本方法能有效測度專利創新性。
為進一步驗證創新性測度方法的有效性,本研究將其與Funk R J等[39]提出的鞏固與破壞性指數(Consolidating and Destabilizing Index,CD)進行對比分析,該指數影響力大、認可度高,被廣泛應用于專利技術創新性評估中[40-42]。CD指數通過專利的引用網絡結構來計算其創新性,如果一項專利的后續施引專利較少地引用該專利的參考專利,則說明該專利的創新程度較大[43]。CD指數具體計算方法如式(2)所示:
CD=mn∑ni=1-2fibi+fiwi, wi>0(2)
其中,m表示目標專利的被引量,n表示目標專利及其參考專利的被引量,i表示引用目標專利或其任一參考專利的施引專利,wi為專利i的權重,默認為1。如果i引用目標專利,則fi設為1,否則為0;同時,如果i引用目標專利的任一參考文獻,則bi設為1,否則為0。
對比分析結果表明,本研究提出的專利創新性測度方法表現更好,如表4所示。具體而言,在獲獎專利排名分布方面,本研究方法共有6項獲獎專利排名位于前10名,而對比方法僅一項專利,如圖3所示。CD指數高度依賴專利被引頻次,無法測度無被引專利的創新性。本研究方法克服了這一局限,能夠更為準確地評估專利創新性。
為了驗證引入語義引用信息的必要性,本研究通過比較物理引用、語義引用以及兩者結合的方式測度專利創新性的結果。同時,本研究擴大驗證數據集中非獲獎專利的數據量,即根據獲獎專利的申請年份進行分層抽樣得到81項非獲獎專利作為對照數據。物理引用、語義引用以及兩者結合的方式測度專利創新性的結果如表5所示。在擴大的驗證數據集中,物理引用的測度方法表現最差,語義引用和兩者結合的方法表現更好,表明引入語義引用信息能顯著提高創新性測度的準確性。
進一步地,本研究對比了僅使用物理引用和結合物理引用與語義引用兩種測度方式下的得分差和位次差。結果顯示,兩種測度方式下得分差的樣本標準差值為0.177,排名差的樣本標準差為19.817,說明引入語義引用數據前后專利創新性測度結果存在較大的差異。兩種測度結果的差異性進一步體現了引入語義引用信息的專利創新性測度方法的有效性。
此外,由于領域專家在評選中國專利獎的獲獎專利過程中,會有意或無意地引入自身的領域知識,進行不自覺的語義引用判斷。因此,中國專利獎的結果本身即融合了物理引用和語義引用。由表5可知,獲獎專利的整體排名高于非獲獎專利,且9項獲獎專利排名位于前50%,其中6項獲獎專利排名位于前30%,說明本方法測度結果與融合領域專業知識的專家評選結果也具有較高的一致性。
4 結 語
專利創新性測度是專利技術質量評價的關鍵環節,對技術發明生態系統的良性發展具有重要意義。本研究針對傳統基于物理引用數據的創新性測度研究所存在的分析粒度過大、重數量、輕質量等局限,在物理引用的基礎上引入語義引用信息,從科學技術知識吸收的數量、質量和廣度,以及技術影響的數量和質量等多個維度綜合測度專利創新性,并選取了量子計算領域進行了實證研究。研究發現,物理引用可能受到各種主觀或客觀因素的影響,存在漏標或錯標的情況。這使得以物理引用數量為基礎的創新性評價結果無法全面涵蓋專利所吸收和繼承的技術與科學知識。為此,本研究所提出的專利創新性測度模型通過整合物理引用和語義引用信息,有效校正物理引用信息的潛在失真,同時兼顧質量和數量兩個方面,從而獲得了更加準確和全面的專利創新性測度結果。
本研究還存在一些不足和局限性,一方面,僅依賴標題和摘要數據可能不足以完全涵蓋文獻的所有有效信息,未來可考慮對文獻全文數據進行分析;另一方面,本研究主要使用特定領域的專利和論文數據,并未考慮跨領域的知識借鑒,未來可考慮擴大數據范圍。
參考文獻
[1]閆哲.國家和區域視角下新興產業專利質量測度及影響因素研究[D].北京:北京理工大學,2018.
[2]Lee M,Lee S.Identifying New Business Opportunities from Competitor Intelligence:An Integrated Use of Patent and Trademark Databases[J].Technological Forecasting and Social Change,2017,119:170-183.
[3]黃魯成,蔣林杉,吳菲菲.萌芽期顛覆性技術識別研究[J].科技進步與對策,2019,36(1):10-17.
[4]鞏永強,王超,許海云,等.創新鏈視角下的核心專利識別方法研究[J].情報理論與實踐,2022,45(5):113-122,164.
[5]馬榮康,王藝棠.基于專利相似度的突破性技術發明識別研究——以納米技術為例[J].科研管理,2021,42(5):153-160.
[6]王海軍,于佳文.基于專利發展路徑的顛覆性技術識別:以智能語音領域為例[J].科技管理研究,2022,42(6):170-181.
[7]江飛濤,陳強遠,王益敏,等.財政補貼與企業技術創新——來自醫療醫藥行業文本分析的證據[J].經濟管理,2021,43(12):62-78.
[8]郭思月,魏玉梅,滕廣青,等.基于專利引用的技術競爭情報分析:以5G關鍵技術為例[J].情報理論與實踐,2019,42(12):1-7.
[9]Cotropia C A,Lemley M A,Sampat B.Do Applicant Patent Citations Matter?[J].Research Policy,2013,42(4):844-854.
[10]何榮利,趙潔.關于引文規律的探討[J].圖書情報工作,2002(9):20-23.
[11]金賢日,歐石燕.無監督引用文本自動識別與分析[J].數據分析與知識發現,2021,5(1):66-77.
[12]唐曉波,吳海婷,吳佳琳.基于特征知識元的專利語義引用識別方法研究——以量子計算領域為例[J].情報理論與實踐,2023,46(10):86-95.
[13]索傳軍,蓋雙雙.知識元的內涵、結構與描述模型研究[J].中國圖書館學報,2018,44(4):54-72.
[14]傅柱,王曰芬,徐緒堪,等.基于知識元的中文專利文獻知識描述框架[J].情報理論與實踐,2019,42(4):145-150.
[15]李曉曼,張學福,宋紅燕,等.專利文獻技術要素識別方法研究——以納米肥料領域為例[J].圖書情報工作,2020,64(6):59-68.
[16]秦春秀,劉杰,劉懷亮,等.基于知識元的科技文本內容描述框架研究[J].圖書情報工作,2017,61(10):116-124.
[17]李賀,杜杏葉.基于知識元的學術論文內容創新性智能化評價研究[J].圖書情報工作,2020,64(1):93-104.
[18]譚熒,唐亦非.面向科學文獻的事實知識元自動抽取方法研究[J].情報科學,2020,38(4):23-27,36.
[19]高國偉,王亞杰,李永先.我國知識元研究綜述[J].情報科學,2016,34(2):161-165.
[20]柴慶鳳,史霖炎,梅珊,等.基于人工特征和機器特征融合的科技文獻知識元抽取[J].數據分析與知識發現,2021,5(8):132-143.
[21]鄒洋杰,李秀霞,王曉瓔.基于知識元抽取的不同學科領域研究方法交流態勢分析——以情報學與計算機科學學為例[J].情報雜志,2023,42(7):154-160.
[22]徐藹婷,程彩娟,祝瑜晗.基于改進專利續期模型的中國專利價值測度——兼論高價值發明專利的統計特征[J].統計研究,2022,39(3):3-20.
[23]宋超,陳悅,王康,等.知識單元視角下“零引文專利”技術新穎性比較分析[J].情報雜志,2022,41(8):62-68,61.
[24]王詩煒,陳春.基于科學論文和技術專利關聯關系識別潛在知識發現方法研究綜述[J].數據分析與知識發現,2023,7(7):18-31.
[25]任海英,李真.基于輸入輸出型SAO網絡的核心技術鏈識別方法研究——以量子計算領域為例[J].圖書情報工作,2021,65(19):117-129.
[26]Reimers N,Gurevych I.Sentence-BERT:Sentence Embeddings Using Siamese BERT-Networks[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP).Hong Kong,China.Stroudsburg,PA,USA:ACL,2019:3980-3990.
[27]劉江峰,林立濤,劉暢,等.深度學習驅動的海量人文社會科學學術文獻學科分類研究[J].情報理論與實踐,2023,46(2):71-81.
[28]陳虹樞,宋亞慧,金茜茜,等.動態主題網絡視角下的突破性創新主題識別:以區塊鏈領域為例[J].圖書情報工作,2022,66(10):45-58.
[29]林德明,孫建松,郝濤,等.專利引用在專利價值評價中的適用性研究[J].情報雜志,2016,35(12):150-154.
[30]李睿.專利被引頻次和施引頻次與專利價值的相關性解析——以在美注冊的中國專利為樣本[J].情報學報,2014,33(4):396-404.
[31]齊燕.基于專利引文分析的領域科技關聯發展態勢探究——以HCV為例[J].圖書情報工作,2019,63(23):97-105.
[32]劉聰,郭鳳嬌,梁琪奇,等.基于階段分析的單篇學術論文創新性測度研究述評[J].現代情報,2024,44(6):145-156.
[33]Popp D.From Science to Technology:The Value of Knowledge from Different Energy Research Institutions[J].Research Policy,2017,46(9):1580-1594.
[34]Ahmadpoor M,Jones B F.The Dual Frontier:Patented Inventions and Prior Scientific Advance[J].Science,2017,357(6351):583-587.
[35]Ke Q.Technological Impact of Biomedical Research:The Role of Basicness and Novelty[J].Research Policy,2020,49(7):104071.
[36]Ferguson J P,Carnabuci G.Risky Recombinations:Institutional Gatekeeping in the Innovation Process[J].Organization Science,2017,28(1):133-151.
[37]Bikard M,Marx M.Bridging Academia and Industry:How Geographic Hubs Connect University Science and Corporate Technology[J].Management Science,2020,66(8):3425-3443.
[38]鞠秀芳.基于文本相似度分析的期刊引文有效性識別研究[J].現代情報,2018,38(11):14-17.
[39]Funk R J,Owen-Smith J.A Dynamic Network Measure of Technological Change[J].Management Science,2017,63(3):791-817.
[40]Park M,Leahey E,Funk R J.Papers and Patents are Becoming Less Disruptive Over Time[J].Nature,2023,613(7942):138-144.
[41]Arts S,Hou J N,Gomez J C.Natural Language Processing to Identify the Creation and Impact of New Technologies in Patent Text:Code,Data,and New Measures[J].Research Policy,2021,50(2):104144.
[42]Park I,Yoon B.Technological Opportunity Discovery for Technological Convergence Based on the Prediction of Technology Knowledge Flow in a Citation Network[J].Journal of Informetrics,2018,12(4):1199-1222.
[43]馬亞雪,王嘉杰,巴志超,等.顛覆性技術的后向科學引文知識特征識別研究——以基因工程領域為例[J].圖書情報工作,2024,68(1):116-126.
(責任編輯:楊豐僑)