999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹算法的專利無效宣告風險特征識別

2023-02-08 13:49:46彭啟寧柳炳祥付振康馮廣宇
科學與管理 2023年6期

彭啟寧 柳炳祥 付振康 馮廣宇

關鍵詞:專利;無效宣告;風險識別;預警體系;決策樹

中圖分類號:G306 文獻標識碼:A DOI:10.3969/j.issn.1003-8256.2023.06.002

0 引言

專利是反映科技創新成果的主要客體,是知識產權的重要部分之一,專利無效宣告是保護自身知識產權的重要手段,專利無效宣告的判定已經成為學術界和實務界共同關注的熱點,加強專利訴訟和專利侵權研究具有重大意義。近幾年,專利申請數量不斷增加,專利侵權和專利無效宣告發生的案件數量不斷增長。劉蕾[1]認為無效宣告制度有助于糾正專利審查機關的不當授權。與此同時,與之相關的程序和制度等問題更加凸顯,倪靜[2]認為目前我國專利宣告程序仍然存在程序拖延、冗長,權利無法得到及時救濟等突出問題;李新芝等[3]認為我國對專利無效程序中專利文件的修改要求不利于專利權人利用無效宣告程序充分完善其專利文件。根據“十四五”規劃[4]中所提出:要著眼于搶占未來產業發展的先機,重點關注和培育先導性和支柱性產業,聚焦新一代信息技術、生物技術、新能源、新材料、高端裝備、新能源汽車、綠色環保以及航空航天、海洋裝備等新興產業。因此,構建一套科學的專利無效宣告預警體系,促進新興產業的發展,進而識別出易發生無效宣告的專利,對于提高我國相關創新主體的創新能力以及研判產業發展方向具有重要意義。

本文以侵權專利為切入點,提出構建專利預警指標體系這一研究問題。在綜合分析專利訴訟風險特征影響因素的前提下,結合專利無效宣告的特點,從經濟質量、法律質量及技術質量三個維度選取反映專利狀況的指標,構建專利無效宣告的風險識別體系,得出導致專利發生無效宣告的指標影響程度排序,進而建立較為精準的專利無效宣告預警指標體系。

1 研究現狀

1.1 無效宣告相關研究

經閱讀文獻可以發現,目前國內對于專利無效宣告的研究主要集中在以下幾方面:首先是在法學領域,主要是針對專利無效宣告制度的特點進行一系列討論,例如李曉鳴[5]指出我國專利無效宣告制度的不足之處,認為相關法律法規對無效宣告各類程序的期限規定不完善并提出一系列完善建議;王瑞龍[6]指出了侵權訴訟中專利權無效抗辯制度弊端,認為專利無效抗辯制度導致專利侵權訴訟周期長并提出了解決方法。但上述文獻主要涉及無效宣告判別的各類程序,未涉及導致無效宣告發生的指標研究。其次是經濟學領域,主要是針對專利無效宣告對經濟市場份額影響進行一系列研究,例如Clifton D J[7]討論了專利無效宣告與市場份額的關系,認為專利無效宣告傾向與專利市場份額增長率呈正相關,專利的市場份額越高,專利發生無效宣告的可能性越大。但上述文獻主要探討了專利無效宣告與市場價值的關系,未涉及各類指標對無效宣告結果的影響。最后是情報學領域,在競爭情報學中將申請宣告競爭對手的專利無效視作是一種重要的專利戰略手段,李睿等[8]指出在技術市場權益的爭奪中,優質專利通常是競爭對手申請無效宣告的主要目標。此外,專利無效宣告傾向在不同技術領域所表現的程度不盡相同,Patel P A等[9]發現專利異議率在不同的領域所占比例不同,其中在電氣工程領域的異議率在5.3%~9.7%左右;但上述文獻并未系統地構建一套完整的無效宣告識別體系。

通過相關研究可知,目前國內外學者對于專利無效宣告的研究,主要集中在專利無效宣告制度的合理性,或是專利無效宣告對不同領域的影響。對于影響專利無效宣告的特征因素研究較為欠缺。

1.2 特征識別模型相關研究

隨著學科融合的進一步發展,現如今針對各類專利的識別模型各不相同。對于專利識別的研究主要集中在兩個角度,一是利用傳統的數學統計分析方法進行研究,例如孫玉艷等[10]利用市場法、成本法、收益法和修正收益法對專利價值進行線性組合和非線性組合預測,得到加權算數平均值組合預測和加權調和平均組合預測兩種評估模型;王子焉等[11]利用文獻計量、社會網絡分析方法從專利價值的內涵、評估指標體系、評估方法三方面對專利價值進行評估。二是利用數據挖掘方法,例如深度學習、機器學習等對專利各類特征進行識別,例如張杰等[12]采用AdaBoost算法對訴訟專利的專利質量進行評價,以及Jee J 等[13]利用人工神經網絡方法對制藥技術領域專利進行分類,達到識別高質量專利的目的;Kang I S 等[14]提出建立聚類模型來對侵權專利檢索,從而建立侵權專利的特征模型,但上述研究均未涉及利用專利特征構建識別。根據已有研究可以發現:目前的專利識別模型主要集中在對專利價值的特征識別和挖掘,對侵權專利和無效宣告專利的特征識別研究較為欠缺,例如蔣啟蒙等[15]采用傳統統計學中Logistic回歸模型對專利侵權訴訟中無效宣告傾向的影響因素展開實證分析。但利用數據挖掘方法對專利無效宣告風險的特征識別研究較為欠缺。本文基于傳統侵權專利的分析研究,在侵權專利的基礎上對于該專利的無效宣告風險特征進行識別,創新性地提出針對國內侵權專利通過機器學習算法構建專利指標體系研究。通過數據挖掘研究專利訴訟產生的條件、區別分析專利訴訟風險特征不僅具有重要的學術價值,而且對解決我國企業在國內外市場競爭中的專利糾紛沖突、預防專利侵權風險具有十分重要的現實意義。

2 特征選取與研究設計

2.1 特征因素選取

學術界對于專利的各類特性的評估指標選取方式各不相同,袁任遠等[16]在對企業風險進行預警時,從宏觀、微觀以及綜合指標因素三維度選取指標科學評定風險等級;郭青等[17]從專利的經濟、法律、技術三個方面選取相應的專利質量評價指標,構建了三位一體的專利質量評價指標體系。

因此,基于已有研究,本文從經濟質量、技術質量和法律質量三個維度分別選取三個指標,構建較為完整的侵權專利無效宣告風險特征識別體系,如表1所示。

在經濟質量方面,主要選取了“合享價值度”“專利壽命”和“轉讓次數”,其中“合享價值度”主要是指合享利用自主研發的專利價值模型對專利價值度進行計算,該專利價值模型將專利分為1~10分,分數越高則專利價值越高;“專利壽命”是衡量專利新增利潤的重要依據之一,同時也對專利的技術價格有著重要的影響,賴院根等[18]認為專利壽命反映了創新主體的研發實力和行業技術更新速度;“轉讓次數”計量專利發生的整體轉讓情況,武玉英等[19]通過挖掘專利轉讓加權網絡主體信息及結構特征對交易機會進行預測,促進技術供需有效對接。

在法律質量方面,劉星等[20]認為法律因素主要包括專利權的法律狀態、穩定性、維持時間、寬度以及專利權人的類型。本文主要選取了“訴訟次數”“同族專利數”和“文獻頁數”,其中“專利訴訟”發生的主要原因是為了爭奪市場,企業或其他創新主體往往通過專利訴訟抑制同類型競爭對手的生產經營規模,袁曉東等[21]指出專利訴訟傾向與產品類型、公司所在國家和訴訟持續時間等都有相關性;“同族專利數”主要體現了相同的專利權人對該項技術的市場分布和合作伙伴或者技術受讓人的分布,郭青等[17]認為同族專利數量反映專利質量的高低,同族數量多的專利經受法律考核的能力就越強,專利的質量就越高;“文獻頁數”主要涉及說明書,權利要求書以及附圖,頁數越多,所包含的專利內容越多。

在技術質量方面,主要選取了“專利被引頻次”“權利要求數”“保護范圍”,“專利被引頻次”主要反映該專利在后續技術發展中的重要性,并且在一定程度上也反映了發明的經濟價值,李春燕等[22]指出如果專利的被引用次數越高,則該專利越能代表該領域的基礎技術,可以反映出該專利的技術先進性;“權利要求數”主要體現了專利的保護范圍,郭青等[17]認為權利要求數量越多,專利的保護范圍越廣,專利的質量也越高;“保護范圍”主要涉及是指專利權法律效力所涉及的發明創造的范圍,Lerner Josh等[23]提出用專利文件中的IPC(國際專利分類號)小類的數量來衡量專利覆蓋的技術范圍。

2.2 模型選取與評估

2.2.1 研究設計

圖1為專利無效宣告預測模型。首先,通過閱讀國內外的大量研究文獻,對專利無效宣告進行概念的界定,結合指標的可獲取性、科學性等因素,選取影響專利無效的指標;通過文獻檢索的方法,獲取影響專利訴訟的指標數據,建立樣本庫;通過機器學習的監督學習算法——決策樹,對樣本庫中的侵權專利進行分析,對影響專利無效宣告的指標進行分類訓練,構建基于機器學習的訴訟專利特征識別模型,并對算法的結果進行參數調整,使得算法模型達到最優效果;通過特征重要程度的對比,對特征的各項指標的重要程度進行對比,獲得在不同領域專利無效宣告風險識別的最優選算法指標,得出導致專利發生無效宣告的指標影響程度排序,進而建立較為精準的專利預警指標體系。

2.2.2 決策樹模型建立

決策樹(Decision tree)也稱作判定樹,是一類常見的機器學習方法。這是一種典型的分類學習方法,決策樹的具體訓練方法為:對于專利數據集D={(xp,yn),p=1,2,…,P;n=1,2,…,N},其中xp代表第n 項專利的指標特征,yn代表第n 項專利的類別,P 是每項專利所包含的指標特征數量。首先采用“留出法”(hold out)將數據集D劃分為決策樹模型的訓練集S 和測試集T;其次利用信息熵(Entropy)或者基尼系數(Gini Impurity)找出最佳節點和最佳的分枝方法。決策樹生成后,再利用最大深度(max_depth)對決策樹確認最優的剪枝參數、葉子節點最少樣本數(min_samples_leaf)讓分枝會朝著滿足每個子節點都包含所規定的樣本數的方向去發生以及利用最大特征(max_features)限制分枝時考慮的特征個數。最后,得到目標權重參數(class_weight)對樣本標簽進行一定的均衡,給少量的標簽更多的權重,讓模型更偏向少數類,向捕獲少數類的方向建模。

2.2.3 性能度量

采用決策樹模型最終完成的任務是專利無效宣告的二分類問題,故本文采用準確率(Accuracy)、平均精確率(Precision)、平均召回率(Recall)、平均F1值(F1)以及ROC 曲線下方的面積(Area Under ROC the Curve,AUC)5個指標對模型的性能進行評價。對于二分類問題,將樣例數據根據機器學習的預測類別與實際類別相結合分為真正例(True Positive,TP)、假正例(False Positive,FP)、真反例(True Negative,TN)、假反例(FalseNegative,FN)四種情況。

準確率是指模型分類正確的專利樣本數量與所有的專利樣本數量的比值,其計算公式如式(1)所示:

精確率是指檢測出某類特征的數量與檢測出的所有特征數量之間的比率,衡量的是模型的查準率;其計算公式如式(2)所示:

3 實驗及結果分析

3.1 數據來源

“十四五”時期,生物產業主要涉及兩個方面,一是生物醫藥領域,該領域主要以精準藥物設計為核心,結合現代生物學、信息技術和材料科學等多個學科,加強基因治療、細胞治療、免疫治療、代謝調控等醫療技術的研發。二是生物制造行業,主要包含能源生物煉制、化工與材料生物制造、生物反應器及裝備技術。因此,本文數據選自于北京合享智慧科技有限公司incoPat數據庫,構建檢索式為:“INDUSTRY1=4 AND ACTION-TYPES=侵權案件”,篩選新興產業——“生物產業”領域的侵權案件,檢索時間截至2022年6月,檢索范圍為在中國公開并且獲得授權的發明專利以及實用新型專利。通過數據篩選,共得到包含853條數據的專利文獻數據集。

3.2 無效宣告特征識別

3.2.1 決策樹模型構建

(1)數據歸一化,劃分訓練集和測試集

根據整理后的數據可以得到853件侵權專利,其中有效專利286件,無效專利567件。首先,采用數據預處理(preprocessing-StandardScaler)對所設定的九項特征數據進行數據標準化處理,進而讓所收集的數據服從高斯正態分布,從而等級化,進而實現數據中心化,公式如(6)所示,x為原始數據,u為平均值,s為標準差,z為歸一化數值。為了保證數據集的無偏采樣,防止出現“過采樣”和“下采樣”的情況出現,本文利用SMOTE的過采樣算法,即增加一些正例使得正、反例數目接近,然后再進行訓練。最后采用“留出法”將數據劃分為訓練集和測試集。

通過歸一化和無偏采樣的調整后,將數據集D 劃分為包含226個樣本的訓練集S 和包含908個樣本的測試集T。

(2)計算樣本劃分前的期望信息,確定決策樹根節點

經過計算,“被引證次數”的信息增益最大,因此被作為劃分屬性。

(3)計算每個決策屬性信息增益,建立識別模型

根據模型根節點的劃分,再依次計算每個決策屬性的信息增益,選擇最佳節點和最佳的分枝方法,對每一個分枝進行進一步的劃分。根據對無效宣告各特征屬性信息熵的計算,生成的無效宣告決策樹模型。內部節點和葉子節點均用矩形表示。其中,“被引證次數”描述“無效宣告”的概念,其值為“T”或“F”各代表一個類。

(4)確定最大深度,確定最優參數

如果在不加任何限制的情況下,一棵決策樹會不斷生長,直到衡量不純度的指標最優,或者沒有更多的特征可用時才會停止生長。因此,需要對決策樹進行剪枝處理,本文主要采用利用最大深度(max_depth)對決策樹確認最優的剪枝參數。如圖2所示,利用超參數曲線來判斷模型的最大深度??梢钥闯?,最優的剪枝參數取5時,模型的擬合效果已較為優秀。

圖3為劃分完成后的決策樹模型??梢钥吹?,基于信息增益的決策樹再建立時以“被引證次數”作為根節點,“權利要求數量”作為子節點。由圖3可以看出,對于專利是否會發生無效宣告首先是根據被引證次數對其進行評估,經過數據歸一化后,當被引證次數小于或等于-0.79時,該專利不易發生無效宣告風險。反之,當被引證次數大于-0.79時,則需要對權利要求數進行下一步的評估,當權利要求數大于0.376時,則該專利不易發生無效宣告風險。反之,當權利要求數小于或等于0.376時,則需要對該專利的被引證次數進行再次的劃分。在對專利進行再次分類后,在決策樹模型的第三層,根據被引證次數是否大于或小于等于-0.121將模型劃分成了兩個分枝:“權利要求數量”和“合享價值度”。在“權利要求數量”分枝中,當權利要求數小于-0.672時,則需要再根據其保護范圍進行再次劃分。由此可以得出,判斷一件專利發生無效宣告的第一條路徑:權利要求數量→被引證次數→權利要求數量→保護范圍。在“合享價值度”分枝中,當“合享價值度”小于等于1.848時,則需要根據“轉讓次數”進行再次劃分,由此可以看出判斷一件專利發生無效宣告的第二條路徑:權利要求數量→被引證次數→合享價值度→轉讓次數;當“合享價值度”大于1.848時,則需要根據“簡單同族個數”進行再次劃分,由此可以看出判斷一件專利發生無效宣告的第三條路徑:權利要求數量→被引證次數→合享價值度→簡單同族個數。

綜上所述,關于識別侵權專利的無效宣告風險主要包含三條路徑,分別涉及了“被引證次數”“權利要求數量”等多個方面。因此,構建的專利識別體系覆蓋層面較廣,極大提高了識別準確率。

3.2.2 特征重要性

圖4為模型指標的特征重要程度。由于不同特征對于模型的影響程度不同,因此,需要對所選取特征的信息熵進行分別計算。通過對特征重要程度的分析,能夠更好地構建專利無效宣告預警指標體系。

由圖4可知,在決策樹模型的就九項指標中,“權利要求數量”對于模型分類結果的影響程度最高,影響程度為0.449 949。因此,其對于專利無效宣告的影響程度最大。其次,“被引證次數”對于模型分類結果的影響程度較高,影響程度為0.222 449 8,“被引證次數”對于專利無效宣告的影響程度較為顯著;排在第三位的是“訴訟次數”,影響程度為0.090 978;排在第四位的是“保護范圍”,影響程度為0.085 511 96;緊隨其后的是“合享價值度”,影響程度為0.062 427 31;“簡單同族個數”“轉讓次數”和“文獻頁數”對專利無效宣告的影響一般,影響程度均在0.05以下;“專利壽命”對于模型分類結果的影響程度最低。

結合決策樹的分類路徑可以看出,決策樹在分類時,主要是根據所選取的特征指標的重要程度進行劃分。因此,在判斷單件專利發生無效宣告的傾向時,首先應當注重專利的“權利要求數量”和“被引證次數”。其次,關注“訴訟次數”“保護范圍”和“合享價值度”對專利無效宣告的影響,最后,再關注“簡單同族個數”“轉讓次數”和“文獻頁數”。

3.3 模型評估

為了評估本文構建的機器學習模型的性能,采用2.2.3中所述的評估指標。由表2可知,在測試集中,決策樹模型的Accuracy、Precision、Recall、F1以及AUC 的評分,其評分均為0.97以上。綜合實驗分析可以發現,本文構建的決策樹的分類模型,在該數據集上表現的擬合度較優,整體性能較為準確。由此可以得出,決策樹二分類模型對于專利無效宣告傾向預測上的應用,較為準確。

本文數據主要來源于新興產業“生物產業”的侵權案件,根據上述模型的運行和評估情況,可以將此模型運用在新興產業不同的領域,識別不同領域對于專利的無效宣告傾向,提出了一種關于專利無效宣告風險預警的新模型,從而對專利發生無效宣告風險的可能性給予客觀以及科學的判別,同時對于知識產權與人工智能算法的跨學科結合研究具有重要的理論意義。

4 結果與討論

本文根據前人對于專利無效宣告指標體系的相關研究,首先提出了基于經濟質量、技術質量和法律質量三個維度9 個指標的專利無效宣告預警指標體系;其次,采用機器學習的決策樹二分類模型,從而對專利無效宣告傾向進行分類;最后,數據庫選取新興產業中的生物產業對模型進行實驗分析,驗證本文構建的專利無效宣告預警體系的有效性及準確性。

通過實證分析得出如下結論:首先,在模型構建時,由于決策樹模型是建立在平衡數據的基礎上進行分類,但所收集的數據往往是不平衡數據集,則需要對數據進行過采樣或欠采樣處理,進而提高分類的準確性。其次,在決策樹分化時,為了防止決策樹的過擬合,含有過多的不必要信息,需要計算模型的最佳節點和最佳的分枝方法,對決策樹進行剪枝處理,讓模型準確率更加穩定。另外,根據模型的評估結果可以看出,決策樹二分類模型在專利無效宣告的預測中效果較好,準確率為0.97左右。最后,根據特征重要程度可以看出,不同的指標對模型分化的影響程度不同,在專利無效宣告的預測中,需要更加注重“權利要求數量”和“被引證次數”對預測結果的影響。因此,根據模型的分枝規則以及特征重要程度的排序,依照文中所描述的三條路徑對專利的無效宣告傾向進行預測,可以建立一套較為完整的專利無效宣告預警體系。

綜上所述,本文構建的專利無效宣告預測模型以及專利無效宣告的預警體系對我國專利的研究具有一定的科學性以及現實意義,可以為企業以及其他創新主體對于自身專利的情況提供一定的判斷依據,為保護自身專利的穩定性提供相應的數據支持。但是,本文構建的預測模型和預警體系也存在一定的局限性:一是在指標的選取上,主要選取定量指標進行模型構建,并未充分考慮定性指標對于專利無效宣告預測的影響,同時識別預測指標體系也需進一步完善。二是在模型的選取上,本文僅采用機器學習中決策樹模型,模型較為單一,并未嘗試利用其他模型對專利無效宣告預測進行構建。因此,在后續的研究過程中,將對以上兩點的進行深入研究,不斷完善專利無效宣告預測模型以及構建更加精準的專利無效宣告的預警體系,進一步改進決策樹模型,使分析結果更為準確。

主站蜘蛛池模板: 黄片一区二区三区| 香蕉eeww99国产精选播放| 在线观看无码av免费不卡网站| 国产精品黑色丝袜的老师| 国产成人啪视频一区二区三区| 色九九视频| 久久久久国产精品免费免费不卡| 91色综合综合热五月激情| 日韩毛片免费| 欧美精品1区| 精品无码一区二区三区电影| 亚洲国产精品久久久久秋霞影院 | 2024av在线无码中文最新| 欧美国产三级| 日韩成人在线视频| a毛片在线播放| 久久精品波多野结衣| 欧美怡红院视频一区二区三区| 久久精品亚洲专区| 久久国产成人精品国产成人亚洲 | jizz在线免费播放| 久久99精品久久久大学生| 99久视频| 亚洲无码视频喷水| 91九色国产porny| 国产迷奸在线看| 波多野结衣一区二区三区四区视频 | 中文字幕乱码中文乱码51精品| 免费一级毛片| 青青热久麻豆精品视频在线观看| 欧美性天天| 免费在线观看av| 亚洲无码精彩视频在线观看| 国产成人高清精品免费软件| 精品视频免费在线| 日韩av无码DVD| 中文字幕人成人乱码亚洲电影| 国产成人免费| 亚洲人成网站色7777| 国产自在自线午夜精品视频| 91在线视频福利| 国产三级韩国三级理| 亚洲成人在线免费| 久久久波多野结衣av一区二区| 99无码中文字幕视频| 国产美女久久久久不卡| 中文国产成人精品久久| 日本欧美一二三区色视频| 久久久久国产一级毛片高清板| 亚洲成网站| 国产精品9| 超清无码熟妇人妻AV在线绿巨人 | 一级毛片在线播放| yjizz国产在线视频网| 亚洲国产精品日韩av专区| 亚洲国产一区在线观看| 久久国产精品国产自线拍| 色综合网址| 国产精品亚洲一区二区三区z| 粉嫩国产白浆在线观看| 亚洲中文字幕国产av| 在线观看91香蕉国产免费| 日韩精品一区二区三区大桥未久| 日本不卡在线视频| 国产精品男人的天堂| 欧美日韩导航| 热re99久久精品国99热| 欧美一区二区精品久久久| 97se亚洲综合在线韩国专区福利| 久久人人爽人人爽人人片aV东京热| 欧美精品一区二区三区中文字幕| 色婷婷狠狠干| 中文字幕无码制服中字| 影音先锋丝袜制服| 在线日韩日本国产亚洲| 一区二区三区在线不卡免费| 亚洲综合久久一本伊一区| 波多野结衣在线一区二区| 狠狠亚洲婷婷综合色香| 精品自拍视频在线观看| 中文无码精品A∨在线观看不卡 | 欧美色香蕉|