999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SMOTE-LOF-Adaboost 模型的核心專利識別研究

2024-01-04 02:48:10吳增源
科技管理研究 2023年21期
關鍵詞:模型

李 穎,吳增源,陳 亮

(1.中國計量大學經濟與管理學院,浙江杭州 310018;2.中國計量大學光學與電子科技學院,浙江杭州 310018)

核心技術是指在某一技術領域中處于關鍵地位,對技術創新具有突出貢獻、對其他專利或者技術具有重大影響的技術[1],掌握核心技術有利于提升產業在價值鏈中的維度和地位,對于占領競爭制高點具有重大戰略價值[2]。作為知識產權的重要組成部分,專利儲存著大量的技術信息,是促進技術進步和產業創新的重要工具。隨著技術革新的速度加快,專利數量也在激增,如何從海量專利中快速準確識別出核心專利是國家和企業亟需解決的重要問題。

1 相關研究綜述

1.1 核心專利指標體系構建相關研究

核心專利指標體系的構建直接影響其識別準確率的高低。專利被引頻次是識別核心專利的有效指標,一件專利被后續專利引用的次數越多,該專利對后續專利的影響越大。如Lee[3]認為,專利被引頻次影響專利的技術價值并且體現經濟價值;Kwon等[4]通過技術積累、技術生命周期、技術保護范圍、技術覆蓋范圍等專利指標構建基于機器學習的核心技術識別模型;楊武等[5]基于技術核心特征識別光刻領域核心技術,運用權利要求數、引用專利數、科學關聯度、專利合作范圍、同族數等9 個專利指標篩選出核心專利;亢川博等[6]引入專利的個體價值、網絡價值及綜合價值的概念,并通過專利指標體系和社會網絡方法對其進行測度構建核心專利識別模型,證實同族專利數、發明人數、同族專利被引用數等與核心專利呈顯著正相關關系;王曰芬等[7]從行為效果和動機目的兩個方面選取專利被引用頻次、引用專利數、引用科學文獻數、同族專利數、權利要求數、專利IPC 數6 個指標篩選出人工智能領域的核心專利。

綜上,在核心專利指標體系構建上,目前核心專利識別研究中,大部分學者傾向于專利本身的因素對核心專利進行評價,很少有學者將專利發明人自身因素構建到核心專利識別體系中。但現有研究表明專利發明人相關因素在很大程度上會影響專利所處的地位和影響力。如Lee 等[8]研究證實開發的專利主體人指標與關鍵核心專利呈顯著正相關;喬永忠等[9]通過專利引證分析證明不同的發明人對專利質量水平有顯著影響;李欣等[10]通過對國內外相關專利質量評價研究進行系統調研和梳理,提出一種新的專利質量評價指標體系,證實加入專利發明人自身相關指標能夠更加全面、深入地評價專利質量,并且專利發明人的技術實力越強,越有可能創造出核心專利。故應將專利發明人等主體性因素融入核心專利指標體系構建中。

1.2 核心專利識別方法相關研究

由于核心專利的不確定性、專利數據的復雜性,在早期的實踐中,確定核心專利很大程度上依賴于以專家為中心的方法,如德爾菲法,這種方法識別準確率高,但專家的判斷大多是主觀的,此外,隨著專利數據的不斷激增,以專家為中心的方法已經變得耗時[11]。由此,在核心專利識別的研究方向上開始由專家判斷的定性方法轉變為定量方法。如Fischer 等[12]實驗證明專利被引次數和同族專利數能夠有效評估專利價值;孫濤濤等[13]用專利文獻耦合和專利引證關系挖掘出DVD 激光頭技術中的關鍵核心技術。這些使用單一指標進行核心專利識別的方法雖然過程簡單,易操作,但具有片面性。隨著研究的深入,學者開始使用核心專利指標評價體系構建法,即給多個指標賦權,綜合衡量專利的核心程度。如曾聞等[14]從技術價值和經濟價值兩個維度構建指標體系,快速識別出人工智能領域核心專利;楊武[5]以光刻領域為例,將核心技術特征分為核心基礎性、核心體系性和核心競爭性,并構建量化測度模型識別出核心技術。專利指標體系構建法過程較繁瑣,并且每項指標的賦權受主觀因素影響大。專利共類分析法是以不同的專利共同被其他專利所引用的次數作為基礎,利用因子分析、聚類分析和多維尺度分析等統計分析方法,將專利按照相似性進行分類,利用數據可視化技術進行直觀展示。如郭劍明等[15]基于專利基本引用關系構建專利綜合網絡,以網絡節點度數及其鄰域節點對相似度量化表征網絡結構重要程度,并以此為依據進行核心專利識別;康旭東等[16]根據專利的直接引證數量和引證長度將專利分為四類,并定義具有高被引數量長引證路徑的專利為高影響力專利。但專利共類分析法忽略了專利的其他信息。隨著信息技術的發展,基于機器學習的數據挖掘方法開始廣泛應用到核心專利的識別中,馬瑞敏等[17]將核心專利定義為高被引專利,利用四年內被引頻次、同族專利數、專利寬度、權利要求數、科學關聯度5 個指標構建了基于支持向量機的核心專利預測模型;Lee等[8]使用多個專利指標并利用神經網絡對核心專利進行早期識別。基于機器學習的核心專利識別方法不僅能夠輕松處理大量數據,并且可以自動學習核心專利各個指標重要性,進行權重賦值,準確識別出核心專利,但是機器學習主要的問題是不平衡數據的處理,現有研究中學者只使用單一算法,并沒有考慮到對該問題的解決。

綜上,在核心專利識別方法相關研究中,德爾菲法耗時耗力且主觀性強,單一指標法容易受指標片面性影響,指標體系構建法賦權過程主觀,指標構建繁瑣,專利共類分析法難以處理數據量大的專利且專利信息利用不完全。使用機器學習進行核心專利的識別,能夠充分考慮專利指標的多元性,并能夠輕松處理大量數據,但是較少有學者考慮到數據的不平衡特性,直接使用單一算法,且模型輸出指標直接使用被引次數,忽略了專利之間的間接引用信息,導致識別準確率低,模型穩定性差。

因此,本文針對現有研究中兩點不足:(1)核心指標體系構建不完善,識別準確率低;(2)對不平衡數據處理效果不佳。提出如下解決方法,在現有指標體系基礎上加入專利發明人兩個指標:發明人技術實力和發明人技術影響力。在識別方法上使用組合模型SMOTE-LOF-Adaboost,即先利用混合采樣技術SMOTE-LOF 對數據進行平衡處理,再使用集成算法Adaboost 進行分類,并與其他分類算法進行比較證明其有效性。

2 SMOTE-LOF-Adaboost 模型構建

2.1 SMOTE-LOF 算法

SMOTE(synthetic minority oversampling)合成少數類過采樣技術[18],是比較常用的一種采樣技術,它并不是簡單地復制少數類樣本,而是對于每一個少數類樣本,通過沿線性加入K 臨近的少數類樣本,取線段的中心,進行中值插值處理,來生成新的樣本。LOF 是針對離群點的檢測方法。大部分離群點檢測都是借助密度、夾角和距離等來劃分超平面找出異常點,這些方法都是從數據點相似度出發。不同于上述算法,LOF 算法是從樣本點周圍的數據密度基礎出發的檢測算法,它給每個樣本點分配一個局部可達密度,通過可達密度的離群因子分析該樣本的離群程度,判斷其是否為離群點。LOF 算法簡單直觀,同時考慮數據集局部和全局的屬性。SMOTE-LOF 算法先對原始樣本進行重采樣生成新的樣本使數據集均衡分布,新的樣本中必然存在噪聲樣本,因此使用LOF 算法進行降噪處理,得到最終的數據集更有助于分類器的訓練。其算法大致流程如下。

輸入:訓練數據集

(1)首先,針對少數類樣本S中的每一個樣本x,使用歐氏距離作為度量標準,計算其與少數類樣本中所有樣本的距離,以獲取它的k個近鄰。

(2)根據數據集中樣本不平衡程度,規定采樣的比例以確定采樣的倍率N,對于每一個少數類樣本x,在它的k近鄰中隨機地選擇若干個樣本,表示為

(6)使用LOF 算法對新生成的樣本集進行降噪處理。

輸出:新的平衡數據集

2.2 SMOTE-LOF-Adaboost 模型

Adaboost(adaptive boosting)自適應采樣算法是由Freund 等[19]提出的對Boosting 的改進算法,充分考慮每個分類器的權重,該算法的原理是通過調整樣本權重和弱分類器權值,從訓練出的弱分類器中篩選出權值系數最小的弱分類器以組合成一個最終的強分類器。在訓練集上訓練弱分類器時,每次下一個弱分類器都是在不同樣本權值集上訓練獲得的。每個樣本被分類的難易程度決定其權重,而分類的難易程度則是通過之前步驟中分類器的輸出估計得到的。單獨的Adaboost 集成算法難以解決數據不平衡問題,會導致分類精度下降,泛化能力較弱[20]。基于此,本文在數據級層面選擇SMOTE-LOF 算法使數據達到平衡,再與Adaboost 算法構成組合模型SMOTE-LOF-Adaboost,提升模型預測性能。該模型訓練過程如下,流程如圖1 所示。

圖1 SMOTE-LOF-Adaboost 模型

(1)使用SMOTE 生成少數類樣本集。

(2)使用LOF對新生成的樣本集進行降噪處理。

(3)初始化訓練數據的權值分布。給每一個訓練樣本賦予初始相同的權值:。如公式(2)所示。

(4)進行M次迭代。

(a)使用具有權值分布Dm的訓練數據集學習,得到弱分類器:

(b)計算每個分類器的分類誤差率。如公式(3)所示。

(c)基于得到的分類誤差率,進一步計算第i個分類器的權重系數。如公式(4)所示。

(d)更新訓練數據集的權值分布,用于下一輪迭代。如公式(5)所示。

(5)組合各個弱分類器得到最終分類器。如公式(6)所示。

2.3 模型輸出指標

專利中的引用行為為技術的不斷進步與技術的知識流動提供了明確的證據[21]。直接使用專利被引次數來衡量專利的核心程度具有一定的片面性。隨著專利引用網絡分析方法的興起,基于引用網絡的評價指標逐漸成為研究熱點,一些網絡中心性指標如度中心性、中介中心性、接近中心性等被用來衡量目標專利在整個網絡中的地位[22]。接近中心性指標用于測量某節點與其他節點之間的最短路徑,以衡量該節點與其他節點之間的緊密程度。由于該指標的計算過程包含了直接和間接的聯系,因此它能夠反映節點在全局中心的程度。在本文中所構建的網絡中,節點的高接近中心性意味著該技術在網絡中處于核心地位,該指標能夠更加全面地反映專利的核心程度。如公式(7)所示。

3 實證分析

3.1 核心專利指標體系構建

本文通過對現有研究成果的總結,構建包含10個指標的核心專利指標體系,如表1 所示。具體指標含義以及指標與核心專利之間的關系解釋如下。

表1 專利指標體系

衡量某專利對后續技術發展的貢獻程度以及影響力度,專利被引用數是最被認可的指標,它表示目標專利被其他專利引用的次數,Narin 等[23]在1994 年就指出高被引的專利往往表征其在某個領域的高核心程度。引用專利數是指目標專利引用其他專利的數量,體現技術之間的連續性與積累性[24]。引用專利數越多,說明目標專利技術基礎越堅實,也就越有可能成為核心專利。同族專利數反映的是專利的地域保護范圍,保護范圍越廣,投入成本越高,重要程度也就越高,其以同一專利在不同國家或地區遞交保護申請的數量進行判定[25]。同族專利被引用數指同族專利被引用數量,該指標反映的是專利家族的技術先進程度與影響力大小,同族專利被引用數越大,則越有可能成為核心專利[26]。目標專利的科學知識基礎也是衡量其核心程度的重要指標,因此將科學關聯度納入指標體系的構建中,該指標指目標專利引用科學論文的數量,與核心專利呈正相關[27]。技術覆蓋范圍表示一項專利包含的技術內涵以及其覆蓋的技術范圍,以IPC 分類號數量衡量,IPC 分類號數量越多,包含的技術特征越多,技術越復雜,越有可能成為核心專利[28]。專利的權利要求數量是該專利技術水平的表征[29],一般而言,專利要求保護的數量越多,專利的技術含量越高,技術創新能力就越強,更有可能成為核心專利。發明人數指目標專利的發明人數量,發明人數越多,研發投入的人力成本越高,越有可能成為核心專利[30]。所加入的發明人技術實力指標是指發明人在目標領域內發表的專利數之和,該指標反映的是專利發明人對該領域的技術知識了解程度,其發表專利數越多,對該領域了解得越透徹,所發表的專利越有可能成為核心專利[8]。發明人技術影響力指發明人發布的該領域專利的總被引次數,總被引次數越大,技術影響力也就越大,與核心具有顯著正相關關系[31]。

3.2 數據描述與預處理

本文使用的光伏專利數據來源于智慧芽專利檢索平臺,根據光伏領域相關的專利信息并綜合使用專利檢索方法,確定專利檢索策略為:TAC:(photovoltaic*OR PV System*OR solar cell*OR Solar Batter*OR Solar module*),篩選出已授權的發明專利,并將搜索時間定為2012—2016 年,共檢索到22 077條該領域相關的專利數據。

從智慧芽專利平臺中導出目標專利的被引用專利信息,并構建專利引用矩陣,導入Gephi 軟件中構建專利有向網絡,Source 節點i為目標專利公開號,Target 節點j為引用Source 節點專利的公開號,節點i到節點j的邊代表專利i對專利j的引用,形成專利引用網絡中邊的起點與終點。將接近中心度的計算結果由高到低排序,排在前百分之十的專利標記為核心專利。接近中心度部分計算結果如表2 所示,專利引用網絡如圖2 所示。最終得到的數據中部分指標存在缺失值,刪除含有缺失值的專利數據,最后使用Python 軟件進行模型的訓練與測試。

表2 接近中心度計算結果

圖2 專利引用網絡

3.3 分類結果對比

本文采用十折交叉驗證法,即將數據集平均分為10 份,其中9 份作為訓練集,1 份作為測試集,依此迭代,進行10 次實驗。通過模型準確性與模型穩定性兩方面對SVM、Adaboost、SMOTEAdaboost、SMOTE-LOF-Adaboost 4 種分類模型進行評估。

3.3.1 評價指標介紹

由于本文專利的識別只有兩個選擇,即核心專利與非核心專利,是一個二分類問題,因此本文模型評價指標的選擇是基于混淆矩陣的度量方法,如表3 所示。選取的指標有AUC、Recall、F1。

表3 混淆矩陣

(1)AUC。ROC(receiver operating characteristic)即受試者工作特征,通過學習器的預測結果對樣例進行排序,然后按照這個順序逐個地將樣本作為正例進行預測,每次計算出兩個重要量的值,假正例率、真正例率,再分別以它們為橫、縱坐標作圖,這樣就可以得到ROC 曲線,而AUC 則是ROC 曲線下的面積,它相比于ROC 曲線的優點就是如果ROC 曲線發生交叉,就會比較難判斷模型優劣情況,這種情況下,使用AUC 就能夠很好地避免這種問題。并且AUC 對類別是否平衡不敏感,所以它可以用來對類別不平衡數據分類進行評估。一般情況下,AUC的值是越高,代表分類器的性能也就越好。

(2)Recall。Recall 召回率也叫查全率,表示原樣本集中有多少是被預測正確的。在本研究中表示被正確識別出來的核心專利占原樣本核心專利的比例。如公式(8)所示。

(3)F1。F1Score 是精確率(precision)和召回率的調和平均數,可以用混淆矩陣將F1得分表示為如公式(9)所示。

3.3.2 模型準確性分析

經十折交叉驗證,4 種模型的分類結果如表5 所示。通過AUC 均值、Recall 均值和F1均值對SMOTE-LOF-Adaboost 模型進行分類性能驗證,并將該模型與SVM、Adaboost、SMOTE-Adaboost 對比,進行有效性驗證,每種算法的分類效果如表4 所示。

表4 模型準確性均值

表5 模型穩定性

從表3 可以看出,對于AUC 這一指標,單一算法SVM的值為0.932 1,集成算法Adaboost的值是0.965 2,明顯優于單一算法,而經過采樣之后的SMOTEAdaboost 模型相比于Adaboost 性能提升效果不顯著,而SMOTE-LOF-Adaboost 模型的AUC 值達到0.977 6,由此可見該模型在不平衡分類問題中具有較高的識別準確率,能有效識別出核心專利,并且模型泛化能力較好。4 種模型的Recall 均值排序為:SMOTELOF-Adaboost >SMOTE-Adaboost > Adaboost >SVM,說明本文提出的組合模型在準確率高的基礎上能夠識別出更多的核心專利。

對于F1指標,可以看到SMOTE-LOF-Adaboost的十折交叉驗證均值達到0.960 7,優于其他3 種分類模型,這也進一步說明SMOTE-LOF-Adaboost 的精準率和召回率保持在穩定狀態,整體分類性能優于其他3 種模型。

綜上所述,本文提出的SMOTE-LOF-Adaboost模型的AUC、Recall 和F1 均值均優于其他3 種模型,其在核心專利的識別中具有更高的準確性。

3.3.3 模型穩定性分析

為了進一步驗證SMOTE-LOF-Adaboost 模型對分類結果的影響,使用標準差分別對4 種分類算法十折交叉驗證的AUC、Recall 和F1值進行計算,觀察其波動程度以驗證模型穩定性。通過表4 可以看 出,SMOTE-LOF-Adaboost 的AUC、Recall 和F1指標的標準差值均小于SVM、Adaboost 和SMOTEAdaboost,進一步說明該模型穩定性更好。同時,觀察表5 可以發現,SVM 的標準差值最大,說明單一算法穩定性最差,集成算法Adaboost 的穩定性明顯優于單一算法;經過采樣后的SMOTE-Adaboost 模型穩定性要優于單獨使用集成算法;在采樣基礎上進行降噪處理的SMOTE-LOF-Adaboost 組合模型穩定性是最好的,這也進一步驗證了本文提出的組合模型的有效性。

綜合考察多個評價指標,研究結果表明SMOTE-LOF-Adaboost 模型在核心專利識別研究中具有更有優勢的模型預測準確性與穩定性。

4 結論

面對海量專利數據,如何構建合理的專利指標體系以及有效的機器學習識別模型,實現對核心專利的快速準確識別,是企業鞏固核心競爭力,實現技術戰略布局的關鍵環節。針對現有研究在指標選取和不平衡數據處理方面的不足,本文在現有指標體系研究的基礎上增加專利發明人指標以重構指標體系,并結合采樣技術與集成算法,提出組合模型SMOTE-LOF-Adaboost,將該組合模型與SVM、Adaboost、SMOTE-Adaboost、SMOTE-LOF-Adaboost進行對比,證實SMOTE-LOF-Adaboost 在模型準確性和模型穩定性上都具有較好的分類性能。并得到以下兩點結論:第一,在現有指標體系研究基礎上,本文加入專利發明人指標構建的核心專利識別指標體系是有效的;第二,采樣技術和集成算法的組合模型相比于其他數據挖掘方法,具有較好的泛化能力,對不平衡數據處理效果更好,識別準確率更高,并且具有一定的穩定性。

本研究也具有一定的局限性:第一,在核心專利指標的選取上,只考慮到結構化的數據,未來可以挖掘專利的文本信息,進一步完善指標體系的構建;第二,對于不平衡數據的處理,只進行了數據級方面的處理,未來可以嘗試在算法級方面直接對算法進行改進。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久久久无码精品| 欧美区一区二区三| 新SSS无码手机在线观看| av一区二区三区在线观看| 国产不卡网| 久草视频精品| 国产成年无码AⅤ片在线| 国产麻豆91网在线看| 青草视频在线观看国产| 五月天天天色| 88国产经典欧美一区二区三区| 91系列在线观看| 国产美女一级毛片| 深爱婷婷激情网| 欧美日本在线播放| 亚洲国产成人在线| 97在线国产视频| 亚洲色图欧美视频| 在线精品自拍| 欧美日韩va| 国产网友愉拍精品视频| 国内精品自在自线视频香蕉| 九九精品在线观看| 亚洲成人动漫在线| 欧美97色| 91成人免费观看| 久久成人免费| 欧美性爱精品一区二区三区| 国产69精品久久久久孕妇大杂乱 | 57pao国产成视频免费播放| 性欧美久久| 日韩专区第一页| 九九九精品成人免费视频7| 国产成人精品在线| 色有码无码视频| 性欧美在线| 精品人妻系列无码专区久久| 国产亚洲欧美另类一区二区| 精品撒尿视频一区二区三区| 色九九视频| 91无码人妻精品一区二区蜜桃| 欧美精品亚洲精品日韩专区va| 中国毛片网| 国产精品13页| 91小视频在线观看免费版高清| 激情视频综合网| 老司机久久精品视频| 青青青视频免费一区二区| 91精品国产自产在线老师啪l| 国产日韩丝袜一二三区| 最新亚洲人成网站在线观看| 亚洲黄色视频在线观看一区| 欧美亚洲一二三区| 国产小视频a在线观看| 天堂av高清一区二区三区| 日韩精品成人网页视频在线 | 中文字幕无线码一区| 精品国产aⅴ一区二区三区| 国产日本一线在线观看免费| 亚洲无码四虎黄色网站| 性做久久久久久久免费看| 国产麻豆精品手机在线观看| 国产在线视频导航| 99色亚洲国产精品11p| 波多野结衣一区二区三区四区视频 | 黄色网址免费在线| 欧美在线黄| 久久国产拍爱| 国产精品美女自慰喷水| 精品撒尿视频一区二区三区| 国产一级妓女av网站| 亚洲国产日韩一区| 91色爱欧美精品www| 国产剧情一区二区| 国产区网址| 无码一区中文字幕| 国产啪在线91| 亚洲一区二区无码视频| 国产午夜福利片在线观看| 欧美日韩在线成人| 中文字幕免费播放| 免费jizz在线播放|