張軍鋒 杲雯 張航 宋喆欣 趙陽



摘 要:我國高校每年都會申請的大批專利中有一部分難以轉化,經濟價值較低,對于這部分專利,高校可以考慮適當減少專利維護時間。目前對于專利的評價一般都是由相關專家在專利公布較長時間以后完成。在專利公布初期,難以評估該專利的價值。我們使用機器學習算法,根據已有專利數據,確定各個指標的權重,找出專利申請初期各項指標和最終價值之間的關系。依據此關系對新申請的專利進行評估,作為高校評判的輔助。
關鍵詞:機器學習;高校;發明專利;專利價值;權重
黨的十八大以來,我國知識產權事業取得顯著成效,知識產權作為國家發展戰略性資源和國際競爭力核心要素的作用更加凸顯。專利作為知識產權的核心,受到了更多的重視,新時代下我們不僅要追求高數量的專利,也應該要追求高質量的專利。但是目前對于專利的評估幾乎都是在專利已經申請較長時間后進行,并且是由專家進行,評估方法復雜,評估效率低下。亟需一種高效、準確的評估方法來對專利價值進行評估。
我們小組在此次研究中,聚焦于高校專利,只選取了其中的發明專利進行評估,對于外觀設計和實用新型的專利沒有進行考慮,因此我們的評估方法不是適用于全部專利,有一定的局限性。對于高校中的發明專利,經過我們不斷地調整和測試,誤差控制在百分之一以內。同時我們使用了獲得中國專利獎中的部分數據作為最終測試集,因此我們的系統具有較高的可靠性。
在數據的初步清理中,我們和專利相關方面的專家以及指導教師溝通后,我們最終確定了對專利的評分標準:
確定了專利分數以后,我們選取了申請人數量,專利審查時長,專利實審時長,簡單同族數量,權利要求數量,IPC個數六項指標。初始時,我們希望可以確定這六項指標對專利價值的貢獻權重,即確定這六項指標和專利價值的一次關系。我們將各個指標的權重作為遺傳算法中的“染色體”,將專利價值和計算出的專利價值作為適應度函數,采用實數編碼,以模擬二進制交叉(SBX)作為交叉算子,使用均勻變異作為變異算子,對權重解空間進行了搜索。我們設置了初始種群為1000,在種群經過了一千代以后,最佳權重不再發生大的變動,因此將該權重認為是解空間中的最佳權重。但是該權重下的適應度函數依然較大,即預測的價值和實際之間的價值誤差較大,達到百分之五十左右。基于上述操作,我們認為專利的六項指標和專利最終價值之間不符合一次關系。
我們這次的數據選取了專利的六項指標,數據較多,因此我們希望通過使用主成分分析法對數據進行降維。我們首先計算了數據是否適合進行主成分分析,計算結果如下。
可以看出,KMO統計量在0.5以上,并且Sig.<0.05,因此我們認為符合標準,可以進行主成分分析法降維。
在進行主成分分析時,我們選取了總體數據的百分之七十作為樣本矩陣,對這些樣本數據進行規范化處理得到規范會數據矩陣。依據這些規范化數據矩陣我們得到樣本的相關矩陣;求出樣本相關矩陣的六個特征值和特征向量。我們將方差貢獻值確定在百分之八十,經過計算確定了五個樣本主成分。因為樣本協方差矩陣的的特征值和特征向量是總體協方差矩陣的特征值和特征向量的極大似然估計,所以在后面的計算中,我們使用這里求出來的五個特征向量進行計算主成分。
在求出數據的主成分以后,我們接下來使用了一種較為經典的神經網絡算法,BP網絡。為了適應我們選取的激活函數:sigmoid函數,我們將專利的分數都除以了100,作為期望輸出。我們選取了六個指標,因此需要有五個輸入,中間層我們設置了十五個神經元,輸出層只有一個神經元。經過了兩萬次的訓練,數據的誤差在百分之一以內,是較為理想的結果,我們記錄下了此時BP神經網絡中各個參數的數值。接下來,我們使用這組參數數值去計算獲得了中國專利獎的專利,這些專利都獲得了較高的分數。因此我們認為,我們的這組參數數值是符合實際,且具有較高可靠性的。因參數數值過多,這里就不再進行展示。具體計算方法即為經典BP神經網絡計算方法。下圖為部分專利的預測分數與實際分數的對比
在獲得了專利價值評估模型后,我們將該模型置于網絡平臺內,可以方便高校快速、便捷的了解到專利的價值,同時我們平臺也加入了企業入駐的功能,讓入駐企業可以快速了解到各個高校的科研情況,假哭專利轉化。在此平臺內,企業也可以將在日常生產中產生的技術難題發布,交由高校進行研究,促進我國向知識強國的轉化。
我們此次的研究,將機器學習算法和專利文獻進行結合,得到的結論在一定范圍內具有較高的可靠性。可以作為高校決定繳納多久專利維護費的輔助,幫助高校對專利的價值有一個提前的預知。幫助我國專利由高數量向高質量進行轉變。
參考文獻:
[1]周志華.機器學習[M]. 北京:清華大學出版社,2016.
[2] 李航.統計學習方法[M]. 北京:清華大學出版社,2019.