朱文韻,郭晴晴
(上海應用技術大學經濟與管理學院,上海 200235)
生物制藥產業是以研發為基礎的高科技產業,技術創新是生物制藥企業保持市場競爭力的關鍵所在。我國醫藥專利于2016 年呈現爆發式增長[1],以專利許可轉讓為主要形式的技術轉移轉化活動隨之活躍,專利價值評估引起了生物制藥產業的極大關注。生物制藥產業急需將產業技術研發和專利特征引入專利價值評估指標體系及評估模型,以滿足我國生物制藥產業的發展需求。由于一方面,制藥基礎技術細節,如化學工藝、組合物、臨床適應證等是評估制藥專利價值的必要因素,另一方面,新藥專利制度存在其特殊性,例如我國相關專利法規對新藥發明專利設定專利權補償期限,因此新藥專利的保護期限長于其他產業專利,因而套用傳統的專利價值評估指標進行專利價值評估時難免存在評估價值偏差較大的問題,可能引發制藥企業在專利管理和運營過程中出現決策失誤,進而導致重大經濟損失。為此,結合藥品技術因素特性,探索有效評估生物藥品專利價值的方法。
通過梳理相關文獻發現,對醫藥專利價值的研究目前主要集中在影響因素和模型構建,而基于制藥產業技術特征的專利價值的研究較為缺乏,如Hu等[2]在驗證藥品專利價值的影響因素時,建立了包括專利價值指標和制藥技術細節指標兩維度的指標體系,將新化學實體、新適應證、新劑型等指標納入,以1980 年至1998 年間美國專利商標局(USPTO)授予的、美國食品藥品監督管理局(FDA)特定的913 件藥物專利為樣本,把被引用次數作為專利價值的代替值,得出這些指標對專利價值存在積極的正向效應;Wu 等[3]采用蒙特卡羅模型,將藥品專利周期納入藥品評價指標體系,評估醫藥專利價值;霍艷飛[4]從技術、經濟和法律3 個維度論述了我國醫藥專利價值評估影響因素,得出專利注冊分類和發明人技術先進性、可替代性等因素對專利價值影響最大。在醫藥專利價值評估方法上,現有相關研究主要采用了醫藥專利作為資產的價值評估方法和以醫藥專利內在價值為核心的價值屬性評估方法,如李菲菲[5]討論了各種評估方法的優缺點,分析藥品專利的特點后將生命周期理論引入收益法,得出藥品的經濟價值更接近采用生命周期理論改進收益法進行評估的結果;孫雅楠[6]在分析醫藥行業的基礎上建立了經典的三維度專利價值評估指標體系,運用價值捕獲理論建立專利價值評估模型;張佳敏[7]結合醫藥專利特點建立了技術、法律、經濟三維度18 個指標的評估指標體系,運用反向傳播(BP)神經網絡進行醫藥專利價值評估。總體上看,以往相關研究雖分析了行業特點和影響因素,但仍缺乏真正結合藥品的技術因素來研究提出具體的評價指標體系,所建立的專利價值評估指標體系的普適性不足。藥品的專利類型、治療領域、研發階段等相關因素都會影響其專利的價值,因此有必要在考慮制藥產業技術特征的基礎上研究生物藥專利價值。
同時,在專利價值評估方法上,現有相關研究主要分為以市場為基準和以非市場為基準的專利價值評估方法,而隨著機器學習以及大數據的發展,利用機器學習的方法構建專利價值評估模型成為研究的熱點及趨勢,如Ercan 等[8]基于自組織支持向量機(SVM)方法提出了專利價值評估的智能分類模型;Wu 等[9]采用機器學習方法對專利的質量指標和特征進行識別和分類,開發了專利質量自動分析和分類系統;文豪等[10]在評估專利質押價值時,運用支持向量機算法來提高評價效率。目前使用較多的機器學習方法主要是:神經網絡、支持向量機、系統動力學、粗糙集等,分別有如劉澄等[11]、周成等[12]、呂曉蓉[13]和謝文靜等[14]的研究。這種基于機器學習的專利價值評估方法在實際應用中還需要對相關指標、算法等進行進一步完善,可見科學合理地選擇價值指標和算法對于構建專利價值評估模型有重要影響。
綜上,本研究探索建立基于自編碼器改進譜聚類算法的生物制藥產業專利價值評估模型(以下簡稱“評估模型”),以實現更加符合生物制藥產業運行特征的專利價值評估。
在設計評估模型前,首先要確定影響專利價值的主要因素,選擇適用于被評估專利的價值指標,建立科學合理的專利價值評估指標體系。在對評估指標的相關研究中,中外學者已經取得了不少的成果。1967 年,國外開始關注專利價值,研究專利價值的影響因素,如Nordhause[15]最先開始研究專利價值,提出生命周期是專利價值的決定因素;Trajtenberg[16]則在研究中使用了專利被引用數作為專利價值評價指標,并驗證了其有效性;Squicciarini等[17]研究了直接影響專利權市場的13 個指數,包括專利范圍、同族數、前后引證數等,并利用國際專利分類號(IPC)衡量專利技術的覆蓋范圍;Tong等[18]通過研究美國專利權利要求的數據與專利申請的趨勢發現,權利要求數可作為衡量國家技術能力的一個指標;Harhoff 等[19]認為決定專利保護效力的重要因素之一是專利范圍,所以將專利范圍、專利同族數、專利被引數等納入專利價值評估指標體系。在有關影響因素研究的基礎上,國內外學者逐步建立了一維至多維的專利價值評估指標體系,如李清海等[20]使用了技術循環時間、科學關聯度、權利要求數量、技術覆蓋范圍、專利被引用次數、專利族大小等8 項指標;Park 等[21]認為專利技術自身固有特征指標和專利技術市場化應用因素會影響專利價值,從技術和市場兩個維度對專利價值指標體系進行界定。隨著專利數量的不斷增加,我國國家知識產權局[22]發布了《專利資產評估指導意見》,明確指出影響專利價值的因素可以分為技術維度、法律維度和經濟維度,據此,呂曉蓉[23]提出在專利的價值評估中,專利的技術價值在占據重要地位,并以技術價值指標為基礎建立了包含技術、經濟、競爭和法律四維度的專利價值評估指標體系;劉勤等[24]則建立了包含技術、經濟、法律、市場四維度的高價值專利評估指標體系。此外,國內外有關學者和一些評估軟件主要從專利文本特征角度選取專利的申請人、發明人、IPC 分類號、權利要求、引用、運營等基于技術、法律和經濟維度的相關指標,建立專利價值評價指標體系。綜上,目前學界并未形成一致的專利價值評估指標體系。為此,本研究將融合已有的專利價值評估共性指標與生物制藥產業特征和專利技術特點的個性指標,建立生物制藥產業專利價值評估指標體系。
生物制藥是指利用生物活體為原料,綜合利用微生物學、化學、生物技術、藥學等科學的原理和方法進行藥物制造,所制造出的藥物產品可作治療劑、疾病診斷劑等。其專利特點主要體現在以下方面:
(1)專利翹尾價值。在制藥行業,生物藥物的開發周期較長,需要經分子篩選、藥學研究、Ⅰ~Ⅲ期臨床、上市申請等過程才能獲批,且原研公司通常在Ⅰ期臨床試驗啟動前提出專利申請限制仿制藥開發者,而一種新藥通常要經歷10 年左右的時間才能上市[25],因此新藥專利獲得授權后實際所剩有效保護時間不多,投資人必須在專利權賦予的有限排他性時間內收回投資賺取利潤,所以藥物專利越接近上市,其商業價值越高。
(2)專利類型。在我國法定的3 種專利類型中,生物藥物的實用新型和外觀設計專利的技術含量低且數量少,與藥物直接相關的專利為發明專利。在發明專利中,又分為產品、方法、用途專利,產品專利又可細分為化合物、組合物、制劑等專利。一款新藥的專利以化合物專利為核心,進而衍生出其他專利。
(3)適應證類別。筆者通過檢索分析發現,目前在全球生物藥物研發適應證類別中,抗腫瘤是研發的熱點,擁有大量的專利,其次是神經系統、抗感染、營養及代謝、肌肉骨骼系統以及免疫系統。
生物制藥產業則具有如下主要特點:一是高科技。生物制藥產業是一個知識密集型、高科技、多學科高度集成的,以科技為導向的新興行業,產業相關技術從專利申請到產生商業價值的過程往往需要各種具有專業能力的企業、機構或組織通過建立各種合作關系來共同完成。二是高投入。目前,研發一種新型生物創新藥的平均成本為3 億美元[26],研發成本隨著開發新藥的難度而增加,同時不同類型的專利申請人的研發投入比重不同。三是高風險。生物制藥產品的開發具有很大的不確定性風險,藥物開發的任何一個環節失敗都將可能導致前功盡棄,一般來說,一種生物藥物經歷所有環節成功上市的概率僅為5%~10%[27],不同的研發階段對應的專利價值也不同。四是高收入。生物藥物有很高的利潤回報,一種新的生物制藥產品一般可以在上市后的2 年~3 年內就能夠償還所有投資[26],特別是擁有新產品和專利產品的企業,一旦技術被成功開發出來,這些企業就會壟斷相關技術,則其利潤回報率可能高達10 倍或更多[26]。
基于以上分析,結合專利相關數據庫、美國CHI Research 公司所提出的CHI 專利指標和我國國家知識產權局專利指標體系等,綜合考慮生物制藥產業的技術因素和生物藥專利特點,建立生物制藥產業適用的專利價值評估指標體系(以下簡稱“評估指標體系”),如表1 所示。

表1 生物制藥產業專利價值評估指標體系
本研究設計提出一種基于自編碼器(autoencoder,AE)和譜聚類算法(spectral clustering,SC)的專利價值評估模型。自編碼器和譜聚類算法是機器學習領域中的兩種常用算法。前者是一種典型的無監督學習算法,是Rumelhart[28]于1986 年提出的一種用于從數據中學習特征表示的算法,可以用于特征提取、數據壓縮和降維;后者是一種基于圖論的聚類算法,將相似度矩陣轉換為拉普拉斯矩陣,再通過特征向量分解進行聚類。在專利價值評估中,自編碼器可以用于從專利指標中提取特征,譜聚類可以用于將專利進行聚類,以便更好地評估專利的價值。
自編碼器是一種只有一層隱含層的神經網絡模型,由編碼器和解碼器兩部分組成,其中編碼器將原始數據映射到低維空間中,解碼器則將低維空間的表示映射回原始數據空間中。自編碼器的訓練目標是最小化重構誤差,即通過編碼器和解碼器將輸入數據重構后,使之與原始數據之間的差異最小。自編碼器的實現方式有多種,最常見的是基于神經網絡的實現方式。典型的自編碼器的網絡結構包括輸入層、隱藏層和輸出層,如圖1 所示,其中隱藏層的神經元數最少,輸入層和輸出層的神經元數相等。

圖1 自編碼器結構
在評估模型的設計過程中,將預處理后專利數據進行自編碼器模型訓練以提取專利特征,通過反復最小化損失函數,完成自編碼器對專利指標數據的特征提取,并將其用于譜聚類模型的訓練。詳細步驟如下:
(2)解碼階段。解碼器將編碼器的輸出結果作為輸入數據、隱含層的特征映射到輸出層,獲得解碼重構信號。
式(1)(2)中:W1、b1分別是編碼階段的權重項與偏置項;W2、b2分別是解碼階段的權重項與偏置項;δ1、δ2分別是編碼階段和解碼階段的激活函數。
(3)選擇損失函數如下:
式(3)中:N表示樣本總量;n為指標個數。
譜聚類是一種廣泛使用的聚類算法,將輸入的數據看作一個空間中的點,構成數據點集,使用邊將這些點連接起來,數據點連接形成邊集合記為E,點集X和邊集E聯合構成圖G,即G=(X,E),兩兩數據點之間的權重由權重矩陣描述,元素表示點xi和xj之間的相似度權重,度量矩陣由權重矩陣的行和構成,,根據拉普拉斯矩陣,兩個點之間的邊權重值隨著距離增加而降低,距離越近權重值越高,而距離越遠權重值越低。
譜聚類的目標是通過圖的切割使子圖內部權重和最大、子圖之間的權重和最小,從而達到聚類的目的。具體設計步驟如下:
一是輸入,將自編碼器提取的特征數據作為譜聚類模型的輸入數據,其中q表示數據點的個數,m表示數據維度。
二是輸出k個簇/聚類結果標簽。
四是構建標準化拉普拉斯矩陣并進行標準化處理。
譜聚類算法能夠處理高維數據,并且對噪聲數據有較好的容錯性,同時它也能夠發現非凸的聚類簇。在處理專利價值評估問題時,由于專利的指標很多,且指標之間的關系比較復雜,因此譜聚類算法能夠有效地處理這些問題,發現潛在的專利簇群,并且能夠識別出其中的異常點,為專利價值評估提供有力支持。
譜聚類的結果提供了數據點之間的相似性信息,接下來需要對聚類結果進行進一步分析和解釋,以確定專利的價值等級。結合李清海等[20]、周成等[29]、馮仁濤[30]等相關研究成果,考慮到高價值專利在IPC 分類號類別數、權利要求、專利家族、專利被引用次數這4 個指標上測量所得數值更高,因此結合譜聚類結果,分別計算這4 個指標均值來確定專利價值等級。此外,利用單因素方差分析(one-way analysis of variance,one-way ANOVA)檢驗各項專利指標在專利價值等級上是否具有顯著影響。其中,價值等級作為因變量,專利指標作為作為自變量,通過計算價值指標的顯著水平來證明本研究所選取的價值評價指標的有效性。
AE-SC 算法評估模型利用自編碼器提取數據集的特征,并將其用于譜聚類算法,以提高專利價值評估的準確性和效率,具有較好的實用性和應用前景。為了進一步驗證其分類效果和實用性,采用支持向量機算法對專利進行分類。支持向量機算法具有較高的分類準確性和魯棒性,已經在多個領域得到了廣泛的應用。評估模型整體算法流程如圖2所示。
從藥智專利通數據庫直接選擇中國專利且技術類型為生物藥的授權有效發明專利,共得到5 208 件,檢索日期為2023 年2 月20 日。對評估指標體系中的8 個文本型指標進行數值化處理,轉化規則如表2 所示。

表2 文本型評價指標的數值轉化規則
由于不同指標的單位和取值范圍不同,需要進行數據標準化處理,以便于后續進行算法模型的構建及訓練。考慮到生物制藥產業專利數據分布比較分散,且數據的范圍較大,采用小數定標標準化(decimal scaling)對數據進行歸一化處理。假設x表示原始數據,p表示縮放的位數,小數定標標準化表達形式為:
采用自編碼器模型的編碼層提取樣本專利指標原始數據,通過降低維度,再經過解碼層部分重構原始數據。AE 算法模型在Python3.8、TensorFlow 2.4環境下運行,利用TensorFlow Keras 高級API 構建和訓練,并通過循環實驗進行重構誤差比對,最終將模型各層參數設置如下:輸入層(input)的大小設為18;編碼層(encoder)大小為9;解碼層(decoder)大小為18。其中,編碼層激活函數選用修正線性單元(rectified linear unit);解碼層激活函數選用Sigmoid 函數;訓練模型的優化器選用常用的隨機梯度下降優化算法Adam,均方誤差(mean squared error,MSE)作為損失函數。隨著迭代次數的增加,原始數據與輸出數據之間的MSE 損失函數值不斷減少。經過100 次迭代,MSE 穩定在 0.000 65 左右(見圖3),表明該降維數據可以有效地對原始數據進行表征。

圖3 AE 模型MSE 損失曲線
(1)確認參數范圍。將對專利指標特征提取重構的原始數據作為譜聚類模型的輸入,考慮到指標數據的噪聲可能對模型訓練產生影響,模型采用k近鄰算法(KNN)計算相似度矩陣,結合數據特征并通過迭代訓練最終將k值范圍確定在7~10 之間。專利價值的等級劃分數量不宜過多或過少,過少會導致專利之間的價值區分不明顯,過多則會導致區分過于細致,不易于決策者的整體把握,Wu 等[9]建議聚類數量控制在3~7 個,因此將譜聚類數量設置在3~7 個之間。
(2)確認模型評估指標。譜聚類算法屬于無監督聚類算法的一種,不需要先驗知識或標簽信息來進行評估,主要基于數據集的集合結構信息,從緊致性、分離性、連通性和重疊度等方面對聚類劃分進行評價。選擇內部有效指標,即Calinski-Harabasz 指數、輪廓系數(silhouette coefficient)和DBI(Davies-Bouldin index)指標作為模型評估指標。聚類效果的表達形式為:
式(8)中:s代表聚類的數目;K表示當前的類;分別表示類間離差矩陣和類內離差矩陣的跡。CH 越大代表類自身越緊密、類與類之間越分散,即更優的聚類效果。
輪廓系數表達形式為:
式(9)中:o代表Ci中的對象;p(o)為簇內不相似度,表示專利數據o到同簇內其他樣本不相似程度的平均值;q(o)為簇間不相似度,表示專利數據o到他簇的平均不相似程度的最小值;的值介于[-1,1]之間,值越大說明聚類效果越好;當值為負值時,說明聚類效果很差。
DBI 指標表達形式為:
式(10)中:h表示當前的類;表示某一聚類簇內部樣本點距離的均值;對應簇Ci與Cj與中心點之間的距離。DBI 值數值越小表示聚類效果越好。
(3)模型訓練及結果分析。譜聚類算法在Python 3.8 和TensorFlow 2.4 環境下,借助sklearn.cluster 工具包中的SpectralClustering 方法完成訓練,并使用metrics 工具包計算評估指標,最終得到DBI、CHI 和SC 的值如表3 所示,當k值在9、聚類數量為6 個時聚類結果良好。

表3 樣本專利價值評估譜聚類模型訓練結果
根據聚類結果標簽,計算不同指標在6 類價值等級下的均值,結果如表4 所示,反映專利價值等級的4 個指標值在不同的類別下是依次增大的,也就說明譜聚類的結果是有效的。

表4 樣本專利價值評估結果
此外,如表5 所示,高價值專利在生物藥的5個特征方面的指標值更高,說明產業特點、技術因素和生物藥相關專利特點會影響藥品專利的價值。

表5 樣本專利的生物藥個性指標評估結果
通過單因素方差分析檢驗專利指標對專利價值是否有顯著影響,其中價值等級作為因變量,專利指標作為作為自變量,結果如表6 所示,所有的價值指標在顯著水平5%下均具有統計學上的意義,說明研究選取的價值指標有效。

表6 樣本專利價值評估的單因素方差分析結果
為了進一步驗證自編碼器優化譜聚類算法的生物制藥產業專利價值評估模型的實用性和準確性,利用SVM 算法進行專利價值分類。采用sklearn.model.selection 提供的GridSearchCV 方法對 SVM 模型進行網格搜索,然后使用KFold 方法進行五折交叉驗證,最終得到模型分類準確率在94%左右,召回率在90%左右,說明所提出的方法能夠有效地區分不同類別的專利,并具有較高的分類準確性和魯棒性。進一步分析發現,SVM 算法,對于不同類別的專利具有不同的分類效果。具體來說,SVM 算法對于高價值專利和中價值專利的分類效果較好,而對于低價值專利的分類效果相對較差。具體分類準確率如表7 所示。這與實際情況相符,因為高價值專利往往具有更多的技術創新和商業價值,其技術特征和價值特征更加明顯,因此更容易被分類器區分開。

表7 樣本專利不同價值類別評估結果的準確率比較
為驗證使用自編碼器優化后的譜聚類算法是否有性能提升,將訓練后的 AE-SC 模型與傳統SC 及K-means 聚類得到的CH 系數、SC 值和DBI 值進行對比,結果如表8 所示,表明AE-SC 聚類算法的聚類準確度優于譜聚類和傳統K-means 聚類。

表8 樣本專利不同價值評估算法優化前后性能對比
本研究根據產業特點和高價值專利的影響因素選擇專利價值評估指標,建立了生物制藥產業的專利價值評估指標體系,提出一種基于自編碼器優化的譜聚類算法的專利價值評估模型,并從專利數據庫檢索與生物藥相關的有效發明專利進行實證研究發現,利用自編碼器提取特征后,可以提高SC 算法的聚類性能,得到的專利價值標簽能夠有效反映其價值,并通過支持向量機的分類結果驗證了算法的有效性,說明評估模型可以對生物藥專利的價值進行科學合理評估,滿足我國生物制藥產業的發展需求。此外,研究表明,產業特點、技術因素和生物藥相關專利特點會影響藥品專利的價值,后續研究將進一步驗證相關指標的影響程度和重要性;同時,鑒于不同的數據集可能存在不同的聚類效果,未來還將深入研究生物藥專利價值的影響因素和分類問題,以便更好服務于生物制藥產業的發展。