999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于專利動態指標的新興技術預測建模方法
——以癌癥藥物領域為例

2022-08-31 15:34:42楊冠燦盧小賓
情報學報 2022年8期
關鍵詞:模型研究

楊冠燦,丁 月,徐 碩,盧小賓

(1. 中國人民大學信息資源管理學院,北京 100872;2. 北京工業大學經濟管理學院,北京 100124)

1 引 言

新興技術(emerging technologies)一直是技術創新管理、科技政策制定和技術競爭情報研究領域關注的問題。就技術創新管理而言,新興技術識別可以作為先導研究以提升科研基金資助的效率,針對新興技術演化模式的識別能夠幫助企業降低資產與經營活動過程中的不確定性;就科技政策制定而言,新興技術早期識別能夠幫助科技政策制定者根據當前具有新興技術特征的產業與技術的發展態勢隨時調整政策工具;就技術競爭情報而言,新興技術布局無疑是動態技術競爭情報分析方法中判斷企業、國家技術競爭力的重要依據[1]。近年來,隨著大數據挖掘技術的興起,針對海量專利數據的自動化新興技術識別與預測,逐漸成為當前的研究熱點。

新興技術總是通過一定的載體來實現的,突出體現在:當大量技術從實驗室走出后,就需要借用一定的政府管理權力獲得市場技術的市場壟斷權利,從而確保研究機構前期所投入的成本能夠合理回收,而專利是保護這種壟斷權利的有效手段。正因為如此,從另一方面來看,專利文獻以及圍繞專利實施各主體的行為包含了識別新興技術的關鍵信號。因此,基于專利文獻及各專利實施主體的行為所構建的指標是新興技術識別的重要切入點。然而,新興技術識別是一個復雜問題,即便假定基于專利文獻及各專利實施主體的行為所構建的指標已經完整地包含了預測新興技術出現的全部信息,但在實際建模過程中,仍需要考慮技術發展路徑的不確定性、模糊性、顛覆性等因素。

制藥行業是典型的高新技術行業,在該行業中,專利信號貫穿藥物研發的始終。一方面,FDA(Food and Drug Administration,美國食品和藥物管理局)授權的新藥可以視為是藥物領域的根本性創新;另一方面,在藥物領域獲得FDA 的藥物許可與專利局的專利許可之間具有千絲萬縷的聯系。任何藥物從研發到產品上市往往需要經歷平均十年左右的研發、多期臨床試驗周期[2-3],近年來,一項新藥的平均投入成本則更是高達十億美元。因此,藥物申請參與人往往都對專利申請、藥物申請過程進行了細致的布局與規劃,而專利指標能很好地將這些布局與規劃行為納入其中,能夠預判技術的發展趨勢。最后,藥物產品要想上市需要同時獲得兩個機構的許可,核心新藥產品對整個藥物市場往往會產生顛覆性的影響,而癌癥藥物專利還具備一個優勢,即該領域數據集具有非常好的開放共享特征[4-5]。因此,本研究選擇癌癥藥物領域作為切入點,選擇利用FDA 授權作為新興技術預測的代理指標是合適的。

本研究的核心目的是識別未來哪些癌癥藥物專利最有可能成為新興技術,這里,判斷新興技術的標準是該專利是否獲得FDA 授權?;谶@一思路,本研究希望在監督學習的框架下,識別哪些專利比其他專利更有可能成為新興技術,以及評估模型在預測癌癥藥物專利授權后早期階段的模型準確性。本研究的貢獻主要在于:從前向視角(ex ante)進行預測而不是采用回溯視角(ex post),這種視角的變化使本研究在構建專利指標時更注重時序因素;對靜態指標與動態指標進行區別處理,如設定前向專利引文、前向專利家族指標,從而能夠更好地擬合新興技術識別人員的真實業務場景中對早期新興技術潛力進行預測的需求。

2 文獻綜述

2.1 新興技術概念界定

雖然,新興技術在很長一段時間內被很多研究者當做研究的主題,但是一直以來,科研人員對于什么才算是新興技術并沒有達成共識[6]。許多研究提出的新興技術的定義和概念有所重疊,但同時指出了新興技術的不同特點。Day 等[7]將新興技術定義為一種基于科學的創新,認為這種創新需要有創建一個新的行業或改造現有行業的巨大潛力。Mar‐tin[8]則注重新興技術的經濟影響:認為新興技術不僅應該對特定領域產生影響,還應該對整個社會經濟體系產生影響,因此引入了新興通用技術的概念,并強調了技術領域的廣泛性和融合特征。考慮到新興技術的不確定性和模糊性,Cozzens 等[9]將一項新興技術概念化為一項表現出巨大潛力但尚未顯示其重要價值或達成任何共識的技術。直到2015年,Rotolo 等[10]在研究中總結了新興技術的五個關鍵特征,即新穎性、快速增長、一致性、顯著影響以及不確定性和模糊性,對新興技術定義和特點的爭論才逐漸趨于統一。這項研究所歸納的特征被科研人員廣泛接受,并成為了此后許多研究的前提和基礎。

2.2 新興技術識別方法

德爾菲法、情景分析法、技術路線圖法、文獻計量法、測度模型法等是技術預測領域較常用的方法。這些早期的新興技術識別很大程度上依賴于專家智慧,如Delphi,以及大規模調查方法[11]。然而,專家判斷會受到主觀性不一致的影響[12]。隨著技術的不斷擴散和創新周期的縮短,以專家智慧集成方法變得耗時且需要大量人工勞動,而且無法應對技術融合導致的顛覆性技術涌現趨勢[13-14]。因此,當前迫切需要基于大數據的數據挖掘方法來改進傳統的新興技術識別流程。

在基于專利進行新興技術識別方面,從前的科研人員進行了多方面的探索。érdi 等[15]提出了利用專利引文網絡來識別快速發展的技術的結構性漏洞指標。Breitzman 等[16]開發了新興技術集群模型,利用來自多個系統的專利引用信息來識別新興技術。Arora 等[17]提出了一種更新的搜索方法,通過使用包含和排除術語來識別新興的技術領域。Lee 等[18]提出將文本挖掘技術與局部異常因子相結合來識別新的專利。Moehrle 等[19]引入了語義專利分析來衡量專利之間的距離,以識別高新穎性發明。Yoon等[20]提出了一種基于主體-行動-對象(subject-ac‐tion-object,SAO)的語義專利分析方法,以識別快速發展的技術趨勢。Joung 等[21]提出了一項基于技術關鍵詞的專利分析來監測新興技術。Ju 等[22]提出了一個質量功能部署(quality function deployment,QFD)框架,以促進對反映客戶未來需求的新興技術的研發規劃。

考慮到新興技術識別本質上是一個動態過程,一些學者更加關注新興技術的動態。例如,Shin等[23]運用曲線擬合技術計算專利預計被引用次數及其方差,是分子放大技術未來收益和風險的代表。Lee 等[13]和Jang 等[24]提出了一種隨機專利引文分析方法,利用未來的引文數量作為代表,評估圖像疊加技術和分子放大技術在感興趣的時間段內的未來影響。Lee 等[12,25]開發了一種隨機技術生命周期分析方法,利用專利指標來檢驗和預測一項技術在其生命周期中的發展,并分別對分子放大技術和光刻技術進行了案例研究。

2.3 新興技術識別維度

相比于無監督學習方法的結果可控性較低,基于監督學習的識別方法有其特有的優勢[26]?;诒O督學習的分類算法可以更好地面向識別場景,通過將新興技術識別問題轉化為尋找能夠有效代表不同測量維度的特征并在此基礎上構建模型的問題,能夠更具前瞻性地識別新興技術的涌現[1]?;诳陀^測量維度的新興技術識別方法對整個新興技術識別方法論體系的完善產生了重要影響,說明新興技術識別方法開始逐漸考慮新興技術的內核,并將識別流程模式化以更便捷地應用于新興技術識別。這種思路能夠通過不斷改進指標的賦值和計算辦法,可以促進提高新興技術識別的準確性和效率。

前人對于新興技術的特征、評價指標和識別方法都進行了許多有價值的探索,其中最為研究者廣泛認可的是Rotolo 的觀點。Rotolo 等[10]總結了新興技術的五個關鍵特征,即①新穎性;②快速增長;③一致性;④顯著影響;⑤不確定性和模糊性;該研究所歸納的特征在后續的研究中被廣泛使用,并成為目前新興技術識別相關研究的重要前提和基礎。但需要注意的是,Rotolo 等[10]提出的特征在落實到具體的研究和應用方面存在一定挑戰性,尤其對于“不確定性和模糊性”這一特征的內涵和量化方式,學界存在一定爭議;此外,應當指出,諸如“快速增長”和“一致性”等特征需要隨時間推移不斷的監測才能加以界定,因此該框架在應用到早期識別方面也存在一定的困難。更重要的是,Roto‐lo 等[10]提出的框架是普適性的綜合概念,但各個領域的新興技術都有其獨有的特征,因而,在對具體領域的新興技術進行識別時,應考慮結合領域特征加以改進。

3 數據與變量

3.1 數據來源

本研究所采用的數據主要來源是“USTPO 癌癥登月專利數據”(Moonshot Cancer Drug Patents),該數據對于本研究的重要意義在于:基于嚴格的專利檢索策略給出了在USPTO(United States Patent and Trademark Office)授權專利(1980—2017 年)中癌癥藥物專利的邊界,這一點非常關鍵,實際上,Wagner 等[27]的研究是基于藥物數據(IMS Lifecycle R&D Focus Database)的,雖然也是合理的,但這與專利分析的傳統流程不一致,即不是從大量技術領域的專利數據中直接做預測,而是從經專家檢驗過有可能獲得藥物許可的專利中去做預測,后者具有領域限制,但真實情景下,專利分析人員更有可能是在一個更廣泛的數據范圍內進行檢索,利用預測模型在早期階段對新興技術進行研判。

“USTPO 癌癥登月專利數據”包含了已發表的專利申請和已授予的癌癥研究與開發(research &development,R&D)相關的專利的詳細信息。該數據集是通過執行復雜的搜索查詢和驗證程序生成的,從而保證了檢索結果的可重復,更詳細的搜索查詢可以參考文獻[28]。同時,為了補充該數據集中的不完整信息,我們進一步借助PatentsView API、

EPO OPS API (European Patent Offices Open Patent Services API)對著錄數據及專利家族信息進行了補充。另外,由于“USTPO 癌癥登月專利數據”中的FDA 許可藥物關聯信息僅截至2016 年,因此,我們通過FDA 批準的藥品數據(俗稱“橘皮書”數據)補充了2016 年以后的癌癥藥物關系信息。

數據預處理方面,選取了27 萬“USTPO 癌癥登月專利數據”中授權專利信息,篩選后剩余自1980 年以來的111345 條記錄;進一步地,根據FDA授權與否構建模型的因變量,其中,包含FDA 授權的專利授權數量為1275 條,未獲得FDA 授權的專利授權數為110070 條??紤]到特別早期的藥物專利在專利申請流程以及藥物申請流程上可能和近期的數據存在較大差異,最終,選擇2005 年1 月1 日—2015 年12 月31 日的數據。篩選后數據包含66241條,其中,FDA 授權的標簽數據為838 條,FDA 非授權的標簽數據為65403 條。

3.2 特征選擇及指標

在特征選擇時,本研究在自變量選擇上主要考慮三個方面因素。首先,自變量能夠反映技術的發展趨勢或新興技術某一方面的特征;其次,自變量需要區分為靜態變量和動態變量,針對動態變量,根據需要前向視角的要求,采取迭代計算一項專利在其授權后1 年、2 年、3 年不同階段,對應動態指標的動態增加量,同時,由于一項專利在其授權時可能已經會存在專利家族成員,而該指標也是非常重要的特征,所以單獨計算該指標;最后,為了與之前的相關研究展開比較,本研究盡可能選取了先前研究中被廣泛采用的指標[29-31],具體如表1 和表2 所示。

表1 預測模型的指標及解釋

表2 變量描述性統計

4 方 法

4.1 從時間采樣方法

本研究采用了從時間采樣(out-of-time sam‐pling)的采樣方法。這種依據時間的抽樣方式是“留出法”(hold-out sampling)中的一種形式,該方法是一種定向的、非隨機的留出采樣,其目標是盡可能地使訓練集和測試集的劃分具有代表性,簡單地說,就是用來自一個時間段的數據來構建訓練集,而使用來自另一個時間段的數據來構建測試集[33]。從FDA 審批的特點來看,正好體現出如下特點:FDA 批準的成功率在過去幾年中一直在變化,同時,由于癌癥數據覆蓋的時間很長,FDA 批準的一些專利的特征似乎也在演變。鑒于此,創建模型的目的是通過量化指標去識別未來的新FDA 授權成功的可能性,因而,分割時間最好接近當前日期,才能使測試集更貼近未來的情況,得到更加接近真實的模型效果。

因此,本研究根據從時間采樣方法對訓練集和測試集進行劃分,這里有幾點具體考慮。在模型選擇時刪除太舊的數據,只選取2005 年以后的樣本數據作為數據集;根據指標的選擇,選取3 年為度量動態指標的時間窗口,由于目前的專利信息更新到2019 年8 月,無法獲得2019 年完整的數據,遂將不足1 年的2019 年的不完全數據進行排除,將2018 年年底作為截止日期,反向追溯3 年作為指標抽取的時間窗口(2015-12-31 至2018-12-31);最終,根據從時間采樣方法,選取最近一年(2015-01-01 至2015-12-31) 的數據(7650 條) 作為測試集,以2015-01-01 為劃分日期,將2015-01-01 之前的數據(54338 條)作為訓練集。

4.2 非均衡數據采樣

對于一般預測模型而言,如果通過采樣能夠獲得代表原始數據的數據子集,就能夠有效地提升模型的運行效率。但本研究中所面對的數據是典型的非均衡數據,如果不進行適當的采樣,往往一般的分類算法就無法有效地開展分類,因此,對于訓練集中的非均衡數據進行采樣具有非常重要的作用。

本研究針對非均衡數據比例IR(imbalanced ra‐tio) =838/65403(訓練集中),即少數樣本(FDA授權專利)與多數樣本(非FDA 授權專利)的情況,采用SMOTE (synthetic minority over-sampling technique)[34]采樣方法,對少數類樣本人工合成新樣本添加到數據集中,達到消除少數類與多數類之間的數據分布不平衡的問題的目的。SMOTE 采樣的具體思路[34]如下:

(1)對于少數樣本,依次計算其中每一個樣本到本類中其他樣本的歐幾里得距離,得到改為樣本的k近鄰;

(2)根據少數類與多數類之間的不平衡比例,設置一個過采樣的倍率N,對于少數類中的每個樣本x,從它的k近鄰中隨機地選取多個樣本,假設選擇的近鄰為xn;

(3)最后,選擇出xn后,進行新的樣本集合的創建,其公式為

根據SMOTE 采樣方法采樣后,訓練集中多數樣本和少數樣本達到均衡,最終,訓練集中的樣本數量為108795 項專利。進一步根據分層采樣方法將訓練集中的數據拆分為訓練集和驗證集,得到了訓練集(76156,70%)和驗證集(32639,30%)。對于測試集,沒有采用SMOTE 采樣,保持了原始的數據不均衡分布。

4.3 模型選擇

本研究采用邏輯回歸(logistic regression)模型對FDA 是否授權進行識別。選擇邏輯回歸模型的理由主要是基于兩點:一方面,過去大量評價新興技術形成、專利高價值評價的模型都是基于邏輯回歸模型的[35-36],因此,選擇邏輯回歸模型有利于與過去的研究開展比較;另一方面,邏輯回歸具有一定的模型可解釋性,這一點使我們不僅能夠知道不同模型最終的績效,也能夠了解模型所包含不同變量對模型的影響。

邏輯回歸的基本假設是研究數據服從伯努利分布,該模型利用極大似然函數的方法確定模型參數,最終達到數據二分類的目的;邏輯回歸的目的就是最小化預測可能性,其函數[36]為

假設函數P(y=1)≥0.5 時,我們預測成正類;反之,預測為負類。在這里,本研究采用極大似然法來對參數進行估計。極大似然法(the method of maximum likelihood)是在知道隨機樣本滿足某種概率分布,卻又不清楚概率分布的具體參數的狀況下,進行多次試驗,觀察試驗結果,推出參數的大概值的一種參數估計方式,即在參數θ的可能取值范圍內,選取使L(θ)達到最大的參數值θ,作為參數θ的估計值。

本研究設計了4 個不同的模型。模型1 只包含不隨時間變化的變量。模型2~模型4 則在模型1 的基礎上增加了一組隨時間變化的自變量(即“前向專利家族”1~3 年,“前向引文”1~3 年),模型2~模型4 中增加的部分,分別是這組隨時間變化的變量在專利授權后第1~3 年的對應值。

5 實證分析

5.1 專利指標的影響效果

本研究所采用的10 類15 個指標,所有指標的P值均小于0.001,說明其對模型結果作用顯著。每類指標在模型1~模型4 中對模型結果的作用方向均保持不變,其中5 類指標一直發揮正向影響,5 類指標發揮負向影響,如表3 所示。

表3 變量影響系數表

在對模型發揮負項影響的5 類指標中,有4 類指標(“原創性”“專利范圍”“PCT 種類”“美國參考文獻”)對模型的影響力一直十分穩定,沒有隨動態因素的加入和時間的推移產生明顯變化,其影響力大小幾乎持平。“專利說明書長度”在模型1~模型4 中一直發揮著強的負向作用,且其負向影響力的大小隨時間的推移而不斷增加,其影響力增長速度基本保持穩定。

在對模型發揮正向影響的5 類指標中,“權利要求數量”隨時間的推移呈現出緩慢下降的趨勢,但總體而言,其在模型1~模型4 中的影響力基本保持穩定,變化程度很小?!皣鈪⒖嘉墨I數”在模型1~模型4 中一直發揮著較強的正向影響因素;在模型1~模型3 中,其正向影響力適中,位列第一;在模型2 和模型3 中,隨著“前向專利家族”和“前向引文”影響力的增強,其影響力在明顯下降后呈現出穩定趨勢;綜合來看,其正向影響始終保持在前兩位。“專利家族次序”(即專利通過批準時的專利家族數量),這一指標在模型1 中發揮著較強的正向作用;其正向影響力的大小在模型1 和模型2中僅次于“國外參考文獻”,而在模型3 和模型4中,其正向影響力較模型1 有一定程度的降低,排在第四位;綜合來看,其影響力的大小基本保持穩定,變化幅度不大。

兩個動態指標“前向專利家族1~3 年”和“前向專利引文1~3 年”,在模型2~模型4 中的作用均為正向,且呈現隨時間推移的增長趨勢。這兩個指標在模型1 和模型2 中影響力增長幅度較大,在模型3和模型4 中影響力增幅相對較小。比較而言,前向專利引文的增長幅度強于專利家族,這與前人對于專利引文在預示專利價值方面的作用會隨時間推移而增長的看法是一致的。經過時間推移,前向專利引文在模型4 中已經是正向影響力最高的指標了。“發明人數量”在模型1~模型4 中的正向影響力基

本保持穩定,其正向影響作用體現出發明人間的優勢互補對于專利價值提高所具有的正向幫助。

5.2 模型效果比較

本研究采用了交叉驗證的方式對數據進行了10次隨機劃分并重復試驗,評估后取各項參數的平均值,從而進一步確保模型結果的科學性和準確性。交叉驗證后,得到基于驗證集的模型結果和基于測試集的模型結果,如表4 和表5 所示。

表4 基于驗證集的模型績效

表5 基于測試集的模型績效

在模型1 的基礎上,在模型2~模型4 中分別加入第1~3 年的專利家族年內增長量和第1~3 年的專利被引頻次年內增長量。通過觀察驗證集的模型結果可以發現,模型的查準率、F值和召回率,均呈現出隨時間推移的遞增狀態,其各個指標均在模型2 到模型3 間出現了最大的增幅。綜合各項指標的趨勢來看,我們可以容易地得出一個結論,在驗證集中,模型效果隨著時間的推移而逐漸變得更好,這證明隨著時間的推移,動態指標中新增的信息對于預測模型而言是有益的。

觀察測試集上的結果可以看到,模型1~模型4中各項指標均呈現了上升趨勢。但一個值得注意的問題是,在對于FDA許可專利預測最關鍵的指標——召回率(recall)上,模型預測結果保持了與驗證集相同的績效;但在另一個指標——精準率(precision)上,則有較大的降幅,例如,在模型4 中,精準率僅有5.73%(66/1152),即模型4 總共預測了1152 個樣本為正樣本(即FDA 許可),但僅有66 個專利最終獲得FDA 的許可。事實上,對于本例中所針對的癌癥藥物預測模型而言,召回率和精準率的意義并不是完全等同的,實踐中我們更關注于能否盡可能將那些具有市場潛力的癌癥藥物專利都提前預測出來,這可以幫助企業在市場競爭方面取得極大的優勢,從這個意義而言,召回率無疑是關鍵的,且結果支持了該觀點;精準率低則意味著預測可能存在一定程度的錯誤,即將一定比例最終未能市場化的專利預測了出來。精準率低會最終影響企業的決策成本,但對企業商業決策的影響要弱于召回率。

另外,該問題是典型的數據極度不均衡導致的,對于這種問題最終評判的標準不能僅依賴查準率(accuracy)或者F值(F-measure),需要綜合來評價。我們進一步引入提升法來衡量模型的有效性,提升(lift)是“運用該模型”和“未運用該模型”所得結果的比值。圖1 顯示了模型4 的提升圖和累積提升圖,該圖是衡量模型性能的可視化輔助工具。提升圖的橫坐標展示的是模型4 對測試集進行預測的全部結果,以及按照預測概率從高到低排序的結果;縱坐標則展示的是提升值,即“運用該模型”和“未運用該模型”所得結果的比值。根據圖1 顯示,在模型預測前10%具有高概率獲得許可專利時,在其預測結果的準確性上,模型4 較隨機模型有6 倍以上的優勢;而當模型預測前20%具有高概率獲得許可專利時,模型4 的預測優勢仍然明顯(接近2 倍),觀察累積提升曲線,如果我們設定判定獲得許可專利的概率閾值為0.5,模型4 仍有2 倍于隨機模型的優勢。因此,盡管F值和精準率(precision)不理想,但通過結合提升圖,我們有理由確認基于動態指標所構建的模型是有效的。

為了進一步驗證模型的效果,本研究構建了模型的ROC曲線(receiver operating characteristic curve),如圖2 所示。在二分類任務中,AUC (area under curve)值是一個概率值,是指根據當前的分類算法,隨機抽取一對正/負樣本,模型將這個正樣本排在負樣本之前的概率大小。因此,AUC 被用來表示模型準確性,AUC 值越高,也就是曲線下方面積越大,算法越有可能將正樣本排在負樣本之前,說明模型準確率越高,分類效果越好。從圖2 可以觀察到,模型1~模型4 的有效性呈遞增狀態,其AUC值均大于0.8,說明其具有較高的識別效力,且模型識別效力隨其動態指標取值時間的推移而增強。整體而言,從模型1 到模型4,模型的績效是在不斷提升的,這說明,模型2 到模型4 過程中,增添的時序變量對模型預測績效起到了正向的作用。

圖2 多模型的ROC曲線

5.3 與現有結果的比較

Su 等[2]在2018 年發表的文章中針對專利指標對FDA 授權可能性進行了研究,其基于美國批準的藥物專利,從知識、合作、法律3 個維度選取了13 個專利指標,通過probit 模型和Cox 比例風險模型,分別檢驗了不同維度的指標在藥物獲得FDA 授權概率(即商業化的可能性)以及藥物獲FDA 授權速度(即商業化的速度)兩個方向上的作用效果。上述研究結果可以作為對照組,驗證本研究的效果。

首先,在指標構建上,Su 等[2]采用的是較為傳統的指標度量方式,利用某一時間節點的截面數據;而本研究充分考慮了自變量指標隨時間的變化情況,參考時間因素,設置了兩組動態指標。其次,本研究聚焦于研究專利授權后3 年內的新興技術潛力,而Su 等[2]的模型采用了5 年和10 年引文的觀察視角,這種測量指標更適合回溯式評估而并不利于構建早期預測模型。最后,從測量結果上而言,Su 等[2]構建的模型得到的ROC-AUC 的4 個值分別為0.733(模型1)、0.748(模型2)、0.732(模型3)和0.747(模型4),其模型準確率(AUC 值)為74.7%;而本研究中,測試集的AUC 值分別是0.818(模型1)、0.831(模型2)、0.848(模型3)、0.853(模型4),更高的AUC 值體現出本研究模型的有效性,也說明了構建動態指標的合理性,以及利用專利指標開展新興技術預測模型的可行性。

6 結論與展望

6.1 結 論

本研究通過更系統的引入動態專利指標,改進了專利指標在預測新興技術方面的時滯特征,實現了癌癥藥物領域新興技術的早期識別,彌補了前人研究往往是事后識別的時滯性缺陷,在新興技術的事前識別這一方向上做出了有效探索。

本研究創新性地在專利指標設計中加入了時間因素的考量,相對于傳統專利指標往往采用某一時間點上的截面數據,加入了時間因素動態指標的設計使指標能更好地體現隨時間變化的變量在不同階段所具有的不同信息價值,使其更符合指標內涵隨時間變化的實際特點。經對比驗證發現,加入了時間因素的動態指標相比于截面指標,在新興技術識別方面發揮了更好的識別作用。

相較于前人研究,本研究采用了更權威而完整的數據集,并且依據癌癥藥物領域的實際情況補充了相應的記錄,建立了更加大規模且貼近實際情況的試驗基礎,使本研究的結論更具真實性。將本研究的模型結果與前人的研究對比,發現較前人的研究取得了更好的模型效果,說明模型在提高時效性的同時并沒有犧牲有效性,對未來的研究者進行模型構建具有一定參考價值。本研究發現,靜態指標中,“國外參考文獻”指標對于新興技術有很好的識別效果,“專利說明書長度”與新興技術間有顯著的負相關關系;動態指標中,“前向專利家族”和“前向引文”的識別能力在專利獲批前3 年內會隨著時間推移而增強。

6.2 展 望

本研究存在一些局限性,需要在未來加以改進和優化。本研究的核心目的是初步探索基于專利的指標是否可以幫助識別專利成為新興技術的可能性。結合癌癥藥物領域的特點,本研究選擇FDA 是否授權作為新興技術的代理指標,FDA 是目前看來能夠代理新興技術的優選指標,但也許存在其他更科學的代理指標未曾被發現和使用,在未來的研究中有待進一步探索。

本研究更注重建立一個可解釋的模型,為后續的研究提供一些有啟發性的見解,而不僅僅是關注模型的準確性問題。雖然目前的模型已經達到了可以判斷其有效的基線,但在一些方面還有較大的提升空間。當前,神經網絡和文本挖掘等技術已被證明能有效應對此類分類問題,所以下一步應該考慮使用更多數據驅動的復雜融合性方法,構建新框架來提高模型的效率。

本研究將時間窗口期限定在了1~3 年,這既是出于想要在早期對新興技術進行識別,盡量提前判斷時間的考量;也是出于希望能夠使用更近期的數據對模型進行訓練和測試,使其更符合當下的實際情況。但是,3 年的窗口期可能不足以觀測動態指標隨時間變化的準確趨勢,未來可進一步擴大時間范圍,以期得到更深入的見解。

猜你喜歡
模型研究
一半模型
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
3D打印中的模型分割與打包
主站蜘蛛池模板: 成人免费一级片| 制服丝袜亚洲| 在线精品亚洲一区二区古装| 视频一本大道香蕉久在线播放| 午夜毛片免费观看视频 | 嫩草国产在线| 色亚洲成人| 露脸真实国语乱在线观看| 精品国产一二三区| 九色综合伊人久久富二代| 国产成人一区免费观看| 草草影院国产第一页| 免费A∨中文乱码专区| 露脸一二三区国语对白| 欧美综合在线观看| 久久婷婷色综合老司机| 天堂成人av| 国产精欧美一区二区三区| 国产第一色| 亚洲人成影院在线观看| 国产小视频在线高清播放| 亚洲天堂2014| 日韩精品成人网页视频在线| 亚洲永久色| 亚洲啪啪网| 成人在线亚洲| 天天摸天天操免费播放小视频| 国产高潮视频在线观看| 无码一区18禁| 操操操综合网| 亚洲视频四区| 538国产视频| 亚洲性视频网站| 精品一区二区三区水蜜桃| 伦伦影院精品一区| 国产中文在线亚洲精品官网| 欧美日韩激情在线| 呦系列视频一区二区三区| 日本高清免费不卡视频| 中文字幕亚洲专区第19页| 黑人巨大精品欧美一区二区区| 狼友视频一区二区三区| 91精品国产自产在线观看| 亚洲国内精品自在自线官| 乱人伦视频中文字幕在线| 久热这里只有精品6| 无遮挡国产高潮视频免费观看| 国内a级毛片| 最新加勒比隔壁人妻| 亚洲国产精品人久久电影| 色欲不卡无码一区二区| 国产精品亚洲片在线va| 中文无码精品a∨在线观看| 国产成人亚洲精品无码电影| 欧美97色| 人人爱天天做夜夜爽| 99无码中文字幕视频| 99精品久久精品| 久久精品亚洲专区| www欧美在线观看| 国产啪在线| 91久久精品国产| 日本一区二区三区精品AⅤ| 欧美日韩第三页| 热99精品视频| 久久99国产乱子伦精品免| 国产视频入口| 手机在线看片不卡中文字幕| 国产91全国探花系列在线播放| 国产精品成人观看视频国产 | 香蕉色综合| 欧美成人亚洲综合精品欧美激情| 成年人国产网站| 国产精品无码制服丝袜| 亚洲a级毛片| 少妇高潮惨叫久久久久久| 国产麻豆aⅴ精品无码| 无码人妻免费| 国产www网站| 亚洲精品少妇熟女| 国产精品精品视频| 老色鬼久久亚洲AV综合|