李姝影,張 鑫,許 軼,許海云,張 嫻,朱月仙
(中國科學院成都文獻情報中心,四川成都 610041)
在我國新經濟形勢與需要下,提升高質量產學研科技供給是滿足創新經濟需求、建設現代化經濟體系、顯著增強我國經濟質量優勢的關鍵所在。研發與制造的協調發展是創新的重要來源和驅動,基礎研究與應用研究的交叉流動有助于技術成果早期商業化。目前,企業作為創新主體,其技術創新能力還存在多重短板,與大學/科研院所的技術銜接及合作創新需求較為迫切,有必要促進產學研創新的集群式發展,產出更多有助于企業發展所需的科學技術成果。因此,識別與研究產學研創新主體潛在關聯的技術主題,有助于不斷擴展產學研創新主體在知識生產與技術創新的合作廣度和深度,使高校和科研機構產出更多有助于企業創新所需的科學技術成果,而企業也更容易找到適合的研發合作對象。
企業、大學、研究機構作為創新主體,研究他們之間的知識流動、技術轉移以及合作網絡,有助于分析創新主體間的知識傳遞、知識交互、資源共享的機理[1-2]。在產學研創新網絡中,基于文獻計量分析常見的產學研關聯場景包括:合作專利申請、技術領域交叉共現以及技術相似度。其中,從專利文獻中抽取有價值的技術信息,利用專利分析來研究產學研創新主體關聯的相關研究取得了較大進展,例如產學研合作發明創新網絡、基于國際專利(IPC)共現網絡和區域-技術二模網絡研究產學研合作專利技術發展趨勢等[3-6],目前相對較為成熟的研究主要基于專利權人合作網絡和領域共類網絡,以單模網絡為主,能夠很好地揭示顯性的關聯創新主題。其次,產學研機構與專利技術的二模網絡有助于研究產學研關聯創新活動,例如許海云等[7-9]提出基于擴展多模數據分析,綜合考慮產學研機構的技術關聯分析、機構間競爭地位分析、合作網絡中機構間核心邊緣分析以及機構類型輔助挖掘潛在合作主題及其關系;傅俊英等[10]基于引文分析與文本挖掘構建專利與專利權人之間的異構網絡;Chang[11]利用國家和產學研合作專利二模網絡分析,探討了不同時期技術網絡的合作發展趨勢以及關鍵技術領域。產學研關聯創新主題研究主要是在共類和合作主題方面探索較多,對潛在隱性的關聯創新主題識別方法較少。
目前研究專利技術主題的分析方法較為豐富,定量分析方法在很大程度上推動了具有文本表示功能的主題特征的抽取與識別,主要包括引文分析、共現分析和文本挖掘等方法[12]。引文分析的主要思路是利用專利引文耦合關系作為技術相似性判斷依據來探究技術之間關聯關系,發掘機構間技術的高度相似性[13-14];共現分析基于專利共類計算技術接近性以發現企業潛在的研發伙伴及技術組合[15];文本挖掘方法計算特征向量之間的相似度[16-17]。為了提升技術主題細粒度和分類的準確性,定量和定性方法在不斷地改進優化,復合型方法促進了產學研關聯創新主題識別的精細化發展,例如結合數據挖掘、社會網絡分析、共現分析等方法,構建了專利權人-技術交叉共現網絡,判斷權利人在技術上的技術交叉程度,并尋找有望構建專利組合的潛在技術和建立合作關系的專利主體[18-19]。鑒于在專利技術主題的實際分析過程中現有方法面臨諸多挑戰:專利文本自動化處理結果的清洗與解讀工作量巨大[20],詞頻較高且趨于穩定的主題詞不能揭示技術新趨勢[7],術語來源與選擇策略將對聚類或文本分類的結果產生顯著的影響[21],可見現有方法主要的不足在于專利技術主題識別的效率以及準確性,所揭示的關聯創新主題粒度較粗。
為了解決上述問題,本研究基于核心專利集識別專利技術主題,以機構-技術二模共現網絡分析企業、大學和研究機構之間的相似技術主題,并以石墨烯在生物醫藥的應用作為實證領域,探索分析和研究產學研關聯創新的熱點主題和潛在合作對象,以便幫助產學研創新主體了解關聯創新趨勢,推動學術界與產業界的技術對接與合作。
本研究主要采用專利分析方法,以產學研潛在的創新關聯主題為研究對象,研究除了專利權人合作網絡、領域共類分析所揭示的顯性創新關聯之外潛在的隱性技術關聯,即企業、大學、研究機構之間相似的專利技術主題,以便探討產學研關聯互補的可能,研究分析產學研關聯創新合作的潛力。主要的研究思路借鑒前人的核心專利文獻集合以及專利技術組合識別方法[22-24],基本步驟如下(見圖1):第一,基于核心專利集合利用德溫特數據分析器(Derwent Data Analyzer)抽取標題、摘要以及技術要點中的技術特征詞,經過文本預處理、數據清洗,獲取技術特征詞;第二,利用向量空間模型構建專利與技術特征詞矩陣,矩陣權重為術語頻率-反向文檔頻率(term frequency-inverse document frequency,TF-IDF),利用UCINET聚類生成專利技術主題;第三,構建機構與專利技術主題的二模網絡,將擁有類似專利技術主題的機構進行聚類,識別與分析相應的企業、研究機構和大學等不同類型機構的潛在關聯創新主題和合作對象。

圖1 產學研關聯創新專利技術主題分析的技術路線
核心專利集包含了領域中重要的技術關鍵詞、對后續技術發展具有重要影響的技術要素,以及具有代表性的技術術語,專利引文信息能衡量專利技術價值、協助技術規避設計,基于引文關系的技術網絡更有助于挖掘核心技術要素,因此,本文采用了基于核心專利集抽取專利語義特征作為技術主題分析的目標集合[25],不僅有助于提升特征選取的效率,又強調了領域內重要的技術特征詞在技術專利網絡中的關鍵作用。本研究基于Ha等[23]提出的專利引文強度指標設計了兩項判定規則,如圖2所示。其中,P1被P3、P4和P6引用,頻次均為1(表示為C1,3=C1,4=C1,6=1),若C1,j=0,則j取值1、2、5、7、8、9。以此類推,直接引用可表示為:Cij=1;間接引用可表示為:若Cij≠1,但是Ci,k=1且Ck,j=1,則Pi和Pj呈現間接引用關系。利用線性關系公式表達為:若n>0,則若n=0,則V(P)=0,其中V(P)為專利p的引用強度,n為專利直接被引頻次,Qi為1~n項施引專利。

圖2 專利引文網絡示例
判定規則一:基于引用重要性確定專利強度指標,根據β間接引用的參數權重來篩選專利引文強度前100位(Top100)的核心專利集。分別使β取值為0、0.3、0.5、0.7、1計算專利強度值取并集:若β=1,直接引用=間接引用;若β=0,只計算直接引用。
判定規則二:為了克服引用滯后性(即越早申請的專利,專利引用率越高),所選取的核心專利集的專利引用率大于同年申請專利引用最大標準差。
最后,兩項規則取交集獲得核心專利集。
本文選取石墨烯在生物醫藥領域的應用作為研究對象,基于德溫特世界專利創新索引(Derwent innovation index,DII)構造檢索式,主要從石墨烯在藥物載體、抗菌材料、熒光標記、人造骨骼、人造皮膚、細胞培養以及造影劑等應用方面檢索,獲得900項專利數據,檢索日期為:2017年6月7日。基于DII數據庫獲取每件專利的被引頻次以及被引專利數據,收集直接引用和間接引用的專利數據。
利用編程計算專利引用強度指標V(p),分別取β間接引用的參數權重0、0.3、0.5、0.7、1,計算Top100的專利引用強度指標V(p)在不同引用權重下的值,5種不同情形取并集獲得119項核心專利集清單。根據專利被引的平均值、標準差、極大值和極小值等描述性統計(見表1),例如一項專利申請年為2009年,它的引文頻次如果大于10.53,即可被認為是核心專利;反之亦然。基于此原則篩選119項核心專利集,最終獲得了86項;在識別出的86項核心專利集的基礎上,利用Derwent Data Analyzer抽取核心專利集的標題、摘要以及技術要點中有意義的詞或詞組,通過文本預處理、數據清洗,結合專家意見和敘詞表補充技術關鍵詞,共計465個技術關鍵詞。

表1 生物醫藥領域石墨烯技術專利被引的描述性統計
向量空間模型旨在表示出現在文檔中各個詞的權重,以便對文本進行分類。通常使用TF-IDF方法,其中IF衡量技術關鍵詞在專利文檔中的重要性,如果該技術關鍵詞在某一件專利文檔中出現的頻率越大,則該詞對該篇專利的貢獻越大;IDF表示技術關鍵詞在整個專利文檔集的分布情況,文檔集中含有技術關鍵詞的數量越少,該技術關鍵詞對文檔的表示越重要。本研究基于向量空間模型來構建專利文檔與技術關鍵詞矩陣(見表2),專利技術關鍵詞的權重以TF-IDF得分為準,計算公式如下:

式(1)中:W(tk,d)為技術關鍵詞t在專利文檔d中的權重;tf(tk,d)是技術關鍵詞在專利文檔出現的詞頻;N為專利文檔的總量;nt為專利文檔集中出現t詞的文檔數量,即主要用于增強詞的頻率,以減少長篇幅文檔對結果的影響。

表2 生物醫藥領域石墨烯技術的核心專利集-技術關鍵詞TF-IDF權重示例
基于文檔-技術關鍵詞多值矩陣,通過UCINET的二模網絡轉換為一模網絡,為了更好地選擇合適技術分支聚類的數量,衡量技術分支聚類的凝聚程度和網絡分派的情況,在此選取E-I指數(external internal index)[26],計算公式如下:

式(2)中:EL為技術分支之間的關系數量;IL為技術分支內部的關系數量。
E-I指數最初是衡量一個大網絡中的小團體現象是否嚴重,進一步可分析網絡凝聚子群的分派程度,在此可用于判斷選取技術分支的聚類數量。E-I指數的取值范圍一般為(-1,+1):如果值越靠近1,表示所生成的技術分支之間距離越近,獨立性不強;如果該值越靠近-1,則表示技術分支之間的距離越遠,獨立性強;該值為0,則是隨機網絡關系分布。
我們利用UCINET計算不同技術分支聚類數量的E-I指數發現,當聚類的數量在小于12個時,E-I值為0.929,接近1,技術分支之間的聯系程度比技術分支內部的聯系程度還高;當聚類數量達到26個及以上時,E-I值為-0.823,靠近-1,技術分支之間具有較好的區分度。因此,本文利用UCINET進行層次聚類生成26個技術主題,采用歐式距離計算技術特征詞之間的相似度,衡量和觀測在多維空間中各個節點的絕對距離。最終聚類形成了26個技術分支,根據每個類別的核心專利來表征和命名技術主題(見表3)。

表3 基于聚類的生物醫藥領域石墨烯專利技術分支

表3(續)
本文在已識別的26個專利技術主題的基礎上,選擇專利數量大于等于3項的企業、研究機構或大學作為產學研機構研究對象,去掉個人作為專利權人的數據,分別構建了產學研機構與技術主題矩陣(見表4)。

表4 生物醫藥領域石墨烯專利技術產學研集群與技術主題矩陣(部分)
利用UCINET軟件生成機構與技術主題的二模網,基于歐式距離測算各機構之間技術主題相似度,并基于相似度將擁有類似技術的集群進行聚類。產學研關聯創新主題可視化如圖3所示,其中英文代表機構名稱,正方形代表關聯創新主題,三角形代表研究機構,圓形代表企業,菱形代表大學。

圖3 生物醫藥領域石墨烯專利技術產學研關聯創新主題可視化
產學研關聯創新主題包括:T1癌癥檢測治療、T2聚合衍生物(生物醫學)、T3空氣凈化、T4紅外設備、T5抗菌材料、T6光致變色化合物、T7石墨烯復合材料(醫用)、T8石墨烯制備材料、T9石墨烯氧化物、T10聚合物復合材料(醫療器械)、T11納米結構、T13合成纖維復合材料制備、T14骨組織修復治療、T16藥物載體系統、T17人造膜、T18腦植入冷卻裝置、T20石墨烯增強型合金(醫用)、T21石墨烯攪拌系統、T22造影劑、T23柔性聚合物導體、T24功能性表面覆蓋物、T25紫外線吸收材料以及T26石墨烯衍生物合成。在此基礎上,基于Girvan-Newman算法,當社群數量為9的時候Q值最大,分別是C1合成纖維復合材料、C2抗菌材料、C3硅膠聚合物材料、C4石墨烯氧化物及納米顆粒、C5醫用復合材料、C6骨組織修復、C7氣凝膠、C8癌癥治療與診斷以及C9空氣凈化。如表5所示,產學研合作可能性最大的是C2抗菌材料、C4石墨烯氧化物及納米顆粒、C5醫用復合材料和C8癌癥治療與診斷。

表5 生物醫藥領域石墨烯專利技術產學研關聯創新主題及潛在合作機構

表5(續)
通過分析石墨烯生物醫藥應用領域的關聯創新熱點主題C2抗菌材料、C5醫用復合材料、C4石墨烯氧化物及納米顆粒和C8癌癥治療與診斷,識別并分析其潛在關聯的機構(見圖4)發現,產學研機構均有所參與且相對活躍的創新主題是C2抗菌材料和C4石墨烯氧化物及納米顆粒。
通過分析潛在的關聯創新特征發現:C2抗菌材料和C5醫用復合材料的關聯創新,主要是以企業為主的技術應用創新,產業化進程相對更快;C4石墨烯氧化物及納米顆粒和C8癌癥治療與診斷的關聯創新,主要是以大學為主的基礎研發創新,僅有零星幾家企業涉獵到了該技術主題的專利保護,相關科技成果轉移轉化還不夠成熟,可轉化實施的成果不多,所保護的技術和產品距離市場還比較遠。
從參與機構的來源國家及范圍來看:C4石墨烯氧化物及納米顆粒是最受關注的技術主題,全球46家機構進行了專利保護,其中中國34家、韓國5家、美國4家、日本1家和印度1家。該領域產業界只有韓國三星公司和Graphene Square公司進行了專利布局,這顯示了韓國在C4領域產學研關聯創新的產業相對優勢;中國雖具有顯著的技術研發優勢,包括國內28所大學和中國科學院6所研究機構,但對產業界的科技供給不足,未來有必要推動和引導具有關聯性的創新成果向產業界轉化。

圖4 生物醫藥領域石墨烯專利技術產學研關聯創新熱點及潛在合作對象
為了分析產學研潛在關聯創新的技術優勢、關聯潛力以及研發差異,本文分析對比了企業、研究機構、大學的技術創新熱點主題(見圖5、圖6、圖7),基于創新主體技術創新的特色領域,識別出大學/研究機構分別與企業潛在關聯的技術主題(見表6),探討具有產學研關聯互補優勢與集成的可能。
研究發現,大學在石墨烯生物醫藥領域協同創新網絡最為密集,參與的機構最多且技術主題覆蓋范圍最廣。從不同集群技術主題的差異來看,企業更偏向于具有產品實用價值的應用領域,例如空氣凈化、可穿戴設備以及醫用抗癌材料,在合成纖維復合材料、空氣凈化、抗菌以及癌癥治療等領域企業關聯創新呈現集群趨勢,未來潛力的合作薄弱技術主題將可能是柔性聚合物導體,例如電子皮膚、可穿戴設備、人造血管以及彈性驅動力等。研究機構的技術主題專業化集中化程度極高,主要集中在中國科學院下屬研究機構,重點在于石墨烯復合材料的制備,主要應用領域是抗腫瘤藥物、骨組織修復以及造影劑等醫用器械,與企業具有一定的合作潛力。大學的技術主題相對于研究機構來說極為分散,在納米復合材料的制備上具有顯著的關聯創新優勢,該技術主題的規模最大,與企業界具有較大的合作潛力和互補可能。

圖5 生物醫藥領域石墨烯專利技術的企業(大于等于3)協同創新主題

圖6 生物醫藥領域石墨烯專利技術的研究機構(大于等于3)協同創新主題

圖7 生物醫藥領域石墨烯專利技術的大學(大于等于3)協同創新主題
通過對比企業、大學以及研究機構的關聯創新主題來看,3個群體在石墨烯與生物醫藥領域關聯創新主題上具有一定的交叉重合,未來在創新投入上需要多方面考慮產學研關聯互補優勢與集成的可能,更有效地配置研發資源以及創新的投入。此外,企業在創新中的主體地位還有待加強,有必要在石墨烯生物醫藥的應用上加強產學研合作,將大學和研究機構的創新技術轉化為創新。

表6 生物醫藥領域石墨烯技術產學研創新主體的專利技術主題和關聯主題
基于專利計量結果,本文結合專利分析和社會網絡分析,構建了一套面向產學研關聯創新的技術主題分析流程,以便識別產學研關聯創新的技術主題及潛在合作對象,通過分析產學研集群關聯創新中的技術優勢主題、互補性主題以及差異性主題,揭示產學研關聯創新熱點方向和合作潛力,推動學術界與產業界的技術對接;并選取石墨烯生物醫藥領域開展相關實證研究,發現本研究所構建的方法和流程具有可行性和有效性。
產學研關聯創新主題分析,從方法層面來說,基于不同類型產學研機構之間潛在的技術主題相似來挖掘特定技術領域潛在關聯創新的特征與模式,是探索和研究產學研關聯創新活動的有效途徑。與以往研究相比,本研究探索了從核心專利集合出發聚類生成技術主題,相對于全數據集來說,能夠快速簡化技術網絡、聚焦重要的技術主題,有助于減少數據清洗的工作,提升專利技術主題識別的效率;其次,本研究提升了所識別的技術主題細粒度,在技術分支的聚類與命名上具有更多信息揭示,便于專家結合技術特征詞與專利技術文檔對結果的解讀和歸納,未來利用核心數據集來挖掘具有代表性的技術主題的思路將有可能在大數據分析方面有更多的應用價值。
本研究不足之處在于:核心專利集的篩選規則主要源自引用擴散模式,即被引頻次越大,技術關鍵詞的覆蓋率越大,未來研究有較大的擴展空間;核心專利集雖然有助于分析技術主題分支的命名以及聚類,但仍然存在專家的主觀判斷,未來自動化識別與歸納海量文獻數據將更準確。此外,產學研協同創新的問題較為復雜,需綜合考慮各種因素,本文期望從技術主題的角度幫助產學研創新主體在研發方向和合作決策上提供一些參考,但要面向市場去推動產學研合作或協同創新的場景更為多元化,目前的方法距離真正融合知識鏈、創新鏈和產業鏈還有較大的差距,未來或許可以從更為多源的信息入手,研究與揭示更多元化的關聯關系和合作模式,以豐富相關理論與實踐。