孫竹梅 汪志兵



關鍵詞: 技術創新; 合作關系; 鏈路預測; 技術相似性; 技術互補性; 海工裝備
DOI:10.3969 / j.issn.1008-0821.2023.06.009
〔中圖分類號〕G306 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 06-0088-11
技術創新的不確定性、資源的稀缺性以及內部技術創新能力有限性之間的矛盾日益突出, 任何單一組織都很難擁有創新所需的全部資源和技術要素,只有通過與其他組織的交流與合作, 才能獲取更多的互補性資源, 從而擁有更強的創新能力[1-3] 。合作成為技術創新的主旋律, 各行各業的技術主體都在積極尋找合作伙伴開展技術創新合作[4-5] 。國家統計局數據顯示, 2020 年度國家技術發明獎和國家科學技術進步獎(通用項目)合作率分別達95.45%和94.21%。然而在技術創新合作數量迅速增長的同時, 合作失敗率卻始終居高不下[6-7] , 不恰當的合作伙伴選擇正是合作高失敗率的最重要原因之一[8-9] , 技術主體一直都處在“與誰合作” 的困境中徘徊, 如何選擇合適的技術創新合作伙伴成為提高技術主體競爭優勢的戰略性決策[10] 。
傳統的基于評價方法的[11-12] 、基于優化算法的[13-14] 和基于文本挖掘的[15-16] 技術創新合作伙伴選擇方法, 雖然為合作伙伴的選擇提供了依據, 但在實際應用中也存在一定的局限性, 如計算復雜、可操作性差、過度依賴主觀判斷和經驗、只能在小范圍內進行粗略選擇等。隨著技術的發展進步和技術主體數量的快速增長, 傳統方法往往會遭遇效率低下、精確度不高等困境, 容易造成錯選和漏選等不良后果, 進而影響到預期技術創新績效的達成。復雜網絡鏈路預測作為關系發現的重要手段, 在很多領域中得到了廣泛的應用[17-20] , 成為預測和指導連邊關系生成的重要“指揮棒”[21] , 目前也逐漸被應用到技術創新領域, 主要集中在兩個方面: 一是技術融合關系的發現, 如Lee W S 等[22] 將關聯規則和鏈路預測結合, 通過1955—2011 年的三方同族專利對技術融合的模式進行預測, 并在此基礎上預測技術融合新興領域。Park I 等[23] 提出通過鏈路預測方法預測異質技術領域間的潛在技術知識流, 從而實現生物技術領域和信息技術領域的技術融合機會識別。王宏起等[24] 基于Katz 指標實現了對電動汽車產業技術融合關系的預測。二是技術創新合作關系的預測, Chen Y W 等[25] 研究發現工業生物技術領域的專利合作網絡的演化具有優先鏈接特征, 這一特征為技術創新合作關系的預測奠定了基礎, Qi Y 等[26] 開發了一個依賴于主題分析和鏈接預測的系統框架, 基于論文和專利數據實現了技術創新合作伙伴的選擇, 王菲菲等[27] 通過鏈路預測和熵權法對石墨烯領域相關機構間的未來合作關系進行了預測, 莊偉華[28] 利用網絡表示學習方法對基于發明專利的中國大陸海洋工程裝備領域的產學研合作進行了預測, 石安杰等[29] 基于網絡結構相似性方法, 通過熵權法融合RA、CN、AA 等8個指標, 對京津冀科技主體間的專利合作進行了預測, 李冰等[30] 采用基于隨機游走的SimRank 指標的鏈路預測方法識別了燃料電池技術領域企業潛在的技術合作伙伴。
從已有研究來看, 鏈路預測在技術創新領域的應用尚處于起步階段, 研究多基于一些通用的經典鏈路預測指標展開, 且絕大多數都是僅給出了合作關系的預測結果, 卻未對預測方法的優劣性進行檢驗, 使得預測結果的可信度存疑。也有較少的研究采用AUC 指標討論了預測方法的優劣, 該指標是從預測結果整體來衡量鏈路預測方法的準確程度[31] 。然而, 技術創新合作關系的預測是為了以最有可能出現的合作關系進行推薦, 此時對鏈路預測方法優劣的判斷更側重于另一種評價指標Precision, 該指標關注的是預測結果中得分排名靠前的邊是否預測正確[32] , 該指標越高, 說明預測結果的可信度越高, 基于該預測結果的合作關系推薦也越精準。結合鏈路預測方法在其他領域的應用可知, 盡管大多數的鏈路預測指標都顯著優于隨機預測, 但并不存在單一明確的最優指標[33-34] , 因此近年來學者開始關注和探索融合指標的構建, 希望通過多來源信息的匯聚來進一步提高鏈路預測的準確程度, 取得了一定的研究成果[35-38] 。故而本文也將基于這種融合思維, 考慮與技術創新合作關系形成密切相關的因素, 探索構建適用于技術創新網絡的鏈路預測指標, 實現技術創新合作伙伴的精準推薦。
1研究設計
1.1研究對象的選擇
作為典型的知識、技術密集型戰略性新興產業, 海工裝備產業的技術創新不僅具備高科技、高投入、高風險、高收益和高關聯的特點, 還具備突破性創新和集成創新的特點[39] , 這些特點都決定了該領域的發展需要多元化主體的共同合作, 恰當的合作伙伴選擇與推薦對于領域內主體技術創新績效的順利達成具有重要的意義, 因此本文選擇依托海工裝備領域展開技術創新合作關系的預測研究。海工裝備領域的技術創新多屬開發性的應用類研究,其研究成果多表現為專利的形式, 而通過合作形式進行技術創新的主體通常會以共同專利權人的身份申請專利, 專利數據中的合作關系在一定程度上反映了技術主體之間的創新合作關系。同時, 專利數據作為技術創新活動監測和預測的重要工具[40] , 是學術界最常用的技術創新衡量指標[41] , 最早見于美國著名的經濟學家Schmookler J[42] 發表的文章中。盡管專利信息也存在不容忽視的“噪聲” 和誤差,但現有大多數相關文獻的研究都表明, 在謹慎使用的前提下, 專利數據仍是目前不可多得的技術創新衡量指標[43] , 故而本文將基于海工裝備領域的專利數據構建技術創新網絡作為具體的研究對象。
1.2預測指標的構建方法
如前所述, 本文主要通過構建融合性的預測指標來提高技術創新合作關系預測的精確度, 結合現有相關研究, 提出基于網絡拓撲結構指標和技術主體屬性特征指標的融合預測指標構建方法。
1.2.1指標來源的選取
網絡拓撲結構指標主要用于反映網絡結構特征客觀視角下技術主體之間產生合作關系的可能性。在復雜網絡的鏈路預測研究中, 學者們從不同角度提出了多種預測指標, 目前使用最廣泛的是基于結構相似性的指標, 根據相似性信息來源的不同又可分為3 種類型。本文從每種類型中各選擇兩種具有代表性的指標進行研究, 分別為基于局部信息相似性的CN 指標和RA 指標、基于路徑相似性的Lo?calPath 指標(LP)和Katz 指標, 以及基于隨機游走相似性的LRW 指標和SRW 指標。為便于表述, 將網絡拓撲結構指標統稱為struc 指標。
技術主體屬性特征指標主要用于反映主觀視角下技術主體自身屬性對技術主體之間合作關系建立的促進程度。技術因素作為技術創新合作關系是否能夠建立的重要前提, 一直以來都是技術主體在選擇創新合作伙伴時必然要考慮的重點因素[44-45] , 因此, 為確保融合指標在技術創新網絡鏈路預測中的有效性, 本文主要考慮從技術因素方面提取技術主體的屬性特征。從技術角度來看, 在具有技術關聯性的技術主體之間開展技術創新合作, 對于解決“卡脖子” 技術問題無疑是更為有效的。技術關聯性又包括技術相似性和技術互補性兩個方面, 前者反映的是技術之間的替代性、交叉性和繼承性, 后者反映的是技術之間的差異性和協同性[46] , 故而本文選擇從這兩個方面分別進行技術主體屬性特征指標的構造, 其中, 基于技術相似性的記作sim 指標, 基于技術互補性的記作com 指標。
1.2.2sim 指標的計算方法
技術相似性的概念最早由Griliches Z[47] 提出,雖然之后學者們相繼對其進行了不同的定義[46,48] ,但基本都是圍繞兩者在技術研發領域的共同性程度, 即是兩者的技術相似性這一中心思想展開的。對單個主體所涉及技術領域分布的描述是測度主體之間技術相似性的前提。主體所申請專利的技術領域歸屬狀況在一定程度上反映了主體的技術領域關注, 一方面技術發展的交叉融合趨勢決定了技術主體申請的專利往往會分布在多個不同的技術領域;另一方面由于研發資金、人才等因素的制約, 技術主體在不同技術領域上擁有的專利數量存在區別,從而形成差異化的重點技術領域。結合現有關于技術相似性的測度方法, 本文關于sim 指標計算的主要步驟如下:
1) 構造技術領域分布矩陣
一個完整的IPC 分類號包含5 個層級, 依次為部、大類、小類、大組和小組, 每個層級都有各自的類別號、類別名稱和知識架構。考慮技術領域分析粒度的合適性, 部、大類和小類3 個層級的技術領域劃分較為寬泛, 對技術相似性分析的精細程度不高, 而小組的技術領域范圍又過窄, 故而選擇在大組范圍下進行主體的技術相似性測度, 以大組層級的IPC 分類號作為一個獨立技術領域的標識, 記作IPC6。
1.2.3 com 指標的計算方法
關于技術互補性的定義, 目前普遍使用的是Makri M 等[46] 提出的: 在相同廣義范圍的知識領域內, 兩個主體解決的技術問題集中在不同狹義知識領域的程度。主體之間的技術互補性既有利于不同狹義知識領域的技術融合, 凸顯跨領域技術帶來的優勢, 也能夠拓寬創新思維方式, 增強主體識別和利用外部異質性知識和技術的能力, 進而提高創新活動成功的可能性[50] 。從技術互補性的定義可以看出其中包含兩個要素: 相關性和差異性, 只有在相關前提下的差異才能稱之為互補, 因此技術互補性的測度需要在一定的技術領域范疇下進行。結合現有關于技術互補性的測度方法, 本文關于com 指標計算的主要步驟如下:
1) 技術互補性的測度
在基于IPC分類號的技術互補性測度方法中,使用較為普遍的是Makri M 等[46] 提出的計算方法,該方法通過屬于同一技術領域下的不同子技術領域中的專利數量的占比來衡量潛在并購目標對主并購方的技術互補性, 具體的計算公式如式(8) 所示:
1.2.4指標的融合
研究表明, 技術主體之間的知識體系越接近,越有利于兩者合作創新績效的達成[51-52] , 在技術創新合作伙伴的選擇上也存在技術相似性的選擇傾向[53] , 同時也有研究發現, 技術互補性能夠增強合作創新的績效[54-55] 。由此可見, 技術相似性和技術互補性對技術創新合作關系的形成具有潛在的積極影響。因此, 在本文提出的融合預測指標中,網絡拓撲結構指標被視為基礎性指標, 而技術主體屬性特征指標則被視為調節性指標, 即以技術因素對合作關系是否產生影響來修正網絡結構特征所反映出來的合作關系形成可能性的大小, 并以此修正后的結果作為技術創新合作關系預測的依據。技術相似性和技術互補性反映的是技術因素視角下兩個不同側面的技術主體屬性特征, 為明晰兩種不同技術因素及其組合對技術創新合作關系預測的影響,本文構建了3 類共18 個融合指標, 即將網絡拓撲結構指標分別與sim、com 指標以及這兩個指標的組合指標進行融合, 具體的融合方式如表1 所示。
1.3評價指標
鏈路預測方法常用的評價指標有AUC 和Preci?sion, 其中前者考量的是預測結果的整體精確度,后者考量的是排名靠前的預測結果的精確度, 即按照邊出現的可能性值從大到小排列,
在排名前l 的邊中預測準確的邊所占的比例[32] 。技術創新合作關系預測的目的是為了以精準的合作關系為技術主體推薦匹配的合作對象, 預測結果中排名靠前的合作關系被視為出現可能性最高的, 這些合作關系的預測精確度越高, 越有利于合作伙伴的推薦, 故而本文選擇Precision 指標作為基于融合指標的預測方法的評價指標。假設有m條預測準確的邊, 則Precision 指標的計算公式如式(12) 所示。
2研究過程與結果
2.1數據的采集與預處理
2.1.1數據的采集
由于海工裝備產業涉及的學科門類錯綜復雜,其專利不僅呈現出多學科領域的技術交叉性, 同時也呈現出技術領域分布的寬泛性。如果通過領域相關關鍵詞的組合進行專利數據的檢索, 不能保證錯檢和漏檢發生的概率。故而為保證研究所采集數據的準確性和權威性, 結合本文的研究對象, 選擇由國家知識產權局牽頭建設的國家重點產業專利信息服務平臺作為數據采集的主要來源, 該平臺涵蓋了包括船舶產業、汽車產業、有色金屬產業等在內的我國十大重點產業領域的國內外相關技術專利, 具體的采集路徑為: 船舶產業→特殊用途船舶→海洋工程設備, 數據采集時間為2021年2月28日, 采集范圍為對應類目中的所有中國專利。由于本文主要關注技術主體間的合作關系, 故而不做專利類型的篩除, 同時為保證數據的完整性, 剔除申請年份為2021 年專利數據, 最終共采集到22 193條專利數據, 時間跨度為1985—2020 年, 其中包含兩個及以上的機構作為共同專利權人的合作專利2 711條, 時間跨度為1987—2020年。
2.1.2數據的預處理
本文選擇以合作專利中的專利權人為節點構建海工裝備技術創新網絡。由于專利數據中專利權人的著錄存在不一致、不規范等問題, 使得同一專利權人的名稱存在差異, 故而需要在構建技術創新網絡前對其進行統一化、規范化處理。數據的預處理主要從以下4 個方面進行:
1) 機構名稱不完整導致的差異。如“中國海洋石油集團公司” 和“中國海洋石油集團有限公司”, 處理方式為統一以標準名稱“中國海洋石油集團有限公司” 進行著錄。
2) 同一機構的不同稱法導致的差異。如“中國船舶科學研究中心” 和“中國船舶重工集團公司第七0二研究所” 指的是同一所機構, 處理方式為統一以“中國船舶重工集團公司第七0二研究所” 進行著錄。
3) 機構名稱變化導致的差異。如“衡水橡膠股份有限公司” 更名為“衡橡科技股份有限公司”,處理方式為統一以現用名稱“衡橡科技股份有限公司” 進行著錄。
4) 名稱中各類符號使用不一致導致的差異。
如中英文括號、引號的使用, 以及“0” 的表示方式等, 處理方式為將其統一規范成同一種符號。
2.2技術創新網絡的構建
在數據預處理的基礎上, 以每條合作專利數據為分析單元, 首先從每條合作專利數據中提取出共同專利權人, 形成專利權人集合; 其次對專利權人集合進行拆分并去重, 得到以單個技術主體為單位的專利權人構成的節點集合; 第三從每條合作專利數據中抽取出共同專利權人關系, 以此為基礎建立專利權人之間的合作關系, 即如果兩個或兩個以上的專利權人共同擁有一項專利, 則表示他們之間有合作關系; 最后對抽取出的全部專利權人合作關系進行合并去重, 保留互不相同的專利權人合作關系形成邊集合。根據本文采集的專利數據, 該技術創新網絡共包含1 162個節點和1 298條邊。
2.3sim 指標的計算
根據1.2 節中提出的sim 指標計算方法, 首先對1 162個技術主體申請的全部專利所涉及的IPC6進行統計, 其次按年度分別統計每個技術主體每年在各IPC6 申請的專利數量, 通過標準化和合并處理, 得到各技術主體的技術領域分布矩陣, 再引入時間參數, 構造對應的時間—技術領域向量, 最后依據該向量對技術主體間的simij進行計算, 計算結果示例如表2 所示。
2.4com 指標的計算
根據1.2 節中提出的com 指標計算方法, 按式(9) 計算1 162個技術主體相互之間的技術互補性,并基于此對海工裝備技術領域中技術互補性差異對技術主體間合作關系的影響進行分析。首先根據2 711條專利的年度分布情況分別構建相應的合作關系集合, 由于1987—2011 年各年的合作專利數量均低于100, 故而將該時間跨度進行合并, 之后采用逐年滾動累積的方式進行構建; 其次分別計算各集合中所有技術主體間的differij; 最后以技術主體之間是否已經建立合作關系為劃分依據, 將dif?ferij的分布情況劃分成兩類, 根據兩類情況中differij最大值的變化趨勢如圖1 所示。
從圖1 中可以看出, 兩類情況的最大differij之間存在明顯差距, 同時, 盡管無合作關系的技術主體之間的最大differij表現出先大幅增長繼而平穩的趨勢, 但是有合作關系的技術主體之間的最大dif?ferij卻基本保持在0.33~0.38 之間, 說明在海工裝備領域的技術創新合作中, differij在0. 0 ~ 0.38 之間的兩個技術主體會建立合作關系的可能性是顯著高于differij超過0.38 的兩個技術主體, 即技術互補程度差距較大的技術主體之間不傾向于建立合作關系。為進一步明確不同技術互補程度差距與合作關系形成之間的關聯性, 根據各網絡中已經建立合作關系的技術主體之間的differij分布如圖2 所示。
從圖2 中可以看出, differij的分布主要都集中在0~0.2 區間內, 其中以0 ~ 0.1 區間更為突出,其次是在0.2~0.4 區間內, 說明在海工裝備技術領域的技術創新合作中, differij 越小的兩個技術主體越傾向于建立合作關系。但是結合differij= 0 處的數據分布來看, 雖然differij小有利于合作關系的建立, 但是完全對等的技術互補性對合作關系的形成并沒有更大的促進作用。
根據上述分析結果, 按照不同水平的differij與是否存在合作關系之間可能存在的關聯性, 將dif?ferij的分布范圍劃分為5 個區間, 并為各區間內的技術主體i和j 之間形成合作關系的可能性賦予不同的權值, 作為技術主體i 和j 之間的comij, 具體的賦值規則如下:
2.5研究結果
按鏈路預測方法常用的劃分比例, 將研究構建的海工裝備技術創新網絡的邊集按照9 ∶1 的比例劃分成訓練邊集和測試邊集, 再根據上述計算結果,提取出訓練邊集構成的合作網絡中所有不存在連邊的節點對間的技術主體屬性特征指標值, 并按照表1列出的融合方式分別與不同的網絡拓撲結構指標進行融合, 進而依據融合預測指標的值進行技術創新合作關系的預測, 最后結合測試邊集檢驗各融合預測指標的預測精確度, 結果如表4 所示, 表中同時列出了僅基于網絡拓撲結構指標的預測精確度。
3結果分析與討論
1) 從3類融合指標的整體預測效果來看, 相較于原網絡拓撲結構指標的預測精確度而言, 各融合指標的預測精確度均有所提高, 其中最低提升幅度為1.66%, 最高提升幅度為29.23%, 平均提升幅度為14.99%。由此可見, 無論是技術相似性, 還是技術互補性, 都對技術創新合作關系具備一定的預測力, 這一結果與已有研究發現相吻合, 一方面印證了在技術創新合作伙伴選擇上的確存在技術相似性選擇傾向; 另一方面也反映了技術互補性對合作創新績效的提升作用, 在一定程度上促成了技術主體選擇合作伙伴時的技術互補性傾向的形成。因此, 本文提出的考慮技術因素構建技術創新合作關系預測的融合指標的方法是可行且有效的。
2) 從Ⅰ類和Ⅱ類融合指標的預測效果對比來看, 技術相似性和技術互補性雖然都有助于技術創新合作關系的預測, 但是兩者之間也存在較為顯著的差異。在與基于路徑相似性指標融合時, Ⅰ類融合指標的預測精確度較原網絡拓撲結構指標的提升幅度均高于Ⅱ類融合指標, 說明對于兩個在合作網絡中具有相似路徑結構的技術主體而言, 技術相似性更容易成為兩者合作的基礎; 在與基于隨機游走相似性指標融合時, Ⅱ類融合指標的預測精確度較原網絡拓撲結構指標的提升幅度均高于Ⅰ類融合指標, 說明當網絡中兩個技術主體在隨機狀態下均擁有較短的可達路徑時, 技術互補性對兩者合作關系的形成更具有促進作用。
3) 從Ⅲ類融合指標與Ⅰ類、Ⅱ類融合指標的預測效果對比來看, 綜合考慮技術相似性和技術互補性的技術主體屬性特征指標更有利于發現潛在的合作關系。Ⅰ類和Ⅱ類融合指標預測精確度較原網絡拓撲結構指標的平均提升幅度均在10%左右,最高提升幅度均低于20%, 而Ⅲ類融合指標的平均提升幅度為24.12%, 且各指標的提升幅度基本都在20%以上, 說明同時考慮技術相似性和技術互補性因素進行技術創新合作關系的預測, 能夠達到“1+1>2” 的預測效果。由此可見, 主體在選擇技術創新合作伙伴時往往是兼顧技術相似性和技術互補性的, 因此在進行技術創新合作關系的預測時, 應該同時考慮兩方面的因素, 從而實現為主體推薦精準的技術創新合作伙伴, 促進技術創新活動預期效益的順利達成。
4結語
技術創新合作關系的準確預測, 能夠為主體的技術創新合作伙伴推薦提供有力支持。本文選擇以對技術創新合作關系形成具有重要影響的技術因素為切入點, 探討構建了基于網絡拓撲結構指標和技術主體屬性特征指標的融合預測指標, 研究結果顯示, 考慮技術因素的融合指標對于技術創新合作關系的預測是有效的, 特別是同時考慮技術相似性和技術互補性兩方面因素的融合指標的預測效果最佳, 證實了本文提出的技術創新合作關系預測的融合指標構建思路和方法是科學合理且有效的, 對技術創新合作伙伴推薦的實際開展具有指導價值。但受研究規模限制, 本文僅以海工裝備產業領域為例展開了研究, 后續可以進一步拓展應用到更多的技術領域中, 對融合指標的普適性進行檢驗。