馮立杰,尤鴻宇,王金鳳
(1.鄭州大學管理工程學院,鄭州 450001;2.上海海事大學經濟管理學院,上海 201306)
精準識別技術創新機會,是企業乃至國家獲得競爭優勢、以不斷提升核心競爭力的重要手段[1]。在技術創新機會識別中,專利作為一種重要的信息來源被人們廣泛運用,但囿于承載專利信息的專利文獻數據量龐大,如何在海量專利文獻中快速、準確地識別技術創新機會顯得尤為重要。
傳統的基于專家經驗的專利文獻分析主要側重于定性方法,但隨著科技創新不斷向縱深發展,受專家的知識、經驗及其占有資料所限,難以保證分析結果的客觀性和準確性,導致識別的技術創新機會受專家主觀影響較大的弊端日益凸顯[2]。因此,有些學者嘗試結合定量分析方法,基于大數據驅動開展技術創新機會的識別。例如,Park等[3]借助IPC國際專利分類號計算了不同企業的技術組合得分,進而用于識別具有較高實用性和發展潛力的技術創新機會;Rodriguez等[4]和Kim等[5]提出了基于專利引文網絡離群值識別高價值專利,并獲取潛在的技術創新機會;Yoon等[6]運用SAO語義及技術功能相似度分析法,研究了如何從已有產品或技術中獲取技術創新機會;王金鳳等[7]在融合專利挖掘和形態分析方法建立的形態矩陣基礎上,構建了技術創新機會識別路徑。由此可見,國內外學者已提出了諸多較為成熟的定量識別技術創新機會方法,為本文從專利信息驅動下的技術創新機會識別路徑的研究提供了重要的參考思路,但存在以下兩個問題:第一,雖然部分研究雖然解決了如何量化技術創新機會識別的問題,但需要相關專家事先參與并進行大量的專利信息篩選,由此可能增加企業的技術創新成本,而且受主觀因素影響較大;第二,現有針對具體領域的技術創新機會識別問題的研究,大多采用較為單一的分析評價方法,缺乏客觀數據的支撐,難以指導企業精準開展具象的技術創新活動。
專利作為尋求技術創新機會的一種重要載體,承載著大量的高價值信息[8]。其中,專利的新穎性在表征技術創新機會的同時,經由人們普遍的認可和推廣,能夠為企業帶來普適性的技術創新機會[9]。企業可在計算技術創新方案新穎性的基礎上,得到各潛在創新機會的排序,為企業高效開展技術創新活動提供科學的決策依據。Lee等[10]結合文本挖掘和局部異常因子算法,應用專利文獻數量和專利引文數量衡量專利的新穎程度;Wang等[11]通過計算各專利文獻的異常因子,衡量專利的新穎性;吳菲菲等[12]綜合考慮專利和科技文獻的時間特征,以引用時間衡量專利的新穎性;任海英等[13]在對專利標題和摘要構建的專利知識網絡基礎上,進行了文本相似度分析,以此測量專利的新穎性。不難看出,目前對專利新穎性評價的文獻多聚焦于專利引文的角度開展相關研究。
有鑒于此,本文提出了在海量的專利信息驅動下,融合多維技術創新圖譜、LDA(latent Dirichlet allocation,LDA)主題模型與TextRank-IDF專利新穎性評價的技術創新機會識別路徑。本文通過專利信息檢索及預處理,運用LDA模型從海量的專利文獻中提取技術創新要素及主題,利用多維技術創新圖譜探究潛在的技術創新機會,進而運用Tex‐tRank-IDF新穎性評價指標對潛在的技術創新方案進行新穎性排序,識別出具有較高創新價值的創新路徑,實現最大限度地減少因專家人工篩選大量專利信息所帶來的效率和準確性問題,為企業科學選擇創新方案、不斷提升創新效率提供有益的參考。
多維技術創新圖譜是借助多個創新維度進行創新要素提取并歸類,結合多個創新法則對創新維度進行迭代變換,以構建技術創新方案的一種創新方法。其實質是一種基于9類創新元素的分類與獲取,并運用9種創新法則變換重組,從而形成創新方案的技術創新方法。9個創新維度和9種創新法則的列表,分別如表1和表2所示[14]。

表1 創新維度表[14]
截至目前,多維技術創新圖譜已經在軟件產品研發、智能手機、煤層氣、潛水電泵等多領域得到了廣泛應用,并驗證了該方法的可行性,能夠有效提升技術創新的效率和效果[14-15]。

表2 創新法則表[14]
LDA主題模型在專利挖掘領域中已得到廣泛運用,眾多學者運用LDA模型提取海量專利文獻的關鍵詞,實現自動識別專利文本主題[16-17]。然而,LDA算法在面對海量專利文本信息時,存在主題及主題詞難以解釋的缺陷[17]。因此,本研究將利用多維技術創新圖譜理論,通過具象的創新維度對主題詞進行二次歸類,以構建具有實用價值的創新路徑。
LDA主題模型是一種基于三層貝葉斯結構的文本分析模型,包括文檔、主題和詞項三層結構。其中,文檔是各主題詞項的集合,核心是利用狄利克雷分布,從文檔生成主題并抽取詞項,對高維向量空間表示的文檔降維表達,以實現對文檔和詞項的高效聚類。利用LDA模型生成文檔的具體流程如下:
(1)假設每篇專利文獻d的主題生成過程相互獨立,文檔d主題生成服從狄利克雷先驗分布θd~Dir(α),生成各專利文獻d中的第i個詞項主題Zdi~Multinomial(θd),則可構建文檔-主題矩陣。
(2)對各主題k生成對應的詞項分布φk~Dir(β),即從該分布中采樣生成專利文獻d中的第i個詞項wdi~Multinomial(φzdi),此階段對應的主題-詞項矩陣。
反復進行上述過程,直至生成所有文檔的主題及主題詞。其中,LDA模型的聯合概率分布為[18]

為保障更好的分類效果,LDA主題模型的核心是設置主題數量參數[19]。Blei將表述某個主題不確定性程度的困惑度(perplexity)作為模型的評價指標。一般而言,隨著主題數K的增加,該指標會相應降低。低困惑度模型能夠達到更好的聚類效果,針對M個文本數據集的困惑度值計算公式為:

其中,Nd表示文本d所有詞項的總數;p(wd)表示文本集中各文檔的產生概率。
本文提出了一種改進TextRank-IDF方法來衡量技術創新機會在一定范圍文本集的新穎性。Tex‐tRank算法是在對文本去除停用詞后,根據文本N中詞項間的共現關系,將文本中詞項作為圖中節點,以鏈入節點數量決定各詞項的權重,通過公式

計算詞圖網絡的各節點權重,迭代至穩定后權重較高的詞項,即關鍵詞。其中,W為初始權重;Vi為入鏈集合;Vj為出鏈集合;S表示TextRank的重;Wji表示第j行、第i列對應的權重;k表示第i列之前的列數。本文設置阻尼系數d表示跳轉到詞圖網絡其他節點的概率,防止權重計算的值為0。
傳統的TF-IDF算法作為一種常用的特征提取方法被廣泛運用,其中逆文本頻率IDF的主要思路是分布在少量文本中的特征詞更重要,即在文本集中包含詞項w的文檔越少,IDF的值就越大。
因此,本文提出了計算潛在技術創新方案新穎性指標的TextRank-IDF算法。
(1)運用TextRank算法對某個潛在技術方案(potential technical opportunity,PTO)PTOi提取關鍵詞,繼而得到關鍵詞w集合:S={w1,…,wq},其中q為關鍵詞個數。
(2)用IDF值評價關鍵詞w在專利文本庫中的重要程度,其中n(w)為專利文本集中包含關鍵詞w的專利數,N為專利文本總數,則有

(3)以IDF(pto)值表示技術方案在專利文本庫中的重要程度,IDF(pto)值越高,表示技術方案的新穎性越強,有

最終可得到各潛在技術創新機會新穎性的排序,為企業開展技術創新提供科學決策依據。
本文將基于海量專利信息的驅動,依托多維技術創新圖譜,通過專利信息檢索及預處理、技術創新機會生成模型構建、潛在技術創新方案評價等步驟,探究技術創新機會識別路徑。其中,除確定主題數、主題篩選及多維技術創新圖譜構建環節需要專家篩選外,其余工作均可通過計算機Python編程來實現,以最大限度地減少識別技術創新機會受主觀因素影響的弊端。具體研究路徑如圖1所示。

圖1 潛水電機技術創新機會識別研究路徑
專利信息檢索及預處理主要包括:首先,確定與技術創新對象有關的檢索關鍵詞,開展專利檢索并提取專利信息摘要;其次,為提高中文的分詞效果,需通過查閱具體研究領域的特定術語,構建對應技術創新領域的用戶詞典,并濾除專利信息中的噪聲信息,去除停用詞;最后,基于分詞后各詞項的詞頻,采用清洗后的專利信息摘要構建專利的文檔-詞項分布矩陣,使專利文本向量化。
技術創新機會生成模型構建流程主要包括:首先,確定LDA主題模型的主題數和迭代次數;其次,運行LDA主題模型探究技術創新領域關鍵詞的主題分布,并篩除與技術創新無關的主題;再次,利用多維技術創新圖譜將關鍵詞進行維度劃分,對各創新維度重組,以獲得新的關鍵詞組合;最后,與相關創新法則耦合,構建多維技術創新圖譜,生成系列潛在技術創新方案。
潛在技術創新方案評價階段主要包括:首先,參照現有專利形式,標準化表達潛在技術創新方案;其次,運用TextRank算法提取技術創新方案中的關鍵詞,并計算各關鍵詞的IDF值;最后,根據技術創新方案新穎性計算公式,得出各潛在技術創新機會的新穎性排序,為企業開展技術創新活動提供科學的決策參考依據。
潛水電機在影響國民經濟發展的一些重要領域,如井下或江河湖泊取水、井工礦井排水、農田灌溉及礦山搶險救災等領域,均得到了廣泛應用,在我國國民經濟發展中發揮著不可替代的作用[20]。但工作環境的特殊性使得潛水電機對絕緣、冷卻散熱、密封等性能有較高的要求,亟需開展技術創新機會識別,以找出具體的創新路徑指導相關企業開展創新活動。
4.1.1 潛水電機專利信息的檢索
本研究的專利信息來源于國家知識產權局專利檢索及分析平臺(http://pss-system.cnipa.gov.cn)。在進行專利信息檢索前,需要首先對專家訪談以確定檢索的表達式,如表3所示。

表3 潛水電機專利檢索表達式
通過檢索獲得與潛水電機有關的專利信息5560條,初步去重后剩余4873條。
4.1.2 潛水電機專利信息的預處理
在LDA主題模型運行之前,本研究應對專利信息進行中文分詞和文檔向量化處理。
首先,為提高分詞效果,防止錯誤劃分技術術語,一般需要對多位該領域相關專家進行訪談,結合查閱的相關文獻資料,確定潛水電機的特有專業技術術語,構建用戶自定義詞典。
其次,應用正則表達式濾除非文字符號,同時導入常用停用詞表,去除量詞、語氣詞、低質量文本等噪聲信息。在對專利進行文本處理后,使用Python的jieba工具包分詞。
最后,基于詞項、詞頻進行特征提取,構建文檔-詞項分布矩陣。
4.2.1 潛水電機LDA模型的參數設定
在潛水電機LDA模型運行前需要進行參數設定,其中重要參數包括超參數α和β,以及主題數K。超參數α和β可設定為0.01[18]。通過計算主題數由2到50模型的困惑度值可得,當主題數取值36時,困惑度值最小,但此時存在大量的無意義主題。除去主題數36,模型得到最小困惑度的主題數可取值19,為使主題間的技術邊界更加清晰兼具代表性,本研究將主題數確定為19,如圖2所示。
另外,迭代次數同樣是影響模型學習效果的重要因素之一[21]。如圖3所示,但當迭代次數增加至400次后,模型的效果提升有限,故本研究將迭代次數定為400。
4.2.2 潛水電機LDA模型的運行結果分析
本文利用Python的scikit-learn庫進行LDA主題模型計算,得到潛水電機的主題和關鍵詞分布信息。
根據關鍵詞分詞結果,結合相關技術領域的專家意見,在濾除包含水下養殖、船舶技術、水下清淤等潛水電機延伸應用領域的9個主題聚類后,得到篩選的10個技術領域。各主題代表的技術領域清晰,有較好的聚類效果,故可根據各主題關鍵詞內容進行命名,具體如表4所示。

圖2 潛水電機主題數對應的困惑度值

圖3 迭代次數對模型效果的影響

表4 潛水電機主題和關鍵詞列表
基于LDA創新元素提取得到的分類結果,不僅體現了潛水電機設計和制造的關鍵點(即技術創新的“痛點”),而且聚焦了相關技術領域的常用改進手段,故以此來整合現有技術的關鍵要素能夠滿足企業識別關鍵技術創新機會的需要。
4.2.3 潛水電機的多維技術創新圖譜構建
將上述關鍵詞進行創新元素歸類并劃分維度,應用多維技術創新圖譜可以構建技術創新機會識別路徑,具體包括創新維度劃分、多維技術創新圖譜構建和技術創新機會識別三方面內容。
1)創新維度的劃分
根據多維技術創新圖譜對創新維度的定義,結合專家給出的具體意見,將制約潛水電機創新的要素按維度劃分為功能維、結構維、機理維和材料維四類,具體如表5所示。其中,功能維是從滿足潛水電機各項技術性能要求角度提取的創新要素,包含潛水電機正常運轉所需的各方面具象技術(如控制、檢測、過濾等);結構維是創新要素中涉及潛水電機技術的構件(如電機、殼體、葉輪等);機理維是從實現潛水電機各具體功能基本原理角度提取的創新要素(如密封、驅動、導流等);而材料維則是考慮潛水電機部件的材料構成及相態等的創新要素(如樹脂、剛性、聚酰亞胺等)。
2)多維技術創新圖譜構建
通過對創新要素的歸類,潛水電機的關鍵技術要素聚焦在功能維、結構維、機理維和材料維等4個維度。創新的目的是滿足某些特定的功能需求,那么功能維就是識別潛水電機技術創新機會的主要導向,并且潛水電機技術需求的實現與其構件密切相關,故本文選取功能維和結構維作為識別技術創新機會的主要導向。在確定創新維度后,依次將每個維度與多維技術創新圖譜的創新法則迭代耦合,即可構建潛水電機的技術創新地圖,從而得到多個技術創新方案。

表5 潛水電機創新維度表
3)技術創新機會識別
首先,本研究聚焦于功能維、結構維和機理維3個維度,依次與各創新法則迭代耦合,并保留能夠通過耦合得到技術創新方案的創新法則。將上述3個創新維度和組合與集成、局部優化、自服務等創新法則構建多維技術創新圖譜,識別潛在的技術創新機會,并進行規范化表達,如圖4所示。
①內水循環冷卻系統技術創新機會確定。冷卻系統是潛水電機正常運轉的基本保證,合理的冷卻結構設計能夠延長電機的使用壽命[22]。在傳統設計中,潛水電機運行產生的熱量由冷卻液在電機內腔與外導管之間循環流動散發,外導管的設置不僅增加了成本和空間,電機定子的散熱效果也不夠理想。因此,運用組合與集成、局部優化法則,考慮定子結構的局部優化及轉子結構的組合與集成分析發現,可采用內水循環冷卻系統技術創新(表6)。
②增設自動保護技術系統的技術創新機會確定。潛水電機的工作環境大多較為惡劣,必要的自動保護技術至關重要。常見故障中,電機內缺水會導致導軸承、推力軸承嚴重損壞,需要增設貧水傳感器;繞組過熱燒毀需要實時進行溫度檢測[23];占比較大的絕緣失效[24],同樣需要對潛水電機的絕緣監測實施自動保護技術。因此,運用組合與集成、自服務創新法則分析發現,可采用增設貧水保護裝置、溫度檢測保護裝置以及電阻檢測絕緣檢測裝置,以實現潛水電機的智能控制和自我保護(表6)。
③增設甩砂結構的技術創新機會確定。潛水電機長期在惡劣的環境運行,單純的機械密封無法滿足較差水質和大含砂量條件下的密封需求[25]。因此,運用局部優化法則分析發現,在潛水電機機械密封基礎上增設甩砂結構,能夠有效防止軸承和軸瓦結構的磨損(表6)。
另外,以材料維要素替換機理維要素,考慮功能維、結構維和材料維等3個維度的創新要素,進而與智慧化、自服務和局部優化等法則耦合,同時進行規范化表達,同樣可挖掘潛在的技術創新機會。
④在軸承座底端過濾器增設磁性吸附裝置的技術創新機會確定。潛水電機的內部以鐵為基礎的雜質占65%以上,且多為硬顆粒,由此容易造成潛水電機軸承的磨損。對此,運用局部優化法則和智慧化法則分析發現,在軸承座底端過濾器增設磁性吸附裝置,能夠實現過濾裝置的局部優化和智慧化(表7)。
⑤改變潛水電機推力軸承承磨材料配對的技術創新機會確定。潛水電機推力軸承受到熱交變影響會產生推力軸承盤碎裂、龜裂等嚴重故障[26]。為保障潛水電機的長期可靠運行,運用局部優化法則分析發現,改變潛水電機推力軸承承磨材料的配對,能夠改善軸承材料的剛性以減少系列相關故障(表7)。

圖4 潛水電機多維技術創新圖譜
⑥采用F102潤滑軸承和特殊軸瓦材料的技術創新機會確定。潛水電機常用的設備運行方式包含立式、斜式和臥式運行,以適于不同的工作環境。開發立臥兩用潛水電機能提高產品的復用性以滿足不同的工況要求,但潛水電機臥式運行易受軸向力影響引起軸瓦結構磨損從而導致電機無法運轉[27]。考慮機理維的剛性要素,運用自服務法則分析發現,采用F102潤滑軸承和特殊軸瓦材料能夠保障材料的剛性(表7)。

表7 結合材料維的潛水電機潛在技術創新機會
4.3.1 潛水電機技術創新機會的新穎性評價
為了對上述標準化表達的潛在技術創新機會做出初步評價,應通過潛水電機的技術新穎性指標計算并排序,輔助企業進行創新機會抉擇。具體步驟如下:
(1)提取潛水電機的技術創新機會關鍵詞。借助jieba工具包對所得技術方案結果進行分詞和詞性標注處理,引入本研究建立的潛水電機技術領域用戶詞典,濾除對技術創新機會代表性較低的關鍵詞,僅保留其中的動詞與名詞部分,采用TextRank算法對各潛在技術創新機會方案提取出關鍵詞,具體如表8所示。
(2)計算潛水電機技術創新方案的技術新穎性評價值。根據公式(4)計算上述各關鍵詞的IDF值,然后根據公式(5)計算潛水電機的技術創新方案新穎性,得到每個方案的評價指標值。

表8 潛水電機潛在技術創新機會技術新穎性指標
由表8可知,技術方案新穎性指標值的比較結果為⑥>⑤>②>③>①>④。即采用F102潤滑軸承和特殊軸瓦材料的技術創新機會>改變潛水電機推力軸承承磨材料配對的技術創新機會>增設自動保護技術系統的技術創新機會>增設甩砂結構的技術創新機會>內水循環冷卻系統技術創新機會>在軸承座底端過濾器增設磁性吸附裝置的技術創新機會。
4.3.2 潛水電機技術創新方案分析結果驗證
為驗證上述結果的有效性,本文將上述各技術創新方案所對應創新維度的創新元素作為專利檢索的關鍵詞,由潛水電機領域的專家對檢索結果進行篩選,剔除與潛水電機技術無關的專利信息,專利信息庫中對應的專利數量越少,表明該技術創新方案的新穎性越高[28]。本次專利檢索平臺為國家知識產權局的專利檢索及分析平臺(http://pss-system.cni‐pa.gov.cn),檢索時間為2019年11月25日。
檢索結果表明(表9),本文提出的各技術創新方案的新穎性從高到低的排序依次為⑥、⑤、②、③、①、④,這與實際專利信息庫中的分布趨勢相符,從而驗證了該技術創新機會識別路徑的有效性。
本文首先利用LDA主題模型進行了專利挖掘,以快速提取關鍵技術創新要素;其次,在此基礎上,結合多維技術創新圖譜,構建了從海量專利信息中獲取技術創新方案的路徑;再次,通過Tex‐tRank-IDF專利新穎性指標,對提出的技術創新方案進行了創新機會識別評價;最后,以潛水電機的技術創新為例,驗證了該技術創新機會識別路徑的可行性,為企業高效開展技術創新活動提供了科學的決策依據。
本文的學術貢獻主要體現在以下兩個層面。
一是在技術創新機會識別階段。本文將LDA主題模型與多維技術創新圖譜有機融合,能夠快速在海量專利信息中通過主題聚類提取影響技術創新的關鍵要素,從而與創新法則迭代變換以識別潛在的技術創新機會。這不僅解決了以往主要依賴專家進行海量專利篩選受主觀因素影響較大的弊端以及效率較低等問題,而且彌補了單一使用LDA主題模型難以深入挖掘技術創新機會的不足。
二是在技術創新機會評價階段。本文提出了基于新穎性的技術創新機會評價方法,綜合應用Tex‐tRank-IDF新穎性評價方法,對標準化表達后的潛在技術創新機會的新穎性排序,驗證了本文構建評價方法的有效性,為企業更加客觀地開展技術創新活動提供了有益的參考和啟發。
然而,本文以潛水電機為例構建的技術創新機會識別路徑存在以下局限。
第一,有待于更為全面地考慮技術關鍵詞的選取問題。科學技術的日新月異使得各具體技術領域的細分日趨繁雜,急需領域專家構建對應的用戶詞典,建立更加完善的領域特征詞表,以避免遺漏專業術語(技術關鍵詞)現象的發生。因此,未來研究需要在更為完整的語料庫進行,以不斷提高研究結論的準確性。
第二,有待于更為全面地考慮技術創新機會的評價指標問題。雖然專利的新穎性是技術創造性和實用性的基礎,但并非衡量專利價值的唯一指標。因此,構建技術創新機會評價指標不能僅局限于新穎性,后續研究還應結合專利引文網絡分析,從實用性和經濟性等角度探究衡量潛在技術創新機會的系列指標。

表9 潛水電機創新要素檢索和相關專利