李世紀,沈有為,羅時鍇,尹若云,岳 麗
(1.合肥工業大學 管理學院,安徽 合肥230009;2.合肥工業大學 軟件學院,安徽 合肥230009)
創新能力作為一個企業評估創造核心競爭力、占領市場、獲得經濟利潤的重要衡量標準,在知識經濟時代,逐漸成為技術交易市場的核心問題,成為眾多學者研究分析的對象。而專利對于技術創新能力的評價是一項重要指標,其對于企業進行有針對性的技術創新戰略選擇和合理分配研發資源具有重要的理論和現實意義。
手機行業作為進入21世紀發展最為迅速的產業之一,行業整體呈現高活躍、快迭代的趨勢。
目前,國內手機市場主要被華為、小米、OPPO、ViVo四家企業占據,競爭十分激烈。各廠手機相關技術不斷地被研發出來,各自旗艦機型的差距也在逐步逼近,在某項領域的突破創新和企業自身創新能力對標同等級其他產品進行市場競爭已經成為主流方式。
本文以國內四家主流手機廠商為例,通過專利計量與專利文本的結合,運用LDA主題模型和基于熵值法的權重計算,建立一套客觀公正、清晰明了的企業創新能力評估方法體系,為手機市場和相關領域研究提供準確客觀的企業創新能力評估方法支持。
針對本項目所研究的手機行業創新能力的評估,在主流資源平臺十分少見,已有的研究主要分為對手機行業整體能力的評估、創新能力評估的方法和專利評估領域三個方面。
對于手機行業的評估,主要是基于波特五力模型和SCP模型等進行綜合分析評估。
對于創新能力的評估,國內一些學者對區域層面的科技創新評估進行了大量研究,崔俊富等針對科技領域創造力的評估主要集中在科技創新能力評估[1]。一些學者還針對具體領域的科學創新評估進行了研究。余本功等基于主題模型(LDA)和專利數據對汽車領域建立技術創新能力評價的方法體系[2];周劍等提出一套覆蓋制造業企業全局的量化融合評估體系和評價方法[3]。
在專利評估領域,國內主要集中于對專利價值影響因素做總體分析。而對于技術創新能力評價方面,國內外許多學者從不同的維度構建了企業技術創新評價體系。
統計主題模型自提出以來,在文本挖掘技術中得到了廣泛應用。它經歷了漫長的發展過程,已成功應用于許多重要領域。其中,LDA模型是主題模型的主要代表。
隨著互聯網技術的發展,互聯網上的數據呈指數式增長,研究人員如何從這些海量文獻中全面、快速、準確地識別出研究主題,并探索其演化趨勢,一直以來都是情報學的研究重點[4]。而文本挖掘技術是幫助科研人員從海量非結構化文獻中發現新興主題結構的途徑之一,LDA模型作為一種對文本信息進行語義抽取的主題模型,為科研人員進行文本主題挖掘提供了一種新方法。LDA模型廣泛應用于文本信息檢索、主題發現和演化、圖像處理、聚類、推薦系統、過濾系統、預測系統、資源標識等諸多領域。國內學者對LDA模型進行了比較深入的研究,已取得了較為豐富的研究成果。
LDA主題模型是一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構。其理論基礎為:每一篇文章都是由一定概率的主題構成,而這些主題又由一定概率的詞構成。基于這一理論,通過LDA主題模型可以得到文檔-主題以及主題-詞這兩個多項式分布。如圖1所示,其中M代表文檔的數目,K代表主題數目,Nm代表文本的長度,即文本中所包含的詞語數量。

圖1
通過LDA主題模型,可以快速準確地對文本進行主題提取,故選用LDA主題模型來進行專利文本數據的分析。
本研究以中國手機行業為實驗對象,根據國際數據公司(IDC)2015-2019年間的中國智能手機市場報告,選取這五年中國市場占有量最高的四家國產智能手機廠商——華為技術有限公司(華為)、OPPO廣東移動通信有限公司(OPPO)、維沃移動通信有限公司(ViVo)、小米科技有限責任公司(小米)為中國手機行業代表,專利數據來源為佰騰網。
根據IDC的報告顯示,2019年華為、OPPO、ViVo、小米的國內市場總占有率達到了自2015年以來最高的84.4%,故以2019年為截止點,選取2015-2019這五年的專利數據。由于專利的數量指標更偏重于已被授權的專利,故選取四家企業公開日在這五年的專利;而專利的內容指標更偏重于近期企業的研究方向,故選取申請日在這五年的專利。通過佰騰網,共檢索到這四家企業公開日在這五年間的發明公開、發明授權以及實用新型專利119061條,共獲得這四家企業申請日在這五年間的發明專利以及實用新型專利文本摘要71695條。
如圖2所示,本研究旨在從專利計量和專利內容兩個維度去評價手機企業的創新能力,其中專利的計量指標包括企業的發明公開數量、發明授權數量、實用新型數量、年申請量變化量、專利技術分布五項,專利的內容指標包括企業的創新關鍵詞數和企業的創新核心值。

圖2
專利的內容指標不同于專利的計量指標,后者可以通過專利的數據檢索直接獲得,而前者需要對專利的文本數據進行挖掘分析,其主要研究流程如圖3所示。首先獲得這四家企業五年間的中國專利數量以及專利摘要,對每家企業以及全行業的專利摘要進行數據處理。接著在Python環境下對每家企業以及全行業的專利摘要分別進行LDA主題提取,得到每家企業以及全行業的主題-詞分布。最后通過篩選全行業的主題-詞分布得出手機領域創新關鍵詞集合,計算每個創新關鍵詞的重要值,取每家企業的主題-詞分布與領域創新關鍵詞的交集,計算得到每家企業的創新核心值。

圖3
如圖4所示,在獲取到每家企業的專利計量指標和內容指標后,對各項指標進行標準化處理,計算出每家企業的各項指標比重,運用比重計算出各項指標的熵值,通過熵值得出各項指標的權重,最后計算得出每家企業的技術創新能力評價值。

圖4
通過佰騰網,可以檢索到華為、OPPO、ViVo、小米這四家企業的專利計量指標。其中專利數量選擇的是這四家企業公開日期為2015.1.1-2019.12.31的中國發明專利數、實用新型專利數和授權發明專利數;專利的變化趨勢選擇的是這四家企業申請日期為2015.1.1-2019.12.31的中國專利年申請量變化量均值;技術分布趨勢均值選擇的是這四家企業申請日期為2015.1.1-2019.12.31的中國專利中,B部、G部和H部專利所占比例的平均值。統計結果見表1所列。

表1
對于專利內容指標所需的數據,可以通過佰騰網,下載這四家企業申請日在這五年間國內發明公開、發明授權、實用新型專利摘要,并且過濾掉少于100字的摘要,共獲得83626條有效數據。在獲得這些有效摘要后,引入手機行業的專業術語表,并且建立停用詞表(其中主要包含一些無用詞匯),在Python環境下使用“JIEBA分詞”模塊,對摘要文本進行分詞處理。
在進行LDA主題模型聚類前,我們需要計算得到困惑度最低時的主題數。困惑度用來度量一個概率分布或概率模型預測樣本的好壞程度,在LDA主題模型中,困惑度最低時聚類的效果更好。在Python環境下,生成主題數-困惑度的函數圖。如圖5所示,整個手機行業的專利文本在主題數為16時,可使困惑度達到最小。

圖5
在獲得整個手機行業的主題數后,在Python環境下對所有的專利文本進行LDA主題聚類,每個主題保留出現頻率最高的前10個詞,共得到160個詞。其中,去除掉區域、位置、空間等單獨出現沒有意義的詞,去除掉硬件、終端等無法確定具體指向的詞,合并數據傳輸、傳輸數據等表意相同的詞,最后得到了28個手機領域創新關鍵詞。其中,有關于拍照的:圖像、像素、攝像頭;有關于充電的:電流、功率、電壓、電量、電池;有關于顯示的:顯示屏、觸控、亮度等。利用公式(1),分別計算得出每個手機領域創新關鍵詞Tj的重要值 (IT)j:

其中,K為對手機領域進行LDA主題聚類時的主題數目,即為16;P(iT)j為第j個關鍵詞在主題i中的概率;Ni為第i個主題中所包含的創新關鍵詞數量。
在獲得手機領域創新關鍵詞后,分別對這四家企業的專利文本進行困惑度計算,經過比對后,取主題數為26可使四家企業的平均困惑度達到最小。分別對四家企業的專利文本進行LDA主題聚類,選取主題數為26,每個主題數下保留前10個概率最高的詞,得到四家企業的LDA主題聚類結果。將每家企業的聚類結果與手機領域的創新關鍵詞比對,可以得到每家企業所包含的創新關鍵詞,根據公式(2)計算得出企業t在手機領域的創新核心值Ct:

其中,n表示手機領域的創新關鍵詞數,即為28;k為對每家公司進行LDA主題聚類時的主題數,即為26;h表示對每家企業進行LDA主題聚類時每個主題下詞的數目,即為10;R(iT)j表示手機領域創新關鍵詞Tj在主題i下,詞概率由高到低的排序。
計算結束后,可以得到每家企業的專利內容指標,其中包含創新關鍵詞數以及創新核心值,見表2所列。

表2
在得到企業的專利計量指標以及內容指標后,對所有的指標數據進行0-1標準化處理,見表3所列。

表3
利用公式(3)計算出指標j在公司i下所占據的比重:

其中Xij為表3中指標j在公司i的數值,其中m=4,n=7。各項指標在每家企業所占據的比重見表4。

表4
在得到各項指標在每家公司所占據的比重后,利用公式(4)計算指標j的熵值:

其中m=4,n=7。
在得到各項指標的熵值后,利用公式(5)計算指標j的權重:

其中n=7。
經過計算,各項指標的熵值ej與權重aj見表5所列。

表5
得到各項指標的熵值與權重后,根據公式(6)計算企業i的技術創新能力評價值。

四家企業的技術創新能力評價值見表6所列。

表6
根據最后的企業技術創新能力評價值,我們可以發現維沃移動通信有限公司(ViVo)這幾年間的專利數量雖然少于小米科技有限責任公司(小米),但其技術創新評價值高于小米。
對比中國人民大學企業創新課題組發布的《2019中國企業創新能力百強排行榜》[5],其中華為技術有限公司(華為)、OPPO廣東移動通信有限公司(OPPO)、維沃移動通信有限公司(ViVo)、小米科技有限責任公司(小米)分別位列第一、第三、第六、第十,這與我們的研究結果非常相似,唯一的偏差在于華為與OPPO的排名。根據佰騰網的檢索顯示,華為公開日在2015-2019年間的世界發明專利有41835條,而其中中國發明專利為27603條,由于華為擁有很大一部分國外的專利,而我們只針對了中國發明專利進行研究,所以導致了實驗的誤差。
我們可以發現,評價一家企業的創新能力不僅僅要從企業的專利數量出發,而應該結合專利的內容,從專利計量和專利內容兩個維度去評價。專利的內容從一定層面上可以反映出企業的研究方向是否與整個行業一致,只有在對的方向上做更多的事,才能更加有效而持續地創新。