易成岐,郭 鑫 ,2,童楠楠,3,竇 悅,陳 東,王建冬
1.國家信息中心 大數(shù)據(jù)發(fā)展部,北京 100045
2.北京大學(xué) 信息管理系,北京 100871
3.中國人民大學(xué) 信息資源管理學(xué)院,北京 100872
當(dāng)今,世界新一輪科技革命和產(chǎn)業(yè)變革正在加速演進(jìn),以互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等為代表的新一輪信息技術(shù)不斷突破,深刻影響著全人類生產(chǎn)方式的進(jìn)步及思維模式的轉(zhuǎn)變。近年來,我國科學(xué)技術(shù)事業(yè)發(fā)展也取得了很大成就,科技創(chuàng)新能力顯著提升。在此背景下,我國既面臨著彎道超車的千載難逢歷史機(jī)遇,又面臨著差距繼續(xù)被拉大的嚴(yán)峻挑戰(zhàn)。因此,全面把握并精準(zhǔn)感知特定領(lǐng)域創(chuàng)新態(tài)勢(shì)至關(guān)重要,具有重要戰(zhàn)略意義和指導(dǎo)作用,從國家層面看,能夠有效分析創(chuàng)新領(lǐng)域的戰(zhàn)略布局、對(duì)比評(píng)估創(chuàng)新態(tài)勢(shì)發(fā)展差異、科學(xué)制定創(chuàng)新體系提升策略等;從企業(yè)層面看,能夠有效發(fā)現(xiàn)并挖掘創(chuàng)新技術(shù)的空白點(diǎn)、尋找更適合企業(yè)技術(shù)創(chuàng)新發(fā)展的切入點(diǎn)、形成更有針對(duì)性的企業(yè)二次創(chuàng)新活力。
專利作為國家自主創(chuàng)新成果的重要載體,是全社會(huì)科技創(chuàng)新研究成果和新技術(shù)產(chǎn)品研發(fā)的重要信息來源,專利數(shù)據(jù)分析不僅可以了解特定領(lǐng)域的技術(shù)水平和研發(fā)能力[1],還能對(duì)技術(shù)創(chuàng)新態(tài)勢(shì)進(jìn)行全面地研究和評(píng)估[2]。因此,如何科學(xué)有效地開發(fā)利用專利數(shù)據(jù)并提取出其背后蘊(yùn)藏的創(chuàng)新態(tài)勢(shì),是產(chǎn)業(yè)界和學(xué)術(shù)界共同面臨的熱點(diǎn)問題。
現(xiàn)有的研究成果主要集中在對(duì)專利的數(shù)量、引用和關(guān)聯(lián)關(guān)系開展分析[3],其中以專利數(shù)量的統(tǒng)計(jì)分析居多,即選取特定領(lǐng)域?qū)@纳暾?qǐng)時(shí)間分布、地域(例如國別、省份、城市等)分布、技術(shù)領(lǐng)域分布等進(jìn)行統(tǒng)計(jì),并開展橫向或縱向?qū)Ρ确治鯷4-5]。專利引用分析方法主要源于文獻(xiàn)計(jì)量學(xué),即對(duì)專利文獻(xiàn)之間的引文關(guān)系進(jìn)行探索,如Li等對(duì)專利引文網(wǎng)絡(luò)進(jìn)行分析,揭示了研究領(lǐng)域、機(jī)構(gòu)、國家之間的知識(shí)創(chuàng)新轉(zhuǎn)移過程[6]。專利關(guān)聯(lián)分析同樣關(guān)注專利之間的聯(lián)系,但其不局限于引文關(guān)系,還包括學(xué)科聯(lián)系、主題聯(lián)系以及專利主體間(例如國家、機(jī)構(gòu)、個(gè)人等)聯(lián)系等。例如,商琦等以專利主題聯(lián)系為切入點(diǎn),通過文本聚類得到區(qū)塊鏈的五類技術(shù)主干[7]。胡欣悅等以專利主體聯(lián)系為切入點(diǎn),通過社會(huì)網(wǎng)絡(luò)分析方法對(duì)華為公司各研發(fā)單元的空間分布及國際化合作網(wǎng)絡(luò)進(jìn)行分析,發(fā)現(xiàn)華為國際化研發(fā)網(wǎng)絡(luò)呈現(xiàn)以深圳和美國為中心的“核心—半邊緣”結(jié)構(gòu)[8]。
總體來看,目前對(duì)專利數(shù)據(jù)分析的研究主要集中在專利外部基本屬性信息的統(tǒng)計(jì)分析,如專利申請(qǐng)時(shí)間、所屬機(jī)構(gòu)、引用關(guān)系等,而基于專利內(nèi)容層面的研究并不多,且普遍不夠深入。
考慮到專利網(wǎng)絡(luò)作為復(fù)雜網(wǎng)絡(luò)中重要的組成部分,其具有社團(tuán)結(jié)構(gòu)特性。即專利網(wǎng)絡(luò)的整體由若干專利團(tuán)體組成,團(tuán)體之間的連接相對(duì)稀疏但團(tuán)體內(nèi)部的連接則相對(duì)稠密。因此,本研究擬基于專利文本數(shù)據(jù),深入到專利內(nèi)容層面構(gòu)建專利網(wǎng)絡(luò)并引入社團(tuán)發(fā)現(xiàn)模型[9],提出一種基于復(fù)雜網(wǎng)絡(luò)的創(chuàng)新態(tài)勢(shì)研判算法。該算法能夠有效結(jié)合圖網(wǎng)絡(luò)拓?fù)渲兴N(yùn)藏的結(jié)構(gòu)性關(guān)系,從專利網(wǎng)絡(luò)中解析得到多個(gè)子團(tuán)體及各子團(tuán)體特征,對(duì)創(chuàng)新態(tài)勢(shì)分析與研判具有十分重要的意義。
綜上,本文的主要貢獻(xiàn)及創(chuàng)新點(diǎn)主要包含以下三個(gè)方面:
(1)利用發(fā)明專利標(biāo)題和摘要等文本信息,通過測(cè)算專利之間的文本相似度,將專利文本數(shù)據(jù)轉(zhuǎn)換成為無向加權(quán)專利網(wǎng)絡(luò)圖。其中,為了緩解專利標(biāo)題和摘要短文本引發(fā)的文本向量稀疏問題,本文引入了非監(jiān)督的稀疏向量稠密化方法。在融合啟發(fā)式社團(tuán)發(fā)現(xiàn)模型的基礎(chǔ)上,本文提出了一種創(chuàng)新態(tài)勢(shì)研判算法。
(2)為了解決專利網(wǎng)絡(luò)構(gòu)建過程中的相似度閾值自動(dòng)化選擇問題,本文通過實(shí)驗(yàn)驅(qū)動(dòng)的方法,對(duì)比分析了專利網(wǎng)絡(luò)相似度閾值與專利網(wǎng)絡(luò)中常用統(tǒng)計(jì)指標(biāo)的變化關(guān)系,最終選用平均聚類系數(shù)這一指標(biāo)實(shí)現(xiàn)了最優(yōu)相似度閾值的自動(dòng)化判定,能夠?qū)崿F(xiàn)專利網(wǎng)絡(luò)構(gòu)建過程中的實(shí)時(shí)迭代自反饋效果。
(3)本文抽取了我國數(shù)字中國及大數(shù)據(jù)領(lǐng)域真實(shí)發(fā)明專利數(shù)據(jù)進(jìn)行了數(shù)據(jù)實(shí)驗(yàn),驗(yàn)證了方法的有效性并分析了數(shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢(shì),同時(shí)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了闡述及解讀。
基于發(fā)明專利題目和摘要等文本數(shù)據(jù),結(jié)合社團(tuán)發(fā)現(xiàn)模型分析創(chuàng)新態(tài)勢(shì)的基本思路如圖1所示,主要分為三個(gè)階段:

圖1 利用社團(tuán)發(fā)現(xiàn)模型分析創(chuàng)新態(tài)勢(shì)的基本思路
首先是專利本體階段,其中,V代表發(fā)明專利節(jié)點(diǎn),在此初始階段各發(fā)明專利相對(duì)獨(dú)立,每個(gè)發(fā)明專利節(jié)點(diǎn)包含專利申請(qǐng)?zhí)枴@麡?biāo)題、專利摘要、申請(qǐng)日期、公開日期、申請(qǐng)人、發(fā)明人等相關(guān)基本屬性信息。
第二階段為專利網(wǎng)絡(luò)構(gòu)建階段,利用發(fā)明專利標(biāo)題及其摘要等文本信息,通過測(cè)算發(fā)明專利之間的文本相似度,可根據(jù)專利之間的相似程度構(gòu)建專利間的相似邊E(下文會(huì)詳述專利網(wǎng)絡(luò)構(gòu)建方法及過程),因此,在此階段可將孤立專利節(jié)點(diǎn)構(gòu)建成為無向加權(quán)圖G。
第三階段為創(chuàng)新領(lǐng)域分析研判階段,在此階段可利用復(fù)雜網(wǎng)絡(luò)領(lǐng)域的社團(tuán)發(fā)現(xiàn)模型和網(wǎng)絡(luò)拓?fù)洳季炙惴▽?duì)無向加權(quán)專利網(wǎng)絡(luò)圖G進(jìn)行社團(tuán)結(jié)構(gòu)劃分,其中,社團(tuán)發(fā)現(xiàn)模型可以更準(zhǔn)確地自動(dòng)化理解專利網(wǎng)絡(luò)的組織關(guān)系、拓?fù)浣Y(jié)構(gòu)與動(dòng)力學(xué)特性。
通過測(cè)算發(fā)明專利之間的文本相似度,將特定領(lǐng)域的n條發(fā)明專利數(shù)據(jù)構(gòu)建為一個(gè)無向加權(quán)圖G={V,E,W}(|V|≤n)。其中,如果兩個(gè)發(fā)明專利的文本相似度超過一定閾值(閾值選擇策略詳見下節(jié)),則認(rèn)為兩者存在相似性關(guān)系,即兩條專利之間存在一條無向邊,否則無邊。G代表特定領(lǐng)域的發(fā)明專利網(wǎng)絡(luò)圖,V代表專利網(wǎng)絡(luò)圖G中的發(fā)明專利節(jié)點(diǎn),E代表發(fā)明專利節(jié)點(diǎn)間的無向邊;W代表發(fā)明專利之間無向邊的權(quán)重,權(quán)重值為文本相似度,取值歸一化至0~1之間。
其中,由于將n條發(fā)明專利轉(zhuǎn)換為無向加權(quán)圖G的時(shí)間復(fù)雜度為O(n2),為了節(jié)省運(yùn)算時(shí)間成本,本文只考慮利用發(fā)明專利標(biāo)題和摘要計(jì)算文本相似度,為了緩解短文本造成的文本向量稀疏化問題,本文采用一種非監(jiān)督的稀疏向量稠密化方法進(jìn)行相似度測(cè)算[10],區(qū)別于傳統(tǒng)余弦相似度計(jì)算方法中將專利標(biāo)題文本轉(zhuǎn)換為x=(x1,x2,…,xV)T和y=(y1,y2,…,yV)T兩個(gè)等長的詞向量(V代表詞表長度),本文首先將每條發(fā)明專利標(biāo)題重寫為非等長詞向量x={xa1,xa2,…,xanx}和 y={yb1,yb2,…,ybny},其中,ai和bj代表x和y向量中非零權(quán)重詞語的索引項(xiàng)(1≤ai,bj≤V),xai和ybj代表詞匯表中詞語的關(guān)聯(lián)權(quán)重,另外,假設(shè)x和y向量中分別存在nx和ny個(gè)非零權(quán)重詞語,則余弦相似度計(jì)算公式可改寫為:

其主要思想是,為了計(jì)算每個(gè)詞語之間相似性的平均相似度,可以較大程度地將發(fā)明專利標(biāo)題稀疏向量進(jìn)行稠密化處理,其中,?(ai,bj)代表非零權(quán)重詞語ai和bj之間的相似度。關(guān)于詞語稠密化表示方法,本文采用了淺層神經(jīng)網(wǎng)絡(luò)模型word2vec方法[11-12],其中,利用2016年1月至2019年4月期間365.3萬條國內(nèi)部分高新技術(shù)領(lǐng)域發(fā)明專利標(biāo)題及摘要文本數(shù)據(jù),采用默認(rèn)參數(shù)即窗口大小為5的CBOW(連續(xù)詞袋)模型進(jìn)行訓(xùn)練。對(duì)于每個(gè)詞匯,本文統(tǒng)一映射為200維的詞向量,考慮到RBF(徑向基函數(shù))本質(zhì)是一種相似度的測(cè)量,而且是在原始空間的相似度測(cè)量方式,因此本文使用RBF核函數(shù)作為后續(xù)實(shí)驗(yàn)中兩個(gè)詞向量a和b的相似度計(jì)算方法:

在構(gòu)建專利網(wǎng)絡(luò)的過程中,對(duì)發(fā)明專利相似度閾值δ的選擇尤為關(guān)鍵,會(huì)直接影響專利網(wǎng)絡(luò)密集或松散的程度,閾值越小代表符合閾值的專利節(jié)點(diǎn)篩選策略越寬松,會(huì)導(dǎo)致專利網(wǎng)絡(luò)擁有更多的節(jié)點(diǎn)及邊;閾值越大則代表專利節(jié)點(diǎn)篩選策略越苛刻,專利網(wǎng)絡(luò)則會(huì)擁有更少的節(jié)點(diǎn)及邊。但是由于相似度閾值δ并不是一個(gè)常數(shù),而是會(huì)受到專利領(lǐng)域分布范圍、專利數(shù)量多少等諸多因素影響,因此,本文擬將專利網(wǎng)絡(luò)的相似度閾值與專利網(wǎng)絡(luò)中常用統(tǒng)計(jì)指標(biāo)的變化關(guān)系進(jìn)行對(duì)比分析,希望能夠找到一種統(tǒng)計(jì)指標(biāo)實(shí)現(xiàn)最優(yōu)相似度閾值δ的自動(dòng)化判定,從而滿足專利網(wǎng)絡(luò)構(gòu)建過程中的實(shí)時(shí)迭代自反饋效果。
在此階段,本文通過以數(shù)據(jù)實(shí)驗(yàn)為驅(qū)動(dòng)的方法,對(duì)比分析了專利網(wǎng)絡(luò)相似度閾值δ與專利網(wǎng)絡(luò)平均度、平均路徑長度、平均聚類系數(shù)、網(wǎng)絡(luò)密度、介數(shù)中心性、緊密中心性、特征向量中心性、同配系數(shù)等復(fù)雜網(wǎng)絡(luò)中常用統(tǒng)計(jì)指標(biāo)的變化關(guān)系,分析發(fā)現(xiàn)專利網(wǎng)絡(luò)相似度閾值δ與平均聚類系數(shù)|C|的變化呈現(xiàn)線性關(guān)系,其中,部分專利網(wǎng)絡(luò)(我國數(shù)字中國領(lǐng)域?qū)@⒈本┦形鞒菂^(qū)專利、江蘇省高新技術(shù)領(lǐng)域?qū)@⑸钲谑懈咝录夹g(shù)領(lǐng)域?qū)@⒄憬「咝录夹g(shù)領(lǐng)域?qū)@┫嗨贫乳撝蹬c平均聚集系數(shù)對(duì)比關(guān)系如圖2所示。

圖2 部分領(lǐng)域?qū)@W(wǎng)絡(luò)相似度閾值與平均聚集系數(shù)對(duì)比
因?yàn)樵趶?fù)雜網(wǎng)絡(luò)中,如果節(jié)點(diǎn)V0與節(jié)點(diǎn)V1相連,節(jié)點(diǎn)V1與節(jié)點(diǎn)V2相連,那么節(jié)點(diǎn)V2有很大概率與V0相連。為了量化該特性,聚集系數(shù)也稱為聚類系數(shù),表示在復(fù)雜網(wǎng)絡(luò)中與同一節(jié)點(diǎn)相連的節(jié)點(diǎn)們互相連接的程度[13]。節(jié)點(diǎn)Vi的聚集系數(shù)Ci可以表示為:

其中,ki表示與節(jié)點(diǎn)Vi相連接的節(jié)點(diǎn)數(shù)量,ei表示節(jié)點(diǎn)Vi的ki個(gè)相連節(jié)點(diǎn)集合V={V1i,V2i,…,Vki}中存在互相連接的邊的數(shù)量。由式(3)可知,對(duì)于有向圖,ki個(gè)節(jié)點(diǎn)存在互相連接邊的數(shù)量上限為ki(ki-1),而對(duì)于類似于專利網(wǎng)絡(luò)的無向圖,ki個(gè)節(jié)點(diǎn)存在互相連接邊的數(shù)量上限為ki(ki-1)2。
通常平均聚類系數(shù)|C|能夠以全局視角量化復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)聚集程度[14]。平均聚集系數(shù)|C|定義為所有節(jié)點(diǎn)的聚集系數(shù)的平均值,取值范圍在0至1之間,可表示為:

其中,N代表復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)的數(shù)量,Ci代表節(jié)點(diǎn)Vi的聚集系數(shù)。
因此,可以在選擇相似度閾值過程中實(shí)時(shí)反饋專利網(wǎng)絡(luò)的平均聚類系數(shù)|C|值,將平均聚類系數(shù)|C|接近平滑時(shí)的臨界點(diǎn)所對(duì)應(yīng)的相似度閾值作為專利網(wǎng)絡(luò)的最優(yōu)閾值δ。
考慮到Modularity(模塊度)是一種衡量社團(tuán)發(fā)現(xiàn)質(zhì)量的評(píng)價(jià)方法[15],Modularity會(huì)保證基準(zhǔn)網(wǎng)絡(luò)與現(xiàn)有網(wǎng)絡(luò)有著相同的度分布的前提下,通過對(duì)比基準(zhǔn)網(wǎng)絡(luò)與現(xiàn)有網(wǎng)絡(luò)在相同社團(tuán)劃分后的連接密度來度量社團(tuán)發(fā)現(xiàn)算法的準(zhǔn)確程度,具有很強(qiáng)權(quán)威性,但由于計(jì)算Modularity屬于NP-完全問題,因此本文采用一種啟發(fā)式Modularity計(jì)算方法作為社團(tuán)發(fā)現(xiàn)模型[16],具體計(jì)算公式為:

其物理意義是計(jì)算專利網(wǎng)絡(luò)中同一社團(tuán)內(nèi)部邊的比例與同樣度分布下基準(zhǔn)網(wǎng)絡(luò)內(nèi)部邊比例的期望值之差。其中,m代表專利網(wǎng)絡(luò)中邊的數(shù)量,∑inside代表社團(tuán)C中內(nèi)部邊的數(shù)量,∑total代表劃入社團(tuán)C中節(jié)點(diǎn)的邊的數(shù)量,ki代表了與節(jié)點(diǎn)i相關(guān)邊的數(shù)量,ki,inside代表從節(jié)點(diǎn)i連到社團(tuán)C中節(jié)點(diǎn)的數(shù)量。
該算法主要思想是首先合并社團(tuán),并將每個(gè)節(jié)點(diǎn)單獨(dú)看作一個(gè)社團(tuán),基于Modularity增量最大化標(biāo)準(zhǔn)決定需要被合并的社團(tuán)。此外,將上一步驟已發(fā)現(xiàn)的所有社團(tuán)看成單獨(dú)節(jié)點(diǎn),并且構(gòu)建新的網(wǎng)絡(luò),重復(fù)運(yùn)行上述步驟后直到Modularity不再增長,則得到社團(tuán)發(fā)現(xiàn)的近似最優(yōu)解,專利網(wǎng)絡(luò)最終形態(tài)為G={V,E,C},其中C代表專利節(jié)點(diǎn)V所屬的特定社團(tuán)。
綜合上述分析,本文融合了稀疏向量稠密化文本相似度測(cè)算方法、專利相似度閾值選擇策略和啟發(fā)式社團(tuán)發(fā)現(xiàn)模型,提出了一種基于專利數(shù)據(jù)的創(chuàng)新態(tài)勢(shì)研判算法,如算法1所示。
算法1基于啟發(fā)式社團(tuán)發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢(shì)研判算法
輸入:特定領(lǐng)域?qū)@骷?xì)數(shù)據(jù)V={V1,V2,…,Vn}和初始閾值δ=0.1
輸出:已形成若干社團(tuán)的專利網(wǎng)絡(luò)G={V,E,C}
開始
1.FunctionpatentNetwork(V,δ)do//專利網(wǎng)絡(luò)構(gòu)建函數(shù)
2. fori:=1tondo
3. forj:=i+1tondo
4. 利用公式(1)和公式(2)計(jì)算Vi和Vj文本相似度sim(i,j);
5. ifsim(i,j)>δthen//判斷相似度是否大于閾值
6.V←Vi,V←Vj;//將Vi和Vj添加至專利網(wǎng)絡(luò)
7.E←Eij;//將Vi和Vj之間的邊添加至專利網(wǎng)絡(luò)
8. end if
9. end for
10. end for
11. 利用公式(4)計(jì)算當(dāng)前專利網(wǎng)絡(luò)的平均聚集系數(shù)|C|;
12.ifisSmoothing(|C|)then//判斷當(dāng)前|C|是否已平滑
13. 生成專利網(wǎng)絡(luò)G={V,E};
14. break;
15. else
16.δ+=0.1;
17.patentNetwork(V,δ);
18.end FunctionpatentNetwork(V,δ)
19. 利用公式(5)對(duì)專利網(wǎng)絡(luò)進(jìn)行社團(tuán)發(fā)現(xiàn)測(cè)算;
20. 輸出已形成若干社團(tuán)的專利網(wǎng)絡(luò)G={V,E,C}。
為了驗(yàn)證上述方法的有效性以及分析研判我國數(shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢(shì),本文從國家發(fā)展改革委大數(shù)據(jù)中心已掌握的專利明細(xì)數(shù)據(jù)中,抽取了公開日期為2016年1月至2019年4月期間國內(nèi)部分高新技術(shù)領(lǐng)域發(fā)明專利標(biāo)題及摘要文本數(shù)據(jù)作為基礎(chǔ)專利數(shù)據(jù)(共365.3萬條)。基于此數(shù)據(jù),利用大數(shù)據(jù)及數(shù)字中國領(lǐng)域關(guān)鍵詞對(duì)專利標(biāo)題及摘要文本進(jìn)行字符串精準(zhǔn)匹配,并將匹配到的專利數(shù)據(jù)利用前文所述基于啟發(fā)式社團(tuán)發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢(shì)研判算法進(jìn)行專利網(wǎng)絡(luò)建模。建模后得到我國數(shù)字中國領(lǐng)域?qū)@W(wǎng)絡(luò)共11 622個(gè)節(jié)點(diǎn)及81 120條邊,平均度為13.96。其度分布遵循著較好的冪律分布規(guī)律,如圖3所示。

圖3 我國數(shù)字中國領(lǐng)域?qū)@W(wǎng)絡(luò)度分布
此外,我國大數(shù)據(jù)領(lǐng)域?qū)@W(wǎng)絡(luò)共包含4 721個(gè)節(jié)點(diǎn)及47 521條邊,平均度為20.13。如圖4所示,由于大數(shù)據(jù)領(lǐng)域限定范圍相對(duì)更小,因此其度分布并沒有呈現(xiàn)十分明顯的冪律分布規(guī)律,更接近于伽馬分布。

圖4 我國大數(shù)據(jù)領(lǐng)域?qū)@W(wǎng)絡(luò)度分布
為使我國數(shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢(shì)顯示效果更直觀,本文利用Gephi[17]開源軟件對(duì)其進(jìn)行了可視化展示,并對(duì)社團(tuán)發(fā)現(xiàn)結(jié)果進(jìn)行了節(jié)點(diǎn)著色處理,同時(shí)采用度分布結(jié)果進(jìn)行了節(jié)點(diǎn)的大小調(diào)整,并利用Hu[18]提出的算法對(duì)其進(jìn)行了自動(dòng)化布局。其中每個(gè)社團(tuán)的標(biāo)簽是利用TF-IDF算法從社團(tuán)內(nèi)部專利標(biāo)題文本中提取具有代表性的關(guān)鍵詞所進(jìn)行的標(biāo)注,我國數(shù)字中國領(lǐng)域創(chuàng)新態(tài)勢(shì)圖譜最終可視化效果如圖5所示。
從圖5可以發(fā)現(xiàn),數(shù)字中國領(lǐng)域技術(shù)創(chuàng)新初步形成了人工智能與機(jī)器人、智能家居、數(shù)據(jù)存儲(chǔ)、控制系統(tǒng)、移動(dòng)終端、物聯(lián)網(wǎng)與傳感器、計(jì)算機(jī)、數(shù)據(jù)處理等8個(gè)創(chuàng)新社團(tuán),已形成以生產(chǎn)生活數(shù)字化為內(nèi)核,大數(shù)據(jù)技術(shù)為依托,人工智能(AI)、集成電路(IC)和物聯(lián)網(wǎng)(IOT)等“3I”技術(shù)為核心領(lǐng)域的數(shù)字中國技術(shù)創(chuàng)新格局。

圖5 我國數(shù)字中國領(lǐng)域創(chuàng)新態(tài)勢(shì)圖譜
通過計(jì)算平均最短路徑來量化社團(tuán)間的融合程度(平均最短路徑越數(shù)值越小則代表社團(tuán)間融合度越高),進(jìn)一步分析顯示,在應(yīng)用方面的核心領(lǐng)域(智能家居、控制系統(tǒng)、移動(dòng)終端)與幾大支撐部分(人工智能與機(jī)器人、物聯(lián)網(wǎng)與傳感器、計(jì)算機(jī)與智能硬件、數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)處理)的融合度均有不同。融合度測(cè)算對(duì)比結(jié)果如圖6所示。

圖6 三大核心領(lǐng)域與其他應(yīng)用領(lǐng)域的融合度對(duì)比
可以發(fā)現(xiàn),三大核心領(lǐng)域與人工智能、數(shù)據(jù)處理、計(jì)算機(jī)、物聯(lián)網(wǎng)等領(lǐng)域的平均最短路徑長度分別為5.31、5.81、6.01和6.29。其中,與人工智能領(lǐng)域的平均最短路徑長度最小,說明領(lǐng)域間的融合度最高;而與物聯(lián)網(wǎng)領(lǐng)域的平均最短路徑數(shù)值最大,則表示領(lǐng)域間融合度最低,這表明現(xiàn)階段與核心領(lǐng)域數(shù)字產(chǎn)業(yè)化融合較好的領(lǐng)域是人工智能領(lǐng)域,該領(lǐng)域?yàn)閿?shù)字經(jīng)濟(jì)產(chǎn)業(yè)落地注入了強(qiáng)勁的動(dòng)力。
此外,我國大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢(shì)圖譜如圖7所示,我國大數(shù)據(jù)領(lǐng)域創(chuàng)新呈現(xiàn)出以技術(shù)型專利為中心,逐步向應(yīng)用型專利擴(kuò)散態(tài)勢(shì)。其中,技術(shù)型專利涵蓋了大數(shù)據(jù)全生命周期的重要鏈條,呈現(xiàn)存儲(chǔ)、安全、檢索、計(jì)算、分析“五足鼎立”之勢(shì)。同時(shí),大數(shù)據(jù)分析方法創(chuàng)新正逐漸向人工智能方法延伸。另外,從圖7可知我國目前大數(shù)據(jù)采集領(lǐng)域?qū)@员容^匱乏,表明數(shù)據(jù)資源雖為大數(shù)據(jù)領(lǐng)域的重要基石,但目前大數(shù)據(jù)領(lǐng)域公開的采集方法仍相對(duì)較少。

圖7 我國大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢(shì)圖譜
本文基于發(fā)明專利文本明細(xì)數(shù)據(jù),通過非監(jiān)督的稀疏向量稠密化方法測(cè)算專利之間的文本相似度,并將其構(gòu)建成為無向加權(quán)圖,引入社團(tuán)發(fā)現(xiàn)模型提出一種基于啟發(fā)式社團(tuán)發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢(shì)研判算法。為解決文本相似度計(jì)算過程中閾值選擇問題,本文對(duì)比分析了專利網(wǎng)絡(luò)相似度閾值與復(fù)雜網(wǎng)絡(luò)中常用統(tǒng)計(jì)指標(biāo)的變化關(guān)系,最終選用平均聚類系數(shù)這一指標(biāo)實(shí)現(xiàn)了最優(yōu)相似度閾值的自動(dòng)化判定,從而實(shí)現(xiàn)專利網(wǎng)絡(luò)構(gòu)建過程中的實(shí)時(shí)迭代自反饋效果。基于上述算法對(duì)我國數(shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢(shì)分析發(fā)現(xiàn),我國數(shù)字中國領(lǐng)域創(chuàng)新初步形成了機(jī)器人、智能家居、數(shù)據(jù)存儲(chǔ)、控制系統(tǒng)、移動(dòng)終端、物聯(lián)網(wǎng)、數(shù)據(jù)處理等8個(gè)創(chuàng)新社團(tuán),并形成了以“3I”技術(shù)為核心領(lǐng)域的數(shù)字中國創(chuàng)新格局,應(yīng)用層面的智能家居、控制系統(tǒng)、移動(dòng)終端三大核心領(lǐng)域與人工智能領(lǐng)域的融合度最高(平均最短路徑長度5.31),而與物聯(lián)網(wǎng)領(lǐng)域融合度最低(平均最短路徑長度6.29)。此外,我國大數(shù)據(jù)領(lǐng)域技術(shù)型專利涵蓋了大數(shù)據(jù)全生命周期的重要鏈條,并呈現(xiàn)出以技術(shù)型專利為中心,逐步向應(yīng)用型專利擴(kuò)散態(tài)勢(shì)。
未來工作中,一方面可以基于專利網(wǎng)絡(luò)的時(shí)序演化特性研究基于時(shí)序變化的創(chuàng)新態(tài)勢(shì)預(yù)測(cè)方法,另一方面,由于當(dāng)前算法的時(shí)間復(fù)雜度仍相對(duì)較高,面對(duì)大規(guī)模發(fā)明專利數(shù)據(jù)時(shí)的處理時(shí)間仍然較長,可以進(jìn)一步研究該算法的時(shí)間復(fù)雜度壓縮方法。