楊秀璋 武帥 夏換 于小民 范郁鋒



摘? 要: 研究了我國企業競爭情報的熱點主題和主題演化態勢,利用主題挖掘與主題演化方法系統梳理了我國企業競爭情報領域的研究成果。通過Python自動提取及預處理文獻數據,再利用共詞分析、LDA模型和知識圖譜挖掘該領域的核心科研群體和熱點主題,最后結合主題演化方法梳理企業競爭情報的發展脈絡。該研究可為企業競爭情報領域今后的相關探索提供借鑒,具有一定的應用價值。
關鍵詞: 主題挖掘; 主題演化; 企業競爭情報; 知識圖譜; 文本挖掘
中圖分類號:TP399? ? ? ? ? 文獻標識碼:A? ? ? 文章編號:1006-8228(2021)07-21-07
Research on topic mining and topic evolution of enterprise competitive intelligence
Yang Xiuzhang1, Wu Shuai1, Xia Huan2, Yu Xiaomin2, Fan Yufeng3
(1. School of Information of Guizhou University of Finance and Economics, Guiyang, Guizhou 550025, China; 2. Guizhou Key Laboratory of Economics System Simulation of Guizhou University of Finance and Economics; 3. Planning And Finance Office of Guizhou University of Finance and Economics)
Abstract: This paper researches on the situation of the hot topic and topic evolution of Chinese enterprise competitive intelligence, and systematically combs the research achievements in the field of Chinese enterprise competitive intelligence by using the methods of topic mining and topic evolution. The literature data are automatically extracted and preprocessed with Python, and then the core research groups and hot topics in this field are mined by using CO word analysis, LDA model and knowledge graph, finally the development context of enterprise competitive intelligence is combing with the topic evolution method. This research can provide reference for the future exploration in the field of enterprise competitive intelligence, and has certain application value.
Key words: topic mining; topic evolution; enterprise competitive intelligence; knowledge graph; text mining
0 引言
隨著經濟迅速發展,各企業之間的競爭變得越來越激烈,基于大數據和人工智能的企業情報分析技術變得尤為重要[1]。企業競爭情報正是在此環境下發展壯大,它不僅是企業對信息資源進行深度開發和利用的結晶,也是企業制定高質量戰略決策以及尋求科學發展所必須的情報知識[2]。當今社會,針對企業競爭情報的研究越來越多,主要集中于圖書情報、工商管理、計算機科學、金融學等領域。
學者們針對模型研究[3-4]、體系構建[5-6]以及對策研究[7]等不同視角進行探究,形成大量的學術成果。然而,現有研究仍然缺乏對企業競爭情報領域的學術成果進行系統地分析和梳理,沒有較好地利用主題挖掘和主題演化方法研究企業間的關聯關系,在熱點主題挖掘、科研群體發現和主題趨勢演化方面存在一定不足。鑒于此,本文提出了基于主題挖掘與主題演化的企業競爭情報分析方法,系統梳理我國企業競爭情報領域近三十年的研究成果,從海量學術成果中分析出我國企業競爭情報的核心科研群體和主流熱點主題,進而可以了解其主題脈絡及發展動態。
1 相關工作和研究框架
1.1 相關工作
我國關于企業競爭情報的研究起步相對較晚,但發展迅速,各學者在不斷豐富著該領域的研究方向,并取得一系列成果。
在基于機器學習的主題挖掘方面,李海林等[8]提出了基于時間序列聚類的主題發現方法,通過共詞分析和近鄰傳播聚類算法挖掘文獻主題;關鵬等[9]利用LDA主題模型和生命周期理論分析鋰離子電池領域的主題,解決了主題過濾、主題語義相似度計算和主題語義演化模式判別等技術問題;楊秀璋[10]結合LDA主題模型和文本聚類算法對中國知網的水族文獻進行主題挖掘;謝世敏和丁敬達[11]通過LDA主題模型和引文網絡挖掘科學信息交流主題,得出面向社會化眾包和大規模協同的科學信息交流將成為該領域的研究熱點。
在基于知識圖譜的主題挖掘方面,詹婧和張仁瓊[12]結合共詞分析、知識圖譜及戰略坐標分析的文獻計量學方法,挖掘高校圖書館知識服務的核心主題和潛在研究方向;呂紅[13]運用信息計量和可視化技術分析大數據領域,挖掘出企業競爭情報研究、大數據時代社會治理與公共服務創新等六大研究主題;黃先蓉和張窈[14]在共詞分析的基礎之上對“意識形態”相關文獻進行分析,區分出六大核心主題社區。
在主題演化方面,伊惠芳等[15]通過主題狀態、演化強度變化以及主題內容三維度進行對石墨烯技術全面分析;王凱利和李進華[16]結合共詞分析及聚類算法詳細分析了我國近十年的信息行為研究主題演化,最終推算出近五年的新研究熱點;何偉林等[17]提出了CSToT主題模型,分析國內情報學領域2012-2016年度研究主題結構以及演化過程;陳淋等[18]運用共詞分析、聚類分析以及戰略坐標圖等方法分析圖書情報學的研究主題演化生命周期符合常規學科的發展規律,并得出相應的研究熱點及前沿。
1.2 總體框架
本文旨在分析我國企業競爭情報的熱點主題和主題演化態勢。主要利用的方法包括LDA模型、共詞分析、知識圖譜和主題演化方法。其算法總體框架如圖1所示。
⑴ 利用Python語言和Selenium技術,抓取中國知網“企業競爭情報”關鍵詞相關的主題文獻。
⑵ 通過Python語言編寫自動化腳本,對所采集的語料進行預處理操作,涉及中文分詞、停用詞過濾、特征提取等,再將預處理后的語料存儲至數據庫中。
⑶ 結合共詞分析、LDA模型和知識圖譜,挖掘我國企業競爭情報文獻的核心科研群體和主題。
⑷ 基于詞頻和活躍度計算各階段主題演化趨勢,然后利用主題演化方法構建企業競爭情報主題的演化趨勢及發展歷程。
⑸ 最后利用可視化技術呈現我國企業競爭情報主題挖掘和主題演化的結果,并進行結論總結。
1.3 數據采集及預處理
通過Python和Selenium技術采集中國知網數據庫關于“企業競爭情報”的期刊文獻,其時間跨度為1987年至2019年11月,共計4311篇文章。文獻內容主要包括文章標題、出版期刊、文獻類型、出版年份、下載次數、引用次數、作者、摘要和關鍵詞等,詳細信息如表1所示。
近20年中國企業競爭情報文獻的數量呈先增長后降低的總體趨勢。其中,發文量的峰值位于2010年(347篇),篇均被引用量最高的是2006年,平均每篇文獻被引用9.42次;篇均下載量最高的是2007年,平均每篇文獻被下載352.70次。
文獻語料采集完成后,接著進行預處理操作。首先通過Python編寫腳本將缺失值補充,重復值刪除;然后利用Jieba工具進行中文分詞,導入關鍵詞和停用詞典進行數據清洗;最后進行特征提取、TF-IDF計算和共詞分析。通過預處理獲取質量更高的語料,從而提升實驗結果的準確率。
2 企業競爭情報主題挖掘分析
2.1 核心科研群體發現
企業競爭情報領域的核心科研群體發現的基本步驟如下。
⑴ 計算所采集的4311篇企業競爭情報期刊文獻的所有作者名單,共計4276名作者。
⑵ 構建學術成果作者間的共現矩陣,如公式(1)所示,當兩名作者合作完成一篇學術論文時,說明他們之間存在一定的關聯,共現數加1,否則共現數為0。共現次數越多,則合作關系越緊密。
[y=+1? ? a,b作者有共同發表論文0? ? ? a,b作者無共同發表論文]? ⑴
⑶ 采用Gephi繪制作者合作知識圖譜。該知識圖譜初始構建了2840個節點和3317條關系,將各科研團隊聚焦在一起。其中,圓圈代表發文作者,圓圈越大發文量越多,反之越少;連線代表作者間的合作關系,連線越粗合作次數越多,反之越少。
⑷ 計算每個節點的度和每條邊的權重,通過聚類算法最終發現多個核心科研團隊,形成了對應的關系知識圖譜。
圖2僅列出六個核心科研團隊。其中,圖2(a)是來自云南省科技情報研究所和昆明理工大學的彭靖里、楊斯邁團隊,主要研究方向為企業技術創新和競爭情報分析等;圖2(b)是來自中國科學技術信息研究所的陳峰、趙筱媛團隊,主要研究方向為企業管理和產業競爭情報分析;圖2(c)是來自南開大學的王知津、嚴貝妮團隊,主要研究方向為競爭情報、反競爭情報和企業戰略情報;圖2(d)是來自上海商學院和江蘇大學的吳曉偉、宋新平團隊,主要研究方向為人際競爭情報、企業管理和企業競爭情報;圖2(e)是來自武漢大學和武漢紡織大學的張玉峰、吳金紅團隊,主要研究方向為競爭情報分析、情報數據挖掘和企業管理;圖2(f)是來自南京大學和遼寧師范大學的宋繼偉、王曉慧團隊,主要研究方向為競爭情報分析、反競爭情報、企業危機管理和可視化分析。
2.2 基于LDA模型的主題挖掘
LDA(Latent Dirichlet Allocation)是一種無監督學習的主題概率生成模型,也被稱作三層貝葉斯概率模型,其是在pLSA模型基礎上增加貝葉斯架構模塊所形成的。
本文通過LDA模型主題挖掘實驗,發現其主題數設置為2效果最佳。最終形成如表2所示的主題分布情況,分別對應“競爭情報”和“企業”兩個核心主題。
2.3 基于知識圖譜的主題挖掘
通過構建主題關鍵詞的共現矩陣,結合知識圖譜可以進行企業競爭情報文獻的主題挖掘研究。通過分析發現:
⑴ 所有文獻共涉及關鍵詞4883個,關鍵詞總頻數為17927次,平均每個關鍵詞出現3.67次。常見的高頻詞包括“競爭情報、企業、企業管理、競爭情報系統、知識管理、中小企業”等,它們一定程度上反映了該領域的熱點主題。
⑵ 利用共詞分析方法計算各主題間的關聯性。當兩個關鍵詞同時出現在一篇文獻中,則認為共現并構建關聯邊,其邊所對應的權重加1;反之,兩個關鍵詞不存在共現關系,其權重為0。
⑶ 采用Ochiia系數法計算共現矩陣的相似度,其公式如式⑵所示,Oij為所求的共現系數,Cij是關鍵詞i和關鍵詞j共現總次數,Ci是關鍵詞i出現的總次數,Cj是關鍵詞j出現的總次數。
[Oij]=[CijCi×Cj]? ? ? ⑵
本文根據企業競爭情報文獻關鍵詞共現分析,得出高頻關鍵詞共現矩陣及其系數。根據關鍵詞共現頻次排名,“競爭情報”和“競爭對手”共現頻次最高,其值為113次,Ochiia系數為0.1712;“競爭情報”和“知識管理”共現103次,Ochiia系數為0.1674;“競爭情報”和“中小企業”共現91次,Ochiia系數為0.1522。
⑷ 針對已構建的關鍵詞共現矩陣,利用Gephi繪制企業競爭情報文獻的主題共現知識圖譜。最終繪制主題知識圖譜(圖3)。該社會網絡圖共包括341個核心節點,646條共現關系。由此可知,該領域形成了以“競爭情報”和“企業”為中心,其他主題詞逐漸向邊緣分布和擴散的態勢。其中以“競爭情報”為中心的共現網絡,與“情報收集、情報戰略、知識管理、戰略管理”等關鍵詞共現明顯,以“企業”為中心的共現網絡,與“企業管理、競爭情報分析、商業情報、中小企業”等關鍵詞共現明顯。
3 企業競爭情報主題演化分析
3.1 各時期主題演化度量
根據企業競爭情報文獻歷年的分布情況,將相關文獻劃分為四個階段,從而保證不同階段文獻數據的均衡性,更準確地開展主題演化研究。這四個階段分別是:①初步探索時期(2000年以前),該階段“企業競爭情報”剛被提出,文獻產量相對較少,共有237篇文獻。②緩慢成長時期(2000年至2007年),該階段企業競爭情報領域逐漸被認可,文獻產出數量穩步增長,共產出1437篇文獻。③快速發展時期(2008年至2013年),隨著全球金融危機出現,企業競爭情報成為了熱門話題,該階段的文獻達到了高峰1748篇文獻。④競爭放緩時期(2014年至今),隨著全球進入合作共贏時代,企業競爭情報研究進入放緩時期,共產出889篇文獻。
基于詞頻和活躍度計算出各階段主題演化的度量值,得出表3所示的結果。初步探索時期(2000年以前)用T1表示,其核心主題詞為“競爭情報”“企業”“企業管理”“情報研究”“競爭對手”“情報工作”和“市場經濟”;緩慢成長時期(2000年至2007年)用T2表示,其核心主題詞為“競爭情報”“企業”“企業管理”“企業管理”“競爭情報系統”“競爭對手”“知識管理”和“反競爭情報”;快速發展時期(2008年至2013年)用T3表示,其核心主題詞為“競爭情報”“企業”“競爭情報系統”“企業管理”“高校圖書館”“反競爭情報”和“知識管理”;競爭放緩時期(2014年至今)用T4表示,其核心主題詞為“競爭情報、企業、大數據、產業競爭情報、競爭情報系統、高校圖書館”和“企業管理”。
3.2 主題演化分析與歸納
通過計算四個階段各個主題的活躍度及出現頻次,從而確定每個時期的熱點主題,構建各階段主題演化的趨勢及發展態勢,最終得出如圖4所示的文獻主題演化趨勢。
由圖4可知,共包括四個時期,每個時期包含七個核心主題,用方框表示,各主題之間的連線表示主題演化的趨勢,方框和連線的寬度越大表示其熱門程序越高,反之越低。主題演化結論最終歸納為:“競爭情報”和“企業”為四個階段最熱門的兩個主題,引領著整個企業競爭情報領域的發展。在T1階段(2000年以前)出現了“情報研究”“情報工作”“市場經濟”新生主題,隨后第二階段消亡并融入“競爭情報”主題中;在T2階段(2000年至2007年)出現了“知識管理”“反競爭情報”“競爭情報系統”新生主題,該領域衍生出一部分從事知識管理、競爭與反競爭的研究;在T3階段(2008年至2013年)出現了“高校圖書館”新生主題,展現了高校情報研究逐漸得到重視;在T4階段(2014年至今)出現了“大數據”“產業競爭情報”新生主題,企業競爭情報研究逐漸融入大數據、人工智能、產業競爭、合作共贏等新興技術和概念。
4 結束語
針對我國企業競爭情報領域的4311篇期刊文獻,提出了基于主題挖掘與主題演化的企業競爭情報分析方法,系統梳理我國企業競爭情報領域近三十年的研究成果,有效彌補傳統方法不能有效地挖掘出情報文獻的研究熱點及核心科研群體,難以全面地把握企業競爭情報主題演化趨勢的不足。
實驗結果表明,本文提出方法能有效識別出企業競爭情報領域的熱點主題,發現核心科研群體,挖掘主題演化脈絡及趨勢。本文形成了六個核心科研團隊,挖掘出整個企業競爭情報領域是以“競爭情報”和“企業”為中心,呈交疊式、綜合式關聯的知識圖譜,從側面也反映了企業競爭情報主題具有多學科、綜合性的研究特點。同時,通過主題演化分析顯示,國內企業競爭情報文獻主題可劃分為四個階段,梳理了企業競爭情報領域各主題及其之間的發展脈絡和演化態勢。總之,本文提出的方法具有一定的應用前景和使用價值。
參考文獻(References):
[1] 石進,李益婷,劉千里.企業競爭情報態勢感知系統研究[J].情報雜志,2019.38(4):43-51
[2] 高國偉,欒澤權.企業競爭情報研究模型——以企業盡職調查為例[J].情報科學,2019.37(8):68-74
[3] 楊波,孫白朋.基于風險生命周期的企業反競爭情報機制模型構建[J].現代情報,2019.39(11):30-37
[4] 龔花萍,高洪新.基于領域本體模型的情景分析法在中小企業競爭情報中的應用研究[J].情報科學,2017.35(10):99-102
[5] 周海煒,劉闖闖,李藍汐,鄭力源.網絡信息安全背景下的企業反競爭情報體系構建[J].科技管理研究,2019.39(12):190-195
[6] 劉愛東,譚凱波.智慧城市競爭情報體系構建研究——以應對生態反傾銷為例[J].科技進步與對策,2018.35(24):123-126
[7] 儲節旺,陳善姍.開放創新環境下企業專利競爭情報分析的條件、困境及對策研究[J].情報理論與實踐,2019.42(6):10-16
[8] 李海林,鄔先利.基于時間序列聚類的主題發現與演化分析研究[J].情報學報,2019.38(10):1041-1050
[9] 關鵬,王曰芬,傅柱.基于LDA的主題語義演化分析方法研究——以鋰離子電池領域為例[J].數據分析與知識發現,2019.3(7):61-72
[10] 楊秀璋.基于LDA模型和文本聚類的水族文獻主題挖掘研究[J].現代計算機,2019.5:13-17
[11] 謝世敏,丁敬達.科學信息交流領域的研究主題和發展演化探析[J].圖書館學研究,2019.9:2-9,53
[12] 詹婧,張仁瓊.高校圖書館知識服務研究現狀及主題演化分析[J].圖書館工作與研究,2019.5:54-60
[13] 呂紅.國內人文社會科學視野下大數據研究力量布局與研究前沿識別[J].現代情報,2017.37(3):132-140
[14] 黃先蓉,張窈.我國新聞出版領域有關意識形態研究的主題結構及演化趨勢[J].出版科學,2019.27(6):1-7
[15] 伊惠芳,吳紅,李昌,冀方燕.基于主題生命周期與技術熵的石墨烯技術主題演化研究[J].情報雜志,2019.38(2):64-70
[16] 王凱利,李進華.近十年我國信息行為研究主題演化分析[J].情報科學,2018.36(6):105-112
[17] 何偉林,奉國和,謝紅玲.基于CSToT模型的科技文獻主題發現與演化研究[J].數據分析與知識發現,2018.2(11):64-72
[18] 陳淋,屈文建.基于共詞分析的我國圖書情報學研究主題演化分析[J].新世紀圖書館,2017.12:13-18