文/趙爽 汪貽生 李睿
為探索軍事物流領(lǐng)域的研究熱點,利用TF-IDF算法和LDA模型對中國知網(wǎng)中2000-2020年間發(fā)表的1461篇軍事物流相關(guān)文獻進行文本挖掘。通過研究得到該領(lǐng)域的23個熱點詞和七大熱點主題,為軍事物流相關(guān)學(xué)者把握學(xué)科熱點提供參考。
軍事物流是為了滿足部隊平時供應(yīng)和戰(zhàn)時保障而產(chǎn)生的物流活動,隨著戰(zhàn)爭中物資需求的增加,軍事物流也得到了迅速發(fā)展,并成為了支撐國防和軍隊建設(shè)不可或缺的重要力量。因此,也吸引了大量學(xué)者對軍事物流相關(guān)問題進行研究,文獻數(shù)量增長迅猛。故本文選取中國知網(wǎng)中軍事物流相關(guān)論文進行深度挖掘,旨在探析軍事物流領(lǐng)域研究態(tài)勢與研究熱點主題,幫助相關(guān)學(xué)者和軍事物流相關(guān)從業(yè)人員更快的掌握學(xué)科熱點。
(一)研究方法
1、TF-IDF算法。較多學(xué)者在研究時選擇詞頻高的詞作為學(xué)科熱點詞,這一方法的弊端在于基礎(chǔ)性詞語的詞頻通常都很高,但無法全面反映學(xué)科熱點。TF-IDF算法可以解決這一問題,可以過濾掉一些常見的卻對文檔無關(guān)緊要的詞,同時保留影響整個文檔的重要詞。對于在某一文檔dt里的詞語ti來說,的詞頻(TF)可以表示為:

其中,ni,j是詞語ti在文檔dj中出現(xiàn)的次數(shù),分母是文檔dj中所有詞語出現(xiàn)的次數(shù),而對于某一詞語的IDF,計算公式如下:

將一個詞語的TF值與IDF值相乘即可得到該詞的TF-IDF值,該值越大,表示該詞對于文本的重要程度越大,成為主題詞的可能性越大。
2、LDA模型
LDA模型是一種用于文本挖掘的非監(jiān)督機器學(xué)習(xí)技術(shù),是包含詞、主題和文檔的三層貝葉斯概率模型,可以識別大規(guī)模語料庫中的主題信息。
每個文獻d看做一個詞語序列

就是以Topic作為中間層,得到文檔d中出現(xiàn)單詞w的概率。通過以上方法,可以得到某一數(shù)據(jù)集中的主題。
(二)數(shù)據(jù)來源。本文的實驗領(lǐng)域為軍事物流,數(shù)據(jù)采集時間段為2000—2020年,來源為中國知網(wǎng)。在高級搜索中,主題位置輸入“軍事物流”,文獻類型設(shè)定為中文。將文獻的標(biāo)題、時間、關(guān)鍵詞、摘要、作者等信息以EXCEL的格式導(dǎo)出,剔除掉重復(fù)以及信息不全的文獻,共計檢索出1461篇文獻數(shù)據(jù),構(gòu)成原始數(shù)據(jù)集。
(一)數(shù)據(jù)預(yù)處理。從原始數(shù)據(jù)集中選取標(biāo)題、關(guān)鍵詞、摘要作為語料來源。利用中文分詞工具Jieba進行分詞,為了讓機器能自動分割出利于研究的結(jié)果,在分詞中將軍事物流專有名詞加入到自定義詞典中,不進行拆分,共計得到6545個不重復(fù)詞。
(二)軍事物流領(lǐng)域研究態(tài)勢可視化分析。從原始數(shù)據(jù)集中選取出論文發(fā)表年份信息,統(tǒng)計每年發(fā)表的文獻數(shù)量,并繪制折線圖,其變化情況如圖1所示。

圖1 2000-2020年年度論文發(fā)表量變化趨勢
可以看出,在2000年軍事物流研究處于起步階段,相關(guān)文章僅有3篇,而后至2010年,呈現(xiàn)增長迅猛態(tài)勢,于2010年達到頂峰。通過瀏覽樣本文獻和相關(guān)書籍可以發(fā)現(xiàn),在2003年,王宗喜教授發(fā)表了一篇名為《加強應(yīng)急物流與軍事物流研究刻不容緩》的文章,文中提到在伊拉克戰(zhàn)爭中,美軍展現(xiàn)了其跨國軍事物流保障能力,并呼吁物流理論工作者要深刻反思并積極主動的進行研究。這篇文章激發(fā)了廣大學(xué)者對軍事物流的研究熱情,這也是2003年后發(fā)文量劇增的原因之一。而后,在2007年12月印發(fā)的《全面建設(shè)現(xiàn)代后勤綱要》中,第一次將“軍事物流”納入總部指令性文件,這一舉措讓更多的學(xué)者開始關(guān)注并研究軍事物流,將相關(guān)文獻發(fā)表量推向頂峰。2010年后發(fā)文量有所回落,慢慢趨于平穩(wěn),這說明軍事物流領(lǐng)域研究已經(jīng)逐步走向成熟,研究機構(gòu)和學(xué)者也逐步穩(wěn)定。
(三)軍事物流領(lǐng)域研究熱點分析
1.基于TF-IDF算法挖掘軍事物流領(lǐng)域熱點詞。將前文中的分詞結(jié)果作為研究對象,使用TF-IDF算法得到每篇文獻中最重要的10個詞,而后將從1461篇文獻中提取出的14610個主題詞進行詞頻統(tǒng)計并同義詞合并,選取頻次超過20的主題詞為軍事物流領(lǐng)域的熱點詞(結(jié)果如表1所示),因為“軍事物流”是本次研究的主題,所以不將其列入熱點詞中。

表1 2000-2020年軍事物流領(lǐng)域熱點詞
如表格所示:軍民融合、應(yīng)急物流、美軍、第三方物流、軍地物流一體化等23個主題詞均為2000-2020年間軍事物流領(lǐng)域的熱點詞,這些詞語相關(guān)的研究問題是學(xué)者們比較關(guān)注和重視或具有研究意義的問題。
2.基于LDA模型挖掘軍事物流領(lǐng)域熱點主題。由于一個熱點詞的含義較片面,無法構(gòu)成一個主題,如果能夠得到幾個主題詞組成的類團,就可以歸納總結(jié)出每個類團的主題內(nèi)容,因此得到研究熱點主題。對基于TF-IDF算法探索出的每篇文獻的主題詞,利用LDA模型進行主題挖掘。首先要確定主題數(shù),因為主題數(shù)目影響著LDA的性能,通過閱讀相關(guān)文獻并反復(fù)調(diào)試實驗結(jié)果,最終確定主題數(shù)為6。由于篇幅原因,這里我們只將與每個主題相關(guān)程度最高的前8個詞提取出來進行分析,并按強度高低排序,結(jié)果如表2所示。

表2 LDA模型主題挖掘結(jié)果
由于分散的主題詞無法直觀的表示熱點主題,所以根據(jù)主題詞與每個主題相關(guān)程度的高低,將每個主題研究的主要內(nèi)容進行概括歸納,如表3所示:

表3 2000-2020年軍事物流領(lǐng)域熱點主題
由上表可知,美軍軍事物流配送系統(tǒng)及相關(guān)技術(shù)、軍事物流配送中心選址、管理與物聯(lián)網(wǎng)技術(shù)應(yīng)用等七大主題為2000-2020年間軍事物流領(lǐng)域的研究熱點主題。
本文借助TF-IDF算法和LDA模型對中國知網(wǎng)中2000-2020年間軍事物流領(lǐng)域1461篇文獻進行研究熱點探析,繪制并解釋論文發(fā)表量趨勢變化折線圖。研究表明,軍民融合、應(yīng)急物流、美軍、第三方物流、軍地物流一體化等23個主題詞為研究時間段內(nèi)軍事物流領(lǐng)域的熱點詞;美軍軍事物流配送系統(tǒng)及相關(guān)技術(shù)等七個主題為研究時間段內(nèi)軍事物流領(lǐng)域的熱點主題。本文也存在不足之處:一是在抽取的主題數(shù)量上通過反復(fù)實驗確定,未通過定量計算得到最優(yōu)解,二是各個熱點主題是作者根據(jù)主題中的主題詞進行抽象總結(jié)的,具有一定的主觀性。