羅棋 閔超 顏嘉麒等



DOI:10.3969/j.issn.1008-0821.2021.09.016
[中圖分類號]TP311 [文獻標識碼]A [文章編號]1008-0821(2021)09-0157-10
自2008年中本聰(Satoshi Nakamoto)發表《Bitc-oin:A Peer-to-Peer Electronic Cash System》以來,各界研究人員對其底層核心技術——“區塊鏈”的探索和研究熱情水漲船高,由于其“可追溯”“防篡改”等特性,它在其他領域的重要程度日益凸顯。但在這種備受各界學者關注的情況下,王江等指出,雖然我國在區塊鏈研究方面生產力占據世界第一,然而最具有影響力的區塊鏈研究的來源期刊、論文、作者等都來自于國外,因此,把握國際學者對于該領域的研究現狀及熱點主題的演化,有利于我國的學者發現研究新趨勢,學習和借鑒有益成果,為我國的“區塊鏈”研究提供參考。
1區塊鏈主題的相關科學計量研究及其不足
近些年來,學界有許多關于區塊鏈研究現狀、研究熱點以及主題演化等方面的研究。Firdaus A等以Scopus數據庫收錄的2013—2018年的區塊鏈相關文章為研究對象,運用文獻計量的方法進行分析,發現最活躍的國家是美國,其次是中國和德國。Dabbagh M等分析了Web of Science數據庫中2013—2018年的相關論文,指出了其主要學科分布包括:計算機科學、工程學、電信學、商學、經濟學等。王發明等選取“CNKI期刊庫”2015—2017年5月的論文,使用Cite Space可視化工具,從關鍵詞、作者共現等角度,分析了我國區塊鏈的研究熱點,該研究認為我國區塊鏈領域尚處于探索期,并且將熱點主題概括為基礎研究和應用研究兩個方面。汪園等也運用Cite Space可視化工具,對2015—2017年的相關文獻進行了分析,從文獻類型(科普評論類、探索研究類)、期刊分布、學科分布等方面對區塊鏈相關研究進行描述總結。花敏等通過對2015—2019年CNKI數據庫和WOS數據庫相關文獻的對比分析,從發文量、高產機構等多個角度展開,該研究認為中國和美國是兩個開展區塊領域研究的主力國家,2015—2019年,我國在區塊鏈領域發表的外文文章的數量始終高居榜首并迅猛增長。但是正如王江等的發現,最具有影響力的區塊鏈研究的來源期刊、論文、作者等都來自于國外,所以本文以國際區塊鏈研究為研究對象,分析其熱點主題演化情況,以期為我國學者提供借鑒參考。
當前研究大多以科學數據庫中的文獻及引文數據為研究對象,特別是關鍵詞,使用文獻計量的方法及工具,特別是關鍵詞共現分析,從作者、期刊及機構等角度分析區塊鏈研究熱點。但是題錄數據中,摘要包含的信息沒有得到有效的利用,僅僅靠關鍵詞只能反映文章的大致方向,難以挖掘其隱含的語義信息。
LDA(Latent Dirichlet Allocation)主題模型能夠很好地解決這一問題,通過抽取摘要中隱含的主題信息,為后續研究提供研究主題分布上的參考。Chen H等運用LDA模型對截至2015年發表在MIS Quarterly等3本信息系統領域頂級刊物上的文章進行了主題建模,深入分析了信息系統領域的研究問題,以及各研究問題間的關聯。趙紫鵑等運用LDA模型對“第十三屆全國復雜網絡大會”的會議摘要文本進行了文本挖掘,得到了10類研究主題。李躍艷等選取SIGIR會議論文為研究對象,使用LDA模型,分析了近10年信息檢索領域的研究熱點與演化趨勢。可見,使用LDA主題模型探究某具體領域的熱點主題可以從更細的粒度分析推斷文章內容,挖掘隱含的語義信息,得到更加細致的結論,因此,本研究采用LDA主題模型來挖掘國際區塊鏈領域研究的熱點主題,并分析其隨時間演化情況,以期為我國學者把握研究前沿和熱點提供參考。
2模型與方法
本研究以Web of Science核心合集SCI-EX-PANDED和SSCI中區塊鏈相關的文獻數據作為數據來源,根據研究目的對其進行清洗,保留對分析有用的字段,使用LDA主題模型對文獻的研究內容(標題、摘要、關鍵詞)進行主題挖掘,計算困惑度以確定最優主題數,根據高概率的詞對主題進行標注;并計算主題強度,劃分出熱點主題,并按時間窗口進行離散化處理,分析熱點主題隨時間的演化情況。本研究整體框架如圖1所示。
2.1 LDA主題模型
挖掘科研文獻主題的方法有很多,傳統的詞頻分析或者共詞分析的方法也可達到揭示科研文獻數據集的研究主題的目的,但是關鍵詞之間可能存在“共生現象”,可能有多個高頻的關鍵詞同屬于一個主題,導致詞頻較低的關鍵詞所屬的主題難以發掘。并且傳統的方法以關鍵詞為研究對象,本身損失了很多語義信息(例如摘要中包含的信息),只能大致反映文章的方向,難以挖掘其隱含的語義信息,分析文本的規模也有限。而主題模型的出現,較好地解決了這一問題,不僅能夠處理大規模的文本數據,還能挖掘出語料中潛在的語義信息,因此,本文采用LDA主題模型來挖掘國際區塊鏈研究的熱點主題。
(Latent Dirichlet Allocation,LDA)潛在狄利克雷分配模型,是一種常見的主題模型,2003年由Blei D M等共同提出。可以認為LDA是PLSA(Probabilistic Latent Semantic Analysis,概率潛在語義分析)的拓展,LDA使用了先驗分布,克服了學習過程中的過擬合問題。該模型假設:①主題由詞的多項分布表示;②文檔由主題的多項分布表示;③主題一詞分布和文檔—主題分布,兩者的先驗分布都是狄利克雷分布。借由狄利克雷分布是多項分布的共軛先驗分布這一特性,可以通過觀測的單詞序列,推斷出文檔—主題分布和主題—詞分布,挖掘出隱含的主題層,其生成過程如圖2所示。
LDA模型將代表文本的詞頻向量(文檔—詞頻矩陣)作為輸入,通過迭代輸出推斷出的文檔—主題分布、主題—詞分布,即每個文檔由各個主題生成的概率、每個主題包含各個詞的概率。圖2中的節點表示隨機變量:實心節點表示觀測變量,空心節點表示隱變量;有向邊表示概率依存的關系;矩形板塊表示重復,板塊內數字表示重復次數。圖2中使用的符號及其含義如表1所示。
LDA主題模型的參數估計過程其實就是根據觀測變量的取值估計隱變量的值,其參數估計的方法主要有3種,分別是:吉布斯采樣算法(Gibbs Sampling)、變分推斷算法(Variational Bayesian In-ference)和最大期望算法(Expectation Maximiza-tion),張健偉通過實驗發現,期望最大算法在某些關鍵的預測能力指標上(例如:預測混淆度)優于其他兩種算法,并且可以在較短的時間內收斂,因此本研究采用期望最大算法來進行LDA主題模型的參數估計。
2.2熱點主題挖掘及演化分析
熱點主題的挖掘,即判斷某主題是否為熱點主題有一個主要依據的指標——主題強度。該指標專用于描述一個主題的熱門程度,另一關鍵指標是主題強度閾值,如果某主題強度高于閾值則認為該主題為熱門主題,反之則非熱門主題。關于主題強度的計算,孫孟孟在其學位論文中進行了詳細的討論。主要有以下3種方法:①基于主題支持文檔數量;②基于語料庫中主題概率;③基于文本主題顯著性。3種計算方法各有特點,比較常用的是第2種基于語料庫中主題概率的方法,孫孟孟只給出了偽碼,吳查科等將其提煉,具體公式為:
第一階段,為了得到較為可靠的數據,本研究選擇了Web of Science核心合集中的SCI-EXPAND-ED和SSCI作為數據來源,選擇其中的“主題”字段,檢索式為TS=“Blockchain$”or TS=“Block Chain$”,時間段是2008—2020年,文獻類型為Article和Review。檢索策略制定的原因如下:①時間:之所以選擇2008年作為起始時間,是因為區塊鏈的概念于2008年中本聰(Satoshi Nakamoto)的《Bitcoin:A Peer-to-Peer Electronic Cash Sys-tem》(常譯作“比特幣白皮書”)一文中首次提出,之前并未有這個詞匯;②檢索式:中本聰提出“區塊鏈”時稱之為“Chain of Blocks”,經中文翻譯為“區塊鏈”,后學者多用“Blockchain”作為其英文稱謂,但是也有部分學者使用“BlockChain”,結合各自的單復數形式,所以采用此檢索式,共收集到3675篇文獻(檢索時間為2021年1月3日)。
第二階段,通過所屬學科的過濾,和對文獻的摘要閱讀,分析其是否與“區塊鏈”主題相關,比如:學科類別為“PHYSICS PARTICLES FIELDS”(物理粒子場)的文章《A Muhipoint Conformal Block Chain in d Dimensions》經過對其摘要的閱讀,與“區塊鏈”并無關聯,便將此篇文獻剔除。用相同方法過濾了與“區塊鏈”主題無關的文獻,經過初步篩選得到3522篇文獻;接著將年份和國別等關鍵字段缺失的文獻剔除,得到最終文獻集3211篇,下面將使用此文獻數據集進行進一步的主題挖掘與分析。
3.2研究主題分析
欲深入探究國際區塊鏈領域的研究內容,挖掘其潛在的語義信息,需要借助LDA模型從摘要數據集中抽取主題,發現熱門主題,參考馬永紅等的研究框架,本節研究具體的分析處理框架如圖4所示。
3.2.1文本預處理
對科學文獻數據集進行LDA主題建模的預處理一般步驟包括:①提取文獻的“摘要”字段:②分詞;③去除停用詞;④構建“文檔—詞”矩陣。本研究基于以上步驟,且為了提升LDA主題模型的聚類效果,進行了以下4步處理:
1)將文獻的“標題”“摘要”“關鍵詞”合并作為待分析文本,由于3.1數據采集與整理得到的3211篇文獻中有56篇文獻缺失了“摘要”數據,為了在更大程度上保留原有的信息,本研究不剔除缺失的記錄,而是參考Chen H等的做法,將“標題”“摘要”“關鍵詞”合并后作為一個整體而后進行分詞,分詞后獲得的詞的集合用于下一步處理。
2)在“去除停用詞”步驟時,除了使用R語言中Tidytext包默認的停用詞,也根據主題建模的結果反饋,將“主題—詞分布”中無意義的高頻詞匯(例如:“Paper”)加入“自定義停用詞表”,排除其對結果的干擾。
3)加入了“詞干提取”步驟:由于許多詞匯含義相同,卻擁有不同的形式(單復數、詞性等),造成詞頻過于分散,影響聚類效果,所以提取真正代表其含義的詞干,降低稀疏性。
4)在構建“文檔—詞”矩陣之前,先使用TF-IDF(Term Frequency-Inverse Document Frequen-cy)得分對詞匯進行篩選,將不重要的詞匯剔除,減少詞項(特征數目),降低“文檔一詞”矩陣的維度,提高聚類效果。實際操作時,通過多次實驗,發現每個文檔取TF-IDF得分前20的詞匯,維度損失較少,聚類結果較好。
3.2.2確定主題數
主題模型中主題數目是一個關鍵參數,但是關于如何確定主題數目,學者們眾說紛紜,主要有兩大類方式:①Blei D M等提出的困惑度(Per-plexity)的方法,該指標反映了模型的擬合程度,困惑度越小,模型的擬合程度越好,可以通過多次實驗找到其極小值的方法來確定主題數目;②計算“主題相似度”的方式,常見的有計算Jensen-Shan-non散度(JS散度)的方法,關鵬等對其做了詳細的研究,當主題數接近最優值時,JS散度較小,反之則較大。綜合前人的研究,本研究采用學者使用較多的困惑度的方式來確定最優主題數。
使用R語言中的Topicmodels包進行主題建模,主題數目的變化區間為[2,30],計算的結果如圖5所示。從圖像可以看出,當主題數目小于8時,隨著主題數目的增加,困惑度不斷減小,擬合效果越來越好;當大于8時,困惑度逐漸穩定在高點;所以,本研究確定的最優主題數為8。
確定最優主題數為8之后,代入LDA模型,使用期望最大算法估計參數取值,最終得到“文檔—主題分布”和“主題—詞分布”。各個主題中概率較高的特征詞如表2所示。
根據上表中展示的高概率特征詞,對每個主題進行“命名”(標注),然后結合“文檔—主題分布”對命名結果進行驗證。例如:Topicl中概率較高的詞是“Blockchain”“Vehicl”“Secur”“Net-work”,根據詞干的提示,可以將其命名為“區塊鏈”+“車聯網安全”,然后將文檔按照由Topicl生成的概率進行排序,概率較高的3篇代表性文獻分別是《A Blockchain Based Certificate Revocation Scheme for Vehicular Communication Systems》《Physical Layer Security of Autonomous Driving:Se-cure Vehicle-to-Vehicle Communication in A Security Cluster》《Blockchain-Based Dynamic Key Man-agement for Heterogeneous Intelligent Transportation Systems》,經過對其閱讀研判,確為研究“區塊鏈”在“車聯網安全”方面應用的文章,印證了標注的準確性。按照此模式分別對8個主題進行標注,結果如表3所示。因為本研究對象為國際區塊鏈研究,為了簡便起見,后文在提到主題標注時,將省去“區塊鏈+”。
3.2.3熱點主題挖掘
僅僅對主題進行標注是不夠的,還需要根據主題強度對熱點主題進行挖掘,為我國學者研究選題提供參考。根據式(2)得出主題強度閾值為0.125,根據公式1計算出各個主題的主題強度,具體的結果如圖6所示。
從圖中可以看出,Topic2、Topic5、Topic6、Top-ie7的主題強度值高于主題強度閾值,屬于“熱門主題”,下面結合有代表性的論文對熱點主題逐個進行解析。
1)Topic2(醫療健康領域):
醫療健康領域隨著老齡化的發展,越來越受到各國的關注,但是醫療健康是一個復雜的系統,至少需要三方的參與:醫療服務的核心提供方(醫生、護士等)、關聯服務提供方(醫學研究、保險等)、醫療服務的用戶(病人、公眾等)。這樣一個多方參與的系統,其中數據的管理共享、隱私保護的問題亟待解決,催生了大量相關研究:DhagarraD等試圖通過區塊鏈技術構建一個綜合的醫療保險框架來整合碎片化的健康記錄,改善醫療服務的均衡性;Zhang P等構建了一個基于區塊鏈的去中心化應用程序來進行安全和可擴展的數據共享,協助臨床診斷。
2)Topic5(數據隱私保護):
隨著云存儲等技術的不斷發展和云服務提供商的涌現,極大地降低了用戶存儲數據的成本,但是云服務提供商能否對數據的安全和隱私保護負責,始終是一個困擾用戶的難題,“棱鏡門”事件、“夜鶯計劃”等隱私泄露事件層出不窮。這一關鍵問題吸引了大量學者研究:Huang P等提出了一種協作審核的區塊鏈框架,引入了共識節點代替單個的第三方,試圖解決數據所有者和云服務提供商之間的信任問題;Yang X等則利用區塊的不可預測性構造挑戰信息,來防止惡意的審核第三方和云服務器串通。
3)Topic6(能源交易與共識算法):
能源問題特別是電能的分布式整合問題長久以來困擾著工業界和學界,隨著區塊鏈技術特別是其實用共識算法的出現,使得分布式的整合和配電成為可能,越來越多的框架被提出并進行了小范圍的試點:Hayes B P等提出了一種配電網絡和本地對等能源交易平臺結合的仿真方法,采用基于區塊鏈的雙拍賣機制,使用歐洲郊區的配電網案例演示了該方法;Cai W等將傳統的拜占庭容錯算法改進,大大提高了交易速度,使其適用于能源領域實時處理交易的需求。
4)Topic7(物聯網安全):
包括射頻識別技術(RFID)、傳感器技術在內的物聯網技術的飛速發展,也產生了許多網絡常見問題,易受攻擊、劫持,安全性和網絡性能都面臨考驗,學者們運用區塊鏈技術提出了多種方法來提高物聯網的安全性并保障其網絡性能:Rathore S等利用區塊鏈提供分散式的攻擊檢測,來緩解現有架構中的“單點故障”問題;Sahay R等運用區塊鏈上的智能合約來生成實時警報,能夠有效地識別被篡改的節點。
花敏等的研究表明,國外區塊鏈領域的三大研究熱點為“智能合約”“物聯網”“隱私問題”,也印證了本文的研究發現,但是囿于其采用的關鍵詞聚類方法,對語義信息損失較多,無法對熱點領域進行更深入的分析,本研究由于采用LDA主題模型,可以挖掘篇名、摘要和關鍵詞中的語義信息,能夠從更細的粒度上挖掘發現熱點主題。
3.2.4主題演化分析
根據后離散方法,離散到各個年份后,計算了各個主題對應的主題強度,結果如圖7所示,由于數據源中2010年和2011年沒有“區塊鏈”相關的文章,所以圖示中跳過了該年份。圖中橫坐標表示年份,縱坐標表示主題強度值,柱體的高度反映主題強度的大小。
通過圖7可以發現,隨著時間的推移,堆積圖從原有的單調的幾個顏色,開始變得色彩豐富,即區塊鏈研究從原有的僅涉及其技術本身的研究,如:Topic4(加密貨幣)、Topic5(數據隱私保護),開始向其他領域如Topic2(醫療健康)等進行滲透和拓展。這也向我國研究學者提出了更高的要求:除了在區塊鏈底層技術(如:共識算法等方面)發力,也要重點關注區塊鏈技術在其他領域(如:醫療健康等)的融合拓展研究。除了整體的趨勢變化,其中Topic3、Topic4隨時間演化特點較為明顯,下面詳細進行分析
1)Topic3(商務智能合約):
2013年,以太坊白皮書的問世,使人們看到了區塊鏈的應用潛力,不只是可以分布式記賬,還可以部署合約,把區塊鏈帶人了2.0時代,“智能合約”開始受到廣泛關注,從圖中也可以看出從2013年開始,代表“智能合約”的Topic3(灰色)相關文章開始出現。Chang S E等從信用支付的角度,研究了區塊鏈技術在國際貿易過程中的適用性;Eenmaa-Dimitrieva H等從合同法學者的角度出發,倡議使用智能合約來提供比傳統交易更便宜快捷的交易服務。
2)Topic4(加密貨幣):
Topic4比較有代表性,“加密貨幣”是區塊鏈的傳統主題,區塊鏈正是由中本聰于2008年在比特幣白皮書中首次提出,所以在2008年的時候主題強度比較高,但是隨著區塊鏈在其他領域應用研究的蓬勃發展,漸漸勢微,但是2015年以來,隨著以太坊(ETH)、門羅幣(XMR)、達世幣(DASH)等多種加密貨幣的涌現,使得公眾對加密貨幣的關注度空前提高,學界也從其安全性、經濟性等多角度開始了如火如荼的研究:Wu Y等提出了一種識別可疑比特幣地址的框架,可以發現犯罪網絡并提供可視化功能:Bousfield D從經濟學和網絡演化的角度對加密貨幣,特別是比特幣及其替代貨幣的持久性和可行性進行了分析。
本研究還參考王發明等對于區塊鏈應用研究的劃分,將區塊鏈應用研究劃分為3大類型,也將挖掘出的主題與之對應:①區塊鏈1.0,諸如虛擬數字貨幣等對于區塊鏈的傳統應用(對應Topic4加密貨幣);②區塊鏈2.0,主要涉及智能合約的使用,例如在證券登記、期貨、票據等金融市場的應用(對應Topic3商務智能合約);③區塊鏈3.0,區塊鏈在其他更廣闊的領域的應用,特別是用于解決各領域的信任、共享等問題(對應其余的6個主題)。不難發現,上述兩個演化特點明顯的主題,正是代表了區塊鏈1.0和區塊鏈2.0的演化特點。為了解析當今學界對于各個類別研究的占比情況,將2020年各主題強度求和,代表各個類別的應用研究的熱度,結果如圖8所示。
從圖中可以看出,如今對于區塊鏈的研究已經不只局限于諸如“加密貨幣”“智能合約”等傳統領域,而是拓展到其他領域,正如對圖7分析得到的結論一樣,區塊鏈的研究呈現多樣化的態勢。如今對于區塊鏈3.0的研究如火如荼,但區塊鏈1.0和區塊鏈2.0的研究并未消亡,究其原因,正是對于其傳統領域應用研究的逐步深入,帶動和啟發了更多應用場景的實施,我國的學者在拓展更多應用場景的同時,也要關注其技術發展帶來的新特性,有針對性地尋找其新的應用場景。
4結語
4.1結論
本研究收集Web of Science核心合集SCI-EX-PANDED和SSCI中2008—2020年區塊鏈領域的文獻,運用LDA主題建模,從熱點主題和主題演化兩個方面對國外區塊鏈研究進行了分析,得出以下結論。
1)國際區塊鏈研究自2008年開始,經過10余年的發展,如今已經形成非常豐富的概念內涵。國際學者比較關心的區塊鏈研究領域包括商業智能合約、數字貨幣、數據隱私保護、能源交易與共識算法、物聯網安全、工業供應鏈、車聯網安全、醫療健康等。這些研究極大擴展了區塊鏈的內涵,也奠定了該領域的理論與實踐研究基礎。
2)在全部國際區塊鏈研究主題中,醫療健康、數據隱私保護、能源交易與共識算法和物聯網安全4個主題的主題強度高于閾值,即4個主題作為當下區塊鏈研究的熱點主題,代表著國際區塊鏈領域學者最關心的熱點話題。在未來一段時間內仍然是區塊鏈研究中的熱點。
3)商務智能合約和加密貨幣兩個主題都是在區塊鏈技術發展早期出現,其共同演化特征都是在相關重要文獻發表之后開始受到更多關注,從此研究熱度開始上升。另外,也發現了區塊鏈領域研究早期的話題大多與區塊鏈本身技術相關,如加密貨幣和數據隱私保護;而到了發展后期,其研究熱點開始向應用研究轉移,如醫療健康、車聯網等。
4)從主題分布上看,國際區塊鏈領域主題熱度分布近年來逐漸趨于均衡,說明領域研究的結構相較于早期已開始變得穩定。
4.2建議
基于本研究的發現,結合上述分析結論與我國區塊鏈領域研究現狀和行業發展需求,提出以下建議。
1)重視國外研究成果,從中獲取國外區塊鏈研究前沿,以此指導我國學者、企業界相關從事者抓住區塊鏈領域的發展現狀,追蹤最前沿的研究熱點。本研究對國際區塊鏈文獻進行主題分析,結果正是國外當前的研究熱點,了解、分析這些熱點出現的背景以及對社會、經濟的影響,可以快速了解國外區塊鏈研究的現有布局,以提升我國研究的戰略視野和競爭力。
2)加快研究成果的轉化與落地。本研究展示國際區塊鏈研究從早期的純技術理論研究逐漸轉向了應用研究。由于區塊鏈的產業價值更多體現在市場應用方面,解決具體社會、經濟問題,因此國際研究興趣的轉變說明國際學者開始更多地關注區塊鏈技術的市場化和產業化,而在這方面,我國能力較弱。應當加強高校與企業之間的合作創新,加速科研成果的技術、應用轉化,促進區塊鏈研究價值最大化。
4.3不足
本研究的不足之處是數據源較為單一,只選取了期刊數據庫,如今技術迭代加快,高質量的會議論文也具有很高的研究價值。未來考慮結合會議論文、專利和替代計量學指標,對主題進行深度的挖掘,并結合深度學習算法,進行技術發展的預測研究。