999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

國內(nèi)外同一學科領域間的研究滯后性分析
——以數(shù)據(jù)挖掘領域為例

2021-07-17 14:59:36譚春輝熊夢媛
情報學報 2021年6期
關鍵詞:數(shù)據(jù)挖掘學科模型

譚春輝,熊夢媛

(華中師范大學信息管理學院,武漢 430079)

1 引言

“滯后性”常被用于描述一個現(xiàn)象與另一密切相關現(xiàn)象相對而言的落后遲延狀態(tài)[1],并引發(fā)了相關學者對于滯后性測度的探索。Lee等[2]利用時間滯后模型,測度研發(fā)投入強度對制藥公司績效的滯后影響。Hwang等[3]利用余弦相似度算法,識別發(fā)明與專利間的滯后關系,以確定技術路徑識別中專利轉化、引用帶來的時滯問題。Zhang等[4]采用格蘭杰因果檢驗,構建向量自回歸模型,算出了中國直接投資對“金磚國”經(jīng)濟增長的影響平均滯后8年。Sato等[5]使用固定效應模型證明,老人體育鍛煉參與度與醫(yī)療費用的具有2~3年滯后期的負相關性。倪淵[6]利用阿爾蒙多項式,來測算高校科研系統(tǒng)投入產(chǎn)出的滯后性。吳丹丹等[7]運用相關性和回歸分析,發(fā)現(xiàn)研發(fā)投入對于企業(yè)價值的影響存在4年的滯后效應。劉自強等[8]利用自回歸分布滯后模型(auto-regressive distributed lag model,ARDL模型),分析基金項目和學術論文主題的擴散滯后效應,發(fā)現(xiàn)基金項目主題對論文主題顯著影響的滯后期為2年(滯后相關系數(shù)為2.027888)。董奮義等[9]利用復相關系數(shù)與顯著性檢驗,計算我國農(nóng)業(yè)科技投入與產(chǎn)出之間的滯后期,并利用BC2模型和熵權法計算出滯后影響系數(shù)。從上述研究結果可以看出,對于滯后性測度,通常基于相關數(shù)據(jù),建立與所涉領域、數(shù)據(jù)類型相對應的模型、算法或公式,測算出滯后期與滯后系數(shù),這為本文的研究提供了方法指導與支持。

雖然從研究人員數(shù)量、文章數(shù)量、論文被引率以及影響因子等核心科研評價指標上來看,國內(nèi)學術界的發(fā)展欣欣向榮,但在有些學科領域內(nèi),相較于國外而言,國內(nèi)研究成果的內(nèi)容和數(shù)量方面均存在著一定的滯后性。對于國內(nèi)外共同學科領域的研究成果及進展,已有大量學者以期刊論文為基礎,或者從內(nèi)容分析的視角[10],或者從共詞分析的視角[11-13],或者從詞頻統(tǒng)計的視角[14-15],或者從主題識別的視角[16-17],或者從多維指標的視角[18-20],做了較多的比較研究,并認為國內(nèi)外在某些特定學科領域的研究存在一定的差異性,且主觀認為國內(nèi)研究相較于國外研究而言也存在一定的落后性。事物發(fā)展的過程中常常存在著滯后性,同一學科領域由于在不同地區(qū)受到經(jīng)濟、政治、文化等諸多因素影響,其發(fā)展水平也呈現(xiàn)一定的滯后性現(xiàn)象。但是,如何從時間的維度來確定同一學科領域研究成果數(shù)量或研究成果內(nèi)容上的相對滯后性,目前現(xiàn)有研究并沒有給出解決方案。

針對這種現(xiàn)象,探究一種具有普遍適用性的國內(nèi)外同一學科領域研究間的滯后性測度方法,有助于揭示學科領域的發(fā)展現(xiàn)狀、實現(xiàn)橫向對比、明確學科發(fā)展水平,為科研人員和科技政策制定者提供參考與指導,切實把論文寫在祖國的大地上,把科研成果應用在實現(xiàn)我國現(xiàn)代化的偉大事業(yè)中。

期刊論文是科學研究成果的主要表現(xiàn)形式和載體,論文的發(fā)表數(shù)量和主題在一定程度上反映出某學科領域的科學研究水平、研究熱點和研究內(nèi)容。因此,本文選取國內(nèi)外核心期刊論文數(shù)據(jù)作為語料,分別代表國內(nèi)某學科領域的研究成果和國外某學科領域的研究成果,并從兩個維度對國內(nèi)外同一學科領域間研究的滯后性進行分析:一是采用潛在狄利克雷分布(latent Dirichlet allocation,LDA)主題模型進行主題抽取,并結合相似度,計算測度國內(nèi)外同一學科領域研究主題層面的滯后性,揭示該學科領域研究的滯后方向和滯后期;二是采用ARDL模型對國內(nèi)外核心期刊發(fā)文量構成的時間序列進行建模分析,測度國內(nèi)外同一學科領域間研究成果數(shù)量層面的滯后性,以得出顯著滯后方向和滯后期。以數(shù)據(jù)挖掘領域為例,驗證本文所提出的國內(nèi)外同一學科領域間的研究滯后性測度方法與步驟。

2 同一學科領域間研究滯后性的測度

2.1 主題滯后性的測度

2.1.1 測度假設

對于國內(nèi)外同一學科領域,相關的基礎理論技術主要源自國外,至今已形成一定的基礎框架和應用場景。近年來,國內(nèi)對于國外理論和技術也有較多的借鑒與發(fā)展,在研究內(nèi)容層面上,國內(nèi)外研究主題必然有一定的相似性。因此,本文假設該學科領域的國內(nèi)研究主題可能存在一定的滯后性,即該學科領域的國外研究主題作為影響方,該學科領域的國內(nèi)研究主題作為被影響方,那么影響方對被影響方施加影響,被影響方在一段時間后才接受這種影響,研究主題的出現(xiàn)存在時間上的先后關系,從而產(chǎn)生了滯后效應。

為了測度國內(nèi)外同一學科領域間研究主題的滯后性,本文基于同一學科領域的國內(nèi)外核心期刊論文數(shù)據(jù),建立了LDA主題模型,分別得到國內(nèi)外的研究主題內(nèi)容,基于主題相似度得到兩者的內(nèi)容相似性,并利用桑基圖對國內(nèi)外研究主題在不同時間片之間的相似度關聯(lián)與大小進行可視化,從而直觀地判定滯后方向和滯后期。

2.1.2 文本預處理

測度研究主題滯后性,需要對國內(nèi)外期刊論文數(shù)據(jù)進行主題抽取。為了保證主題抽取的合理性、完整性和規(guī)范性,在主題抽取之前需要進行文本預處理,其具體方法和步驟如下:

(1)預先定義領域詞典,該詞典由學科領域關鍵詞和相關專業(yè)詞匯構成,作為保留詞匯提高分詞效果。將虛詞與符號等設定為停用詞表,以去除停用詞;將具有相同語義的詞語(即同義詞)進行合并,以改善后期相似度計算的效果。

(2)使用Python與Excel對文本進行初步處理,將選取的國內(nèi)外文獻信息按時間片分別建立文檔。調(diào)用Jieba中文分詞組件,并默認使用精確模式,對每條文摘進行切分。其后每一條題注都形成一個由詞語元素組成的列表,從而得到初步處理后的語料庫。

(3)基于詞袋模型,采用構建詞典的方法,匯總文檔的全部詞匯并去重;然后,為語料庫中的每一個詞賦予(序號、特征值)的索引,以便將其運用到主題模型中。由于LDA模型是基于詞頻進行統(tǒng)計的模型,此處特征值取詞頻。

(4)根據(jù)所構建的詞典和語料,為每個時間片中每一條文獻信息的構成詞在詞典中查找對應索引,作為其特征進行表示。一行代表一條文獻信息,每一行信息中的詞都以索引來進行特征表示,即每一條文獻信息由若干個索引組成,則語料轉化為LDA建模可接受的輸入格式。

2.1.3 主題抽取

為了有效揭示主題詞之間以及與原文本的潛在關系,本文采用LDA主題模型進行主題提取,這是一類基于詞袋模型的無監(jiān)督機器學習的文本挖掘方法,也是一種生成聯(lián)合概率分布的生成式概率主題模型[21]。其區(qū)別于預估條件概率分布的判別式模型,不需要預先進行人工標記,就可從初始文檔中挖掘出潛在主題。LDA模型是以詞袋模型為前提的三層貝葉斯模型,相較于普通的共詞分析等詞頻統(tǒng)計方法,LDA模型能夠規(guī)避同詞異義、同義多詞等歧義性問題。LDA模型吸收了降維與文檔生成思想并進行發(fā)展,其基本原理如圖1所示。

圖1 LDA模型原理圖[21]

LDA模型假設一篇文檔是由多個主題組成的,且每篇文檔的生成方式如下。首先,需要從全局的泊松分布中選取一個文檔長度為N~Poission(β);其次,取樣生成該文檔在主題上的狄利克雷分布θ~Dir(α);再次,為該長度為N的文檔中的每一個詞語生成一個主題zmn~Multinomial(θm),并取樣生成主題在詞語上的分布為φzmn~Dir(β);最后,從以z和φ共同為參數(shù)的多項式分布中確定一個詞wmn~Multinomial(φzmn)。整個模型的聯(lián)合分布為

本文主要采用Gibbs采樣算法求解,得到全局的主題Z的分布和詞語W的分布。

作為無監(jiān)督機器學習,需要事先確定3個超參數(shù):α、β、k(最優(yōu)主題數(shù))。α、β選取一般默認值[22],最優(yōu)主題數(shù)k則通過困惑度(perplexity)計算確定。困惑度是一種對語言概率模型的優(yōu)劣進行評價,并協(xié)助進行參數(shù)改進的有效方法,其以信息理論為基礎,對概率分布或模型的不確定性(信息熵)進行計算,將其運用于LDA模型中,計算公式為

其意義表明文檔d從屬的主題的不確定性,因此,理論上困惑度越小,說明模型性能越優(yōu);困惑度最低,或是拐點處對應的k就為最佳主題數(shù)。

2.1.4 構建主題相似度矩陣

通過LDA模型抽取主題及其關鍵詞,不同時間片下的主題間的相似度也不盡相同。為了計量不同時間片下主題內(nèi)容的相似性,本文通過余弦相似度對不同時間片間主題的相似度進行求解,并構建主題相似度矩陣。

余弦相似度是以向量空間中兩個向量構成的夾角的余弦值(cosine),作為兩個被向量化表示的個體差異度的衡量標準。在二維向量空間中,假設兩個二維 向量:a向量 為(x1,y1),b向量為(x2,y2),那么余弦定理可表示為

同理,將向量從二維空間拓展至n維空間,將上述的向量a、b假定為n維向量,則上述公式仍然成立:

余弦值越接近于1,則兩個向量越相似。將詞語集形式的主題和內(nèi)容轉換成可用于計算的向量,計算出國內(nèi)外各個時間片間研究主題內(nèi)容的余弦相似度,從而得到相似度矩陣。

2.1.5 主題滯后性判定

主題滯后性判定可從兩個方向來進行分析:滯后方向和滯后期。

(1)利用桑基圖利于展現(xiàn)對象間聯(lián)系以及信息量流動的特征[23],本文將每個主題的時間片作為對象,構建國內(nèi)外期刊論文主題間的聯(lián)系,再基于相似度矩陣信息,按滯后的正向與反向影響方向,分別繪制國外研究主題對國內(nèi)研究主題的滯后影響強度、國內(nèi)研究主題對國外研究主題的滯后影響強度兩個桑基圖,相似度大小代表了滯后影響強度的大小,通過對比得出最顯著的滯后影響強度,可以確定最顯著滯后方向和滯后強度。

(2)為進一步確定主題滯后期,本文分別統(tǒng)計不同固定時間片間隔的主題相似度,并將其算術平均值作為各個滯后期的滯后系數(shù),滯后系數(shù)最高的滯后期,則判定為顯著滯后期。

2.2 數(shù)量滯后性的測度

2.2.1 測度假設

一般而言,對于國內(nèi)外同一學科領域,國內(nèi)的研究論文數(shù)量在絕大多數(shù)學科領域可能都處于數(shù)量偏少的一方。那么兩者的數(shù)量變化在時間序列上有沒有一定的關聯(lián)呢?本文假設該學科領域的國內(nèi)研究論文數(shù)量可能存在一定的滯后性,即該學科領域的國外研究論文數(shù)量構成的時間序列作為因變量序列,該學科領域的國內(nèi)研究論文數(shù)量構成的時間序列作自變量序列,分析兩個變量之間的滯后關系,能夠發(fā)掘出潛在的滯后效應。

為了測度國內(nèi)外同一學科領域研究論文數(shù)量的滯后性,本文將基于同一學科領域的國內(nèi)外核心期刊論文數(shù)量構成兩個時間序列,利用ARDL模型實現(xiàn)論文數(shù)量滯后性的分析,判定數(shù)量層面的滯后方向、滯后期以及對應的滯后系數(shù)。

2.2.2 測度模型選擇

ARDL模型是一種基于時間序列研究滯后效應的數(shù)理統(tǒng)計模型。相關研究表明,ARDL模型能夠準確地計量兩個或多個序列間的滯后關系[24-25],且在小樣本中具備穩(wěn)健性;在變量樣本不大的情況下,ARDL模型的估計結果也具有足夠的穩(wěn)健性[26]。因此,ARDL模型適用于本文涉及的小樣本期刊發(fā)文量的情況。ARDL模型的主要思想是通過邊界檢驗法確定變量之間是否存在協(xié)整關系,并在此基礎上估計變量之間的相關系數(shù)。該模型最初是由Charemza等[27]提出的,后經(jīng)Pesaran等[28]完善和推廣,作為檢驗變量之間協(xié)整關系的方法而受到學者的歡迎。ARDL模型中的滯后變量(lagged variable)是指對于自變量的變化,因變量的變化需要一定的滯后時間段才可以顯現(xiàn)的變量,含有該變量的模型稱為滯后變量模型。如果一個回歸模型在此基礎上還包含內(nèi)生變量的滯后項,則稱其為自回歸分布滯后模型。本文通過國內(nèi)外期刊發(fā)文量序列構成的因變量序列及其滯后變量序列進行ARDL模型建模,若能進行有效建模,一方面,可驗證上述假設中的國內(nèi)研究論文數(shù)量滯后性的存在;另一方面,可得到回歸模型中最顯著正相關系數(shù)及其所在的滯后變量序列,進而確定最顯著滯后期。

2.2.3 數(shù)據(jù)預檢驗

ARDL模型所需的數(shù)據(jù)應為平穩(wěn)時間序列且同階單整的時間序列,因此需要對各個時間序列分別進行平穩(wěn)性檢驗,可通過單位根檢驗(unit root test)確定兩個變量是否平穩(wěn),排除偽回歸現(xiàn)象,若不平穩(wěn)則需要通過一階差分處理,再檢測其是否能達到平穩(wěn)狀態(tài)。只有兩列數(shù)據(jù)為同階單整且不超過1,才能夠進行下一步的協(xié)整性檢驗。本文采用ADF(augmented dickey-fuller test)進 行 單 位 根 檢驗[29]。ADF檢驗的初始假設為:若序列存在單位根,則序列非平穩(wěn)。當檢驗結果接受零假設時,則說明原序列存在單位根,為非平穩(wěn)序列;當拒絕零假設時,則說明原序列不存在單位根,為平穩(wěn)序列。

協(xié)整性檢驗是為了防止時間序列間存在偽回歸關系,從而判定變量間是否具有長期穩(wěn)定關系,只有排除偽回歸關系,才能通過ARDL模型探測滯后關系[30]。本文使用Johansen法檢驗的自變量與因變量之間的協(xié)整關系,來驗證各個變量之間的長期穩(wěn)定關系,確定最優(yōu)的滯后階數(shù),以及各變量間的影響方向。

2.2.4 構建ARDL模型

根據(jù)同一學科領域國內(nèi)論文數(shù)量滯后于國外論文數(shù)量的假設,本文將國外論文數(shù)量和國內(nèi)論文數(shù)量構成的時間序列數(shù)據(jù)分別作為因變量EN(影響方)與自變量CN(受影響方)。設定初始構建模型形式為

其中,Yt為序列EN每年國外期刊發(fā)文量;Xt為序列CN每年國內(nèi)期刊發(fā)文量;a、b分別為Yt、Xt不同滯后階數(shù)的系數(shù);d為隨機誤差量(the stochastic error)。確定性部分是由關于自變量函數(shù)組成的部分,其參數(shù)項的確定取決于滯后項數(shù)確定。在此滯后項按AⅠC(Akaike information criterion)標準自動選取。

建模后,首先,通過模型參數(shù)估計的實際值、擬合值和殘差初步判斷模型擬合效果。然后,采用Q檢驗法繪制殘差自相關和偏自相關系圖,確定模型殘差序列是否為白噪聲序列,其中,白噪音序列的殘差需為零均值,且有穩(wěn)定的常方差。如果在模型評估中殘差序列為白噪音序列,那么說明模型提取了所有數(shù)據(jù)中的可預測部分,剩下的部分為不可估計的隨機誤差部分。若剩余部分為白噪音序列,則表明模型擬合效果好,不需要進一步修改。

2.2.5 數(shù)量滯后性判定

如果構建的ARDL模型可通過評估,且模型擬合效果良好,那么該模型可在AⅠC標準下,確定為最佳模型。根據(jù)最佳模型中的最顯著回歸系數(shù)以及其對應的滯后項來確定滯后期,并確定滯后影響關系和滯后影響系數(shù)。

3 數(shù)據(jù)挖掘研究滯后性實證分析

3.1 數(shù)據(jù)來源

數(shù)據(jù)挖掘是典型的國內(nèi)外學者都在研究的同一學科領域。本文選取數(shù)據(jù)挖掘領域的國內(nèi)外期刊論文作為數(shù)據(jù)來源,按照上文所述的測度方法與過程,進行主題滯后性和數(shù)量滯后性的實證分析。

為了保證文獻來源的權威性,數(shù)據(jù)來源于核心期刊文獻,不包括學位論文、會議論文等,數(shù)據(jù)采集的時間段為1996—2019年(國內(nèi)數(shù)據(jù)挖掘領域的第一篇論文發(fā)表于1996年),2002年以前論文因數(shù)量較少匯總為同一時間片,其后的17年則按年劃分時間片,共18個時間片。數(shù)據(jù)采集時間為2020年1月18日—20日。

國內(nèi)文獻源為中國知網(wǎng)(China National KnowledgeⅠnfrastructure,CNKⅠ),為了保證文獻的權威性與代表性,載體類型設定為期刊,來源類別包括SCⅠ來源期刊、EⅠ來源期刊、核心期刊、CSSCⅠ(Chinese Social Sciences CitationⅠndex)和CSCD(Chinese Science Citation Database),使用專業(yè)檢索,設定檢索式為“SU=數(shù)據(jù)挖掘”,其中“SU”表示主題。在檢索結果中選擇“中文文獻”,然后下載全記錄文獻信息,并以Excel格式批量導出,篩去標題標注為“英文”的文獻、會議通知、簡報、廣告、重復以及不完整的文獻記錄,收集總計11484條文獻全記錄。同時,收集每一個時間片的文獻發(fā)表數(shù)量。

國外文獻來源于WoS(Web of Science),采用高級檢索,確定檢索式為TS=“data mining”,其中“TS”表示主題,文獻類型是“Article”,語種限定為“English”,索引包括SCⅠ-EXPANDED、SSCⅠ和A&HCⅠ。下載全記錄文獻信息,并以Excel格式批量導出,篩去會議通知、簡報、廣告、重復以及不完整的文獻記錄,收集總計20733條文獻全記錄。同時,收集每一個時間片的文獻發(fā)表數(shù)量。

3.2 主題滯后性分析

本節(jié)將對所收集到的數(shù)據(jù)挖掘領域國內(nèi)外期刊論文主題進行滯后性分析,通過LDA模型進行主題抽取,計算不同時間片間主題內(nèi)容的相似度,確定滯后方向和顯著滯后期。

3.2.1 語料來源

為了避免直接采用關鍵詞帶來的顆粒度較粗、內(nèi)容過少、主題提取效果差強人意等問題,而文摘又可以拓展領域潛在研究主題的聯(lián)系,國內(nèi)期刊論文選取摘要配合關鍵詞作為模型的語料來源。國外期刊論文由于提供關鍵詞和擴展關鍵詞,信息已經(jīng)較為完備,為避免分詞以及詞干提取導致的專業(yè)術語拆散以及語義缺失等問題,本文直接將上述兩者作為國外期刊的語料來源。

3.2.2 主題抽取

按文本預處理的步驟對語料進行篩選、分詞、去停用詞、保留專業(yè)詞匯、同義詞替換以及特征選擇,生成符合LDA模型輸入格式的詞典與語料,然后按照LDA模型的抽取規(guī)范進行主題抽取。

首先,采用開源的gensim包構建主題模型估計參數(shù)。超參數(shù)確定為α=0.37、β=0.02。通過求解Gibbs采樣算法求解一個時間片內(nèi)所有文檔潛在概率θ,φ的分布。最優(yōu)主題數(shù)k的確定則是通過分別對國內(nèi)期刊(CN)和國外期刊(EN)18個時間片的困惑度按公式(2)進行求解,分別取得均值并形成折線圖,如圖2所示。

圖2 困惑度計算結果

由圖2可知,隨著主題數(shù)設置的增加,模型困惑度前期有明顯下降,這說明模型性能較好,能夠有效地實現(xiàn)主題的判別,理論上應取對應困惑度較低的k值,但語料庫不大的情況下,主題數(shù)較多可能會導致過擬合現(xiàn)象,因此,取第一個拐點對應的k值,國內(nèi)外平均取為25個。

國內(nèi)外期刊論文主題抽取結果舉例如表1和表2所示。

表1 國內(nèi)期刊數(shù)據(jù)挖掘領域2019主題舉例

LDA模型的參數(shù)確定后進行主題提取,生成主題-詞分布文檔,命名為“topic_words.csv”。其中包括提取出的所有主題(由詞構成)以及主題下的關鍵詞及其概率,每一主題的關鍵詞的數(shù)量顯示限定為Top-30(排名30位以后的詞概率過低,參考價值較低),將該類文檔用于主題內(nèi)容揭示。

3.2.3 主題相似度矩陣

基于相似度進行對比分析,需要保證領域數(shù)據(jù)的全面性才能實現(xiàn)特征的完全揭示,因此,本文將全部抽取的國內(nèi)外期刊論文主題作為計算對象。同時,國外主題信息通過谷歌翻譯和人工調(diào)整統(tǒng)一轉換為對應的中文專業(yè)用語。

從18個時間片下的國內(nèi)外期刊論文中各抽取450個主題,每兩個時間片對其主題內(nèi)容按照公式(4)進行余弦相似度計算。作為不同時期之間相互影響程度的量化指標,相似度越高,則說明聯(lián)系越強。通過兩兩時間片的全組合計算,可得到相似度矩陣,如表3所示。

矩陣的整體分布特征為:從左上至右下的數(shù)值逐漸變大,說明隨時間的推移,國內(nèi)外期刊論文研究主題的相似度逐漸變大,研究內(nèi)容的共性逐漸加強。由此可見,隨著數(shù)據(jù)挖掘領域的發(fā)展不斷完善以及國際交流的加深,該領域的主題更具有統(tǒng)一性。

表2 國外期刊數(shù)據(jù)挖掘領域2019年主題舉例

表3 相似度矩陣

3.2.4 主題滯后的方向與強度

基于JavaScript語言的前端技術D3,本文將相似度矩陣信息分別按滯后的正向影響與反向影響,繪制國外期刊論文主題對國內(nèi)期刊論文主題滯后影響強度桑基圖、國內(nèi)期刊論文主題對國外期刊論文主題滯后影響強度桑基圖(圖3)。在圖3中,將國內(nèi)外期刊論文研究主題的不同時間片用元素塊表示,灰線連接這些主題上具有相似度的時間片(元素塊),表示主題產(chǎn)生能量的流動方向;元素塊后的標簽值(“[]”內(nèi)的數(shù)值)表示所有與之有相似關系的相似度的總和(數(shù)據(jù)來源于表3,保留一位小數(shù)),且和元素塊大小呈正比,連線的寬度代表相似度的大小;“from”列表示為影響方,“to”列表示滯后方。

由圖3可知,主題滯后影響聯(lián)系強度分布基本符合主題演化規(guī)律,時期間隔越遠的主題相似度越低,影響強度越小。隨著時間的推移,連線的寬度變大,這也體現(xiàn)了國內(nèi)外期刊論文研究主題相似度不斷加大,側面體現(xiàn)了該領域成熟度的加強,國內(nèi)外研究路徑日趨同一和明晰。

綜合來看,圖3中的兩張圖分別代表兩個滯后方向,左圖為國外期刊論文主題對國內(nèi)期刊論文主題的影響,圖中所有元素塊值總和為62.66;右圖為國內(nèi)期刊論文主題對國外期刊論文主題的影響,圖中所有元素塊值總和為57.76。元素塊數(shù)值總和越大,說明該滯后方向越顯著。由總和可知,左圖所示滯后方向更顯著。

圖3 滯后影響強度桑基圖

由于每個元素塊對應有聯(lián)結的時間片數(shù)不一致,比較單個元素塊值不能直觀地判斷影響度最大的時間片,因此,需要計算每個時間片影響方與滯后方的平均相似度(表4)。結果表明,從影響方視角來看,2007年國外期刊論文主題對國內(nèi)期刊論文主題相似的平均數(shù)最大,約為0.40,表明該年份的國外期刊論文主題與其后出現(xiàn)的國內(nèi)期刊論文主題相似度高,也就是說,該年份的國外期刊論文主題對國內(nèi)期刊論文主題的影響度較高。從滯后方視角來看,2008年國內(nèi)期刊論文主題對國外期刊論文主題相似度的平均數(shù)最大,為0.43,受影響的程度最大。從內(nèi)容分析角度來看,國內(nèi)數(shù)據(jù)挖掘領域的研究在2008年后更多的對國外相關理論技術進行了引入與優(yōu)化的發(fā)展。

表4 2002—2019年影響方與滯后方的相似度平均數(shù)

綜上可知,數(shù)據(jù)挖掘領域的主題影響方向可基本確定為國外研究影響國內(nèi)研究,即國內(nèi)研究主題對應國外研究主題的發(fā)展具有一定的滯后性。

3.2.5 主題滯后期判別

滯后效應的分析需要計算兩個固定影響方向、間隔固定時期的主題信息之間的相似度,相似度最大的間隔時期就是該影響方向下的滯后期。為了直觀地對比不同方向滯后水平差異,并判別出最顯著滯后期,本文基于實際情況,設定最大可滯后9期。根據(jù)相似度矩陣的數(shù)據(jù)(見表3),計算出每個滯后期內(nèi)涉及的所有時期相似度的平均數(shù),作為該滯后期的滯后比例系數(shù)。以橫軸為劃分的滯后期,以縱軸為相似度平均水平,根據(jù)正、反向影響方向,做出滯后系數(shù)折線圖(考慮滯后情況僅展現(xiàn)滯后9期內(nèi)的結果),如圖4所示。

圖4 滯后系數(shù)圖

由圖4可知,國內(nèi)期刊論文研究主題內(nèi)容滯后于國外期刊論文研究主題,滯后3~5期的滯后比例系數(shù)較高,滯后3期的系數(shù)達到最大值(0.386),滯后效應最為顯著,此后的滯后性加速減弱,滯后關系也逐漸淡化。因此,國外期刊論文研究主題對國內(nèi)期刊論文研究主題影響的最顯著滯后期為3年,即當前國外期刊論文研究主題對3年后國內(nèi)期刊論文研究主題的影響強度最大,受到滯后影響的主題比例約為38.6%。

3.3 數(shù)量滯后性分析

本節(jié)運用ARDL模型,探究1996—2019年國內(nèi)外數(shù)據(jù)挖掘領域的論文發(fā)表量在時間維度上的分布情況以及兩者之間的滯后性關系,從數(shù)量層面印證并量化計算國內(nèi)外同一學科領域研究的滯后性。

3.3.1 構建時間序列

時間序列,是指基于時間片的時序關系形成發(fā)文量數(shù)值的時間序列,數(shù)據(jù)挖掘領域國內(nèi)期刊發(fā)表量CN與國外期刊發(fā)表量EN為兩時間序列,兩者具體數(shù)據(jù)如表5所示。

表5 1996—2019年國內(nèi)外期刊發(fā)文數(shù)量(單位:篇)

將其繪制于x軸表示年份、y軸表示發(fā)表論文數(shù)量的坐標軸上,構成了國內(nèi)外期刊發(fā)文量趨勢對比折線圖(圖5)。

3.3.2 平穩(wěn)性檢驗

本文運用Eviews 9.0計量經(jīng)濟學軟件,采用ADF檢驗方法,對CN序列進行平穩(wěn)性檢驗,結果如圖6所示。

由圖6中的檢驗結果可知,在原始時間序列下,無截距項(Ⅰntercept)與趨勢項(Trend)(存在趨勢項則非平穩(wěn)),CN的P值(Prob.)在1%、5%、10%的顯著性水平下均無法通過平穩(wěn)性檢驗,因此,均不能拒絕序列有單位根的假設,存在單位根則為非平穩(wěn)序列。因此,需要將原始時間序列CN進行一次差分,并添加截距項,得到一階差分后的D(CN)序列,如圖7所示。

圖5 國內(nèi)外期刊發(fā)文量趨勢對比折線圖(單位:篇)

圖6 CN單位根檢驗結果

圖7 D(CN)單位根檢驗結果

D(CN)的ADF統(tǒng)計量在置信區(qū)間取10%時,3種顯著性水平下P值均小于10%,說明在10%的置信區(qū)間內(nèi),一階差分后的時間序列數(shù)據(jù)CN拒絕了序列有單位根的假設,序列平穩(wěn),則可以判斷D(CN)為平穩(wěn)時間序列,即一階單整時間序列,記為CN-Ⅰ(1)。

同樣地,運用Eviews 9.0計量經(jīng)濟學軟件,采用ADF檢驗方法,對EN序列進行平穩(wěn)性檢驗,檢驗結果如圖8所示。

圖8 EN單位根檢驗結果

從圖8檢驗結果可知,與時間序列CN類似,原始時間序列EN的ADF統(tǒng)計量絕對值均低于三個標準值,P值大于10%的顯著性水平,均不能拒絕序列有單位根的假設,則為非平穩(wěn)序列。差分一次為一階序列D(EN)后,P值處于10%的置信區(qū)間內(nèi),需拒絕零假設,不存在單位根,則序列平穩(wěn)(圖9)。因此,判斷D(EN)為平穩(wěn)時間序列,稱為一階單整時間序列,記為EN-Ⅰ(1)。

圖9 D(EN)單位根檢驗結果

3.3.3 協(xié)整性檢驗

經(jīng)過平穩(wěn)性檢驗之后可知,CN-Ⅰ(1)、EN-Ⅰ(1)這兩個序列均是一階單整,符合建立協(xié)整檢驗的前提條件,因此,可以繼續(xù)對一階差分后的D(CN)與D(EN)進行協(xié)整性檢驗。

由于協(xié)整關系對滯后階數(shù)的選擇非常敏感,因此,首先建立VAR模型(圖10),以確定最優(yōu)滯后階數(shù)。由圖10可以看出,符合最多滯后選取標準(criteria)的滯后階數(shù)為5(相關指標含有3個*),因此,可以確定最優(yōu)滯后階數(shù)為5。

圖10 VAR模型

然后,進行Johansen協(xié)整檢驗,包含時間趨勢項,檢驗結果如圖11所示。

圖11 D(CN)與D(EN)協(xié)整檢驗結果

由圖11可以得出,在跡統(tǒng)計量(trace statistics)以及最大根統(tǒng)計量(max-eigen statistics)檢驗中,判別顯著性水平為5%的情況下,第一個P值小于5%的顯著性水平,接受協(xié)整關系不存在的第一原假設;第二個P值大于5%顯著性水平,拒絕至多一個協(xié)整方程的第二原假設。這可說明D(CN)與D(EN)之間存在一個協(xié)整關系。

綜上所述,數(shù)據(jù)挖掘領域國外期刊論文發(fā)表數(shù)與國內(nèi)期刊論文發(fā)表數(shù)的年度數(shù)據(jù)均具有時間序列平穩(wěn)性且一階單整,并且兩者之間存在唯一協(xié)整關系,即國外期刊發(fā)文量與國內(nèi)期刊發(fā)文量具有長期穩(wěn)定的關系,符合構建ARDL模型的數(shù)據(jù)要求。

3.3.4 ARDL建模

根據(jù)前面確定的EN與CN分別為因變量與自變量以及初始構建模型形式,見公式(5),構建ARDL模型,經(jīng)Eviews 9.0運算后相關系數(shù)如圖12所示。

圖12 ARDL建模結果

從圖12可知,在AⅠC標準下,選擇的模型為ARDL(1,6)在滯后期為5時,D(CN(-5))的系數(shù)(coefficient)的相比其他滯后系數(shù)有最大正向取值,且P值小于5%,說明滯后項D(CN(-5))對D(EN)具有最顯著的正向影響。因此,回歸模型可寫為

在此前或后滯后項的滯后系數(shù)均為負且不顯著,不予考慮。D(CN(-5))的滯后系數(shù)表明滯后影響系數(shù)為1.431913,實際意義為數(shù)據(jù)挖掘領域國外期刊發(fā)文量對于國內(nèi)發(fā)表量的顯著影響具有5年的滯后期。

構建ARDL模型后,需對模型進行評估來判斷模型的擬合效果。從圖12的參數(shù)估計結果,可以直觀判斷該模型R2數(shù)值與F統(tǒng)計量(F-statistic)均較高,表明模型顯著性較高。從圖13中參數(shù)估計的實際值(actual value)、擬合值(fitted value)、殘差(residual)的可視化結果來看,殘差分布圍繞零上下波動,基本不具備明顯趨勢與可預測性,且實際值與擬合值波動差別小,初步說明殘差具有隨機性,且模型擬合效果好。

圖13 實際值、擬合值、殘差序列圖

采用Q值檢驗法,得出殘差自相關和偏自相關系圖,如圖14所示。P值均大于5%的置信區(qū)間(若P值均較低,則殘差中可能還存在自相關關系),Q值增大趨勢明顯且數(shù)值大,AC(自相關系數(shù))與PAC(偏自相關系數(shù))分布差別顯著,可以確定模型殘差序列為白噪聲序列,說明已有模型擬合效果良好,可以停止建模。

圖14 殘差自相關和偏自相關圖

3.3.5 數(shù)量滯后性判定

本文得出的ARDL模型能夠可靠地探測數(shù)據(jù)挖掘領域國內(nèi)外期刊論文發(fā)表數(shù)量上的影響滯后關系,國外期刊發(fā)文量對國內(nèi)期刊發(fā)文量具有長期的影響關系,且滯后期為5年,滯后影響系數(shù)為1.431913。

4 結論

在同一學科領域內(nèi),國內(nèi)外學者們的研究水平與層次存在差異,并在某種程度上表現(xiàn)為一定的滯后性。本文基于國內(nèi)外核心期刊的學科領域研究論文主題和數(shù)量滯后性測度方法與步驟的基礎上,選取了1996—2019年間數(shù)據(jù)挖掘領域的國內(nèi)外核心期刊論文進行了滯后性實證分析,研究結果表明,本文所設計的方法可有效揭示該領域在國內(nèi)外核心期刊論文的滯后方向、滯后期,并得出以下結論:

(1)在數(shù)據(jù)挖掘領域,本文通過論文主題滯后性的分析發(fā)現(xiàn),國內(nèi)外研究主題的共性逐漸增強,滯后方向為國內(nèi)期刊論文主題滯后于國外期刊論文主題,最顯著滯后期為3年,受到滯后影響的主題比重約為38.6%。在2007年,國外期刊論文主題對國內(nèi)期刊論文主題綜合影響程度較大;2008年,國內(nèi)期刊論文主題受國外期刊論文主題的影響最大。

(2)在數(shù)據(jù)挖掘領域,本文通過論文數(shù)量滯后性的分析發(fā)現(xiàn),滯后方向為國內(nèi)期刊論文數(shù)量滯后于國外期刊論文數(shù)量,其滯后期為5年。同時,國內(nèi)外期刊發(fā)文量之間存在相互影響的關系,滯后影響系數(shù)為1.431913。

研究結果表明,本文所提出的國內(nèi)外同一學科領域滯后性測度的方法與步驟,在一定程度上彌補了已有的對科研滯后性研究缺乏定量方法的不足,且對于其他科學研究領域的滯后性測度也具有普遍的適用性。然而,本文也存在一些不足,例如,在實證分析中,僅以“數(shù)據(jù)挖掘”作為主題來檢索期刊論文文獻,沒有采用與數(shù)據(jù)挖掘相關的詞匯,從而導致檢索結果不全面;僅對國內(nèi)外期刊論文進行實證分析,而沒有考慮學術會議論文,這在一定程度上代表不了學科領域真實的水平;從主題維度進行的數(shù)據(jù)挖掘領域滯后性實證分析還可進一步細化,如將數(shù)據(jù)挖掘領域劃分為理論與應用維度來進行滯后性對比,實現(xiàn)多維度分析。

猜你喜歡
數(shù)據(jù)挖掘學科模型
一半模型
【學科新書導覽】
土木工程學科簡介
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
“超學科”來啦
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
3D打印中的模型分割與打包
論新形勢下統(tǒng)一戰(zhàn)線學學科在統(tǒng)戰(zhàn)工作實踐中的創(chuàng)新
主站蜘蛛池模板: 欧美日韩专区| 国产男女免费完整版视频| 嫩草国产在线| 国产亚洲精久久久久久无码AV| 色偷偷一区二区三区| 成人免费黄色小视频| 亚洲色偷偷偷鲁综合| 亚洲中文精品人人永久免费| 亚洲天堂免费在线视频| 国产亚洲视频中文字幕视频| 精品国产一区二区三区在线观看| 欧美成人免费一区在线播放| 国产美女无遮挡免费视频网站| 国产一区二区色淫影院| 毛片卡一卡二| 国模私拍一区二区| a级毛片网| 制服丝袜 91视频| 久草视频福利在线观看| 亚洲无码A视频在线| 日本免费一区视频| 日韩在线播放中文字幕| 国产在线第二页| 激情無極限的亚洲一区免费| 无码精品国产dvd在线观看9久| 国产精品私拍99pans大尺度| 国产亚洲成AⅤ人片在线观看| 久久国产精品国产自线拍| 欧美精品亚洲二区| 人人澡人人爽欧美一区| 国产欧美视频在线| 免费 国产 无码久久久| 91在线免费公开视频| 免费 国产 无码久久久| 免费无码网站| 国产欧美日韩另类精彩视频| 欧美午夜在线观看| 日本人妻丰满熟妇区| 亚洲另类国产欧美一区二区| 国产三级精品三级在线观看| 88av在线| 91久久夜色精品| 91亚洲精选| 国内精品久久久久久久久久影视| 老司机久久精品视频| 日韩二区三区| 亚洲综合一区国产精品| 97一区二区在线播放| 国产精品午夜电影| 老熟妇喷水一区二区三区| 中国国产高清免费AV片| 99中文字幕亚洲一区二区| 久热精品免费| 色天天综合久久久久综合片| 干中文字幕| 国产成人无码AV在线播放动漫| 99这里只有精品免费视频| 国产 在线视频无码| 99久久精品免费看国产免费软件| 亚洲侵犯无码网址在线观看| 亚洲午夜国产片在线观看| 无码 在线 在线| 激情五月婷婷综合网| 欧美午夜理伦三级在线观看| 国产欧美综合在线观看第七页| 1024你懂的国产精品| 国产香蕉97碰碰视频VA碰碰看| 欧美中文字幕第一页线路一| 国产黄在线免费观看| 草草影院国产第一页| 国产亚洲精| 国产精品人莉莉成在线播放| 亚洲综合久久一本伊一区| 国产91高跟丝袜| 久久综合色88| 91精品亚洲| 激情无码视频在线看| 国产精品第一区在线观看| 亚洲日韩精品伊甸| 国产三区二区| 国产激情在线视频| 蝌蚪国产精品视频第一页|