999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文文獻(xiàn)關(guān)鍵詞分布特性研究

2019-12-12 07:06:36冶忠林趙海興楊燕琳
關(guān)鍵詞:人工智能模型研究

孟 磊 冶忠林 趙海興,4* 楊燕琳

1(青海師范大學(xué)計(jì)算機(jī)學(xué)院 青海 西寧 810016)2(青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室 青海 西寧 810008)3(藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室 青海 西寧 810008)4(陜西師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院 陜西 西安 710062)

0 引 言

近年來(lái),如何根據(jù)文獻(xiàn)中的一些字詞的分布特征,去更好地了解語(yǔ)言的發(fā)展、各個(gè)學(xué)科領(lǐng)域之間的關(guān)系、知識(shí)擴(kuò)散和科研話題成為一個(gè)熱門(mén)研究方向,而其中最常用的方法為Zipf定律。例如,劉宇凡等[1]通過(guò)分析唐代以來(lái)漢語(yǔ)文學(xué)中字頻的分布,發(fā)現(xiàn)了在每個(gè)不同的歷史時(shí)期漢字的使用存在差異,但在比較相近時(shí)期漢字的使用習(xí)慣是基本一致的;曹盼盼等[2]建立寫(xiě)信間隔時(shí)間漂移冪律分布模型,說(shuō)明了人類(lèi)書(shū)信時(shí)間既服從Zipf定律又滿(mǎn)足冪律分布;鄭亞斌等[3]通過(guò)用自然語(yǔ)言處理對(duì)歌詞做了一些相關(guān)實(shí)驗(yàn),驗(yàn)證了歌詞分布基本符合Zipf定律;劉勝久等[4]提出了網(wǎng)絡(luò)信息計(jì)量學(xué)可能存在Zipf定律的猜想,并通過(guò)實(shí)驗(yàn)結(jié)果很好地證明了此猜想。

目前,針對(duì)自動(dòng)文本摘要生成的研究已經(jīng)取得了巨大的成功[5],而基于這些成熟的摘要生成算法,構(gòu)建文本的關(guān)鍵詞也是較為容易的。因此,研究如何生成文本(如,科研論文)的摘要或者關(guān)鍵詞的理論體系和工程框架已經(jīng)成熟,但是,針對(duì)構(gòu)建出來(lái)的關(guān)鍵詞的特性的研究成果卻較為少見(jiàn)。

關(guān)鍵詞作為表述論文的中心內(nèi)容有實(shí)質(zhì)意義的代表詞匯,既反映了研究成果的核心內(nèi)容,又揭示了科研內(nèi)容之間的內(nèi)在聯(lián)系、學(xué)術(shù)研究的方向,更為檢索提供了重要手段。同時(shí),關(guān)鍵詞分析是研究文獻(xiàn)計(jì)量學(xué)的重要手段,關(guān)鍵詞分析是通過(guò)將文獻(xiàn)著作中的眾多影響因素聯(lián)合分析,客觀評(píng)價(jià)文獻(xiàn)和相關(guān)學(xué)者的學(xué)術(shù)水平,預(yù)測(cè)熱點(diǎn)研究趨勢(shì)[6-7]。

本文主要研究中文文獻(xiàn)中關(guān)鍵詞在不同學(xué)科內(nèi)的分布特性。為了實(shí)現(xiàn)該研究目標(biāo),可將本文研究的具體細(xì)節(jié)歸納為三個(gè)方面。

首先,本文將關(guān)鍵詞分類(lèi),即在本文中主要研究三個(gè)領(lǐng)域內(nèi)(人工智能、生物、財(cái)經(jīng))的關(guān)鍵詞在不同搜索引擎中搜索結(jié)果數(shù)和排名分布特性;其次,在百度學(xué)術(shù)中爬取三個(gè)領(lǐng)域內(nèi)的關(guān)鍵詞,分析每個(gè)關(guān)鍵詞近三年(2018年、2017年、2016年)的搜索結(jié)果數(shù)和排名在各自的領(lǐng)域內(nèi)是否符合Zipf定律,并歸納不同科學(xué)領(lǐng)域在不同年份內(nèi)的Zipf參數(shù)規(guī)律;最后,為了研究關(guān)鍵詞和相關(guān)學(xué)者之間的關(guān)系,本文又構(gòu)建了關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型,并基于該超網(wǎng)絡(luò)模型對(duì)一些指標(biāo)進(jìn)行了衡量,歸納總結(jié)了關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型的一些特性。

本文主要對(duì)以上三個(gè)方面展開(kāi)研究工作,且本文的研究成果可提供一些有趣的結(jié)論,對(duì)于研究關(guān)鍵詞分布特征特性提供了理論支撐和數(shù)據(jù)支持。

1 相關(guān)工作

目前,針對(duì)引文網(wǎng)絡(luò)的研究主要是基于普通的點(diǎn)邊網(wǎng)絡(luò)進(jìn)行研究。例如,Kajikawa等[8]采用引文網(wǎng)絡(luò)分析的方法,對(duì)能源研究中的新興研究領(lǐng)域進(jìn)行了跟蹤研究,證實(shí)了燃料電池和太陽(yáng)能電池在能源研究領(lǐng)域正在迅速發(fā)展;肖雪等[9]對(duì)每個(gè)領(lǐng)域的知識(shí)研究進(jìn)展、關(guān)鍵詞的分布、主題功能的分析,對(duì)引文網(wǎng)絡(luò)的社團(tuán)劃分進(jìn)展進(jìn)行綜述性研究;陳云偉[10]通過(guò)引文網(wǎng)絡(luò)演化結(jié)構(gòu)特征等的分析對(duì)新方法、新領(lǐng)域和新應(yīng)用進(jìn)行了解讀;White等[11]通過(guò)對(duì)引文網(wǎng)絡(luò)中的合作者之間的通訊方式及社會(huì)距離的分析,解釋了合作在科研中的作用,并且分析了一些學(xué)派、團(tuán)隊(duì)形成的過(guò)程;劉萍等[12]構(gòu)建了加權(quán)文獻(xiàn)引文網(wǎng)絡(luò),并結(jié)合傳統(tǒng)引文網(wǎng)絡(luò)指標(biāo)和學(xué)者文獻(xiàn)的引用關(guān)系,對(duì)學(xué)者的學(xué)術(shù)影響力進(jìn)行綜合評(píng)測(cè)。

由于普通的點(diǎn)邊網(wǎng)絡(luò)無(wú)法表示網(wǎng)絡(luò)中的高階的信息關(guān)聯(lián),所以超網(wǎng)絡(luò)模型逐漸被引入到網(wǎng)絡(luò)分析任務(wù)中。例如,索琪等[13]就基于超圖的超網(wǎng)絡(luò)進(jìn)行討論,分析了這類(lèi)超網(wǎng)絡(luò)的結(jié)構(gòu)及其演化機(jī)制;胡楓等[14]構(gòu)建了基于超圖的科研合作超網(wǎng)絡(luò)模型,通過(guò)理論和實(shí)驗(yàn)數(shù)據(jù)分析了此超網(wǎng)絡(luò)的超度,發(fā)現(xiàn)超度分布基本符合冪律分布;劉勝久等[15]從超網(wǎng)絡(luò)的關(guān)聯(lián)矩陣出發(fā),對(duì)超網(wǎng)絡(luò)進(jìn)行分析研究,總結(jié)出了一些基于矩陣運(yùn)算的構(gòu)建超網(wǎng)絡(luò)模型的性質(zhì);孫海生[16]選擇前沿論文中的主題特征詞作為研究對(duì)象并且構(gòu)建超網(wǎng)絡(luò)模型,通過(guò)對(duì)該超網(wǎng)絡(luò)的特性分析表明,這種方法能夠體現(xiàn)出特征詞在各個(gè)聚類(lèi)主題中的重要性;梁曉賀等[17]構(gòu)建基于微博輿情的超網(wǎng)絡(luò)模型,包含用戶(hù)—觀點(diǎn)—情感—時(shí)序四層,揭示了每層子網(wǎng)的特征信息,超網(wǎng)絡(luò)模型的超邊可用于輿情預(yù)警、輿情主題挖掘及輿情主題演化分析。

2 方法設(shè)計(jì)

2.1 方法流程

本文主要是分析引文網(wǎng)絡(luò)中關(guān)鍵詞的分布特性,并分析關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型特征。為了實(shí)現(xiàn)這兩個(gè)研究目標(biāo),本文設(shè)計(jì)了一種方法驗(yàn)證流程,如圖1所示。首先使用Python程序進(jìn)行關(guān)鍵詞爬取;然后把爬取到三個(gè)領(lǐng)域內(nèi)的關(guān)鍵詞輸入到三個(gè)學(xué)術(shù)搜索引擎中進(jìn)行搜索,并將得到的詞的頻數(shù)存入本地,同時(shí)將三個(gè)領(lǐng)域內(nèi)的關(guān)鍵詞在百度學(xué)術(shù)搜索引擎中進(jìn)行搜索,把得到的近三年的詞頻和相關(guān)學(xué)者存入本地;最后,本文通過(guò)對(duì)爬取得到的關(guān)鍵詞的數(shù)據(jù)進(jìn)行擬合、分析,驗(yàn)證其頻數(shù)是否符合Zipf定律并對(duì)構(gòu)建的關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型進(jìn)行分析。

圖1 本文主要研究方法流程

2.2 關(guān)鍵詞爬取

本文研究的關(guān)鍵詞是中文文獻(xiàn)中的關(guān)鍵詞,主要研究了人工智能、生物和財(cái)經(jīng)三個(gè)領(lǐng)域內(nèi)的關(guān)鍵詞。

本文通過(guò)Python程序在中國(guó)科學(xué)等雜志期刊上爬取人工智能、生物和財(cái)經(jīng)三個(gè)領(lǐng)域的文獻(xiàn),然后將關(guān)鍵詞提取出來(lái),對(duì)提取出來(lái)的關(guān)鍵詞進(jìn)行去除重復(fù)、去除單個(gè)字、去除英文處理,最終得到我們需要的關(guān)鍵詞。主要步驟如圖2所示。

圖2 關(guān)鍵詞獲取流程圖

(1) 論文獲取。對(duì)本文研究的三個(gè)領(lǐng)域(人工智能、生物和財(cái)經(jīng))在中國(guó)科學(xué)等雜志期刊中進(jìn)行搜索并爬取論文的作者、關(guān)鍵詞、摘要等內(nèi)容。

(2) 關(guān)鍵詞提取。在爬取得到的論文中將關(guān)鍵詞提取出來(lái)。

(3) 關(guān)鍵詞篩選。將提取出來(lái)的關(guān)鍵詞做去重、去單個(gè)字和去英文處理。

2.3 關(guān)鍵詞詞頻與相關(guān)學(xué)者獲取

本文研究的關(guān)鍵詞詞頻是指關(guān)鍵詞在搜索引擎中搜索了以后得到的搜索結(jié)果數(shù)。如圖3所示,橢圓框里面的搜索結(jié)果為關(guān)鍵詞詞頻。

(a) 知網(wǎng)關(guān)鍵詞詞頻示例

(b) 百度學(xué)術(shù)關(guān)鍵詞詞頻示例

(c) Bing學(xué)術(shù)關(guān)鍵詞詞頻示例圖3 三個(gè)搜索引擎中關(guān)鍵詞詞頻示例

另外,本文還對(duì)三個(gè)領(lǐng)域內(nèi)的關(guān)鍵詞在百度學(xué)術(shù)搜索引擎中近三年的詞頻分布、與關(guān)鍵詞相關(guān)的學(xué)者進(jìn)行分析研究,圖4為獲取的百度學(xué)術(shù)中近三年詞頻和相關(guān)作者展示。長(zhǎng)方框內(nèi)為關(guān)鍵詞2018年、2017年和2016年的詞頻,橢圓框內(nèi)為與此關(guān)鍵詞相關(guān)的學(xué)者作家。

圖4 百度學(xué)術(shù)搜索引擎近三年詞頻與相關(guān)學(xué)者

2.4 Zipf定律

Zipf定律最早由美國(guó)語(yǔ)音學(xué)家George Kingsley Zipf提出,是最早被提出的文獻(xiàn)計(jì)量學(xué)定律之一。Zipf定律的描述[20]如下: 設(shè)一個(gè)文本為T(mén)(詞量充分多),其含有W個(gè)不同的詞。若將這W個(gè)不同的詞在文本T中出現(xiàn)的頻次f統(tǒng)計(jì)出來(lái),并且把詞的頻次按照從高到低的順序排列起來(lái),然后用自然數(shù)順序從1(對(duì)應(yīng)最高頻次)到s(對(duì)應(yīng)最低頻次)將每個(gè)頻次編上序號(hào)r(r=1,2,…,s),則rf=c(c為一常數(shù))。還有另外一種指數(shù)形式p(r)=Cr-β,其中p(r)為排序在第r位置的詞出現(xiàn)的頻率,β為Zipf指數(shù),C為常數(shù)。

Zipf定律的提出在文獻(xiàn)計(jì)量學(xué)、語(yǔ)言學(xué)界引起轟動(dòng),通過(guò)其他專(zhuān)家學(xué)者陸續(xù)不斷的研究,證實(shí)了各種語(yǔ)言的詞頻分布都基本符合這一定律,使得人們對(duì)詞頻的分布認(rèn)識(shí)更為深刻,這一定律也對(duì)其他許多學(xué)科產(chǎn)生一定的影響[18-20]。構(gòu)建Zipf實(shí)驗(yàn)的算法部分MATLAB偽代碼如下:

data=xlsread(′Bing學(xué)術(shù)-財(cái)經(jīng).xlsx′);

x=data(:,2);

y=data(:,1);

loglog(x,y,′.′);

xlabel;

ylabel;

2.5 超網(wǎng)絡(luò)模型

目前為止,對(duì)于超網(wǎng)絡(luò)的概念并沒(méi)有明確的定義,在學(xué)術(shù)界現(xiàn)在公認(rèn)的超網(wǎng)絡(luò)的定義主要有兩種:基于超圖的超網(wǎng)絡(luò)和基于網(wǎng)絡(luò)的超網(wǎng)絡(luò)?;诰W(wǎng)絡(luò)的超網(wǎng)絡(luò)是指那些鏈接方式比較復(fù)雜,規(guī)模比較巨大的網(wǎng)絡(luò),還有一些超網(wǎng)絡(luò)是一個(gè)網(wǎng)絡(luò)中嵌套著另一個(gè)網(wǎng)絡(luò)的大型網(wǎng)絡(luò),這些都是基于網(wǎng)絡(luò)的超網(wǎng)絡(luò)(Supernetwork)[21-22]。

本文中構(gòu)建的超網(wǎng)絡(luò)模型是基于超圖的超網(wǎng)絡(luò),其中關(guān)鍵詞作為超網(wǎng)絡(luò)的超邊,相關(guān)知名學(xué)者作為超網(wǎng)絡(luò)的節(jié)點(diǎn)?;跇?gòu)建的關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型,可以構(gòu)建出超網(wǎng)絡(luò)在雙對(duì)數(shù)坐標(biāo)下的超度分布,具體算法如下:

(1) 初始化:超網(wǎng)絡(luò)中的節(jié)點(diǎn)vi,i=1,2,3,…,n。

(2) 遞歸:檢查超網(wǎng)絡(luò)中的所有節(jié)點(diǎn),若節(jié)點(diǎn)vi和vj屬于同一關(guān)鍵詞,那么就將節(jié)點(diǎn)vi和vj放入表示該關(guān)鍵詞的超邊E中。

(3) 算法結(jié)束:超網(wǎng)絡(luò)中的所有節(jié)點(diǎn)全部檢查完畢。

構(gòu)建關(guān)聯(lián)矩陣部分Java代碼和構(gòu)建超網(wǎng)絡(luò)模型的超度分布的部分MATLAB代碼如下:

構(gòu)建關(guān)聯(lián)矩陣

Scanner sc=new Scanner(System.in);

int VexNum=sc.nextInt();

int HyperEgeNum=sc.nextInt();

int CMatirx=new int[HyperEgeNum+1][VexNum+1];

int indexVex=new int[HyperEgeNum+1][VexNum+1];

int c=0;

try {

Scanner in=new Scanner(new File(".txt"));

while (in.hasNextLine()) {

int k=1;

c++;

for (int j=0;j

k++;

}

}

in.close();

}

超網(wǎng)絡(luò)的超度分布

B=關(guān)聯(lián)矩陣; A=B′;

df=sum(A>0);

pp2=tabulate(df);

sw=find(pp2(:,3)>0);

x_value=pp2(sw,1);

y_value=pp2(sw,3)/100;

p3=polyfit(log(x_value),log(y_value),1);

kx=p3(1);

b=p3(2);

x2=minvalue:maxvalue;

y2=exp(polyval(p3,log(x2)));

loglog(pp2(sw,1),pp2(sw,3);

xlabel;ylabel;

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)集說(shuō)明

由于目前還沒(méi)有比較完整、權(quán)威的中文文獻(xiàn)關(guān)鍵詞數(shù)據(jù)庫(kù),本文的所有實(shí)驗(yàn)數(shù)據(jù)集均由互聯(lián)網(wǎng)搜集所得,此數(shù)據(jù)集是通過(guò)我們?cè)O(shè)計(jì)的一個(gè)Python爬蟲(chóng)程序爬取得到。

首先,本文在《中國(guó)科學(xué)》期刊分三個(gè)領(lǐng)域(人工智能、生物、財(cái)經(jīng))共爬取約6 000篇文章(每個(gè)領(lǐng)域約2 000篇)并將關(guān)鍵詞提取出來(lái),得到約18 000個(gè)關(guān)鍵詞。又由于在這約18 000個(gè)關(guān)鍵詞中存在單個(gè)字、純英文、重復(fù)以及一些地名人名,對(duì)其進(jìn)行去重和篩選,最終得到能用于本文研究的關(guān)鍵詞共有約7 500詞(每個(gè)領(lǐng)域約2 500詞)。其次,我們將這7 500個(gè)關(guān)鍵詞分別輸入到百度學(xué)術(shù)、Bing學(xué)術(shù)和知網(wǎng)這三個(gè)學(xué)術(shù)搜索引擎中進(jìn)行搜索并將其得到的搜索結(jié)果數(shù)進(jìn)行統(tǒng)計(jì),然后對(duì)所得結(jié)果數(shù)按照降序排列,即得到我們最終需要的研究數(shù)據(jù)。另外,在百度學(xué)術(shù)搜索引擎中,本文不僅爬取了總的結(jié)果數(shù),還爬取了近三年(2018、2017和2016年)的搜索結(jié)果數(shù)和與此關(guān)鍵詞有關(guān)的相關(guān)知名學(xué)者。

3.2 實(shí)驗(yàn)結(jié)果及其分析

本文主要通過(guò)三方面對(duì)關(guān)鍵詞的分布特性進(jìn)行研究。一方面是驗(yàn)證不同學(xué)科的關(guān)鍵詞詞頻與其排名分布是否符合Zipf定律,另一方面是分析不同學(xué)科內(nèi)的關(guān)鍵詞近幾年內(nèi)的分布是否符合Zipf定律。本文將詞頻與其排名放在雙堆數(shù)坐標(biāo)系中進(jìn)行擬合,觀察其分布是否符合冪律分布,若符合冪律分布,則關(guān)鍵詞分布符合Zipf定律。最后,本文還對(duì)構(gòu)建的關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型進(jìn)行分析,超網(wǎng)絡(luò)模型的分析主要是分析其超度的分布,本文在雙對(duì)數(shù)坐標(biāo)系下將關(guān)鍵詞-超網(wǎng)絡(luò)模型超度分布擬合出來(lái),從而對(duì)此超網(wǎng)絡(luò)模型進(jìn)行進(jìn)一步研究。

3.2.1Zipf定律驗(yàn)證

圖5是人工智能、生物和財(cái)經(jīng)三個(gè)領(lǐng)域的關(guān)鍵詞在知網(wǎng)、百度學(xué)術(shù)和Bing學(xué)術(shù)三個(gè)學(xué)術(shù)搜索引擎中搜索結(jié)果數(shù)目和其對(duì)應(yīng)排名在雙對(duì)數(shù)坐標(biāo)下的關(guān)鍵詞詞頻排名分布圖。

(a) 知網(wǎng)-人工智能

(b) 知網(wǎng)-生物

(c) 知網(wǎng)-財(cái)經(jīng)

(d) 百度學(xué)術(shù)-人工智能

(e) 百度學(xué)術(shù)-生物

(f) 百度學(xué)術(shù)-財(cái)經(jīng)

(g) Bing學(xué)術(shù)-人工智能

(h) Bing學(xué)術(shù)-生物

(i) Bing學(xué)術(shù)-財(cái)經(jīng)圖5 搜索結(jié)果數(shù)與排名分布圖

可以看出,除了尾部以外,所有的點(diǎn)都幾乎分布在同一條直線上。我們對(duì)上面三組數(shù)據(jù)進(jìn)行擬合,得到如表1所示的回歸方程。從表1中的回歸方程中可以發(fā)現(xiàn),關(guān)鍵詞的搜索結(jié)果數(shù)和與其相對(duì)應(yīng)的排名之間是近似冪律分布。中文文獻(xiàn)關(guān)鍵詞的分布在各自的領(lǐng)域內(nèi)基本符合Zipf定律。

表1 搜索結(jié)果數(shù)與排名分布回歸方程

圖6是人工智能、生物和財(cái)經(jīng)三個(gè)學(xué)科領(lǐng)域的關(guān)鍵詞在百度學(xué)術(shù)這個(gè)學(xué)術(shù)搜索引擎中近三年(2018年、2017年和2016年)的搜索結(jié)果數(shù)目與其對(duì)應(yīng)排名在雙對(duì)數(shù)坐標(biāo)下的關(guān)鍵詞詞頻排名分布圖。

(j) 人工智能-2018年

(k) 人工智能-2017年

(l) 人工智能-2016年

(m) 生物-2018年

(n) 生物-2017年

(o) 生物-2016年

(p) 財(cái)經(jīng)-2018年

(q) 財(cái)經(jīng)-2017年

(r) 財(cái)經(jīng)-2016年圖6 近三年搜索結(jié)果數(shù)與排名分布圖

可以看出,除去尾部以外的部分,所有的點(diǎn)依然都幾乎分布在同一條直線上。對(duì)上面三組數(shù)據(jù)進(jìn)行擬合,得到如表2所示的回歸方程。從表2中的回歸方程中可以發(fā)現(xiàn),關(guān)鍵詞近三年的搜索結(jié)果數(shù)和與其相對(duì)應(yīng)的排名之間依然是近似冪律分布的。中文文獻(xiàn)中的關(guān)鍵詞在各自的領(lǐng)域內(nèi),每年都基本符合Zipf定律。

表2 近三年搜索結(jié)果數(shù)與排名分布回歸方程

基于以上實(shí)驗(yàn)結(jié)果,本文得出了如下結(jié)論:

(1) 在每個(gè)搜索引擎中三個(gè)學(xué)科領(lǐng)域內(nèi)的Zipf指數(shù)是相差不多的(比如在知網(wǎng)中人工智能、生物、財(cái)經(jīng)的Zipf指數(shù)分別是-2.2、-2.299、-2.287);

(2) 人工智能和財(cái)經(jīng)領(lǐng)域在Bing學(xué)術(shù)搜索引擎中的R指數(shù)都是0.8左右,比在知網(wǎng)和百度學(xué)術(shù)搜索引擎中的R指數(shù)0.9小很多;

(3) 在近三年的詞頻分布中,三個(gè)學(xué)科領(lǐng)域都有較好的擬合結(jié)果,R指數(shù)基本都在0.95左右。

在上述分布曲線圖中,可以明顯看出分布圖的尾部呈現(xiàn)急速的下垂現(xiàn)象,導(dǎo)致這種現(xiàn)象的主要原因是在關(guān)鍵詞詞頻比較低的區(qū)域的關(guān)鍵詞數(shù)量急劇增加。為了分析這種現(xiàn)象,本文對(duì)三個(gè)學(xué)科領(lǐng)域低頻詞的研究。表3為三個(gè)學(xué)科領(lǐng)域一些低頻詞代表,研究發(fā)現(xiàn)低頻詞急劇增加的原因主要有兩方面:一方面是這些低頻詞在自己學(xué)科領(lǐng)域內(nèi)比較專(zhuān)業(yè),都是一些專(zhuān)業(yè)名詞,比如生物領(lǐng)域內(nèi)的固氨率、共基質(zhì)代謝等詞都是專(zhuān)業(yè)名詞;另一方面,還有一些低頻詞在自己的領(lǐng)域內(nèi)不是研究熱點(diǎn),沒(méi)有得到大家的關(guān)注,比如克隆網(wǎng)絡(luò)和財(cái)經(jīng)倫理等詞,都是比較陌生的關(guān)鍵詞。由于這些低頻詞的急劇增加導(dǎo)致尾部出現(xiàn)急速下垂現(xiàn)象,但是對(duì)大多數(shù)的文本來(lái)說(shuō),Zipf定律對(duì)詞頻的高中區(qū)域基本比較吻合。

表3 低頻詞詞頻統(tǒng)計(jì)

續(xù)表3

此外,由于每個(gè)學(xué)術(shù)搜索引擎都是每時(shí)每刻在更新變化,故在本文中對(duì)上述數(shù)據(jù)的分析可能略有一些波動(dòng),但是如果某個(gè)關(guān)鍵詞沒(méi)有在短時(shí)間內(nèi)被極度關(guān)注或者成為一個(gè)研究爆點(diǎn),上述實(shí)驗(yàn)結(jié)果具有一定的代表性。

本文又根據(jù)關(guān)鍵詞的詞頻描繪出三個(gè)知識(shí)領(lǐng)域的詞云圖。圖7為三個(gè)領(lǐng)域的關(guān)鍵詞的云詞展示。

(a) 人工智能

(b) 財(cái)經(jīng)

(c) 生物圖7 關(guān)鍵詞詞云可視化

由圖7可以清楚地了解到在每個(gè)學(xué)科領(lǐng)域中目前較為關(guān)注的熱點(diǎn)話題,比如在人工智能詞云圖中可以發(fā)現(xiàn)目前研究熱點(diǎn)為機(jī)器人、專(zhuān)家系統(tǒng)、控制等。

3.2.2超網(wǎng)絡(luò)模型的構(gòu)建與分析

為了更詳細(xì)地了解中文文獻(xiàn)中關(guān)鍵詞的分布,我們分研究領(lǐng)域構(gòu)建了三個(gè)關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型,并對(duì)這些超網(wǎng)絡(luò)模型做了如下分析。圖8為中文文獻(xiàn)中關(guān)鍵詞在人工智能、生物和財(cái)經(jīng)三個(gè)領(lǐng)域內(nèi)構(gòu)建的關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型的超度分布圖。其中,我們把關(guān)鍵詞當(dāng)作超邊,把相關(guān)知名學(xué)者當(dāng)作節(jié)點(diǎn)。

(a) 人工智能

(b) 生物

(c) 財(cái)經(jīng)圖8 超網(wǎng)絡(luò)模型超度分布

可以看出,節(jié)點(diǎn)的超度分布大致呈冪律分布,說(shuō)明每個(gè)關(guān)鍵詞對(duì)應(yīng)的相關(guān)知名學(xué)者在每個(gè)領(lǐng)域內(nèi)都呈冪律分布,顯示了無(wú)標(biāo)度特性。根據(jù)數(shù)據(jù)擬合出來(lái)的回歸方程如表4所示。

表4 超網(wǎng)絡(luò)模型超度分布回歸方程

可以看出,關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型在人工智能、生物和財(cái)經(jīng)三個(gè)領(lǐng)域中的冪指數(shù)分別為2.857 7、2.220 6、3.058 4。

在超網(wǎng)絡(luò)動(dòng)態(tài)模型動(dòng)態(tài)演化時(shí),累積性和優(yōu)先連接性是無(wú)標(biāo)度超度分布呈現(xiàn)冪律分布的最主要的兩個(gè)原因。累計(jì)性就是節(jié)點(diǎn)的增加,對(duì)應(yīng)本文中所構(gòu)造的超網(wǎng)絡(luò)模型就是指研究某個(gè)關(guān)鍵詞的相關(guān)學(xué)者的增加;優(yōu)先連接性是指度比較大的節(jié)點(diǎn)優(yōu)先連接的概率較大,在本文中指相關(guān)學(xué)者在選取研究話題時(shí)通常會(huì)優(yōu)先選取比較熱門(mén)的話題來(lái)研究。

4 結(jié) 語(yǔ)

本文從Zipf定律和超網(wǎng)絡(luò)等幾個(gè)方面對(duì)中文文獻(xiàn)中的關(guān)鍵詞進(jìn)行分析研究。通過(guò)對(duì)三個(gè)領(lǐng)域內(nèi)的關(guān)鍵詞在三個(gè)代表性的學(xué)術(shù)搜索引擎中的搜索結(jié)果數(shù)據(jù)的研究得到驗(yàn)證,在每個(gè)研究領(lǐng)域內(nèi),關(guān)鍵詞搜索結(jié)果數(shù)和其排名符合Zipf定律。探討了關(guān)鍵詞近三年的搜索結(jié)果數(shù)與其排名是否符合Zipf定律,實(shí)驗(yàn)表明,在每個(gè)領(lǐng)域內(nèi)關(guān)鍵詞近三年的搜索結(jié)果數(shù)和其排名也是符合Zipf定律的。構(gòu)造了一個(gè)關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型,通過(guò)對(duì)其超度分布的分析,在每個(gè)領(lǐng)域內(nèi)關(guān)鍵詞對(duì)應(yīng)的相關(guān)知名學(xué)者遵循冪律分布,表現(xiàn)出比較明顯的無(wú)標(biāo)度特征。

猜你喜歡
人工智能模型研究
一半模型
FMS與YBT相關(guān)性的實(shí)證研究
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統(tǒng)研究
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
主站蜘蛛池模板: 欧美黄网站免费观看| 99热亚洲精品6码| 99国产在线视频| 一级毛片无毒不卡直接观看| 国产精品久久久免费视频| 色窝窝免费一区二区三区 | a毛片免费观看| 伊人久久精品无码麻豆精品| 亚洲第一在线播放| 亚洲综合片| 中文字幕第1页在线播| 欧美成人怡春院在线激情| 国产精品亚洲а∨天堂免下载| 91精品国产丝袜| 欧洲精品视频在线观看| 狠狠操夜夜爽| 免费国产黄线在线观看| 伊人成人在线| 成人伊人色一区二区三区| 国产乱人免费视频| 亚洲国产中文欧美在线人成大黄瓜| 国产精品女在线观看| 97在线国产视频| 日韩黄色大片免费看| 色欲色欲久久综合网| 国产成人毛片| 亚洲综合中文字幕国产精品欧美 | 国产精品久久久免费视频| 欧美天天干| 成人精品午夜福利在线播放| 亚洲午夜天堂| 九九热在线视频| 欧美成人二区| 热99re99首页精品亚洲五月天| 99在线视频网站| 亚洲第一av网站| 亚洲中文字幕手机在线第一页| 精品国产成人三级在线观看| 极品av一区二区| 色综合中文字幕| 久草视频精品| 国产第一页亚洲| 精品国产免费第一区二区三区日韩| 亚洲精品视频网| 影音先锋丝袜制服| 91系列在线观看| 综合五月天网| 91系列在线观看| 影音先锋丝袜制服| 国产精品自在在线午夜区app| 日韩在线影院| 99久久人妻精品免费二区| 亚国产欧美在线人成| 日韩a在线观看免费观看| 国产日韩精品欧美一区灰| 真人免费一级毛片一区二区| 国产亚洲精品无码专| 999国产精品| 国内毛片视频| 熟女日韩精品2区| 欧美日韩综合网| 四虎影视无码永久免费观看| 一本一道波多野结衣av黑人在线| 亚洲二区视频| 亚洲啪啪网| 精品三级网站| 亚洲成a人片7777| 四虎亚洲精品| 精品国产自在现线看久久| 欧美日韩国产精品综合| …亚洲 欧洲 另类 春色| 一区二区欧美日韩高清免费| 中国国产A一级毛片| 国产精品久久久久久久伊一| 国产在线无码一区二区三区| 国产一级毛片在线| 免费A级毛片无码免费视频| 国产精品第一区| 日本91视频| 999精品视频在线| 欧美日本二区| 超碰91免费人妻|