999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

期刊引文概率分布模型的建立與應(yīng)用

2019-10-23 03:15:42
關(guān)鍵詞:模型

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上的信息資源越來越豐富,搜索引擎的性能越來越強大,讀者獲取文獻(xiàn)資源越來越方便,但也帶來了更為棘手的問題,即如何從海量文獻(xiàn)中快速鎖定最需要的文獻(xiàn)。圖書館員為讀者準(zhǔn)確推薦所需文獻(xiàn)是學(xué)科服務(wù)中面臨的巨大難題。已有學(xué)者關(guān)注這方面的內(nèi)容[1-2],指出在大數(shù)據(jù)環(huán)境下文獻(xiàn)推薦的必要性,也有關(guān)于科研機(jī)構(gòu)內(nèi)部的推薦方案,如構(gòu)建個人知識庫或機(jī)構(gòu)知識庫[3]。因此建立適應(yīng)各個學(xué)科的自動文獻(xiàn)篩選算法是十分必要的。

關(guān)于自動文獻(xiàn)篩選算法研究有很多,如根據(jù)關(guān)聯(lián)規(guī)則[4-5]或內(nèi)容相似性[6-7]進(jìn)行文獻(xiàn)推薦的算法,根據(jù)用戶特征進(jìn)行個性化推薦的算法[8-10],根據(jù)引文網(wǎng)絡(luò)中的引證關(guān)系進(jìn)行文獻(xiàn)推薦的算法。這些推薦算法的共同點是對推薦內(nèi)容進(jìn)行特征提取、建模分析,并根據(jù)用戶進(jìn)行特征匹配,然后根據(jù)匹配程度為用戶推薦相應(yīng)的文獻(xiàn)。推薦算法主要分為內(nèi)容推薦[7]和協(xié)同過濾推薦[11]兩種,都有相應(yīng)的優(yōu)缺點,內(nèi)容推薦方法的推薦準(zhǔn)確率高一些,但計算量過大。當(dāng)前內(nèi)容推薦的主要算法是通過關(guān)鍵詞計算,但文章的主要特征很難靠關(guān)鍵詞全面反映,使用關(guān)鍵詞不能做到全面、準(zhǔn)確的推薦,還需要考慮使用全文內(nèi)容,如摘要、結(jié)論等,這會使計算量大大增加。有很多相關(guān)的算法研究[12-17]。因此需要對推薦的目標(biāo)內(nèi)容做多層次的簡化分析[7-9],將相關(guān)度不高的各個方向內(nèi)容分別做剪枝處理,得到比較簡化的模型。在多層次分析中,先對期刊引用數(shù)據(jù)進(jìn)行分析和篩選,列出引用概率比較大的一些期刊,再進(jìn)行語義分析或內(nèi)容推薦等,會大大提高計算效率,有助于進(jìn)行海量數(shù)據(jù)分析。當(dāng)前進(jìn)行期刊數(shù)據(jù)分析和篩選的算法精度都比較低,嚴(yán)重限制了算法的應(yīng)用。

對統(tǒng)計分布的研究有效地簡化了文獻(xiàn)推薦算法,對期刊的計量指標(biāo)的精確描述影響很大。當(dāng)前關(guān)于引文統(tǒng)計分布的研究結(jié)果表明,統(tǒng)計分布偏離了布拉德福定律描述的冪律分布。本文對引用過程和物理中的擴(kuò)散過程進(jìn)行類比,建立能夠描述偏離冪律分布的文獻(xiàn)引用模型,應(yīng)用文獻(xiàn)引用模型對文獻(xiàn)推薦模型中的期刊優(yōu)化部分進(jìn)行建模,然后對吉林大學(xué)農(nóng)學(xué)部的發(fā)文數(shù)據(jù)進(jìn)行分析,并用2018年發(fā)表文章中的引用數(shù)據(jù)進(jìn)行驗證,為文獻(xiàn)推薦服務(wù)做準(zhǔn)備。

1 引文概率分布模型的構(gòu)建

為了能更好地解釋和利用引文的概率分布,需要建立準(zhǔn)確的模型和擬合公式。本文以吉林大學(xué)農(nóng)學(xué)部發(fā)文的引文概率分布為例,對發(fā)文中引用的期刊進(jìn)行統(tǒng)計分析,得到其統(tǒng)計分布,歸一化后得到其概率分布。為了能得到精確的概率分布公式,需要對引文分布進(jìn)行建模分析。通過類比擴(kuò)散過程建立引文概率模型,并給出引用概率分布的擬合方程(相當(dāng)于考慮了各個期刊之間被引用的相關(guān)概率),可以用于優(yōu)化文獻(xiàn)推送模型,有望增加當(dāng)前文獻(xiàn)推送結(jié)果的精度或者減少當(dāng)前推算法的計算量,緩解當(dāng)前各種高精度優(yōu)化算法計算量過大的問題。

1.1 數(shù)據(jù)采集

本文數(shù)據(jù)來源于Web of Science(WOS)核心合集,數(shù)據(jù)采集時間為2018年12月9日,采用高級檢索的方式,檢索并下載吉林大學(xué)農(nóng)學(xué)部被SCI核心合集收錄的論文2 071篇,導(dǎo)出包括引文題錄信息的文獻(xiàn)作為原始數(shù)據(jù)集。對這些記錄中2017年12月31日前發(fā)文的引用文獻(xiàn)做統(tǒng)計,共下載2 071條發(fā)表記錄、68 363條引用記錄,通過文字匹配分析提取出所有文獻(xiàn)的發(fā)表時間及包括引文的期刊名稱和發(fā)表年代的引文信息。將被引文獻(xiàn)按期刊和年代分類,統(tǒng)計期刊分布和時間分布。2018年發(fā)表的265篇文章用來驗證文獻(xiàn)推送。

1.2 引文概率分布模型的建立及研究方法

本文以WOS中吉林大學(xué)農(nóng)學(xué)部發(fā)表文章中的引文數(shù)據(jù)為研究對象,經(jīng)過統(tǒng)計可以得到按期刊區(qū)分的概率分布,其中高被引文獻(xiàn)在一定程度上反映了研究領(lǐng)域的學(xué)術(shù)影響力和經(jīng)典文獻(xiàn)[18]。引文分布也能為學(xué)科服務(wù)研究提供幫助,包括文獻(xiàn)保障、文獻(xiàn)傳遞、文獻(xiàn)支持、文獻(xiàn)推送等。對獲取的研究數(shù)據(jù)進(jìn)行進(jìn)一步的統(tǒng)計分析,并對期刊的數(shù)量按被引期刊的降序排列,可以得到引文的期刊分布是略偏離Zipf的冪律分布的(圖1)。圖中藍(lán)圈是數(shù)據(jù)統(tǒng)計結(jié)果,紅線是根據(jù)冪律分布擬合結(jié)果,綠線是擬合殘差。圖1(a)是正常坐標(biāo)下的統(tǒng)計分布模型。從圖中可以看出,隨著文章序號的增加被引量急劇減小,也就是說單一學(xué)科中的引用一般都發(fā)生在少數(shù)期刊中。為了更準(zhǔn)確地看出被引數(shù)量的分布情況,我們對期刊排名序號和被引量都取對數(shù),得到圖1(b)的結(jié)果,從圖中可以看出,數(shù)據(jù)結(jié)果是偏離直線分布的,直線分布對應(yīng)著Zipf的冪律分布。為了更精確地描述期刊被引分布,本文類比隨機(jī)擴(kuò)散的模型,建立了文獻(xiàn)引用模型,并給出了統(tǒng)計分布的解析公式,用它對吉林大學(xué)農(nóng)學(xué)部發(fā)表文章的統(tǒng)計數(shù)據(jù)進(jìn)行擬合分析。為了更好地解釋和利用引文的概率分布,需要建立符合引用過程的微觀描述模型,列出可以用來擬合數(shù)據(jù)的概率分布公式,以便進(jìn)行后續(xù)的研究和應(yīng)用。

圖1 期刊引用概率的統(tǒng)計分布

本文通過類比物理中的隨機(jī)擴(kuò)散過程來建立引用模型。

科技論文完成過程主要包括思路構(gòu)建、實驗過程、數(shù)據(jù)分析等,每個過程都需要查找相應(yīng)的文獻(xiàn)進(jìn)行參考和支持。對于同一個研究方向的課題,不同的人有不同的想法,需要的文獻(xiàn)也不同,引用的文獻(xiàn)也不同,發(fā)表時間也有較大的隨機(jī)性,又因為科研單位總體發(fā)文的引文是所有個人引用行為的總體統(tǒng)計,所以科研單位總體發(fā)文中的引文也具有隨機(jī)性。

同樣,某個期刊被引用的次數(shù)也是一個隨機(jī)變量,這和粒子在溶液中的擴(kuò)散行為比較像,因此可以類比溶液擴(kuò)散的行為建立引文的概率分布函數(shù)。

把引用過程類比成物理中的隨機(jī)擴(kuò)散過程,擴(kuò)散過程描述的是在溶液中隨機(jī)分散一些均勻粒子,粒子可以在溶液中做隨機(jī)擴(kuò)散運動。由于粒子周圍各個方向上受力不同,而會向各個方向做隨機(jī)的布朗運動。在這個擴(kuò)散體系中如果只觀察一個很小的區(qū)域,看是否有粒子通過,由于粒子運動的隨機(jī)性,那么這個觀測信號的時間序列也是隨機(jī)的,也就是說,在這個區(qū)域內(nèi)觀察,我們會看到粒子隨機(jī)地出現(xiàn)在這個區(qū)域。但由于大量粒子的統(tǒng)計性,每兩個粒子出現(xiàn)的時間間隔會有一定的相關(guān)性。相關(guān)性代表著當(dāng)一個粒子出現(xiàn)以后,另一個粒子在間隔t時間出現(xiàn)的概率,p(t)是一個統(tǒng)計意義上的常數(shù)。不同時間間隔對應(yīng)的概率不同,物理上可以通過求解擴(kuò)散方程和相應(yīng)相關(guān)方程得到p(t)的曲線,也就是對應(yīng)的自由擴(kuò)散的方向。被研究的科研單位中的每個科研人員都在搜索文獻(xiàn),相當(dāng)于溶液中自由粒子的擴(kuò)散行為,當(dāng)某個期刊被引用,相當(dāng)于在觀測區(qū)域觀察到這個粒子。

因此,對研究對象單位總體的引用行為可以類比成這個擴(kuò)散行為,所以可以用如下的擴(kuò)散方程來描述。文獻(xiàn)引用概率模型如公式(1)所示。

(1)

公式(1)中,A是概率密度的歸一化常數(shù);V是觀測體積,在文獻(xiàn)引用模型中代表用戶對某個具體問題檢索時能精確到的范圍;nD是擴(kuò)散系數(shù),代表用戶在檢索文獻(xiàn)時在文獻(xiàn)之間選擇的能力;n是引用期刊的序號。

1.3 引文概率分布模型的驗證及擬合

對吉林大學(xué)農(nóng)學(xué)部發(fā)文中的引用記錄按照期刊進(jìn)行統(tǒng)計,得到其統(tǒng)計分布(圖2)。

圖2中藍(lán)圈是數(shù)據(jù)統(tǒng)計結(jié)果,紅線是本文建立模型的擬合結(jié)果,綠線是擬合殘差。

用本文建立的引文概率模型對統(tǒng)計分布數(shù)據(jù)進(jìn)行擬合可以得到如圖2(a)所示的結(jié)果。從圖2(a)中可以看出擬合的整體效果很好,擬合結(jié)果對應(yīng)的殘差也在0附近波動,說明該模型應(yīng)用到引用分布中是合理的。

為了查看更精細(xì)的擬合效果,在圖2(b)中給出了雙對數(shù)坐標(biāo)下的擬合結(jié)果。從圖2(b)中可以看出,在雙對數(shù)坐標(biāo)下整體的擬合效果都很好,殘差也一直在0附近波動,說明應(yīng)用本模型可以準(zhǔn)確擬合偏離Zipf的冪律分布的引用概率分布。

圖2引用期刊的統(tǒng)計分布及擬合結(jié)果

1.4 引文概率分布模型討論及參數(shù)意義的解釋

為了將引文概率模型應(yīng)用到實際的文獻(xiàn)推送中,需要對參數(shù)的物理意義及其對統(tǒng)計分布的影響進(jìn)行詳細(xì)分析。通過計算不同參數(shù)對應(yīng)的統(tǒng)計分布和比較統(tǒng)計分布形狀的變化規(guī)律,有助于我們理解引文概率模型。分別改變nD和V的值,計算的統(tǒng)計分布結(jié)果如圖3所示。圖3(a)中給出了擴(kuò)散系數(shù)變化對統(tǒng)計分布的影響。為了能更精確地反映曲線的變化趨勢,這里直接采用雙對數(shù)坐標(biāo)表示趨勢的變化。從圖3可以看出,隨著擴(kuò)散系數(shù)的增加,引用排名靠前的文獻(xiàn)數(shù)量減少,引用排名靠后的文獻(xiàn)數(shù)量增加。也就是說隨著擴(kuò)散系數(shù)的增加,文獻(xiàn)的引用概率向著均勻分布進(jìn)化,這和我們的直觀感覺一致。當(dāng)所有文獻(xiàn)都能快速進(jìn)入讀者的觀察視野內(nèi)時,會增加其被引用的概率,引用也將會變得更加均勻。圖3(b)中給出了觀測體積對引用概率分布的影響。隨著觀測體積的增加,引用概率分布更加集中,原因可能是由于讀者可以在比較大的文獻(xiàn)群體內(nèi)選擇文獻(xiàn)。因此對應(yīng)選擇的文獻(xiàn)將更加準(zhǔn)確,反映在統(tǒng)計分布曲線上是對應(yīng)統(tǒng)計分布將更加集中。

圖3 擬合參數(shù)變化對引用分布曲線形狀的影響

2 引文概率分布模型的應(yīng)用

本文建立的文獻(xiàn)引用模型能為當(dāng)前許多推薦算法進(jìn)行期刊推薦篩選。為了驗證本文建立的文獻(xiàn)引用模型對文獻(xiàn)的推送效果,本文選擇概率推送模型做驗證。根據(jù)擬合得到的概率密度隨機(jī)選擇期刊推送給用戶,并根據(jù)2018年發(fā)文計算推薦準(zhǔn)確率,參比結(jié)果是通過完全隨機(jī)推送得到的推薦準(zhǔn)確率。根據(jù)本文擬合的概率模型推送的結(jié)果如圖4所示。圖中橫坐標(biāo)代表一次推薦文獻(xiàn)數(shù)量,圖中的不同顏色代表推薦準(zhǔn)確率。準(zhǔn)確率是指推薦的文獻(xiàn)在發(fā)表文章中被引用的比例,是通過2018年發(fā)表的文獻(xiàn)中的引用記錄為標(biāo)準(zhǔn)計算的。縱坐標(biāo)是群體推薦準(zhǔn)確率,是根據(jù)推薦的文獻(xiàn)計算2018年發(fā)表文章中超過指定準(zhǔn)確率的比例。從圖4中可以看出,隨著推薦文獻(xiàn)數(shù)量的增加,推薦準(zhǔn)確率會先增加再減小,并且隨著準(zhǔn)確率的增加文獻(xiàn)推薦人群的準(zhǔn)確率逐漸降低。目前測試的推薦只是通過概率計算對單位內(nèi)所有人群的整體推薦。如果配合其他推薦算法[19],那么針對個人或者比較小的課題組,準(zhǔn)確率或者推薦算法的計算量會大大減少。在文獻(xiàn)推薦的過程中,不同的人群有不同的喜好,有不同的推薦準(zhǔn)確率需求。如有人喜好被推薦比較全的文獻(xiàn),即使推薦準(zhǔn)確率差一些也可以;有些人喜好被推薦幾率最高的幾篇文獻(xiàn)。這個概率模型推送算法可以很容易設(shè)置這樣的推薦參數(shù)。從圖4中可以看出,不同的準(zhǔn)確率對應(yīng)不同的群體推薦準(zhǔn)確概率的結(jié)果,所以這個準(zhǔn)確率可以作為用戶個性化參數(shù),可以進(jìn)行精確的群體推薦準(zhǔn)確率的調(diào)控。

圖4 概率推薦準(zhǔn)確率結(jié)果

為了對比本文中所用的概率推薦模型,本文還給出了完全隨機(jī)模型的推薦結(jié)果(圖5)。從圖5中可以看出,完全隨機(jī)模型也有圖4所示中的變化規(guī)律,隨著推薦文獻(xiàn)數(shù)量的增加,群體的推薦準(zhǔn)確率急劇下降。但整體的推薦準(zhǔn)確率都特別低,可見應(yīng)用本文所建立的模型,只是通過簡單的概率分布就能給出很明顯的推薦準(zhǔn)確率增加的結(jié)果。這個推薦算法很容易擴(kuò)展到其他推薦算法內(nèi),用于多層次推薦分析,增加推薦準(zhǔn)確率和減少一般推薦算法的計算量。

圖5 完全隨機(jī)模型推薦準(zhǔn)確率結(jié)果

本模型是通過對引文的概率分布的統(tǒng)計分析得到目標(biāo)群體(學(xué)院或者課題組)的需求特征參數(shù),通過這個特征參數(shù)簡化已有的文獻(xiàn)推薦算法或者直接進(jìn)行概率模型推薦。該算法應(yīng)用簡單,計算量少,與其他算法的兼容性強,沒有嚴(yán)格的樣品量限制,只需要得到比較好的統(tǒng)計分布的擬合結(jié)果即可。通過設(shè)置用戶推薦喜好參數(shù)進(jìn)行推薦期刊準(zhǔn)確率的篩選,可以大大減少其他推薦算法的初始計算樣品量,彌補當(dāng)前推薦算法計算量過大甚至無法完成計算的不足。

3 結(jié)論

本文通過對吉林大學(xué)農(nóng)學(xué)部發(fā)文的引文進(jìn)行統(tǒng)計,并按照期刊引用的多少排序,得出期刊引文分布是偏離冪律分布的,已經(jīng)從布拉德福定律[20]和冪律分布[21]逐漸出現(xiàn)偏離的情況。建立了通用的引文概率分布模型進(jìn)行數(shù)據(jù)擬合,得到擬合參數(shù),分析了參數(shù)變化對引用概率分布的影響。考慮了各個期刊之間的相關(guān)概率,得到了比較好的擬合效果,可以用于完善文獻(xiàn)推送模型,使文獻(xiàn)推送結(jié)果更加精確。

傳統(tǒng)的文獻(xiàn)推送,只能對引用分布中比較高的和比較低的部分進(jìn)行擬合,會帶來一些推薦偏差。期刊引用數(shù)量的多少不代表它的重要程度,因此無論忽略哪個部分,對文獻(xiàn)推送的效果影響都會很大。采用本文的引用文獻(xiàn)分布模型,可以更加精確地描述引用文獻(xiàn)分布,根據(jù)用戶期望推薦準(zhǔn)確率進(jìn)行數(shù)據(jù)篩選,有助于簡化當(dāng)前各種文獻(xiàn)推薦算法,減少其計算量。和簡單的隨機(jī)推薦比較,概率模型推薦能夠很好地提升群體推薦準(zhǔn)確率。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 天天操精品| 国产美女自慰在线观看| 福利在线免费视频| 国产高清不卡视频| 伊人无码视屏| 制服丝袜一区| 五月天久久婷婷| 麻豆精品久久久久久久99蜜桃| 福利姬国产精品一区在线| 中日韩一区二区三区中文免费视频| 天天综合网站| 国产女人在线| 全部免费毛片免费播放| 自慰高潮喷白浆在线观看| 欧美三级自拍| 91久久偷偷做嫩草影院| 91精品国产麻豆国产自产在线| 一级毛片中文字幕| 国产美女免费| 无码日韩视频| 波多野结衣中文字幕久久| 中文字幕精品一区二区三区视频| 亚洲第一黄片大全| 亚洲色婷婷一区二区| 午夜毛片免费观看视频 | 91久久精品国产| 国产一级在线播放| 一本大道东京热无码av| 国产成人精品视频一区二区电影| 欧美国产精品不卡在线观看| 五月天在线网站| 美女免费黄网站| 色视频国产| 亚洲激情99| 手机在线国产精品| 老司机午夜精品网站在线观看| 国产无码在线调教| 亚洲精品视频免费| 国产乱视频网站| 激情无码字幕综合| 久久国产乱子伦视频无卡顿| 2021国产在线视频| 欧美一区二区福利视频| 99热国产这里只有精品无卡顿"| 国产成人精品日本亚洲| 精品人妻一区无码视频| 中文纯内无码H| 青青青国产在线播放| 久久男人资源站| 国产欧美日韩va另类在线播放| 日本精品影院| 国产一区亚洲一区| 欧美色视频网站| 色综合国产| 亚洲 日韩 激情 无码 中出| 91黄色在线观看| 久久久亚洲色| 全部免费特黄特色大片视频| 国产精品永久不卡免费视频| 国禁国产you女视频网站| 中文国产成人久久精品小说| 日韩美女福利视频| 一本大道东京热无码av| 欧美成人区| 91无码人妻精品一区| 国产精品手机视频| 国产丰满成熟女性性满足视频| 亚洲精品无码成人片在线观看| 免费看av在线网站网址| 中文字幕亚洲精品2页| 国产欧美自拍视频| 在线播放国产一区| 欧美视频在线播放观看免费福利资源| 日日拍夜夜嗷嗷叫国产| 亚洲色图欧美视频| 在线观看无码av免费不卡网站| 永久免费无码日韩视频| 欧美一道本| 国产综合精品日本亚洲777| 毛片免费在线视频| 国产精品三级专区| 亚洲最大看欧美片网站地址|