999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向科技文獻(xiàn)技術(shù)脈絡(luò)分析的聚類算法研究

2019-06-20 08:27:26尹寶生宋芷薇
中文信息 2019年7期

尹寶生 宋芷薇

摘 要:科技文獻(xiàn)網(wǎng)絡(luò)是一種特殊的復(fù)雜信息網(wǎng)絡(luò),每一篇文獻(xiàn)都有對(duì)應(yīng)的標(biāo)題、作者、刊物、關(guān)鍵詞、引文等信息,從而形成了以文獻(xiàn)為中心,其他對(duì)象通過文獻(xiàn)鏈接在一起的星型網(wǎng)絡(luò)結(jié)構(gòu)。聚類分析是基于文獻(xiàn)進(jìn)行技術(shù)脈絡(luò)信息抽取工作的重要手段之一。本文在傳統(tǒng)層次聚類算法的基礎(chǔ)上,融合了文獻(xiàn)網(wǎng)絡(luò)所特有的引文信息,從而有效的改善了施引文獻(xiàn)和被引文獻(xiàn)之間的聚類效果。基于萬方數(shù)據(jù)庫抓取的文獻(xiàn)進(jìn)行了聚類實(shí)驗(yàn),標(biāo)準(zhǔn)化互信息(NMI)值有明顯提升,為后續(xù)文獻(xiàn)技術(shù)脈絡(luò)分析工作打下了良好的研究基礎(chǔ)。

關(guān)鍵詞:自然語言處理 聚類算法 科技文獻(xiàn) 技術(shù)脈絡(luò)分析

中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-9082(2019)07-000-02

引言

科技創(chuàng)新的不斷出現(xiàn)與發(fā)展是科技革命發(fā)生的必然前提。每年期刊和會(huì)議上都會(huì)涌現(xiàn)出大量優(yōu)秀的文獻(xiàn),而技術(shù)創(chuàng)新往往是對(duì)已有技術(shù)的反復(fù)推演之后的邏輯重組,對(duì)特定領(lǐng)域已有的科技文獻(xiàn)進(jìn)行技術(shù)脈絡(luò)信息抽取與分析,總結(jié)科學(xué)技術(shù)的涌現(xiàn),發(fā)展和分裂,這既能快速地掌握特定領(lǐng)域過去的發(fā)展情況,也能對(duì)后續(xù)研究者選擇研究方起到有指引作用,無論在科學(xué)研究方面還是在實(shí)際工程方面,對(duì)科技文獻(xiàn)進(jìn)行快速自動(dòng)化的技術(shù)脈絡(luò)梳理都顯得尤為重要。

現(xiàn)實(shí)世界中存在很多信息網(wǎng)絡(luò),如文獻(xiàn)信息網(wǎng)絡(luò)、社交網(wǎng)絡(luò)、醫(yī)療網(wǎng)絡(luò)、交通網(wǎng)絡(luò)等[1]。近年來,基于文獻(xiàn)信息網(wǎng)絡(luò)進(jìn)行的研究有很多,如專家發(fā)現(xiàn)、相似文獻(xiàn)推薦、同名作者排歧、作者合作關(guān)系預(yù)測(cè)、作者性別預(yù)測(cè)、學(xué)術(shù)主題挖掘、領(lǐng)域異常檢測(cè)、技術(shù)脈絡(luò)分析等研究。技術(shù)脈絡(luò)分析主要是研究網(wǎng)絡(luò)中的對(duì)象如何形成不同的簇,簇與簇之間是如何演變的。具體難點(diǎn)主要體現(xiàn)在以下三個(gè)方面:(1)中文文獻(xiàn)圖譜少之又少,如何構(gòu)建高質(zhì)量的中文文獻(xiàn)圖譜。(2)如何構(gòu)建大規(guī)模學(xué)術(shù)知識(shí)庫,構(gòu)建學(xué)術(shù)知識(shí)點(diǎn)的發(fā)展脈絡(luò)。(3)如何將技術(shù)脈絡(luò)進(jìn)行可視化展示,清晰的展示技術(shù)的演變關(guān)系。

對(duì)某一特定領(lǐng)域的技術(shù)脈絡(luò)梳理的一個(gè)關(guān)鍵步驟是對(duì)復(fù)雜信息網(wǎng)絡(luò)中的對(duì)象進(jìn)行聚類,形成不同的簇,并分析各簇之間的連接關(guān)系,好的聚類效果對(duì)后續(xù)的技術(shù)脈絡(luò)分析與處理起到至關(guān)重要的作用。科技文獻(xiàn)的題錄信息屬于短文本,與長文本相比,短文本語言表達(dá)簡潔,攜帶信息較少,描述信息較弱,這就增加了科技文獻(xiàn)聚類的難度[2],如何對(duì)有限信息的短文本進(jìn)行信息抽取與快速聚類是一個(gè)值得討論的課題。針對(duì)這一問題,近年來,涌現(xiàn)一些相關(guān)的文獻(xiàn)計(jì)量分析系統(tǒng),如AMiner、Citespace、VOSViewer、Citeseer、Hiscite等。

一、相關(guān)研究

文獻(xiàn)信息網(wǎng)絡(luò)中的連接分為兩種,一種是強(qiáng)連接,另一種是弱連接,通常弱連接比強(qiáng)連接更有價(jià)值,弱連接更能促進(jìn)兩個(gè)簇之間的信息流動(dòng)[3],對(duì)于每一篇文獻(xiàn),都有作者集合、關(guān)鍵詞集合、引文集合的鏈接,這些集合的鏈接類型都屬于強(qiáng)連接,它們之間可以形成以文獻(xiàn)為中心,其他類型為屬性的星型網(wǎng)絡(luò)模式,從自然語言理解角度分析文獻(xiàn),弱連接對(duì)找到簇間關(guān)系非常有意義。

現(xiàn)有的文獻(xiàn)計(jì)量分析系統(tǒng)大部分是針對(duì)英文文獻(xiàn)進(jìn)行處理與分析,并且大部分是基于文檔層面的關(guān)鍵詞詞頻統(tǒng)計(jì)、共現(xiàn)詞分析及共引分析,只要關(guān)鍵詞在文獻(xiàn)中出現(xiàn)或該文獻(xiàn)被其他文獻(xiàn)引用,便為之計(jì)數(shù),并沒有從自然語言處理角度對(duì)文獻(xiàn)的語義進(jìn)行分析。SimRank算法[4]通過基于鏈接的方法來評(píng)估對(duì)象之間的相似性,然后使用圖聚類方法來產(chǎn)生聚類[5],但文獻(xiàn)信息網(wǎng)絡(luò)中的對(duì)象進(jìn)行兩兩相似度評(píng)價(jià)比較耗費(fèi)時(shí)間和空間。Yizhou Sun等人提出的RankClus算法[6],該算法利用文獻(xiàn)的刊物和作者信息,是一種基于排名的迭代算法,排名和聚類可以相互影響,在每個(gè)聚類中排名高的對(duì)象更有助于明晰化聚類。Yizhou Sun等人提出的NetClus[7]算法也是基于排名的聚類,是一種軟聚類,每個(gè)對(duì)象可以柔性地屬于多個(gè)聚類。

國內(nèi)對(duì)文獻(xiàn)技術(shù)脈絡(luò)分析的研究較少。要一璐等人通過抽取關(guān)鍵詞及其語義關(guān)系構(gòu)建知識(shí)脈絡(luò)[8],將文獻(xiàn)中的關(guān)鍵詞作為核心,抽取關(guān)鍵詞之間的同義關(guān)系、上下位關(guān)系以及共現(xiàn)關(guān)系,以關(guān)鍵詞為結(jié)點(diǎn),關(guān)鍵詞之間的關(guān)系為邊,構(gòu)建科技文獻(xiàn)知識(shí)脈絡(luò)。李信等人利用文獻(xiàn)的標(biāo)題,從學(xué)術(shù)文本詞匯功能的角度出發(fā),考慮科研文獻(xiàn)中詞匯的語義功能,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于詞匯功能識(shí)別的科研文獻(xiàn)分析系統(tǒng)[9]。

本文在利用文獻(xiàn)題錄信息的基礎(chǔ)上,融合被引文獻(xiàn)和施引文獻(xiàn)間的引文信息對(duì)傳統(tǒng)層次聚類算法進(jìn)行改進(jìn),從而有效的改善聚類的文獻(xiàn)簇生成效果。

二、算法描述

1.聚類算法的選擇

目前已有很多成熟的聚類方法,但沒有任何一種聚類算法可以普遍適用于各種多維數(shù)據(jù)集所呈現(xiàn)出來的多種多樣的結(jié)構(gòu)[10]。聚類本質(zhì)上是集合劃分問題,要求簇內(nèi)樣本盡可能相似,根據(jù)簇內(nèi)樣本相似度的方法判斷,聚類算法可分為以下幾類:第一類是連通性聚類,如層次聚類算法,它根據(jù)樣本之間的連通性來構(gòu)造簇,所有連通的樣本屬于一個(gè)簇;第二類是基于質(zhì)心的聚類,如K均值算法,它用一個(gè)中心向量來表示這個(gè)簇,樣本屬于的簇由它到每個(gè)簇的中心距離確定;第三類是基于概率分布的聚類,如EM算法,它根據(jù)極大似然估計(jì)進(jìn)行聚類;第四類是基于密度的聚類,如DBSCAN算法,它將簇定義為空間中樣本密集的區(qū)域;第五類是基于圖的聚類,使用圖論中的方法完成聚類,由于不知道實(shí)驗(yàn)所用的文獻(xiàn)數(shù)據(jù)集具體應(yīng)該分成幾類,也不確定簇劃分的形狀,所以采用基于聚合的凝聚層次聚類方法進(jìn)行實(shí)驗(yàn)。

文獻(xiàn)網(wǎng)絡(luò)中含有文獻(xiàn)的相關(guān)信息包含六類實(shí)體:文獻(xiàn)(P)、標(biāo)題(T)、刊物(V)、作者(A),關(guān)鍵詞(K),引文(R),對(duì)于每一篇文獻(xiàn),都有標(biāo)題、刊物集合、作者集合、關(guān)鍵詞集合、引文集合的鏈接,它們都屬于鏈接類型的集合。文獻(xiàn)與關(guān)鍵字或標(biāo)題之間存在著“包含”和“被包含”的關(guān)系;文獻(xiàn)與作者之間存在著“寫作”和“被寫作”的關(guān)系;文獻(xiàn)與刊物之間存在著“發(fā)表”和“被發(fā)表”的關(guān)系。文獻(xiàn)與文獻(xiàn)之間存在著“引用”和“被引用”的關(guān)系。文獻(xiàn)網(wǎng)絡(luò)形成如圖所示的星形網(wǎng)絡(luò)結(jié)構(gòu),其中所有其它類型的對(duì)象通過文獻(xiàn)鏈接起來,文獻(xiàn)網(wǎng)絡(luò)鏈接類型如圖1所示。

圖1 文獻(xiàn)網(wǎng)絡(luò)鏈接類型

2.融合引文信息的凝聚層次聚類算法

凝聚層次聚類算法又稱為樹聚類算法,是一種自下而上的聚類算法,該算法試圖在不同層次對(duì)數(shù)據(jù)集進(jìn)行劃分,從而形成樹形的聚類結(jié)構(gòu)[11],改進(jìn)的凝聚層次聚類算法流程如下:

2.1將樣本集合中的每個(gè)樣本點(diǎn)當(dāng)做一個(gè)簇,計(jì)算兩兩之間的相似度。

兩篇文獻(xiàn)的向量分別為,,則兩篇文獻(xiàn)之間的余弦距離計(jì)算公式如下,余弦距離的值越小,則兩篇文獻(xiàn)越相似。

每一篇文獻(xiàn)都有若干篇參考文獻(xiàn),參考文獻(xiàn)里面有的是前期的某種處理步驟,有的是主要研究點(diǎn)。通過主題模型分析,判斷具有引用關(guān)系的兩篇文獻(xiàn)是否屬于同一主題,是同一主題的則減小兩篇文獻(xiàn)之間的距離值,即提高具有引用關(guān)系且主題相同的兩篇文獻(xiàn)的相似度的概率值。如果兩篇文獻(xiàn)有引用關(guān)系,則更新兩篇文獻(xiàn)的余弦距離,利用新的距離矩陣進(jìn)行后續(xù)計(jì)算,其中為權(quán)重系數(shù)。

2.2將距離最小的兩個(gè)簇合并成一個(gè)新的簇。

2.3重新計(jì)算新簇和所有簇之間的距離。

簇之間距離計(jì)算的方式分為單連接、全連接、平均連接,本文采用全連接的方式計(jì)算新簇與所有簇之間的距離,將兩個(gè)新簇的數(shù)據(jù)點(diǎn)中距離最遠(yuǎn)的兩個(gè)數(shù)據(jù)點(diǎn)間的距離作為這兩個(gè)組合數(shù)據(jù)點(diǎn)的距離,兩個(gè)簇之間的距離就算公式如下:

2.4重復(fù)(2)(3),生成一個(gè)具有樹形結(jié)構(gòu)的聚類結(jié)果。

2.5根據(jù)簇間切分標(biāo)準(zhǔn)對(duì)聚類結(jié)構(gòu)進(jìn)行切分,形成最終的簇劃分集合C。

3.聚類效果評(píng)價(jià)

某領(lǐng)域的大量文獻(xiàn)集中發(fā)表在少數(shù)期刊上,而其他文獻(xiàn)則分散在相關(guān)期刊上,并且某一期刊發(fā)表文獻(xiàn)方向是基本固定的,通常發(fā)表在同一刊物上的兩篇文獻(xiàn)比發(fā)表在不同刊物上的兩篇文獻(xiàn)更相似。因此,本文采用文獻(xiàn)發(fā)表的刊物聚類的準(zhǔn)確性作為評(píng)價(jià)標(biāo)準(zhǔn),并采用標(biāo)準(zhǔn)化互信息(NMI)[11]來評(píng)價(jià)聚類的準(zhǔn)確性,NMI主要是用來衡量輸出的簇結(jié)果中的對(duì)象是否真的屬于同一集群,NMI基本可以比較客觀地評(píng)價(jià)出一個(gè)劃分與標(biāo)準(zhǔn)劃分之間相比的準(zhǔn)確度。NMI值的范圍是0到1,NMI值越大代表聚類劃分越準(zhǔn)確。

三、實(shí)驗(yàn)

1.實(shí)驗(yàn)數(shù)據(jù)集

國內(nèi)缺少公開可用的中文文獻(xiàn)網(wǎng)絡(luò)圖譜,因此本文利用網(wǎng)絡(luò)爬蟲技術(shù),從萬方數(shù)據(jù)庫中抓取部分中文文獻(xiàn)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,通過施引文獻(xiàn)擴(kuò)展法保證文獻(xiàn)檢索的查全率,抓取到的文獻(xiàn)數(shù)據(jù)主要包含文獻(xiàn)的標(biāo)題、關(guān)鍵字、作者、刊物、時(shí)間、引文等信息。首先對(duì)文獻(xiàn)數(shù)據(jù)進(jìn)行清洗,剔除掉征稿信息、會(huì)議信息、期刊雜志介紹等非文獻(xiàn)數(shù)據(jù)信息,重復(fù)的文獻(xiàn)數(shù)據(jù)信息,不完整的文獻(xiàn)數(shù)據(jù)信息,剩余文獻(xiàn)數(shù)據(jù)22180篇作為實(shí)驗(yàn)數(shù)據(jù)集。

2.實(shí)驗(yàn)結(jié)果分析

本文分別采用標(biāo)題(T)、關(guān)鍵詞(K)、引文信息(R)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)中設(shè)置聚類的閾值t分別為0.1,0.2,權(quán)重為0.5。對(duì)中文文獻(xiàn)數(shù)據(jù)集進(jìn)行聚類的結(jié)果如表1所示。

實(shí)驗(yàn)結(jié)果表明,利用文獻(xiàn)的關(guān)鍵詞進(jìn)行聚類的效果比利用標(biāo)題進(jìn)行聚類的效果好,說明關(guān)鍵詞作為一篇論文的必要組成部分,能夠簡單、直接、全面地概括出論文的核心內(nèi)容;利用標(biāo)題和關(guān)鍵詞信息組合在一起,共同進(jìn)行聚類的效果明顯比使用其中的單獨(dú)一個(gè)對(duì)象進(jìn)行聚類的效果好,說明標(biāo)題和關(guān)鍵詞在一起能很大程度上反映文獻(xiàn)的主要研究內(nèi)容和主題;在利用文獻(xiàn)的標(biāo)題和關(guān)鍵詞信息的基礎(chǔ)上融入引用信息后,聚類效果提升了0.9個(gè)百分點(diǎn),一篇文獻(xiàn)質(zhì)量高則引用量多,引用的文獻(xiàn)質(zhì)量也高,這些優(yōu)秀的文獻(xiàn)聚成一類,可以作為科技文獻(xiàn)的技術(shù)脈絡(luò)中的重要節(jié)點(diǎn)。

結(jié)束語

融合引文信息的凝聚層次聚類算法對(duì)文獻(xiàn)網(wǎng)絡(luò)聚類效果有一定的提升,該算法能夠快速的生成特定領(lǐng)域文獻(xiàn)的聚類結(jié)果,可以幫助人工快速梳理特定領(lǐng)域的重點(diǎn)文獻(xiàn)。本文使用的數(shù)據(jù)集是中文文獻(xiàn)數(shù)據(jù)集,中文語料分詞一直是一個(gè)難點(diǎn),本實(shí)驗(yàn)中的專業(yè)領(lǐng)域數(shù)據(jù)集分詞效果不是很好,有的較長的專業(yè)詞匯在分詞的時(shí)候被切分開了,后續(xù)嘗試加入更專業(yè)的包含專業(yè)領(lǐng)域的專業(yè)詞的詞典,使專業(yè)領(lǐng)域的語料分詞效果更好一些;文獻(xiàn)題錄信息中的作者信息也十分有價(jià)值,同一作者的研究領(lǐng)域和研究方向在一段時(shí)間內(nèi)一般比較固定,因此短期內(nèi)同一作者所發(fā)表的文獻(xiàn)相似度會(huì)更高;目前加入的是直接引用關(guān)系,而間接引用關(guān)系和共被引關(guān)系也可能對(duì)聚類效果有一定影響。

參考文獻(xiàn)

[1]SunY,HanJ.異構(gòu)信息網(wǎng)絡(luò)挖掘:原理和方法[M].段磊,朱敏,唐常杰,譯.北京:機(jī)械工業(yè)出版社,2017:1-5.

[2]高華林.基于短文本的熱點(diǎn)分析關(guān)鍵技術(shù)研究[D].中國人民公安大學(xué),2017.

[3]GrabowiczPA,JoséJ.Ramasco,MoroE,etal.SocialFeaturesofOnlineNetworks:TheStrengthofIntermediaryTiesinOnlineSocialMedia[J].PlosOne,2012,7(1):e29358.

[4]JehG,WidomJ.SimRank:ameasureofstructural-contextsimilarity[C]//EighthAcmSigkddInternationalConferenceonKnowledgeDiscovery&DataMining.ACM,2002.

[5]LuxburgUV.Atutorialonspectralclustering[J].StatisticsandComputing,2007,17(4):395-416.

[6]SunY,HanJ,ZhaoP,etal.RankClus:Integratingclusteringwithrankingforheterogeneousinformationnetworkanalysis[C]//AcmSigkddInternationalConferenceonKnowledgeDiscovery&DataMining.ACM,2009.

[7]SunY,YuY,HanJ.Ranking-basedclusteringofheterogeneousinformationnetworkswithstarnetworkschema[C]//AcmSigkddInternationalConferenceonKnowledgeDiscovery&DataMining.DBLP,2009.

[8]譚紅葉,要一璐,梁穎紅.基于知識(shí)脈絡(luò)的科技論文推薦[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2016,51(5).

[9]李信,程齊凱,劉興幫.基于詞匯功能識(shí)別的科研文獻(xiàn)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].圖書情報(bào)工作,2017,61(01):109-116.

[10]周濤,陸惠玲.數(shù)據(jù)挖掘中聚類算法研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(12):100-111.

[11]金建國.聚類方法綜述[J].計(jì)算機(jī)科學(xué),2014,41(S2):288-293.

主站蜘蛛池模板: 国产成年女人特黄特色毛片免| 午夜a级毛片| 国产91麻豆免费观看| 亚洲色欲色欲www在线观看| 欧美精品影院| 国产91无码福利在线| a毛片基地免费大全| 久久久噜噜噜久久中文字幕色伊伊 | 国产第一页免费浮力影院| 成人中文字幕在线| 国产va视频| 精品无码国产自产野外拍在线| 国产成人亚洲欧美激情| 婷婷久久综合九色综合88| 欧美爱爱网| 欧美一级专区免费大片| 久久久久青草线综合超碰| 97视频免费看| 亚洲精品视频免费| 久久精品无码专区免费| 亚洲性日韩精品一区二区| 超碰免费91| 日韩av电影一区二区三区四区| 国产福利一区二区在线观看| 欧美日韩一区二区在线播放| 国产无人区一区二区三区| 婷婷亚洲视频| 青草免费在线观看| 国产凹凸一区在线观看视频| 一本久道久综合久久鬼色| 午夜福利免费视频| 一区二区三区四区精品视频| 亚洲精品动漫| 青青草综合网| 伊人成人在线视频| 午夜激情福利视频| 亚洲精品综合一二三区在线| a级毛片在线免费| 国产素人在线| 91视频青青草| 手机在线国产精品| 免费无码在线观看| 91福利在线观看视频| 97视频在线精品国自产拍| 丁香五月亚洲综合在线| 91麻豆精品国产91久久久久| 国产精品亚洲一区二区三区在线观看| 亚洲精品无码av中文字幕| 免费观看国产小粉嫩喷水 | 国产无遮挡猛进猛出免费软件| 国产麻豆永久视频| 激情乱人伦| 欧美国产三级| 伊人五月丁香综合AⅤ| 亚洲色欲色欲www在线观看| 狠狠久久综合伊人不卡| 中文字幕首页系列人妻| 国产亚洲视频免费播放| 国产不卡国语在线| 人人91人人澡人人妻人人爽| 国产av剧情无码精品色午夜| 亚洲无码电影| 欧美午夜理伦三级在线观看| 国产天天射| A级毛片高清免费视频就| 91亚洲国产视频| аⅴ资源中文在线天堂| 亚洲男人在线| 日本三区视频| 国产久操视频| 色天堂无毒不卡| 午夜毛片免费看| 国产最爽的乱婬视频国语对白| AV熟女乱| 香蕉久久国产精品免| 国产免费福利网站| 国产精品福利导航| 国产在线麻豆波多野结衣| 成人综合网址| 亚洲成人精品| 麻豆精品国产自产在线| 国产在线无码av完整版在线观看|