999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于年度高頻關鍵詞的研究熱點提取與可視化研究

2020-12-17 03:31:33高勁松黃梅付家煒
現代情報 2020年12期
關鍵詞:趨勢分析

高勁松 黃梅 付家煒

收稿日期:2020-06-03

基金項目:中央高?;究蒲袠I務費自由探索項目“面向用戶的文物信息資源知識服務研究”(項目編號:CCNU20A06025);華中師范大學信息管理學院研究生自主科研項目“電子商務相似用戶評論推薦研究”。

作者簡介:高勁松(1966-),女,教授,博士生導師,研究方向:情報學、圖書館學。黃梅(1992-),女,碩士研究生,研究方向:可視化。付家煒(1994-),男,博士研究生,研究方向:知識管理與知識服務。

摘? 要:[目的/意義]能以簡潔的可視化來追蹤某學科研究熱點隨時間的變化趨勢,對于掌握學科研究熱點的動向具有重要意義。詞頻分析法是學科研究熱點分析方法之一,目前存在眾多的基于詞頻分析的可視化工具,但是這些可視化工具能夠以簡潔的可視化形式清晰地展現年度熱點關鍵詞存在局限性。[方法/過程]因此本文提出通過學科領域年度發文量與學科全部發文量的比值來衡量年度熱點關鍵詞對總年度熱點關鍵詞貢獻率的可視化方法:基于年度貢獻率與二八定律設定并調整閾值參數來控制年度高頻關鍵詞的呈現數量,將選取的年度高頻關鍵詞按照詞頻大小與年份依次排序以實現研究熱點可視化。[結果/結論]以“關聯數據”領域為例進行實證研究,通過分析本文方法提取的高頻關鍵詞與現有高頻詞閾值算法的匹配情況,對比本文方法與Citespace共現圖譜的可視化呈現效果,對本文方法的可行性進行檢驗與評價。

關鍵詞:可視化;高頻關鍵詞;詞頻分析;研究熱點;趨勢分析

DOI:10.3969/j.issn.1008-0821.2020.12.013

〔中圖分類號〕G250.252? 〔文獻標識碼〕A? 〔文章編號〕1008-0821(2020)12-0130-10

Research on Hot Spot Extraction and Visualization

Based on Annual High-frequency Keywords

Gao Jinsong? Huang Mei? Fu Jiawei

(School of Information Management,Central China Normal University,Wuhan 430079,China)

Abstract:[Purpose/Significance]It is of great significance to follow the trend of research hotspots in a subject with simple visualization in order to grasp the trend of research hotspots in a subject.Word frequency analysis is one of the hotspot analysis methods of subject research.Currently,there are many visualization tools based on word frequency analysis,but there are limitations that these visualization tools can clearly display the annual hot keywords in a concise visual form.[Method/Process]Therefore,this paper proposed a visualization method to measure the contribution rate of annual hot keywords to the total annual hot keywords by the ratio of the annual amount of articles in the subject area to the total amount of articles in the subject:based on the annual contribution rate and the 80/20 law,the threshold parameters were set and adjusted to control the number of annual high-frequency keywords presented,and the selected annual high-frequency keywords were sorted in order of word frequency and year to achieve visualization of research hotspots.[Result/Conclusion]Taking the field of“linked data”as an example to conduct empirical research,by analyzing the matching of the extracted high-frequency keywords with the existing high-frequency keyword extraction methods and comparing the visualization method presented in this paper with Citespaces co-occurrence knowledge map,Test and evaluate the feasibility of this method was.

Key words:visualization;high frequency keywords;word frequency analysis;research hotspots;trend analysis

信息可視化通過可視化圖形的表現形式揭示數據中隱含的信息和規律以增強人的認知能力[1]。隨著各個學科研究的不斷深入,科技研究文獻不斷增多,在浩如煙海的科技文獻資源中用可視化的形式展現研究熱點與發展趨勢,為科研人員進行研究決策提供了便利。文獻關鍵詞是文獻核心內容的高度概括,濃縮并提煉了文獻的主題、內容與研究方法。研究人員的研究多數需要參考前人的研究成果,通常某學科關鍵詞在短時間內不會憑空產生與消失,而是處于動態變化的過程,詞頻的波動與社會現象和情報現象之間存在著內在的聯系,一定的社會現象和情報現象要引起一定的詞頻波動現象[2-3]。如果某一關鍵詞或主題詞在其所在領域的文獻中反復出現,則可反映出該關鍵詞或主題詞所表現的研究主題是該領域的研究熱點[4]。通過統計關鍵詞、主題詞、篇名詞等核心詞匯在某一類學術文獻中所出現的頻次,可以判別該學術領域的研究熱點、知識結構和發展趨勢[5]。因此一般認為,某時段學術論文的高頻關鍵詞即是該時段的研究熱點[6,13]。

目前已經有很多可視化工具以關鍵詞為基礎來分析學科領域研究熱點與發展趨勢,如Citespace、Ucinet、SciMAT、NEViewer等,對學科領域研究熱點與發展趨勢分析有重要的幫助,并取得了優秀成果。雖然這些工具在文獻計量學的詞頻分析與可視化方面較為完善,但是仍然存在可視化呈現的不足之處,如可視化顯示信息過多且復雜,用戶感知存在困難等。

因此本文用每年發文量與全部發文量比值來權衡年度高頻關鍵詞對研究熱點的貢獻,統計年度文獻的關鍵詞詞頻并排序,然后截取一定量的高頻關鍵詞,按照頻次的高低依次從上往下排序并嵌入時間進行可視化呈現來分析學科研究熱點與發展趨勢。

1? 相關研究

1.1? 詞頻分析

詞頻分析法是利用能夠解釋或表達文獻核心內容的關鍵詞或主題詞,在某一研究領域文獻中出現的頻次高低來確定該領域研究熱點和發展動向的文獻計量方法[4]。詞頻分析法是情報分析方法之一,已經在文獻計量學相關研究上得到了廣泛的應用。傅柱等[7]使用詞頻分析法分析國內外知識研究熱點。歐陽博等[8]使用關鍵詞詞頻分析綜述國外信息系統持續使用模型應用現狀。邱均平等[9]與鞏永強等[10]嘗試使用詞頻率,即年度關鍵詞詞頻與年度總文獻數量之比來分析熱點關鍵詞的變化趨勢。奉國和等[11]對關鍵詞賦予時間權值來研究學科熱點關鍵詞與變化趨勢。

基于詞頻分析法衍生出來的共詞分析、聚類分析等研究熱點的方法受到了眾多學者的關注。共現分析的研究主要包括:陳勇躍等[12]劃分各時間段分別提取臨床醫學高頻關鍵詞,使用Ucinet 6.0工具分別對各時間段進行共現網絡可視化追蹤臨床醫學研究熱點與趨勢的變化;盧新元等[13]使用Citespace將國內知識轉移的高頻關鍵詞進行共現網絡圖與時區網絡圖來分析研究熱點;劉自強等[14]基于關鍵詞的時間標簽分層構建共詞網絡圖譜,實現時序共詞網絡的動態可視化,并以國內圖情領域“數據挖掘”為例進行實證研究。聚類分析的研究主要包括:高勁松等[15]使用SPSS對高頻關鍵詞進行聚類來分析國內外關聯數據的研究主題;劉自強等[2]通過關鍵詞群總頻次與年度發文量的比重情況構建時間序列,然后以可視化形式追蹤關鍵詞群的發展趨勢,并以“競爭情報”領域為例進行實證研究;施蕭蕭等[16]使用SPSS、Ucinet工具分別進行共現與主題聚類來分析國外顛覆性創新研究熱點。

近年來,多數學者集中于對高頻關鍵詞的共現網絡與主題聚類的相關研究,而對單個關鍵詞的變化趨勢與可視化的相關研究相對較少。聚類分析是在高頻關鍵詞共現關系的基礎上進行的聚類,關鍵詞共現關系體現了研究內容的耦合,即兩兩關鍵詞同時出現在同一篇文獻,各種聚類算法在不同程度上存在一定的不足導致聚類結果存在偏差、信息過度擬合等問題,而研究學科領域的研究熱點與變化趨勢僅以研究熱點的共現與主題分析有些不合理,單個關鍵詞的變化也應當被考慮,從而更加充分地分析學科研究熱點與變化趨勢。

1.2? 文本可視化

文本可視化旨在將文本中復雜的或者難以通過文字表達的內容和規律以視覺符號的形式表達出來,通過與視覺信息的交互,使人們能夠快速地獲取文本可視圖中所隱含的關鍵信息[17]。現有的文本詞頻可視化技術已經相當成熟,其中以標簽云為代表的詞頻可視化已經得到了較好的應用。標簽云[18]圖采用TF-IDF來計算詞頻的重要性,文字的大小表示詞語的重要性,然后按照一定的規律排列,如關鍵詞的頻度遞減來進行布局。另一種常用的文本可視化即樹圖(TreeMap)[19],使用嵌套的長方形來表示不同層次,以長方形的方向表示不同層次的變換,并以長方形的大小來表示節點的重要性,例如在Web of Science數據庫中對選中的文獻采用了TreeMap可視化展現的形式。

為了體現文本的變化趨勢,有學者結合時間與詞頻可視化方式來呈現熱點詞隨時間變化的情況。將標簽云與時間相結合形成可視化的主要有:Text Flow標簽云時間軸模型圖、主題河流圖、SparkClouds圖等[17,20]。Text Flow標簽云時間軸模型圖與主題河流圖[21]是將主題標簽云與時間模型相結合,是文本流系統(Text Flow)中的其中兩種詞頻可視化形式。SparkClouds圖[22]即在標簽云的每個詞語下方引入折線圖以表示每個詞語隨著時間的使用頻度而變化。

綜上所述,詞頻分析法在研究熱點與發展趨勢方面的應用非常普遍,但是詞頻演變可視化的相關研究相對較少。為了彌補基于高頻關鍵詞分析研究熱點與趨勢變化可視化的不足,本文將時間年度與現有詞頻文本可視化方式相結合來探討熱點關鍵詞的發展態勢,期望能夠豐富基于時間的詞頻可視化呈現形式,為研究學科熱點與趨勢提供一定的參考。

2? 基于年度高頻關鍵詞的研究熱點提取與可視化方法

本文結合時間年度與詞頻可視化來追蹤學科領域研究熱點關鍵詞的變化,采用研究熱點關鍵詞所在時間節點的詞頻高低與位次來展現學科領域的研究熱點的發展動態。文本詞頻可視化一般經過信息收集、數據預處理、知識表示、視覺呈現、用戶與信息圖的交互等過程[17,23]。本文提出的年度高頻關鍵詞可視化方法也遵循這樣的過程,其主要包括3個部分:高頻關鍵詞提取、可視化呈現、可視化分析。本文提出的可視化方法過程如圖1所示。

2.1? 高頻關鍵詞提取

學科領域文獻的關鍵詞頻次越高則說明學者對該關鍵詞研究方向關注度就越高,通過獲得高頻關鍵詞的發展趨勢可以掌握學科領域文獻研究熱點的變化。界定高頻關鍵詞的數量來判斷研究熱點的方法有很多,如自定義選取、齊普夫第二定律、普賴斯公式等,自定義選取的方法雖然存在主觀性,但是使用較多,而齊普夫第二定律與普賴斯公式較為客觀,但是也存在不適用的情況[24]。有學者發現關鍵詞每年的累積頻次都達到或超過當年關鍵詞總頻次的20%,符合集中分散的二八定律[25]。楊愛青等[26]嘗試使用g指數來截取研究熱點高頻關鍵詞的數量并用二八定律與齊普夫第二定律對截取的高頻關鍵詞進行驗證。劉奕杉等[24]通過對個人知識管理領域的研究熱點高頻關鍵詞閥值選取進行實證分析發現,二八定律相對于其他方法截取高頻關鍵詞更合適。多數研究者采用傳統熱點關鍵詞界定的方式提取總文獻高頻關鍵詞進行熱點研究,而關鍵詞具有繼承性,傳統研究熱點界定方式很少考慮每年文獻數量對熱點關鍵詞的影響。在不同年份學科領域的文獻數量存在變動的情況下,隨著文獻數量的變動,高頻關鍵詞的頻次會發生相應的改變,高頻關鍵詞的數量也會有所不同。通過收集與歸納文獻的關鍵詞發現:一般情況下,學科領域在年度發文數量與對應的年度高頻關鍵詞數量存在正向關系。因此本文將時間年度與研究熱點相結合,將每年文獻數量與總文獻數量比值作為每年高頻關鍵詞對研究熱點的貢獻值,但是可視化關鍵詞數量有限,還需要設定參數閾值α使其能夠按照年度貢獻值的比例來計算年度高頻關鍵詞的選取數量,在此基礎上根據總年度高頻關鍵詞的二八定律來調整閾值α的取值,使得提取的所有年度高頻關鍵詞能與總年度高頻關鍵詞詞頻總和占全部關鍵詞的詞頻總和約為20%的高頻關鍵詞匹配。年度高頻關鍵詞的熱點關鍵詞數量選取表達式為:

x=αniN(100≤α≤N)

其中,ni表示收集文獻第i年度的發文數量,N表示收集文獻的總數量,α為參數,x為第i年可視化關鍵詞個數。

2.2? 可視化呈現

人類從外界獲得的信息大約有80%以上來自于視覺系統[27-28]。在大數據環境下,可視化表達對情報產品的數據表達的便利性、易讀性、生動性和可傳播性方面具有很大的應用潛力[29]。在浩如煙海的文獻資料中,一張圖勝千言、一張圖讀懂系列等可視化案例對于科學人員對學科領域追蹤研究熱點與發展趨勢具有重要作用。文本可視化呈現重要的任務就是將處理過后的文本數據采用合適的視覺編碼來呈現文本信息的特征,文本內容的視覺編碼主要包括尺寸、顏色、形狀、方位等[17]。在文本可視化中詞語的頻度通常用字體大小來表示,不同的文本使用不同的顏色加以區分。本文在提取年度高頻關鍵詞并按照頻次大小依次排序,然后分別根據每年高頻關鍵詞的貢獻值選取適合的α參數閾值并計算呈現的關鍵詞數量,將選取的年度高頻關鍵詞按照詞頻大小與對應字體大小進行展現,頻次越高則對應的字體就越大,相同的關鍵詞采用相同的顏色,不同關鍵詞使用不同的顏色加以區分,最后在時間軸上分別將年度高頻關鍵詞按照詞頻大小依次進行排列展現。

2.3? 可視化分析

由于科學人員的研究需要參考前人的研究成果,而關鍵詞是文獻核心內容的高度概括,一般情況下短時間內某學科領域研究熱點關鍵詞不會憑空產生與消失,而是隨著時間呈現動態的變化,因此學科領域研究熱點關鍵詞具有繼承性,所以能通過學科領域研究熱點關鍵詞的變化來預測研究熱點的發展趨勢[2]。本文提出基于時間的高頻關鍵詞可視化方法是按年度提取高頻關鍵詞,而年度高頻關鍵詞的年度分布、頻次大小與排序的位次的變化則反應了研究熱點關鍵詞的變化,因此對學科領域年度高頻關鍵詞可視化分析內容主要包括高頻關鍵詞分類分析、高頻關鍵詞的年度分布分析、高頻關鍵詞的熱度分析等,進而掌握學科領域研究熱點與發展趨勢。

3? 實證研究

3.1? 數據收集與預處理

為了對本文提出的基于年度高頻關鍵詞的研究熱點可視化方法進行驗證,以近10年來國內關聯數據領域的研究熱點發展趨勢為例進行可視化展示。在CNKI數據庫中以“關聯數據”進行關鍵詞檢索,文獻類型選擇期刊、學位和會議論文,時間跨度為2010—2019年。通過對初始收集的文獻進行清洗,共收集了899篇文獻,圖2為“關聯數據”的年度發文量與文獻分布情況。由圖2所示,互聯網與信息技術的快速發展,推動了關聯數據領域的相關研究,2010—2013年關聯數據的相關研究文獻快速逐年增長,到2013之后增長速度有所放慢,2016年達到了頂峰。2017年關聯數據的相關研究開始出現下降的趨勢,說明科研人員對關聯數據的研究關注度有所減弱。因此追蹤關聯數據研究熱點的變化趨勢,科學合理地分析研究熱點的變化對于今后的研究具有重要的意義。

將收集的文獻根據年份劃分,使用Bicomb2分別對每年的文獻進行關鍵詞提取、清洗并統計排序,依據本文提出選取關鍵詞的公式分別計算每年顯示關鍵詞個數,再根據總年度高頻關鍵詞頻次總和前20%的關鍵詞可得α=120。由于使用“關聯數據”進行關鍵詞檢索,因此本次呈現的可視化去除了“關聯數據”,則每年顯示關鍵詞的詞頻與數量如表1所示。

3.2? 關聯數據領域年度高頻關鍵詞可視化

本文使用Python中的Matplotlib包將經過處理之后的年度熱點關鍵詞數據,按照關鍵詞頻次高低依次在時間軸上排列,即關鍵詞頻次較高的在上方,關鍵詞頻次較低的在下方。關鍵詞詞頻的高低與顯示的關鍵詞字體大小相對應,即關鍵詞頻次高顯示的字體就大,而關鍵詞頻次低則顯示的字體就小,不同關鍵詞使用不同的顏色,呈現結果如圖3所示。

由圖3可知,關聯數據研究領域每年關鍵詞的排列長短反應了這段時間內每年發文量的一個變化趨勢,2016年的發文總量在這10年中是最多的,2010年發文量最少。2010—2016年關聯數據研究領域逐年增長,到2016年達到了頂峰,之后發文量開始下降。關聯數據領域的發文趨勢反應了科研人員對這個領域關注的變化,而關鍵詞的頻次與位次的變化,則反應具體研究方向的變化。根據圖3對關聯數據領域進行如下分析。

3.2.1? 關聯數據領域高頻關鍵詞的分類分析

圖3中的高頻關鍵詞具有明顯的類別特征,這些關鍵詞大致可分為應用領域與研究方向兩大類。從表征應用領域的關鍵詞:圖書館、數字圖書館、機構知識庫、數字人文、非物質文化遺產等可以看出關聯數據主要應用在這些領域。表征研究方向又可分為兩大類,一類是關聯數據基礎理論與技術,如語義網的相關技術、RDF等。另一類是具有目標性的關鍵詞,如資源整合、知識組織、知識服務、發現知識、關聯數據發布等,這些目標性關鍵詞主要是使用關聯數據的技術和思想開展相關的研究。

3.2.2? 關聯數據領域高頻關鍵詞的分布分析

在關聯數據研究領域中語義網始終貫穿于近10年間,在2014年語義網的字體最大說明頻次最高,在2010—2017年語義網是每年出現頻次最高的關鍵詞,直到2018年被知識圖譜取代,2019年被本體取代,但是相對其他關鍵詞頻次還是比較高。本體在2012年開始出現,在后來的相關研究中出現頻次相對其他關鍵詞都比較高。由此得出語義網、本體等熱點關鍵詞與關聯數據關系密切,這些關鍵詞是關聯數據領域研究的基礎。圖書館、數字圖書館等關鍵詞相對其他應用領域關鍵詞年度分布較為均勻且頻次都比較高,由此說明了基于關聯數據的相關研究很大程度上應用于圖書館、數字圖書館領域。表征研究方向的關鍵詞如知識組織、知識服務、知識發現、資源整合等關鍵詞頻次與分布較為均勻,但是知識組織、資源整合相對于知識服務、知識發現出現頻次較高,由此得出基于關聯數據的相關研究方向主要為知識組織、資源整合等。分析高頻關鍵詞的年度分布與頻次,可以得出關聯數據領域相關研究的側重點,期望給今后從事關聯數據研究人員提供參考。

3.2.3? 關聯數據領域高頻關鍵詞的熱度分析

通過年度高頻關鍵詞基于時間的排序與詞頻變化來揭示關鍵詞的熱度。根據文獻關鍵詞具有繼承性,本文將關鍵詞熱度主要劃分為新興型、穩定型、衰退型3大類。

1)新興型關鍵詞。新興狀態的關鍵詞表現為近一段時間突然出現的關鍵詞或是這段時間持續出現。在本文關聯數據可視化圖中發展狀態較好的關鍵詞主要包括BTBFRME(The Bibliographic Framework Initiative)、大數據、數字人文、知識圖譜、非物質文化遺產等,其中BTBFRME、數字人文、知識圖譜這些關鍵詞在近幾年出現并且頻次相對較高或排序相對靠前則表現明顯的新興型特征。BTBFRME是國際上新的編目規則,在近年來受到學者的關注。基于關聯數據對圖書館資源的組織和整合體現了優勢,因此更多學者借鑒關聯數據在圖書館的應用將關聯數據應用于數字人文,組織、整合數字人文的相關數據。近年來隨著知識圖譜的不斷應用與發展,學者注重將關聯數據組織、整合的信息或知識通過知識圖譜來呈現,便于用戶理解、發現和快速吸收信息或知識。

2)穩定型關鍵詞。穩定狀態的關鍵詞表現為在整個分析時間段關鍵詞的頻次與排序相對穩定。在本文關聯數據可視化圖中有代表穩定狀態的關鍵詞主要有語義網、本體、圖書館、數字圖書館、知識組織等,而語義網、本體、圖書館呈現穩定狀態較為明顯。雖然眾多學者致力于將關聯數據與語義網、本體相結合來組織和整合圖書館資源,但是由于圖書館資源龐大且復雜,而用戶不斷追求圖書館服務、服務的質量與水平等,因此在相關研究中關聯數據與語義網、本體、圖書館的關系相對穩定。

3)衰退型關鍵詞。衰退狀態的關鍵詞表現為在開始前幾年出現或是在前幾年持續出現一段時間而后幾年就消失了,呈現衰退狀態的關鍵詞主要有網絡數據、科學數據等。近年來隨著計算機的快速發展,網絡數據呈現爆炸式增長,網絡數據已經成為常態化,而研究者更多關注于對網絡大數據的分析。而科學數據是一門新興學科,但是由于相關的理論、技術基礎還比較薄弱,因此較少受到學者的關注。

由以上可視化與分析可知關聯數據在10年內研究熱點關鍵詞處于動態變化的過程,年度高頻關鍵詞的頻次與排序呈現上下波動的形式,通過本文提出可視化方法來追蹤學科領域熱點關鍵詞的發展態勢,希望能為科學人員的選題提供一定的參考意義。但是本文提出的可視化方法僅是基于統計方式并在此基礎上進行的分析,由于篇幅有限未能對本文可視化方法與內容分析法相結合進行全面的論述。

3.3? 本文方法可行性分析

1)高頻關鍵詞提取方法的可行性

為了驗證本文提取高頻關鍵詞方法的可行性,對本文提取高頻關鍵詞的方法與現有其他方法進行分析。將收集的關聯數據領域的全部文獻,使用Bicomb2工具進行關鍵詞的提取,對初始提取的關鍵詞進行清洗。由于本實驗是以“關聯數據”為檢索詞進行的檢索,因此高頻關鍵詞選取過程中不考慮該詞詞頻。高頻關鍵詞選取的方法主要包括齊普夫第二定律、普賴斯公式、二八定律、g指數等[21,23]。使用齊普夫第二定律獲取的高頻關鍵詞數量為5,使用普賴斯公式獲取的高頻關鍵詞數量為94,使用g指數獲得的高頻關鍵詞數量為25,根據二八定律獲取的高頻關鍵詞數量為32,由此可知本次實驗根據齊普夫第二定律獲取的高頻關鍵詞數量偏少,根據普賴斯公式獲得的高頻關鍵詞數量過多,而g指數與二八定律獲取的高頻關鍵詞數量較為合適,但相對于g指數、二八定律獲取的高頻關鍵詞相對較多、涵蓋的范圍比較廣,因此本文選取二八定律來分析本文提出年度高頻關鍵詞的研究熱點方法的可行性。選取高頻關鍵詞的詞頻之和占所有關鍵詞總詞頻的20.05%可得32個高頻關鍵詞,即關鍵詞詞頻大于等于10,詞頻總和為743,截取的高頻關鍵詞如表2所示。

通過對圖3與表2的熱點關鍵詞對照發現:表2中語義網、本體、圖書館、RDF、數字圖書館、書目數據、知識組織等頻次都比較高,在圖3中這些關鍵詞分布的年份較為均勻,但是頻次與位次會發生不同程度的變動。本文可視化方法中展現的高頻關鍵詞都能與表2中統計的高頻關鍵詞與之匹配,即本文提出的可視化方法設定參數閾值α控制高頻關鍵詞與二八定律獲取的高頻關鍵詞能匹配,如果出現兩者間有少量不匹配的關鍵詞則可通過再次合并相似關鍵詞或者適當調整閾值α來提高匹配度,由此可以得出本文提出的年度高頻關鍵詞方法具有一定的可行性。

2)研究熱點可視化方法的可行性

為了檢驗本文可視化的可行性,將本文可視化與Citespace工具繪制的共現知識圖譜中的高頻關鍵詞的研究熱點進行對比分析。對收集的文獻數據使用Citespace工具對關鍵詞基于詞頻的共現展示,詞頻閾值選擇2,得到關鍵詞共現知識圖譜如圖4所示。在關鍵詞共現知識圖譜中,節點與標簽字體大小代表關鍵詞共現頻次大小,節點間連線的粗細代表關鍵詞之間共現關系的強弱,節點間連線的顏色代表關鍵詞之間建立共現的年份,由共現知識圖譜(圖4)可以看出在關聯數據領域高頻關鍵詞主要有語義網、圖書館、本體、RDF、數字圖書館、知識組織、資源聚合、知識服務、知識發現、BIBFRAME、書目數據等,與網絡數據共現的關鍵詞連線顏色較深則表明了網絡數據共現年份出現較早,與數字人文、非物質文化遺產共現的關鍵詞連線顏色比較淺則表明了數字人文、非物質文化遺產等關鍵詞是近年來新出現的研究熱點,語義網、數字圖書館、圖書館、知識組織、知識服務、知識發現等關鍵詞共現連線顏色有深有淺則代表了這些關鍵詞在前后年份都有分布,這與本文可視化研究熱點結果基本一致,這表明了本文可視化方法具有一定的可行性。雖然本文可視化方法不僅能追蹤年度高頻關鍵詞研究熱點的變化,還能展示學科領域文獻數量的分布,但是本文可視化方法未能充分體現關鍵詞之間的共現關系。

4? 結? 語

本文以基于年度高頻關鍵詞的研究熱點提取與可視化方法為主要研究內容,在對近年來詞頻分析與文本可視化領域研究現狀進行深入探析的基礎上,發現相關領域對于詞頻演變趨勢和研究熱點變遷可視化的研究有所不足。因而本文提出了將時間要素與頻度要素相結合的研究熱點分析策略,首先構建基于年度高頻關鍵詞進行領域研究熱點分析的過程模型,在計算關鍵詞高頻閾值的基礎上,通過尺寸、顏色、形狀、方位等要素對年度高頻關鍵詞進行視覺編碼,并通過年度高頻詞在時間軸下的視覺呈現實現研究熱點的提取與可視化。在過程模型構建的基礎上,本文以近10年來國內“關聯數據”領域的研究熱點演變趨勢為例,對提出的研究熱點提取與可視化方法進行驗證。實驗結果表明,本文提出的基于年度高頻關鍵詞的研究熱點可視化方法與以Citespace為代表的詞頻可視化工具相比,在關鍵詞高頻閾值計算和年度熱點詞的視覺呈現等方面均體現一定的優勢和較強的可行性。但是,本文提出的研究熱點可視化方法對于高頻關鍵詞之間的共現關系未能進行全面充分挖掘地,因此在未來的研究中,還需對本方法進行進一步優化與完善。

參考文獻

[1]任磊,杜一,馬帥,等.大數據可視分析綜述[J].軟件學報,2014,25(9):1909-1936.

[2]劉自強,王效岳,白如江.基于時間序列模型的研究熱點分析預測方法研究[J].情報理論與實踐,2016,39(5):27-33.

[3]鄧珞華.詞頻分析——一種新的情報分析研究方法[J].大學圖書館通訊,1988,(2):18-25.

[4]邱均平,溫芳芳.近五年來圖書情報學研究熱點與前沿的可視化分析——基于13種高影響力外文源刊的計量研究[J].中國圖書館學報,2011,37(2):51-60.

[5]張勤.詞頻分析法在學科發展動態研究中的應用綜述[J].圖書情報知識,2011,(2):95-98,128.

[6]余豐民,林彥汝.基于關鍵詞詞頻統計的學科研究熱點漂移程度模型構建及實證分析[J].情報理論與實踐,2020,43(2):100-105.

[7]傅柱,王曰芬,陳必坤.國內外知識流研究熱點:基于詞頻的統計分析[J].圖書館學研究,2016,(14):2-12,21.

[8]歐陽博,劉坤鋒,楊海娟.國外信息系統持續使用模型應用研究綜述[J].現代情報,2017,37(8):171-177.

[9]邱均平,丁敬達.1999—2008年我國圖書館學研究的實證分析(下)[J].中國圖書館學報,2009,35(6):79-87,118.

[10]鞏永強,劉莉.基于詞頻分析法的情報學研究熱點透析[J].圖書館學研究,2011,(13):9-13.

[11]奉國和,孔泳欣.基于時間加權關鍵詞詞頻分析的學科熱點研究[J].情報學報,2020,39(1):100-110.

[12]陳勇躍,田文芳,吳金紅.主題領域研究熱點跟蹤及趨勢預測的可視化分析方法研究[J].情報理論與實踐,2017,40(6):117-121.

[13]盧新元,張恒,王馨悅,等.基于科學計量學的國內企業知識轉移研究熱點和前沿分析[J].情報科學,2019,37(3):169-176.

[14]劉自強,岳麗欣,許海云,等.時序共詞網絡構建及其動態可視化研究[J].情報學報,2020,39(2):186-198.

[15]高勁松,劉洪秋.基于知識圖譜的國內外關聯數據研究分析[J].情報科學,2018,36(3):117-124.

[16]施蕭蕭,張慶普.基于共詞分析的國外顛覆性創新研究現狀及發展趨勢[J].情報學報,2017,36(7):748-759.

[17]唐家渝,劉知遠,孫茂松.文本可視化研究綜述[J].計算機輔助設計與圖形學學報,2013,25(3):273-285.

[18]Viégas F B,Wattenberg M.Timelines Tag Clouds and the Case for Vernacular Visualization[J].interactions,2008,15(4):49-52.

[19]Johnson B,Shneiderman B.Tree-maps:A Space-filling Approach to the Visualization of Hierarchical Information Structures[M].IEEE,1991.

[20]湯斯亮,程璐,邵健,等.基于概率主題建模的新聞文本可視化綜述[J].計算機輔助設計與圖形學學報,2015,27(5):771-782.

[21]Cui W,Liu S,Tan L,et al.Textflow:Towards Better Understanding of Evolving Topics in Text[J].IEEE Transactions on Visualization and Computer Graphics,2011,17(12):2412-2421.

[22]Lee B,Riche N H,Karlson A K,et al.Sparkclouds:Visualizing Trends in Tag Clouds[J].IEEE Transactions on Visualization and Computer Graphics,2010,16(6):1182-1189.

[23]馬創新,陳小荷.文本的可視化知識表示[J].情報科學,2017,35(3):122-127.

[24]劉奕杉,王玉琳,李明鑫.詞頻分析法中高頻詞閾值界定方法適用性的實證分析[J].數字圖書館論壇,2017,(9):42-49.

[25]邱均平,丁敬達,周春雷.1999—2008年我國圖書館學研究的實證分析(上)[J].中國圖書館學報,2009,35(5):72-79.

[26]楊愛青,馬秀峰,張風燕,等.g指數在共詞分析主題詞選取中的應用研究[J].情報雜志,2012,31(2):52-55,74.

[27]Ren L.Research on Interaction Techniques in Information Visualization[Ph.D.Thesis].Beijing:The Chinese Academy of Sciences,2009(in Chinese with English Abstract).

[28]Card S K,Mackinlay J D,Shneiderman B.Readings in Information Visualization:Using Vision To Think[J].San Francisco:Morgan-Kaufmann Publishers,1999:1-712.

[29]張迪,趙亞娟,趙慧敏,等.情報產品可視化展示模式和方法研究[J].情報理論與實踐,2020,43(2):66-71.

(責任編輯:陳? 媛)

猜你喜歡
趨勢分析
化工材料科學與工程的發展現狀及趨勢研究
淺談核電項目設計質量信息收集與分析
高校微課教學現狀及未來發展趨勢研究
從《遠程教育》35年載文看遠程教育研究趨勢
基于知識圖譜的智慧教育研究熱點與趨勢分析
計算機科學與技術的發展趨勢
田灣核電站趨勢分析方法應用淺析
科技傳播(2016年10期)2016-07-15 23:15:02
中國服務貿易競爭力檢驗與趨勢分析
汽車行業財務業績分析
中國市場(2016年15期)2016-04-28 09:44:24
出版社的數字營銷工具研究
商(2016年9期)2016-04-15 00:45:08
主站蜘蛛池模板: 国产成年无码AⅤ片在线| 欧美国产精品不卡在线观看| 日本a∨在线观看| 国产精品亚欧美一区二区三区| 国产chinese男男gay视频网| 最新无码专区超级碰碰碰| 国产AV毛片| 成人午夜免费视频| 亚洲成人网在线播放| 国产日本欧美亚洲精品视| 成人精品在线观看| 免费高清毛片| 无码高潮喷水在线观看| 亚洲免费毛片| a网站在线观看| 毛片基地视频| 亚洲国产天堂久久综合| 亚洲动漫h| 国产丝袜一区二区三区视频免下载| 手机精品福利在线观看| 一边摸一边做爽的视频17国产| 国产毛片高清一级国语 | 伊大人香蕉久久网欧美| 在线看片国产| 亚洲啪啪网| 亚洲永久色| 国产高清国内精品福利| 亚洲日本韩在线观看| 91精品国产一区自在线拍| 色成人亚洲| 婷婷丁香色| 亚洲天堂精品在线观看| 人妻中文字幕无码久久一区| 97视频在线观看免费视频| 国产精品香蕉在线观看不卡| 国产尤物在线播放| 久久一日本道色综合久久| 国产精品三区四区| 婷婷在线网站| 真实国产精品vr专区| 国产精品思思热在线| 国国产a国产片免费麻豆| AV色爱天堂网| 中文字幕日韩视频欧美一区| 国产成人啪视频一区二区三区| 国产一级一级毛片永久| 欧美区在线播放| 国内丰满少妇猛烈精品播| 中文字幕无码电影| 免费毛片在线| 日韩欧美中文在线| 国产精品刺激对白在线 | 伊人久久青草青青综合| 国产精品久久久精品三级| 国产第一页第二页| 久久综合一个色综合网| 国产乱人伦精品一区二区| 欧美啪啪一区| 激情爆乳一区二区| 欧美国产日本高清不卡| 国产成人AV综合久久| 欧美亚洲国产精品第一页| 国产成人91精品| 亚洲首页国产精品丝袜| 亚洲黄网视频| 色首页AV在线| 午夜精品福利影院| 性欧美久久| 日韩AV无码免费一二三区| 午夜在线不卡| 性欧美久久| 久久综合伊人 六十路| 亚洲成a人片在线观看88| 亚洲成年网站在线观看| 亚洲无码电影| 深爱婷婷激情网| 99视频在线免费观看| 国产精品伦视频观看免费| 免费看av在线网站网址| 在线播放国产99re| 成人国产免费| 日本不卡免费高清视频|