999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

2010-2021 年國內文本挖掘的文獻計量分析*

2023-02-19 12:24:52川北醫學院管理學院譚明亮蔣靜
數字技術與應用 2023年1期
關鍵詞:文本分析研究

川北醫學院管理學院 譚明亮 蔣靜

本文以中國知網數據庫收錄的文本挖掘相關的研究文獻作為研究對象,借助于知識可視化圖譜分析工具CiteSpace 對研究文獻進行多個維度的分析并以科學知識圖譜的形式呈現,主要包括關鍵詞分析、作者分析、研究機構分析和研究趨勢分析。本文通過文獻計量分析發現,2010—2021 年的12 年間,文本挖掘領域研究主題廣泛,研究層次多樣,研究人員數量眾多,在不同時期有不同的研究重點。

近年來,隨著移動通信和互聯網技術的快速發展和廣泛普及,文本數據的規模呈現出急劇增長的趨勢,主要包括研究報告、學術論文、電子郵件、網頁、公司內部公告等。非結構化文本是非常重要的數據資源,為了更好地處理和使用這些數量龐大、結構多樣的文本數據,文本挖掘技術隨之而誕生。文本挖掘作為自然語言處理、機器學習和數據挖掘等多項技術的交叉研究領域,其研究熱度也逐年提升。本文從中國知網數據庫上獲取文本挖掘領域的相關研究文獻,基于文獻計量法和CiteSpace軟件,主要從研究人員、研究機構、研究內容和研究趨勢等多個維度,對收集到的文獻數據進行全面綜合的分析,以期為文本挖掘領域的研究人員提供一定的參考和借鑒。

1 數據選取

本文的研究數據來自于中國知網(CNKI)中文數據庫,數據采集的檢索條件設置如下:主題詞設置為“文本挖掘”,研究文獻的發表年份設置為2010—2021 年。經過檢索,共得到4853 篇研究文獻,其中包括了2326篇學術期刊論文、2222 篇學位論文和101 篇會議論文,剔除其中與本文研究相關度低的204 篇文獻(包括年鑒、報紙等),得到有效文獻共計4649 篇。

本文將文獻數據以Refworks 的格式下載到本地文件夾data for CiteSpace 下的input 文件夾之中,文獻輸出信息以txt 文本文件形式存儲,txt 文件以download_加數字命名,例如“download_1”,以download_加數字的格式命名文件是為了后續能夠更便捷地將CNKI 文獻導入CiteSpace 數據庫中。

2 分析方法與分析工具

2.1 分析方法

文獻計量法是一種定量分析方法,是以科技文獻的各種外部特征作為研究對象,采用數學與統計學的方法來描述、評價和預測科學技術現狀與發展趨勢的一種方法,文獻計量法的主要特點輸出必是量化的信息內容[1]。文獻計量法在科技評價、科研管理等領域有著非常廣泛的應用,并在圖書情報領域的應用尤為廣泛,如測定學科核心期刊、建設情報檢索系統、編制領域主題詞表等[2]。

科學知識圖譜分析法是文獻計量學的一種重要分析方法,它將科研活動的主體(如研究人員、研究團隊、研究機構等)或具有某種共同特征的學科領域群體作為研究對象,利用可視化技術描述知識資源及其載體,通過分析、挖掘和可視化知識及其之間的相互關系,將相關研究的發展進程和結構關系以直觀圖形的方式展現,從而幫助研究者了解領域研究現狀和前沿動態[3]。

2.2 分析工具

大數據背景下,文獻信息的規模與日俱增,如何在這些文獻中找出值得深入閱讀和作為參考的關鍵文獻,挖掘學科前沿,找到相關領域的研究熱點成為科研工作中的重要問題。為了有效地分析研究文獻,各種繪制科學知識圖譜的工具紛至沓來。其中,美國德雷塞爾大學陳超美教授開發的用于文獻數據分析和可視化的Java 應用程序CiteSpace(其中文名為“引文空間”)成為了目前最流行的知識圖譜繪制工具之一[4]。

CiteSpace 以共引分析理論(Co-ciation)、尋徑網絡算法(PathFinder)、結構洞理論(Structural Holes)等理論作為基礎,將某一特定領域的文獻進行計量和可視化,以期探求出學科領域演化的關鍵路徑和知識拐點,再結合繪制的一系列可視化知識圖譜,對學科領域內潛在的演化動力機制進行分析和對學科發展前沿進行探測[5]。目前,國內外的研究者們已經將CiteSpace 軟件廣泛應用于圖書情報、醫療衛生、經濟管理等領域的文獻計量與可視化分析中。

3 文本挖掘研究文獻的可視化圖譜分析

3.1 關鍵詞分析

本文對文本挖掘研究文獻的關鍵詞進行統計分析,篩選出7 個頻次大于100 的關鍵詞。除去本文選取的檢索詞“文本挖掘(頻次為2340)”,其余的關鍵詞分別是“數據挖掘(頻次為242)”“情感分析(頻次為217)”“文本分類(頻次為204)”“主題模型(頻次為173)”“文本聚類(頻次為168)”“機器學習(頻次為102)”,這些關鍵詞代表了文本挖掘研究領域最核心的問題主要包括文本的分類、聚類、主題分析和情感分析等。

本文利用CiteSpace 軟件繪制2010-2021 年文本挖掘研究文獻關鍵詞的突現圖譜,選取其中突變率最高的20 個關鍵詞進行展示,如圖1 所示。2010年,文本挖掘的研究主要集中于文本分類和本體;到2011-2014 年之間,文本挖掘領域的研究熱點逐漸向醫學方面傾斜,逐步應用于西藥、中成藥以及中藥方面;在2014-2018 年這5 年中,文本挖掘涉及的領域不斷增多,在證候、網絡評論、短文本、微博、圖書館等領域都有所涉及;在2018-2021 年間,文本挖掘的研究主要集中于人工智能、知識圖譜、情感分析、金融科技、政策評論、政策工具等方面。總體而言,文本挖掘研究領域的變化,與我國經濟迅速發展和信息技術日新月異的時代背景緊密相關。

圖1 關鍵詞突現圖譜Fig.1 Keywords emergence map

本文利用CiteSpace 軟件對研究文獻的關鍵詞進行共詞分析,結果如圖2 所示。在關鍵詞共現圖譜中分布著許多大小不一的圓圈,圓圈的大小代表著關鍵詞的頻次,圓圈越大,頻次越多。在圖2中,有5 個明顯的圓圈,其代表的關鍵詞分別為文本挖掘、主題分類、數據挖掘、文本分類和情感分析。關鍵詞共現圖譜中的線條代表著關鍵詞之間的聯系,通過線條顏色能看出哪一年有哪些關鍵詞,線條顏色越鮮艷標志著該研究內容的年份越靠近當下。可以看出,在文本挖掘領域發展的各個時間段都有著不同的研究側重點和研究熱點,在顏色最鮮艷的時間線上的關鍵詞有深度學習、主題模型、語義分析、知識發現、推薦系統、人工智能、政策工具等,最近幾年文本挖掘領域的研究重點主要集中在智能服務、語義深度挖掘、政策分析等領域。圖2 線條眾多,連接復雜,說明在文本挖掘研究領域中各關鍵詞之間聯系緊密,文本挖掘研究涉及的領域廣泛。

圖2 關鍵詞共現圖譜Fig.2 Keywords co-occurrence map

3.2 作者分析

為了發現文本挖掘領域研究的中堅力量,探尋該領域的核心作者群體,本文利用CiteSpace 軟件繪制了文本挖掘研究領域的作者共現圖譜,如圖3 所示。圖中最突出的合作關系是以呂愛平為中心的研究團體,該團體中研究人員眾多,包括張弛、姜春燕、趙寧、王耀獻、崔趙麗等人;汪雪鋒、任惠超、劉玉琴、張磊等人組成了一個研究團體,在這個團體中,以作者汪雪峰為中心;除此之外,還有黃敏婷、劉芳羽、趙秉元、李澤、古超等人組成的研究團體;以及白衛國、王躍溪、王麗穎、韓學杰、趙學堯等人組成的研究團體。

圖3 作者共現圖譜Fig.3 Authors co-occurrence map

從事文本挖掘領域研究的專家學者不勝枚舉,其中,郭洪濤、姜淼、呂愛平、鄭光、汪雪鋒所發表的文獻被引次數最多;呂愛平、鄭光發表的文獻被引次數為69次;姜淼發表的文獻被引次數為56 次;郭洪濤發表的文獻被引次數為45 次。這幾位作者是文本挖掘研究領域的帶頭人,在文本挖掘研究領域內具有重要影響。

通過作者突顯分析,可以發現在2010—2021 年之間各個階段的主要研究人員。在2011—2013 年中,作者郭洪濤、譚勇、楊靜發表文獻最多;2015—2017年,作者張永安發表文獻最多;2017—2021 年之間,作者黃名選、黃魯成、崔雷、武帥發表文獻最多,其中作者黃魯成在2016—2021 年都保持著較高的發文量。以上這些作者在文本挖掘研究領域都保持著較高的活躍度,在文本挖掘研究領域都具有重要的影響。作者呂愛平、鄭光、姜淼在總體上發文最多,但論文的主要發表年限都集中在2013年,論文發表年限比較早,是文本挖掘研究領域的開拓者之一。

3.3 研究機構分析

通過對研究機構的分析,可以看出哪些機構在文本挖掘研究領域發揮著重要的作用,哪些機構之間聯系比較緊密,哪些機構為文本挖掘的研究做出了重要貢獻[6]。本文利用CiteSpace 軟件繪制了文本挖掘研究領域的研究機構共現圖譜,如圖4 所示。

從圖4 可以直觀地看出,文本挖掘領域的研究主要以中國科學院大學經濟與管理學院、中國科學院文獻情報中心、中國科學院大學、北京理工大學管理與經濟學院、北京工業大學經濟與管理學院、武漢大學信息管理學院這幾個研究機構為中心。其中,以中國中醫科學院中醫臨床基礎醫學研究所為中心,蘭州大學信息學院、蘭州大學應用數學與統計學院、上海中醫藥大學、河南中醫學院第一附屬醫院等研究機構參與了文本挖掘領域內的研究;以北京理工大學管理與經濟學院為中心,中國船舶信息中心、北京印刷學院新聞出版學院、中國政法大學商學院等研究機構進行了合作;以中國科學院大學為中心,中國科學院國家科學圖書館、北京大學信息管理系、上海市浦東新區人民檢察院、中國科學院大數據挖掘與知識管理重點實驗室等機構對文本挖掘進行了研究與合作;以武漢大學信息管理學院為中心,武漢大學信息資源研究中心、武漢大學遙感信息工程學院、武漢紡織大學會計學院等機構進行了合作。

圖4 研究機構共現圖譜Fig.4 Research institutions co-occurrence map

本文對文本挖掘領域的主要研究機構的文獻發表數量進行統計,大連理工大學發表了相關論文112篇,中國中醫科學院發表了相關論文90篇,北京郵電大學發表了相關論文89篇,電子科技大學發表了相關論文83篇,武漢大學發表了相關論文81篇,北京工業大學發表了相關論文80篇,吉林大學發表了相關論文72篇,中國科學院大學發表了相關論文71篇,蘭州大學發表了相關論文71篇,北京交通大學發表了相關論文68 篇。由以上數據可以得出,在文本挖掘研究領域文獻的發表機構以高等院校為主,主要集中在理工類院校,也有少部分高等醫學院校。在這些高等院校中,大連理工大學發表的相關論文數量最多。這些研究機構主要集中在中國經濟發展水平比較高、學術研究力量較為雄厚的大城市,如北京、武漢、大連、長春等。這些研究機構學術型人才多,學術水平較高,研究視野開闊。

3.4 研究趨勢分析

為了分析出文本挖掘領域在2010-2021 年的研究趨勢,本文利用CiteSpace 工具,繪制有關文本挖掘領域的關鍵詞時區圖,如圖5 所示。可以看出,在2010年,文本挖掘研究重點在文本分類、情感分析、數據挖掘以及主題模型這幾個方面;2011年,文本挖掘研究重點在可視化、主題分析、指標體系、西藥、神經網絡等幾個方面;2012年,文本挖掘研究重點在文本分析、數字人文、情感分類、社交網絡、情感詞典等幾個方面;2013年,文本挖掘研究重點在股票市場、共詞分析、微博、圖書館、推薦系統等幾個方面;2014年,文本挖掘研究重點在大數據、網絡爬蟲、短文本、社交媒體、知識圖譜等幾個方面;2015年,文本挖掘研究重點在詞向量、復雜網絡、主題挖掘等幾個方面;2016年,文本挖掘研究重點在用戶畫像、數據分析、協同過濾、分詞等幾個方面;2017年,文本挖掘研究重點在滿意度、文獻計量、影響因素、用戶要求等方面;2018年,文本挖掘研究重點在人工智能、新浪微博等幾個方面;2019年,文本挖掘研究重點在詞云圖、網絡新聞、商業銀行、服務質量等幾個方面;2020年,文本挖掘研究重點在政策文本、電力設備、金融科技、形象感知等幾個方面;2021年,文本挖掘研究重點在評論數據、微博評論等幾個方面。

圖5 關鍵詞時區圖Fig.5 Keywords time zone map

4 結語

本文從關鍵詞、作者、研究機構、研究趨勢這四個方面,對文本挖掘研究領域的相關文獻進行分析總結。無論是從時間的橫向還是縱向來看,文本挖掘領域的研究可以總結如下:文本挖掘的研究熱點主要集中在大數據、評論挖掘、情感分析等方面,文本挖掘研究涉及領域廣泛,包括計算機領域、醫學領域、管理領域以及政治領域等;文本挖掘的研究人員和研究機構眾多,主要研究機構為高等院校,也有少部分企業對文本挖掘進行研究;文本挖掘在社會科學和自然科學的研究中得到了充分利用,且呈現不斷上升的趨勢,主要涉及計算機科學、圖書情報和經濟管理等學科領域,文本分類、文本聚類和情感分析是文本挖掘的核心技術。

引用

[1] 吳愛芝,肖瓏,張春紅,等.基于文獻計量的高校學科競爭力評估方法與體系[J].大學圖書館學報,2018,36(1):62-67+26.

[2] 朱亮,孟憲學.文獻計量法與內容分析法比較研究[J].圖書館工作與研究,2013(6):64-66.

[3] 馮新翎,何勝,熊太純,等.“科學知識圖譜”與“Google知識圖譜”比較分析——基于知識管理理論視角[J].情報雜志,2017,36 (1):149-153.

[4] 陳悅,陳超美,劉則淵,等.CiteSpace知識圖譜的方法論功能[J].科學學研究,2015,33(2):242-253.

[5] 侯劍華,胡志剛.CiteSpace軟件應用研究的回顧與展望[J].現代情報,2013,33(4):99-103.

[6] 蔣海剛.詞向量文本挖掘技術在建筑設施管理應用研究[J].電腦知識與技術,2021,17(33):22-25.

猜你喜歡
文本分析研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
隱蔽失效適航要求符合性驗證分析
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統研究
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統及其自動化發展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 中文字幕中文字字幕码一二区| 丝袜美女被出水视频一区| 在线观看亚洲精品福利片| 四虎影视库国产精品一区| a毛片免费在线观看| 青青草国产在线视频| 最新国语自产精品视频在| 毛片久久久| 日韩欧美高清视频| 91亚洲影院| 亚洲 日韩 激情 无码 中出| 自慰高潮喷白浆在线观看| 精品视频在线观看你懂的一区| 日本高清免费一本在线观看| 国产欧美在线观看视频| 色偷偷男人的天堂亚洲av| 2021精品国产自在现线看| 日韩天堂视频| 91网在线| 免费AV在线播放观看18禁强制| 97精品国产高清久久久久蜜芽| 97免费在线观看视频| 亚洲无线视频| 91毛片网| 亚洲人成网站日本片| 91久久青青草原精品国产| 色国产视频| 国产福利微拍精品一区二区| 91久久夜色精品| 婷婷久久综合九色综合88| 国产综合精品日本亚洲777| yy6080理论大片一级久久| 久久频这里精品99香蕉久网址| 久久免费视频6| 毛片在线区| 国产91在线|中文| 亚洲天堂日韩av电影| 黄色三级毛片网站| 亚洲精品午夜无码电影网| 97超级碰碰碰碰精品| 在线99视频| 色男人的天堂久久综合| 99热这里只有精品2| 国产欧美日韩精品综合在线| 极品国产在线| 精品国产成人a在线观看| 热久久这里是精品6免费观看| 国产呦视频免费视频在线观看| 久久久久久久久18禁秘| 免费人成黄页在线观看国产| 国模沟沟一区二区三区| 精品综合久久久久久97| 免费av一区二区三区在线| 亚洲AV一二三区无码AV蜜桃| 成人av专区精品无码国产 | 精品無碼一區在線觀看 | 亚洲视屏在线观看| 五月婷婷亚洲综合| 亚洲综合婷婷激情| 欧美另类图片视频无弹跳第一页| AV天堂资源福利在线观看| 四虎永久在线视频| AV天堂资源福利在线观看| 99尹人香蕉国产免费天天拍| 天堂va亚洲va欧美va国产 | 国产精品亚欧美一区二区| 天天婬欲婬香婬色婬视频播放| 99r在线精品视频在线播放 | 一区二区午夜| 婷婷色一区二区三区| 久久窝窝国产精品午夜看片| 日韩在线欧美在线| 黄色污网站在线观看| 波多野结衣中文字幕一区二区| 亚洲色偷偷偷鲁综合| 91久久国产综合精品女同我| 国产日韩精品欧美一区喷| 91丝袜在线观看| 91九色最新地址| 国产在线高清一级毛片| 日韩高清一区 | 国产高颜值露脸在线观看|