999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python語言的學術(shù)論文數(shù)據(jù)挖掘與分析

2021-07-27 08:09:28劉煥英
新媒體研究 2021年5期
關(guān)鍵詞:數(shù)據(jù)挖掘

劉煥英

關(guān)鍵詞 Python語言;數(shù)據(jù)挖掘;醫(yī)療人工智能;學術(shù)論文;期刊編輯

中圖分類號 G232.1 文獻標識碼 A 文章編號 2096-0360(2021)05-0021-06

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,大數(shù)據(jù)時代的來臨,數(shù)據(jù)規(guī)模巨大,但數(shù)據(jù)存在多樣性、價值密度低及關(guān)系復(fù)雜等特點。如何從海量的信息中獲得有價值的信息變得越來越困難。近年來逐漸興起的數(shù)據(jù)挖掘與分析可以很好地解決這個問題。數(shù)據(jù)挖掘技術(shù)通過多種復(fù)雜的算法在大量的元數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)間潛在的規(guī)律及有價值的信息。近年來在金融、醫(yī)療、社交及電信領(lǐng)域取得了顯著成果,而在期刊出版領(lǐng)域應(yīng)用較少。在已有的報道中,有編輯提出把數(shù)據(jù)挖掘應(yīng)用在網(wǎng)絡(luò)投稿系統(tǒng)中,可以對稿件進行分類送審、向作者定向征稿及相似文獻推薦、對投稿流程及投稿系統(tǒng)進行質(zhì)量評價及促進系統(tǒng)的改進[1]。也已有編輯部利用數(shù)據(jù)挖掘為期刊的選題策劃、學者選擇、專題策劃、稿件篩選等提供更精準的數(shù)據(jù)依據(jù),為期刊決策提供參考[2-5]。

在相關(guān)的研究中,編輯們更多的是利用HADOOP、ROST News Analysis Tool 4.5等數(shù)據(jù)挖掘工具,這些工具計算力及交互性不夠強大。本文參考譚春林[6]的數(shù)據(jù)挖方法,利用Python語言進行數(shù)據(jù)挖掘及分析。Python語言是數(shù)據(jù)挖掘領(lǐng)域最熱門的語言,具有較好的解釋性及交互性,且擁有強大的科學計算能力,能對大量科研人員成果數(shù)據(jù)進行挖掘和分析,從而獲得有用的價值。而期刊編輯可利用Python對某一領(lǐng)域的發(fā)文情況進行數(shù)據(jù)挖掘及分析,尋找熱門選題,指導(dǎo)期刊的選題策劃。在已有的研究中,期刊編輯領(lǐng)域利用Python來進行數(shù)據(jù)挖掘及分析的報道較少,本文提出利用Python語言對近年來的熱點話題醫(yī)療人工智能相關(guān)的學術(shù)論文進行挖掘和分析,為期刊編輯從事學術(shù)研究提供新思路。

1 研究方法

1.1 系統(tǒng)架構(gòu)

基于Python 3.7的醫(yī)療人工智能相關(guān)學術(shù)論文的信息挖掘分析系統(tǒng),利用Selenuim來獲取相關(guān)的期刊論文,將數(shù)據(jù)清理并分析后進行結(jié)果輸出。該系統(tǒng)主要分為三個模塊,第一個模塊是數(shù)據(jù)獲取,從中國知網(wǎng)選取相關(guān)的文本信息,其中包括作者、機構(gòu),關(guān)鍵詞、期刊、發(fā)表時間、下載及被引用次數(shù)等信息。第二個模塊是數(shù)據(jù)清洗及提取,把通知、辦法、條例等非學術(shù)論文的文章刪除。第三個模塊是數(shù)據(jù)統(tǒng)計分析,提取清理后的元數(shù)據(jù),并對元數(shù)據(jù)統(tǒng)計分析。見圖1。

1.2 數(shù)據(jù)來源

利用中國知網(wǎng)數(shù)據(jù)庫(https://www.cnki. net)對醫(yī)療人工智能相關(guān)題材發(fā)文情況進行大數(shù)據(jù)挖掘和數(shù)據(jù)分析。本文從中國知網(wǎng)數(shù)據(jù)庫舊版入口,在“期刊”類目下進行“高級檢索”,檢索條件為“全文=人工智能+醫(yī)療/醫(yī)學/醫(yī)院/健康/中醫(yī);時間=2010-2019;來源=全部期刊“。(數(shù)據(jù)采集時間為2020年5月10日)

1.3 數(shù)據(jù)挖掘

從網(wǎng)頁挖掘文獻元數(shù)據(jù)步驟如下:

第1步:首先使用Selenuim的webdriver. get方法進入中國知網(wǎng)首頁,然后使用Selenuim的element元素的send_keys自動輸入【賬號】與【密碼】,并使用click方法以實現(xiàn)自動點擊以登錄系統(tǒng)。

第2步:首先使用Selenuim的webdriver.get方法進入中國知網(wǎng)期刊 的高級檢索頁,然后使用Selenuim的e lement元素的send_keys、select_ by_value自動輸入【 人工智能】、【邏輯關(guān)系 and】、【醫(yī)療/醫(yī)學/醫(yī)院/健康/中醫(yī)】click方法以實現(xiàn)自動點擊以進行檢索。

第3步:使用Selenuim元素的find_element_ by_class_name獲檢索結(jié)果

標簽后,然后使用find_elements_by_tag_name獲取每行的與
的標簽,分別使用、find_element_by_ class_name與find_elements_by_xpath方法獲取文章的【 主題】、【刊名】、【發(fā)表時間】、【被引】、【下載】信息。

第4步:循 環(huán)每行把【作者】、【機構(gòu)】、【關(guān)鍵詞】、【基金】、【分類】 存放在具體頁面中,并使用Selenuim元素的click()進入具體頁面,并使用find_element_by_class_name與find_elements_ by_xpath獲取以上信息。

第5步:在循環(huán)完當前檢索結(jié)果頁后,便進入下一頁,方法如下:

# 循環(huán)結(jié)果集頁面

同理,在進入下一頁面時,使用方法獲取上述數(shù)據(jù),基本思路如下:循環(huán)檢索結(jié)果->循環(huán)每頁->循環(huán)每行(獲取【主題】、【刊名】、【發(fā)表時間】、【被引】、【下載】)->進入每行具體頁面(獲取【作者】、【機構(gòu)】、【關(guān)鍵詞】、【基金】、【分類】)

第6步:獲取上述信息后,便可以入庫,在這里我們使用的數(shù)據(jù)庫系統(tǒng)是MySQL 5.7。

t_article字段信息如表1所示。

1.4 數(shù)據(jù)清洗

把作者為空的文章,例如:通知,辦法、條例等非學術(shù)論文刪除,方法如下:

1.5 數(shù)據(jù)預(yù)處理

由于作者、 機構(gòu)、關(guān)鍵詞、基金與分類信息中含有多個屬性,例如多名作者、多個關(guān)鍵詞,需要使用Python的split函數(shù)把這1行數(shù)據(jù)拆分成2行或多行數(shù)據(jù),然后使用 Python的pymysql模塊寫入MySQL,以利于我們接下來的統(tǒng)計。同理把機構(gòu)、關(guān)鍵詞、基金的屬性也進行拆分,寫入相應(yīng)的表進行保存。見表2。

1.6 數(shù)據(jù)統(tǒng)計

使用Python的pymysql模塊讀取MySQL的表,并使用Python調(diào)用MySQL的SQL查詢語言進行統(tǒng)計,統(tǒng)計方法如下:

# 獲取文章開始、結(jié)束時間及文章總數(shù)

1.7 圖片制作

使用Python的wordcloud模塊制作云圖,使用GraphPad Prism 7.0制作折線圖。

2 結(jié)果與分析

通過Python數(shù)據(jù)挖掘共收集到2 253條原始數(shù)據(jù),經(jīng)數(shù)據(jù)清理后,得到1 706篇醫(yī)療人工智能相關(guān)的學術(shù)論文,來源于804種期刊,所有文章共被引用6 130次,共被下載634 050次。文章共有6 695位作者,2 218個機構(gòu)參與,共有關(guān)鍵詞1 392,其中有基金支持的文章661篇。屬于自動化技術(shù)、計算機技術(shù)的有853篇,醫(yī)藥衛(wèi)生類的有568篇。

2.1 作者及機構(gòu)分析

1 706篇醫(yī)療人工智能學術(shù)論文中署名作者共有6 695位,去除重復(fù)后共3 951位不同的作者,其中獨立作者的文章有348篇,合作作者文章為1 358篇。署名1次的作者共有3 546人,署名2次的作者有544人,署名3次的作者有267人,署名4~7次的作者共有252人。只看作者的署名次數(shù)反映不出作者的整體貢獻情況,因此需要利用作者加權(quán)法進行統(tǒng)計分析。作者加權(quán)法是指如果一篇文章有多位作者,根據(jù)作者的排名順序進行加權(quán)統(tǒng)計,即按作者的排名遞減分配其權(quán)數(shù),再進行統(tǒng)計分析。加權(quán)系數(shù)排名前10的作者為李燦東、于彤、李敬華、向運華、王浩、蕭毅、孟祥鋒、金征宇、譚鐵牛、劉土遠。從作者統(tǒng)計角度來看,此時域范圍內(nèi)期刊發(fā)文作者大多為醫(yī)學或人工智能領(lǐng)域?qū)<摇?p>

從摘要信息中,共挖掘到3 951位作者所在的機構(gòu),其中只出現(xiàn)了1次的機構(gòu)有1 959個;1 706篇學術(shù)論文中,由獨立作者機構(gòu)完成的論文為1 121篇,機構(gòu)合作完成的585篇,獨立作者機構(gòu)完成的文章較多。

根據(jù)作者及機構(gòu)分析,可以得出80%的文章為多作者合作完成,53%的作者只署名一次,66%的文章為獨立作者機構(gòu)完成,其中中國中醫(yī)科學院中醫(yī)藥信息研究所是參與完成最多的機構(gòu),見表3。醫(yī)療人工智能相關(guān)學術(shù)論文高產(chǎn)機構(gòu)主要集中在研究所或者醫(yī)學院校,這些機構(gòu)為醫(yī)療人工智能領(lǐng)域的研究做出了較大的貢獻。

2.2 關(guān)鍵詞分析

對1 706篇醫(yī)療人工智能學術(shù)論文的關(guān)鍵詞進行統(tǒng)計,共統(tǒng)計到關(guān)鍵詞的數(shù)量為5 716個,平均每篇文章的關(guān)鍵詞為3.35個,繪制出關(guān)鍵詞云圖(見圖2)。其中高頻關(guān)鍵詞171個,排在前10位的的有:人工智能(627次)、學習(120次)、大數(shù)據(jù)(105次)、機器人(82次)、應(yīng)用(55次)、深度學習(46次)、機器學習(42次)、醫(yī)療(35次)專家系統(tǒng)(34次)、醫(yī)學影像(29次)。出現(xiàn)頻次最高的關(guān)鍵詞是“人工智能”,其次是“學習”和“大數(shù)據(jù)”,這三個關(guān)鍵詞占所有關(guān)鍵詞的14%,而且絕對數(shù)量比其他關(guān)鍵詞要多。從圖2可知,這些關(guān)鍵詞有主題型關(guān)鍵詞和內(nèi)容型關(guān)鍵詞,其中主題型關(guān)鍵詞有人工智能,機器人,專家系統(tǒng)、醫(yī)學影像等,反映了學科性質(zhì)和研究領(lǐng)域;另外,內(nèi)容型關(guān)鍵詞有學習、應(yīng)用、大數(shù)據(jù)、自然語語處理等,反映了學科的研究內(nèi)容和研究工具。從關(guān)鍵詞分析來看,期刊在此時域內(nèi)載文關(guān)鍵詞傾向于人工智能、大數(shù)據(jù)、機器人、醫(yī)學影像、專家系統(tǒng)等。這是部分醫(yī)療人工智能相關(guān)的學術(shù)論文的研究熱點之一。

2.3 刊物分析

1 706篇醫(yī)療人工智能相關(guān)學術(shù)論文分布在804種期刊上,分布較廣泛,經(jīng)過分析可知,這些期刊主要分為三類:一類是醫(yī)學類,一類是自動化技術(shù)、計算機技術(shù)類,還有一類是綜合類期刊。其中醫(yī)學類期刊有218種,自動化技術(shù)、計算機技術(shù)類的有120種,綜合類期刊有262種。另外,醫(yī)學類期刊的載文量是462篇,自動化技術(shù)、計算機技術(shù)類的有362篇,綜合類期刊的載文量是495篇,其他期刊載文量為387篇。見圖3。

從圖3可以看出,醫(yī)學類期刊,自動化技術(shù)、計算機技術(shù)類及綜合類期刊載文量相當,占總論文數(shù)的68%,這說明醫(yī)療人工智能領(lǐng)域的論文刊載在這三類期刊上,因為醫(yī)療人工智能帶有很強的多學科交叉的性質(zhì),涉及醫(yī)學、計算機學、語言學等學科,人工智能又是近幾年的研究熱點,因此在期刊上的分布是比較合理的。

醫(yī)療人工智能相關(guān)學術(shù)論文發(fā)文量排名前10的刊物為:中國數(shù)字醫(yī)學(64篇)、電子技術(shù)與軟件工程(29篇)、中國醫(yī)療設(shè)備(23篇)、中國新通信(23篇)、醫(yī)學信息學雜志(16篇)、中華中醫(yī)藥雜志(15篇)、科技傳播(14篇)、人工智能(13篇)、通訊世界(11篇)、第二軍醫(yī)大學學報(9篇)。從以上結(jié)果可以看出,刊文量較多的均為醫(yī)學類期刊,其中《中華中醫(yī)藥雜志》及《第二軍醫(yī)大學學報》為核心期刊。

2.4 分類號

1 706篇醫(yī)療人工智能相關(guān)學術(shù)論文中,屬于自動化技術(shù)、計算機技術(shù)的有853篇,醫(yī)藥衛(wèi)生類的有568篇。其中醫(yī)療人工智能相關(guān)學術(shù)論文數(shù)量排行前10的文章類別有TP18(人工智能理論)、R-05(醫(yī)學與其他學科的關(guān)系)、TP242(機器人)、R-4(臨床醫(yī)學)、F49(信息產(chǎn)業(yè)經(jīng)濟)、RTP391(計算機應(yīng)用,信息處理(信息加工)圖像識別及其裝置、R2-03(中醫(yī)現(xiàn)代化研究)、R319(醫(yī)學一般科學,其他科學技術(shù)在醫(yī)學上的應(yīng)用)、R197.3(保健組織與事業(yè)(衛(wèi)生事業(yè)管理))、TP311.13(計算機軟件,程序設(shè)計方法)。還包括其他類別如語言文學、研究生教育、服務(wù)業(yè)、情報資料處理等。從分類號來看,醫(yī)療人工智能相關(guān)學術(shù)論文中,50%的文章屬于自動化技術(shù)、計算機技術(shù),33%的文章屬于醫(yī)藥衛(wèi)生類。

2.5 發(fā)表時間分析

通過數(shù)據(jù)挖掘統(tǒng)計出2010—2019年醫(yī)療人工智能相關(guān)學術(shù)論文的發(fā)文情況,見圖4。由結(jié)果可知,2012—2016年醫(yī)療人工智能相關(guān)學術(shù)論文發(fā)文量較平穩(wěn)上升,2017—2019年醫(yī)療人工智能相關(guān)的學術(shù)論文發(fā)文量大幅增加。從近10年來醫(yī)療人工智能相關(guān)學術(shù)論文的發(fā)文情況來看,2017—2019年發(fā)文量大幅增加,2017年的發(fā)文量為2016年的2倍,2018年發(fā)文量為2017年的2倍,2019的發(fā)文量跟2018年發(fā)文量相當。2017年國務(wù)院印發(fā)了《新一代人工智能發(fā)展規(guī)劃》及《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018—2020)》,說明我國已在戰(zhàn)略和行動層面部署人工智能的發(fā)展目標。標志著人工智能發(fā)展成為國家戰(zhàn)略。故2017年起,醫(yī)療人工智能的發(fā)文量成倍增加。

3 結(jié)論

伴隨著我國互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)資源越來越豐富,但因大部分數(shù)據(jù)以非結(jié)構(gòu)形式存在著,信息的收集和分析非常困難,數(shù)據(jù)的利用率較低。在進行數(shù)據(jù)挖掘前,若使用傳統(tǒng)的人工查詢及收集的方法來對每篇論文的題目、作者、單位、期刊、關(guān)鍵詞、引用次數(shù)、下載頻次及分類號等相關(guān)信息,進行復(fù)制粘貼,不但效率低,也無可避免發(fā)生數(shù)據(jù)遺漏及錯誤數(shù)據(jù)等問題。而使用Python數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)采集及分析準確率高,速度快,具有人工收集無法比擬的優(yōu)勢。

本研究為期刊編輯提供了期刊數(shù)據(jù)的研究方法和總體思路,從而間接提升編輯部組稿約稿工作的科學性,同時也為作者提供該研究領(lǐng)域的研究熱點及機構(gòu)等重要學科信息。本文通過中國知網(wǎng)數(shù)據(jù)庫,搭建了基于Python語言的醫(yī)療人工智能相關(guān)學術(shù)論文的數(shù)據(jù)挖掘及分析系統(tǒng),對近10年來醫(yī)療人工智能相關(guān)學術(shù)論文進行數(shù)據(jù)挖掘,主要對題錄信息中的題名、作者、關(guān)鍵詞、機構(gòu),及對文章的發(fā)表時間、發(fā)表雜志、分類號等信息進行分析,得出了該主題的發(fā)文特征。醫(yī)療人工智能相關(guān)學術(shù)論文在大多發(fā)表醫(yī)學類期刊,大部分屬于自動化技術(shù)、計算機技術(shù)類或醫(yī)藥衛(wèi)生類。該題材文章以多作者合作為獨立作者機構(gòu)完成居多,高頻關(guān)鍵詞有人工智能、大數(shù)據(jù)、機器人、機器人、醫(yī)學影像、專家系統(tǒng)等。

期刊編輯可利用互聯(lián)網(wǎng)技術(shù),大數(shù)據(jù)思維進行編輯與出版學領(lǐng)域的研究,告別傳統(tǒng)的手工檢索的方式,可以大大提高檢索效率。筆者借助Python語言對近10年來醫(yī)療人工智能相關(guān)學術(shù)論文進行題錄分析,揭示該領(lǐng)域海量文章的內(nèi)容特征,既可為期刊編輯及作者了解最新研究熱點,也為期刊編輯從事編輯與出版學研究提供新技術(shù),是一種值得推廣的數(shù)據(jù)挖掘技術(shù)。

參考文獻

[1]張曉倩.數(shù)據(jù)挖掘在網(wǎng)絡(luò)在線投稿系統(tǒng)中的應(yīng)用[J].辦公自動化(學術(shù)版),2013,260(8):36-39.

[2]王秀芝,宋迎法.基于文本數(shù)據(jù)挖掘的學術(shù)期刊選題策劃研究[J].煤炭高等教育,2016,34(5):122-126.

[3]侯麗珊.基于數(shù)據(jù)挖掘的精準化辦刊策略[J].中國科技期刊研究,2018,29(5):515-519.

[4]王志鴻,楊松迎,郭敏,等.基于微信平臺的科技期刊內(nèi)容服務(wù)策略及實現(xiàn)[J].編輯學報,2018,30(5):522-524.

[5]李雪,王占坤,崔曉健,等.科技期刊編輯新媒體出版能力的培育[J].編輯學報,2016,28(6):602-605.

[6]譚春林,劉清海.期刊編輯發(fā)表論文情況的文本挖掘與分析[J].編輯學報,2019,31(4):407-410.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 538国产在线| 91九色国产porny| 国产人成在线视频| 国产成人三级| 色首页AV在线| 综合色区亚洲熟妇在线| 国产麻豆另类AV| 无码免费的亚洲视频| 国产成人精品视频一区二区电影| 日本人妻丰满熟妇区| av在线手机播放| 欧美亚洲激情| 亚洲区视频在线观看| 欧美日韩精品在线播放| 久久久精品久久久久三级| 性欧美精品xxxx| 十八禁美女裸体网站| 成人噜噜噜视频在线观看| 成人国产小视频| 国产午夜不卡| 久久免费视频播放| 国产精品美女在线| 一级毛片基地| 欧美激情二区三区| 中文字幕永久视频| 色噜噜中文网| 色香蕉影院| 国产真实自在自线免费精品| 国语少妇高潮| 免费国产小视频在线观看| 亚洲天堂网2014| 免费A级毛片无码无遮挡| 国产在线自揄拍揄视频网站| 青草视频久久| 一区二区三区精品视频在线观看| 欧美一级夜夜爽| 国产人成在线视频| 亚洲中文字幕手机在线第一页| 亚洲综合天堂网| 99久久精品国产精品亚洲 | 国产在线观看精品| 日韩 欧美 小说 综合网 另类| 日本在线国产| 午夜精品福利影院| 国产精品香蕉| 亚洲国产综合精品中文第一| 中字无码av在线电影| 成人国产精品网站在线看 | 一本大道视频精品人妻| 色妞永久免费视频| 中文字幕av一区二区三区欲色| 亚洲国产综合精品一区| 国产美女无遮挡免费视频网站| 2020精品极品国产色在线观看 | 亚洲爱婷婷色69堂| 国产成人精品第一区二区| 亚洲综合婷婷激情| 国产精品开放后亚洲| 99ri国产在线| 国产精品欧美在线观看| 国内精品视频在线| 亚洲视频二| 国产午夜看片| 丰满人妻久久中文字幕| 激情爆乳一区二区| 亚洲欧美天堂网| 亚洲AⅤ无码国产精品| 亚洲av日韩综合一区尤物| 亚洲有码在线播放| 亚洲国产中文精品va在线播放| 国产91色| 亚洲人成人无码www| 精品国产成人a在线观看| 亚洲综合专区| 国产成人精品免费视频大全五级| 黄色网页在线观看| a级毛片视频免费观看| 91精品福利自产拍在线观看| 美女被操91视频| 欧美精品一区在线看| 青青青国产免费线在| 美女被操91视频|