999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習領域研究熱點與前沿演進

2019-10-18 02:57:59張???/span>趙文斌葉權慧
軟件導刊 2019年9期
關鍵詞:機器學習

張福俊 趙文斌 葉權慧

摘 要:基于CiteSpace采用文獻計量法,分析總結機器學習領域近十年研究熱點與技術前沿演進。研究結果顯示,該領域熱點算法有Classification(分類算法)、Support Vector Machine(支持向量機)等,熱點框架有sorFlow、Caffe、PaddlePaddle等;數據庫、序列等突變詞共同組成了近十年的研究新興領域。

關鍵詞:CiteSpace;科學知識圖譜;機器學習;前沿演進;文獻計量法

DOI:10. 11907/rjdk. 191877 開放科學(資源服務)標識碼(OSID):

中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2019)009-0005-04

Research Hotspots and Frontier Evolution in the Field of Machine Learning

——Visual Analysis Based on CiteSpace

ZHANG Fu-jun,ZHAO Wen-bin,YE Quan-hui,GAO Xue,WAN Hao

(Computer Science and Engineering,Shandong University of Science and Technology, Qingdao 266590, China)

Abstract: In order to acquaintance?the gradual progress?of research hotspots and technology?forward position?in the field of machine learning in recent ten years, this paper uses Cite Space's bibliometric method to analyze?the results. It is found that hot algorithms include classification (classification algorithm), support vector machine (support vector machine), and so on; hot frameworks include sorFlow, Caffe, Paddle Paddle etc. Mutation words such as databases and sequences have together made up?a new and developing domain of study?in the past decade.

Key Words: CiteSpace; mapping knowledge domain; machine learning; evolution of frontier; bibliometric method

0 引言

隨著科學技術的不斷發展,所需處理的數據量也呈幾何倍數增長[1],海量數據的復雜性和快速變化給人們檢索有價值的信息帶來了許多新問題,由此知識可視化研究方法應運而生[2]。當前,國際上被廣泛應用的知識可視化軟件[3]有Thomson Reuters 公司開發的Pajek[4],以及陳超美教授團隊研發的 CiteSpace[5]等。在空間上,圖譜分析軟件可以通過共現以及社會網絡分析等方法分析文獻所屬區域,機構、作者等結構關系;在時間上,通過動態的時間維度,繪制“知識發展進程譜”,直觀展示知識演變進程[6]。隨著人工智能應用的日益廣泛與機器學習技術的不斷精進,相關研究也不斷深入,只有了解和把握學科發展前沿動態,積極探究學科研究熱點才能對該領域研究整體方向有更加準確的定位。本文利用文獻計量學方法對機器學習關鍵詞進行共現分析和突變分析,挖掘機器學習研究熱點,并對機器學習文獻作耦合分析,進行領域前沿挖掘。

1 研究設計

1.1 數據來源

研究的原始數據來源于 Web of Science 平臺上的核心合集數據庫,包括SCI-EXPANDED、SSCI、A&HCI、CPCI-S、ESCI、CCR-EXPANDED、IC)。為確保研究數據的客觀性和全面性,選擇Machine Learning為檢索主題詞,檢索策略為:數據庫選擇Web of Science核心合集,輸入主題詞TS=“machine learning”,選擇檢索時間跨度為2008-2018年;將文獻類型精煉為“ARTICLE”,篩選得到34 835條檢索結果;選擇導出數據格式為全著錄格式分次下載(每次下載條目<=500),CiteSpaces規定格式 download*.txt 命名,保存在同一個文件 data 內,作為繪制圖譜的基礎數據,并在同一文件夾建立project。

1.2 研究方法與工具

文獻計量分析主要以文獻為數據源,包括搜集、整理和分析三大基本過程。本文以Web of Science數據庫中2008-2018年機器學習論文作為數據源,對其作除重清洗,并以不同的視角和維度進行計量分析。知識圖譜分析是可視化分析的一個分類,是將分析結果以節點和連線的形式展現出來,節點代表被研究對象,連線表示兩個研究對象之間的關系強度,使得分析結果更加美觀和直接。本文運用的知識圖譜工具是由美國 Drexel大學陳超美博士基于Java 平臺開發的 CiteSpace,該軟件可對科學文獻的新趨勢和新動態進行識別與可視化分析,被廣泛應用于科學文獻計量領域。基于CiteSpace運用文獻計量學方法挖掘機器學習領域的時空分布、作者合作網絡、研究熱點及研究前沿。

2 機器學習研究熱點與前沿趨勢分析

2.1 研究熱點分析

關鍵詞是對文獻主旨內容與作者意圖的概括,是文獻中的核心和精髓。某領域的研究熱點往往是指在某一階段該領域文獻出現的高頻次、高中心度以及高突現強度的主題詞。共詞分析法基于該領域近十年文獻繪制機器學習領域的關鍵詞共現圖譜,并統計其中高頻次關鍵詞,明確近十年機器學習領域研究熱點,進而分析其演化發展過程。將數據導入 CiteSpace,調整參數后結果如圖1所示(見封三彩圖)。

機器學習領域關鍵詞共現知識圖譜中共有節點N(42)個,連線E(94)條,中心度(Density=0.109 2)。首先圈的大小代表著該關鍵詞在2008-2018年這10年間出現的頻率,圈從大到小依次為: machine learning(機器學習)、classification(分類)、support vector machine(支持向量機)、algorithm(算法)、model(模型)、neural network(神經網絡)、system(系統)等等。由于該文獻主要研究機器學習,因此第一個關鍵詞沒有分析意義,也即classification(分類)、support vector machine(支持向量機)、algorithm(算法)、model(模塊)、neural network(神經網絡)、system(系統)等組成了近十年機器學習的研究熱點。每一個圈最外圍的紫色越重,則證明該關鍵詞的中心性越高,說明該關鍵詞在近十年研究中起到了不可或缺的作用,例如圖中紫色最深的為分類,說明分類這個詞足以稱為該領域的熱點詞,有著重要貢獻,代表了研究熱點。點與點之間的連線顏色表明這兩個詞首次共現的年份,連線的粗細則證明了這兩個關鍵詞的聯系緊密程度,聯系越緊密連線越粗,否則相反,從圖1中可以看出,classification(分類)和support vector machine(支持向量機)這兩個關鍵詞的連線為深藍色,也即這兩個關鍵詞首次共現的時間是2008年。將圖1聚類后如圖2所示(見封三彩圖)。

將關鍵詞進行聚類后,出現了六大類,這其中最大的群集(#0)有9個成員,輪廓值為0.488。它被LLR標記為users skill level(用戶技能水平),由TFIDF算法得出的標簽是classifing(分類),最活躍的聚類引用是論文Scheduling Jobs with an Exponential Sum-of-Actual-Processing-time- based Learning Effect[12]。

第二大聚類(#1)有9名成員,輪廓值為0.671。它被稱為由LLID算法得到classifying human physical activity (人體力活動),由TFIDF算法標記為 machine(機器分類)。其中最活躍的文章是Machine Learning Methods for Classifying Human Physical Activity from On-body Accelerometers[13]。

將上述CiteSpaces中提供的數據進行整理統計如表1所示。

由于本文研究的主題就是機器學習,因此排名第一的machine learning可以忽略,其熱點詞可分為兩大類:algorithm(算法)、framework(框架)。這些熱點詞僅僅是最基本的詞匯,本文將逐一分析,以找出近十年機器學習領域的研究熱點。

近十年流行的機器學習算法中,表1中呈現的有如下:

(1)表中排名第二的熱點詞classification(分類算法)。分類算法中有一種很簡單且目前也很流行的算法為樸素貝葉斯分類。樸素貝葉斯的思想基礎是:對于給出的待分類項,求解在此項出現的條件下各類別出現的概率,哪個最大,就認為此待分類項屬于哪個類別。其主要應用于論文分類處理、輿情分析等。

(3)表中排名第三的熱點詞support vector machine(支持向量機)。支持向量機(SVM)是二元分類算法,給定一組兩種類型的N維地方點,SVM產生一個(N - 1)維超平面到這些點并分成2組。假設你有兩種類型的點,且它們是線性可分的。 SVM將找到一條直線將這些點分成2種類型,并且這條直線會盡可能地遠離所有點。當下使用support vector machine(支持向量機)處理的主要問題為商業廣告顯示、面部識別剪接位點處理、數據量差大的圖片處理等。

(4)表中排第八位的熱點詞regression(回歸算法)。回歸算法中的邏輯回歸是一種強大的統計方法。通過估算使用邏輯運算的概率,測量分類依賴變量和一個(或多個)獨立變量之間的關系,是累積的邏輯分布情況。目前,邏輯回歸主要用于車流分析、使用評分、衡量營銷活動的成功率等。

(5)表中排名第六的熱點詞 neural network(神經網絡)。屬于神經網絡的算法有很多,近十年比較突出的為遞歸神經網絡,實際上遞歸神經網絡是兩種人工神經網絡的總稱, 一種是時間遞歸神經網絡(Recurrent Neural Network),另一種是結構遞歸神經網絡(Recursive Neural Network)。隨著電腦硬件的不斷提升,可以處理的神經網絡層數不斷加深,這為后續研究Deep Learning(深度學習)打下了基礎。

(6)表中排名第十六的熱點詞 random forest(隨機森林)。隨機森林算法結合了多個樹,使用隨機挑選的數據子集,以提升決策樹的分析準確率。隨機森林算法的優勢在于能夠處理大規模數據集,以及大量看似不相關的數據,可以用于風險評估和客戶信息分析。

目前,機器學習領域的Deep Learning(深度學習)受到廣泛關注。Deep Learning(深度學習)領域常用四大框架: ①TensorFlow,它最初由谷歌的Machine Intelligence research organization 中Google Brain Team的研究人員和工程師開發;②Neon,它是Nervana開發的基于Python的深度學習庫,它易于使用,同時性能也處于最高水準;③Caffe,它是一個重在表達性、速度和模塊化的深度學習框架,由 Berkeley Vision and Learning Center和社區貢獻者共同開發;④DeepLearning4J,它和ND4J、DataVec、Arbiter及RL4J一樣,都是Skymind Intelligence Layer的一部分。

2.2 研究前沿演進分析

利用CiteSpace中突變檢測(Burst Detection)功能,對近十年全部文獻中的關鍵詞探測出突變詞術語,利用詞頻的時間分布、變化趨勢并結合詞頻,找出該領域研究前沿演進[14]。2008-2018 年機器學習研究領域突變詞如表2所示。

在2008-2018年期間共出現了12個突變詞,分別為database (數據庫)、sequence(序列)、framework(框架)、deep learning (深度學習)、segmentation(分割處理)、image(鏡像)即圖像識別、genetic algorithm(遺傳算法)、pattern recognition(模式識別)、scheduling(時序安排)、learning effect(學習效果)、pattern(模式)、decision tree(決策樹),這些突變詞共同組成了近十年機器學習領域的研究前沿和研究新興領域。

將這12個關鍵詞分為兩個時間段,以更好地呈現機器學習在這十年中的前沿演進。2008-2009年,機器學習相關研究還僅僅停留在Decision Tree(決策樹)和Pattern(模式)方面,主要原因在于當時硬件設備不能滿足數據運算要求。隨著技術的不斷更新和計算機硬件設備的發展,2010-2011年,機器學習的研究重點也發生了變化,Scheduling(時序安排)、Learning Effect(學習效果)這兩個詞占據了研究前沿位置,機器學習迎來了一個全新的研究領域。2014-2015年,framework(框架)再度成為當時的研究熱點,主要研究框架有TensorFlow、Keras、Caffe等,這些框架為神經網絡發展和后續深度學習打下了基礎。

2016-2018年,研究者更傾向于機器學習的進一步探索,也即對多層神經網絡進行深入發掘,機器學習領域來到了Deep Learning (深度學習)時代,許多學者相繼提出了新的算法模型,例如卷積神經網絡、深層神經網絡、深層信念網絡等,同時深度學習也開始應用于不同的領域,如圖像物體分類、Image(鏡像)即圖像識別、Segmentation(分割處理)、Pattern Recognition(模式識別)等不同層面。由此可知,目前機器學習領域的研究側重點在深度學習領域,深度學習仍處于不斷發展和應用階段,深度學習領域更快速、便捷、合適的算法也有待進一步研究和提出。

3 結語

本文通過在Web of Science核心合集下載2008-2018年的文獻數據,結合機器學習、知識圖譜、研究前沿的相關理論與技術構建機器學習知識圖譜。研究結論為:根據知識圖譜共現和表中信息將近十年的熱點按Algorithm(算法)和Framework(框架)兩大類進行分析,熱點算法有:Classification(分類算法)、Support Vector Machine(支持向量機)、Regression(回歸算法)、Neural Network(神經網絡)、Random Forest(隨機森林)等;熱點框架有:sorFlow、Caffe、PaddlePaddle等。數據庫、序列、框架、深度學習、分割、鏡像、遺傳算法、模式識別、時序安排、學習效果、決策樹,這些突變詞共同組成了近十年機器學習領域的研究前沿和研究新興領域。

在前期準備工作時,由于數據庫所提供的論文作者都是拼音簡寫,使得數據核對十分繁瑣且容易出錯,希望Web of Science數據庫在收錄文章時能使用作者全稱,以保證查詢的精準性。

參考文獻:

[1] 機器學習發展現狀及應用的研究[EB/OL]. http://www.handmsg.com/page/2018/0601/3608221.shtml.

[2] 史紀元. 基于CiteSpaceⅢ輸血醫學研究領域知識圖譜分析[D]. 西安:第四軍醫大學,2015.

[3] 杜文龍. 引文分析軟件的應用比較分析研究[D]. 西安:西北大學,2013.

[4] 李杰,陳超美. CiteSpace:科技文本挖掘及可視化[M]. 北京:首都經濟貿易大學出版社,2016.

[5] 劉則淵,陳超美,侯海燕,等. 邁向科學學大變革的時代[J]. 科學學與科學技術管理,2009,30(7):5-12.

[6] 趙玉鵬. 基于知識圖譜的機器學習研究前沿探析[J]. 情報雜志, 2012,31(4):28-31.

[7] 焦李成,楊淑媛,劉芳,等. 神經網絡七十年:回顧與展望[J]. 計算機學報,2016,39(8):1697-1716.

[8] 張??。苤覍W,尹燕霞,等. 青島理工大學基于SCI論文的文獻計量學分析[J]. 青島理工大學學報,2013,34(4):115-119.

[9] ZHANG Y. I-TASSER: fully automated protein structure prediction in CASP8[J]. ?Proteins Structure Function & Bioinformatics, 2009,77(Supplement S9):100-113.

[10] LIU Q, WANG J. A one-layer recurrent neural network with a discontinuous hard-limiting activation function for quadratic programming[J]. ?IEEE Transactions on Neural Networks, 2008,19(4):558-70.

[11] MALLAPRAGADA P K, JIN R, JAIN A K, et al. SemiBoost: boosting for semi-supervised learning[J]. ?IEEE Transactions on Pattern Analysis & Machine Intelligence,2009,31(11):2000-2014.

[12] WANG J B, SUN L H, SUN L Y. Scheduling jobs with an exponential sum-of-actual-processing-time-based learning effect[J]. ?Computers & Mathematics with Applications,2010,60(9):2673-2678.

[13] NNINI A,SABATINI A M.Machine learning methods for classifying human physical activity from on-body accelerometers[J]. ?Sensors,2010,10(2):1154-1175.

[14] 張???,葉權慧,于路云. 基于知識圖譜的海洋科學領域技術機會分析[J]. 科技管理研究,2017,37(24):165-170.

[15] CHANG C C, LIN C J. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011(2):1-27.

[16] DEPRISTO M A,BANKS E,POPLIN R E,et al. A framework for variation discovery and genotyping using next-generation DNA sequencing data[J]. ?Nature Genetics,2011,43(5):491-8.

[17] HUANG G B,ZHOU H,DING X,et al. Extreme learning machine for regression and multiclass classification[J]. IEEE Transactions on Systems Man & Cybernetics Part B, 2012, 42(2):513-529.

[18] 張福俊,劉桂仁,劉謙,等. 山東省國內專利文獻計量學分析[J]. 科技管理研究,2013,33(1):60-63.

[19] 王聲培,云雅娟. 洛特卡定律、普賴斯定律和我國數學科學文獻[J]. 圖書情報工作,1994(3):21-24.

[20] 張??? 基于SCI論文引證的學術期刊信息服務——以《山東科技大學學報(自然科學版)》為例[J]. 山東科技大學學報:自然科學版,2013,32(5):107-110.

[20] 于路云. 基于知識圖譜的國際海洋習研究前沿與技術機會分析[D]. 青島:山東科技大學,2017.

[21] 張潤,王永濱. 機器學習及其算法和發展研究[J]. 中國傳媒大學學報:自然科學版, 2016,23(2):10-18.

(責任編輯:孫 娟)

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 欧美一级片在线| 最新国产麻豆aⅴ精品无| 久久国产精品娇妻素人| 亚洲国产精品无码久久一线| 在线播放国产99re| 97视频在线观看免费视频| 欧亚日韩Av| a级毛片一区二区免费视频| 九色91在线视频| 制服丝袜 91视频| 国产91精品最新在线播放| 久久国产精品影院| 欧美日韩成人| 亚洲黄网在线| 久久综合结合久久狠狠狠97色| 欧美中文字幕在线播放| 欧美日韩国产一级| 最新国产成人剧情在线播放| 高潮爽到爆的喷水女主播视频 | 欧美在线精品怡红院| 2018日日摸夜夜添狠狠躁| 色有码无码视频| 3344在线观看无码| 亚洲欧美日韩精品专区| 色视频国产| 国产成人1024精品| 永久毛片在线播| 国产一级小视频| 亚洲成年人网| 日韩不卡高清视频| 99视频有精品视频免费观看| 男女性午夜福利网站| 亚洲综合婷婷激情| 欧美人在线一区二区三区| 国产欧美网站| 福利视频一区| 国产小视频a在线观看| 麻豆精品在线播放| 亚洲精品无码在线播放网站| 天堂久久久久久中文字幕| 久久精品中文无码资源站| 日韩高清中文字幕| 精品一区二区三区水蜜桃| 国产成人亚洲无码淙合青草| 亚洲欧美综合在线观看| 欧美日韩国产精品综合| 精品99在线观看| 免费人成黄页在线观看国产| 日本人妻丰满熟妇区| 亚洲欧美一级一级a| 欧美中文一区| 成人va亚洲va欧美天堂| 精品在线免费播放| 91青青草视频| 99精品在线视频观看| 亚洲婷婷丁香| 19国产精品麻豆免费观看| 国产精品无码翘臀在线看纯欲| www.91在线播放| 国产精品观看视频免费完整版| 色网在线视频| 国产精品30p| 青青青国产视频手机| 国产免费羞羞视频| 国产伦精品一区二区三区视频优播| 欧美一区二区人人喊爽| 日韩亚洲高清一区二区| 国产成人精品优优av| 日韩免费毛片| 美女啪啪无遮挡| 2021国产乱人伦在线播放| 免费一级全黄少妇性色生活片| 秋霞午夜国产精品成人片| 久久人搡人人玩人妻精品一| 国产亚洲精品无码专| 72种姿势欧美久久久大黄蕉| 亚洲性日韩精品一区二区| 最近最新中文字幕在线第一页| 久久人搡人人玩人妻精品| 综合久久五月天| 一级不卡毛片| 亚洲精品无码久久久久苍井空|