999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網頁分類技術研究現狀與發展趨勢的圖譜分析

2019-07-08 05:33:51庫爾班·麥麥提吾守爾·斯拉木
現代電子技術 2019年13期
關鍵詞:分類分析研究

庫爾班·麥麥提 吾守爾·斯拉木

摘 ?要: 以Web of Science中1998—2017年間收錄的1 277篇網頁分類領域文獻為研究對象,采用CiteSpace可視化工具,并使用科學計量學方法,系統回顧了網頁分類領域中主要的研究機構、研究熱點及研究脈絡等內容。研究發現,目前的網頁分類技術已完成理念界定和概念推廣,并形成較為完善的研究體系結構。在該領域中,中國科學院和北京大學具有較強的科研能力,而美國在國際影響力上處于領先地位。另外,文中發現機器學習和數據挖掘是近幾年網頁分類領域的研究熱點。文中的分析結果將為我國網頁分類技術領域的研究提供一些參考。

關鍵詞: 網頁分類; 文獻計量學; 圖譜分析; CiteSpace; 研究機構; 研究熱點; 研究脈絡

中圖分類號: TN915.03?34 ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)13?0081?05

Atlas analysis of webpage classification technology research status and developing trend

Kurban Mamat, Wushour Silamu

(College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)

Abstract: 1 277 webpage classification field documents collected from Web of Science in 1998—2017 are taken as the research object, and the CiteSpace visualization tool and scientometrics method are used to systematically review the main research institutions, research hotspots and research contents in the field of webpage classification. It is found that the concept definition and concept generalization of current webpage classification technology have completed, and a relatively complete research system structure was formed. In this field, the Chinese Academy of Sciences and Peking University have strong scientific research capabilities, but the United States is in the leading position of international influence. It is also found that the machine learning and data mining are the research hotpots of webpage classification field in recent years. The analysis results of this paper will provide some references for the research of webpage classification technology in our country.

Keywords: webpage classification; bibliometrics; atlas analysis; CiteSpace; research institute; research hotspot; research context

0 ?引 ?言

隨著互聯網技術飛速發展,網絡信息量呈指數級增加,網頁瀏覽成為直觀展示各類信息的主要途徑。如今,各式各樣、不同功能的網頁層出不窮,如何快速定位并發現所需信息是人們一直以來關注的重點。為了能夠高效地獲得所需信息,人們一般對網頁文檔先進行分類,然后在此基礎上尋找所需信息。研究人員對于網頁分類研究已經進行了大量卓有成效的工作。本文通過研究國內外當前有關網頁分類的大量文獻,從而了解國內外網頁分類研究領域的現狀與研究趨勢。

目前,國內雖然有研究人員從不同的角度對網頁分類進行研究,卻對于分析國際上網頁分類領域的研究并不全面。因此,本文以Web of Science的核心數據庫為數據源,運用CiteSpace工具對收集到的文獻進行可視分析并闡述以下三個方面:國內外近20年在網頁領域的主要研究機構;國內外近20年來網頁分類領域的研究熱點;國內外近20年網頁分類領域的研究脈絡。

首先,闡述了數據來源與研究方法;其次,對網頁分類研究進行可視分析,得到該領域的主要研究機構、研究熱點及演化脈絡;最后,對分析結果進行討論和比較,試圖客觀和形象地展示國內外網頁分類領域研究現狀與發展趨勢,幫助我國網頁分類的后續研究人員能更準確地掌握該領域的研究動態。

1 ?數據來源和研究方法的說明

1.1 ?數據來源

本文數據來源于信息檢索平臺Web of Science的核心數據庫,該數據庫覆蓋學科較廣,是一個綜合性學術信息資源平臺。本文采用以下方式收集數據:

1) 主題詞檢索方法,TS=((web page classification)OR (web page categorization))為檢索式。

2) 文獻時間跨度限定為1998—2017年。

3) 文獻類型限定為“ARTICLE OR PROCEEDINGS PAPER”。

最終得到1 277篇核心合集文獻并下載文獻的題錄,題錄包括25個基本屬性信息。

1.2 ?研究方法說明

科學知識圖譜是將某領域的知識脈絡及其演進歷程進行集中展現的引文網絡圖譜,可自動標識知識基礎的引文節點文獻,以及共引聚類所表征的研究前沿[1]。本文通過CiteSpace可視化工具對收集到的1 277篇網頁分類領域文獻進行研究,并通過對機構及作者的合作網絡、研究熱點的共詞以及演化過程進行分析,為未來研究網絡分類技術提供宏觀了解該領域的視角和思路??梢暬ぞ逤iteSpace是由陳超美博士開發的知識圖譜工具。該工具可以對海量文獻進行可視化定量分析,有效探測并發現某個研究領域的研究熱點、研究趨勢等關鍵信息。該工具可以直接導入Web of Science上下載的文獻題錄,免費供研究人員使用,適用于很多研究領域的文獻分析工作。

2 ?研究結果與分析

2.1 ?主要研究機構分析

研究機構是進行學科研究的專門性組織。通過制作、研究機構的知識圖譜,可以及時了解某一研究領域的權威機構,從而了解和把握該領域的研究趨勢,緊跟研究熱點。

表1 按文獻發表數量排名Top12 的研究機構

本文對收集到的文獻進行基本統計分析。其中,發表文獻量超過5篇以上的研究機構有35個,發文量在6~10篇的有19個,發文量在11~20篇的有5個,發文量在20篇以上的只有1個。

表1所示為多產文獻數量排名Top12位的研究機構。以國家或地區來看,Top12榜單里中國的研究機構占6個, 美國的研究機構有2個,新加坡、印度、西班牙及加拿大各1個。以研究機構來看,中國科學院發表文獻量以31篇位于榜首,排名第二位的清華大學發表文獻量是15篇。

圖1所示是設定一系列閾值后得到的研究機構的合作網絡圖。其中,圓形節點的大小代表研究機構發文量的多少,而連接線的粗細代表研究機構間合作關系的緊密程度。

中心性可以代表該節點在整個網絡圖譜中的影響力。中心性的大小與節點的影響力成正比,中心性越大,影響力越大。中心性大于0的研究機構有36個,從表1研究機構的中心性來看,中國科學院與北京大學的中心性最大,表示這兩個研究機構的文獻質量較好,對其他研究機構影響較大。

圖1 ?研究機構合作網絡共現分析

總體來說,中國的研究機構在國際網頁分類領域上有著非常重要的地位,發文量及研究機構的數量相比其他國家較多。但從國家中心性的角度來看,美國的中心性排首位,其次是西班牙,中國的中心性排在第三位。這表明,美國和西班牙的研究機構的發文量雖然少,但是國際影響力比較大,而中國的研究機構相互之間影響和聯系比較大,但國際影響力較小。我國在該領域的研究仍然具有較大進步空間。

2.2 ?基于共詞分析的研究熱點

關鍵詞是論文核心內容的凝練與濃縮,對關鍵詞進行圖譜分析,能揭示網頁分類領域的研究熱點,并可以發現論文之間的內部聯系和研究領域的前沿問題[2]。鑒于此,為了了解近29年國際上網頁分類領域的研究熱點,本文通過關鍵詞共現分析來鑒別該領域的主要熱點,并對該研究領域主題結構的發展變化做出判斷。通過運行CiteSpace之后可以得到關鍵詞共現網絡圖譜,如圖2所示。其中的圓形節點代表關鍵詞,節點越大表示關鍵詞出現的頻次越多。不同層次的圓環代表關鍵詞出現的不同年份,顏色越冷關鍵詞被引的年份越早。表2所示是中心性大于0頻次較高的主要關鍵詞。

1) 頻數(Freq)指標計量分析

頻次是對節點進行統計后得到的數值,對文獻的關鍵詞進行統計分析后可以發現該領域的研究現狀。如表2所示,1999—2001年關于分類的關鍵詞頻次較高,且文本分類技術的發展早于網頁分類,是網頁分類技術發展的基礎。2002—2005年,首次出現的高頻詞有“algorithm”“information retrieval”“Feature selection”等,文獻[3]使用基于同義詞合并的特征選擇的方法對文本進行分類。從2006年開始,首次出現的關鍵詞較多,但頻次較低。1999—2006年間數據分析表明網頁分類領域開始逐漸成熟,延伸到多個研究領域,從該時期網頁分類技術開始快速發展,國內外的眾多研究者給予了更多的關注。

圖2 ?關鍵詞共現網絡圖譜

表2 ?關鍵詞Top13的排名統計及首次出現年份

2) 中心性(Centrality)指標計量分析

通過關鍵詞的中心性,可以更直觀地發現該研究領域的熱點問題。中心性較高的13個主題見表2?!癱lassification”“Text classfication”“algorithm”是中心性排名靠前的關鍵詞。由關鍵詞的中心性可知,在網頁分類技術研究領域中,算法的研究對網頁分類提供了重要支撐。文獻[4]使用超文本誘導主題搜索(HITS)算法對網頁進行分類。2004—2006年,出現的高中心性關鍵詞有“support vector machine”“Data mining”“classifier”等。支持向量機是機器學習領域中的一種學習模型,數據挖掘是橫跨多個學科、多個領域挖掘信息的技術,分類器可以構造分類模型,而分類是數據挖掘中的一種重要方法。通過上面的關鍵詞,發現關鍵詞之間聯系緊密,網頁分類涉及的領域非常廣泛,機器學習、數據挖掘等技術對網頁分類領域的發展奠定了最扎實的基礎,為后續的發展提供了強有力的技術支撐。近幾年,人工智能技術開始融入到網頁分類領域上,該技術對網頁分類的運用使該領域突破了新的高度,也帶來了新的機遇和挑戰。

3) 突現(Burst)指標計量分析

Burst指標是指變量在一段時期內發生顯著變化的值,用突現值來分析文獻深層變化的信息。“Web search”是最早出現的突現值,突現值為3.148 15,從該突現值發現網頁分類技術在2000年左右還處于初步發展階段,網頁搜索技術在該階段變成研究熱點。2003—2005年每年都有突現值,分別是“information retrieval”“support vector machine”“Feature selection”,該時間段網頁分類領域發展迅速,研究熱點逐漸變多,研究者通過不同的視角分析網頁分類。2009年出現的突現詞是“framework”,文獻[5]提出對短文本分類的框架。通過對突現詞的整體分析,可以發現典型的基礎技術在該領域的一段時期內發生顯著的變化,并引領該領域的后續發展。

3 ?研究演化分析

1973年美國情報學家Henry Smal首次提出了共被引分析的概念。共被引分析(Co?Citation Analysis)是指當兩篇文獻同時出現在另一篇文獻的參考目錄時,則這兩篇文獻已構成共被引關系。原始數據集中的共被引文獻可以當作該研究領域的知識基礎,知識基礎的聚類和演變研究是探究熱點主題、研究演化的重要依據。在CiteSpace中設置一系列參數并運行之后得到共被引文獻共現聚類圖譜,如圖3所示。

圖3 ?共被引文獻共現聚類圖譜

1) 1998—2005年:通過圖3的聚類和分析,該階段的共被引文獻量較多,并且文獻之間的內在聯系較密切。通過該階段的大量文獻發現,該階段的研究主要集中在“網頁分類算法研究”和“網頁分類技術的理念推介”兩個方面。于2002年發表的文獻[6]的共被引次數較多,該文獻主要研究的是機器學習在文本自動分類中的應用。文獻[6]詳細討論了文本表示、分類器構造和分類器評估三個方面的問題,為后期研究提供了重要理論支持。 文獻[7]在關于網頁分類研究中參考了該文獻,這也表明文本分類技術是網頁分類領域的前沿分支。研究網頁分類算法是推動網頁分類技術發展的基礎研究,文獻[4]提出超文本誘導主題搜索算法,該算法通過減少輸入數據的大小來減少網頁分類所需的時間。通過圖3的分析,可以發現該階段網頁分類領域有很多優秀的研究成果,這些研究成果為后續的網頁分類技術的發展提供了豐富的理論和實踐基礎。

2) 2006—2011年:該階段的共被引文獻量相比第一階段少了很多,文獻之間的聯系還算密切,該階段的高共被引文獻是于2009年發表的文獻[8],該文獻主要有三方面的貢獻,分別是:針對網頁分類,探索并總結了有用的網頁特性和算法;列舉網頁分類的主要應用程序;討論未來的研究方向。該文獻最大的優點就是系統地總結了國內外專家的研究結論和成果,并在此基礎上對未來的發展方向進行分析和討論。文獻[9]在關于網頁分類優化方法和網頁分類模型改進的文獻中參考過該文獻。文獻[10]是該階段的第二個高共被引文獻,該文獻主要介紹支持向量機的庫文件LIBSVM的實現細節,并詳細討論了支持向量機優化問題、理論收斂的多類分類概率估計和參數選擇等問題。支持向量機應用到網頁分類技術上不僅提高了網頁分類的效率,還提高了準確率。文獻[11]利用支持向量機提出了高效的網頁自動分類方法。通過該階段的共被引文獻分析,該階段的網頁分類領域不管是在理論研究上還是在實用系統上都取得了很多優秀的成果,尤其是與機器學習技術的結合產生了很多有效率、有準確率的網頁自動分類系統。

3) 2012—2017年:如圖3所示,該階段的高共被引文獻相較于前兩個階段少很多,導致該結果的原因有兩個:第一是因為年代比較近,很多優秀的文獻還沒有被人挖掘并引用;第二是因為網頁分類領域的研究分支越來越細化,研究中心呈現多態化,因此文獻分布越來越廣。該階段共被引次數較多的是文獻[12],主要講的是基于關鍵詞抽取技術的文本分類。通過多個分類算法的對比實驗發現,決策樹算法具有非常好的文本分類精度,文獻中的樸素貝葉斯、決策樹和K?近鄰算法的對比實驗分析給后面的研究者提供了很好的參考作用。文獻[5]在關于短文本分類中就參考過上述文獻。該階段網頁分類領域不斷擴大,不斷涉及其他領域的技術,如數據挖掘、機器學習、特征選擇等技術。

本文利用CiteSpace工具對國內外近20年有關網頁分類領域的文獻進行可視分析,對網頁分類領域的主要研究國家、研究機構、研究熱點和演化過程有了一定的了解。通過以上分析和介紹,網頁分類領域分為以下三個階段:初創期(1998—2005年);發展期(2006—2011年);深化期(2012年—至今),如表3所示。

表3 主題詞階段分析表

4 ?結 ?語

結合前文分析對本文的總結如下:

1) 國際網頁分類領域的發展已經趨于穩定狀態。從研究機構的影響力來看,在文獻的數量和質量上,中國的研究機構處于領先地位,尤其是中國科學院不僅發文量多影響力也比較大。從國家的角度來看,美國對其他國家的影響力最大,其次是西班牙,中國排名第三。

2) 國際網頁分類領域的研究熱點主要在機器學習和數據挖掘兩方面較突出。這兩方面的研究成功地讓網頁分類技術不管在效率上還是正確率上相較以前提高了很多。

3) 國際網頁分類領域現在已經形成了較為完善的研究網絡。有很多優秀的文獻提供了理論基礎和實驗論證,該領域還在不斷地拓展自己的領域,研究分支越來越細化。

參考文獻

[1] 陳悅,陳超美,劉則淵,等.CiteSpace知識圖譜的方法論功能[J].科學學研究,2015,33(2):242?253.

CHEN Yue, CHEN Chaomei, LIU Zeyuan, et al. The metho?dology function of CiteSpace mapping knowledge domains [J]. Studies in science of science, 2015, 33(2): 242?253.

[2] 胡海霞.基于CNKI的計算機科學期刊論文的計量分析[J].宜春學院學報,2017,39(6):50?54.

HU Haixia. Quantitative analysis on the journal article of computer science based on CNKI data [J]. Journal of Yichun University, 2017, 39(6): 50?54.

[3] YAO H, LIU C, ZHANG P, et al. A feature selection method based on synonym merging in text classification system [J]. EURASIP journal on wireless communications & networking, 2017, 166: 1?8.

[4] MEADI M N, BABAHENINI M C, AHMED A T. New use of the HITS algorithm for fast web page classification [J]. Turkish journal of electrical engineering & computer sciences, 2017, 25(3): 2015?2032.

[5] NANDINI V, JANANI C R, MAHESWARI P U. A framework for measuring similarity between terms in short text categorization [C]// 2016 Online International Conference on Green Engineering and Technologies. Coimbatore: IEEE, 2017: 1?7.

[6] SEBASTIANI F. Machine learning in automated text categorization [J]. ACM computing surveys, 2002, 34(1): 1?47.

[7] LEE J H, YEH W C, CHUANG M C. Web page classification based on a simplified swarm optimization [J]. Applied mathematics and computation, 2015, 270(C): 13?24.

[8] QI X, DAVISON B D. Web page classification: features and algorithms [J]. ACM computing surveys, 2009, 41(2): 1?31.

[9] LI H, XU Z, LI T, et al. An optimized approach for massive Web page classification using entity similarity based on semantic network [J]. Future generation computer systems, 2017, 76: 510?518.

[10] CHANG C C, LIN C J. LIBSVM: a library for support vector machines [J]. ACM transactions on intelligent systems and technology, 2011, 2(3): 1?27.

[11] BHALLA V K, KUMAR N. An efficient scheme for automatic Web pages categorization using the support vector machine [J]. New review of hypermedia & multimedia, 2016, 22(3): 223?242.

[12] MNAKA S, RADHA N. Text classification using keyword extraction technique [J]. International journal of advanced research in computer science and software engineering, 2013(4): 128?132.

猜你喜歡
分類分析研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
分類算一算
隱蔽失效適航要求符合性驗證分析
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
分類討論求坐標
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 亚洲日本在线免费观看| 欧美国产日韩一区二区三区精品影视| 无码福利日韩神码福利片| 亚洲综合久久一本伊一区| 激情影院内射美女| 999精品色在线观看| 免费看黄片一区二区三区| 日韩经典精品无码一区二区| 国产成人精品在线1区| 国语少妇高潮| 国产福利免费视频| 亚洲精品在线影院| 国产欧美另类| 91欧美在线| 国产成人综合亚洲欧美在| 国产精品亚洲日韩AⅤ在线观看| 亚洲毛片一级带毛片基地 | 亚洲欧美不卡| 精品无码一区二区在线观看| 日韩AV无码免费一二三区| 国产成人超碰无码| 亚洲国产精品成人久久综合影院| 热99精品视频| 日本一区二区不卡视频| 国产97视频在线| 黄色福利在线| 九九这里只有精品视频| 视频在线观看一区二区| 国产精品亚洲天堂| 美女高潮全身流白浆福利区| 日本久久免费| 欧美三级视频在线播放| 中文精品久久久久国产网址| 伦精品一区二区三区视频| 亚洲a级在线观看| 亚洲中文字幕精品| 国产区人妖精品人妖精品视频| 日韩毛片在线播放| 国产探花在线视频| 小蝌蚪亚洲精品国产| a免费毛片在线播放| 欧美日韩理论| 亚洲人精品亚洲人成在线| 拍国产真实乱人偷精品| 欧美亚洲日韩不卡在线在线观看| 精品国产网| av在线5g无码天天| 一本大道无码高清| 色135综合网| 黄色网站在线观看无码| 国产女同自拍视频| 狠狠色成人综合首页| 欧美日一级片| 亚洲黄色成人| 免费A级毛片无码免费视频| 精品视频免费在线| 欧美激情视频二区三区| 99久久性生片| 欧美精品高清| av一区二区三区高清久久| 中国一级特黄视频| 日韩精品无码一级毛片免费| 亚洲精品第1页| 国产精品自拍露脸视频| 国产乱子精品一区二区在线观看| 国产99视频免费精品是看6| 好吊色妇女免费视频免费| 欧美啪啪一区| 欧美国产日韩另类| 国产精品无码一二三视频| 久久特级毛片| 黄色成年视频| 国产午夜无码专区喷水| 男人天堂亚洲天堂| 欧美成人精品在线| 国产精品手机视频| 中文字幕精品一区二区三区视频 | A级全黄试看30分钟小视频| 日韩在线第三页| 26uuu国产精品视频| 欧美日韩资源| 理论片一区|