〔摘要〕以1998-2009年間CSSCI數據庫中收錄的數據挖掘研究論文作為統計分析的數據源,從文獻時間分布、期刊分布、作者分布、單位分布、基金資助分布、學科分布、關鍵詞分布等角度進行文獻計量分析。結果表明,我國社科界數據挖掘研究已從初步探索轉為發展階段,并開始向其它學科滲透,形成了一些核心作者和領軍研究單位,各級單位對數據挖掘研究的重視程度在增加,數據挖掘研究的學科分布也越來越廣,最后,通過文獻的關鍵詞分析指出社科領域數據挖掘研究的趨勢。
〔關鍵詞〕數據挖掘;文獻計量;CSSCI;社會科學
收稿日期:2011-03-28
基金項目:安徽省高校省級自然科學資金項目“基于自組織數據挖掘方法的安徽省經濟預警研究”(KJ2008B138)。
作者簡介:柯 健(1982-),女,講師,碩士,研究方向:數據分析、信息資源管理。
DOI:10.3969/j.issn.1008-0821.2011.06.027
〔中圖分類號〕G250.252 〔文獻標識碼〕A 〔文章編號〕1008-0821(2011)06-0102-05
Bibliometric Analysis of Research on Data Mining
in the Field of Social Science in China
Ke Jian Li Chao
(1.School of Management Science and Engineering,Anhui University of Finance and Economics,
Bengbu 233030,China;
2.School of Statistics and Mathematics,Zhongnan University of Economics and Law,Wuhan 430073,China)
〔Abstract〕This paper selected those theses of data mining recorded in CSSCI during the course of 1998 to 2009,made bibliometric analysis from the angle of year distribution,journal distribution,author distribution,institution distribution,fund projects distribution,subject distribution,keywords distribution etc.As it concluded,the research on data mining in social science area has become a developing stage from initial exploration,and has been infiltrating into other subjects.Now,some of nuclear authors and leading research institutions have been coming.All kinds of institutions attach more importance to data mining research,and the subject distribution of data mining was becoming wider more and more.At last,the paper pointed out data mining research trends in social science area with the method of keywords analysis.
〔Key words〕data mining;bibliometric analysis;CSSCI;social science
1995年在加拿大蒙特利爾召開的第一屆知識發現和數據挖掘國際會議上,“數據挖掘”概念第一次由Usama Fayaad提出[1],在其后不到20年的時間里,數據挖掘由于其所具有的廣闊應用前景而備受關注,大量有關數據挖掘的研究論文在國內外相關期刊中發表。本文依據CSSCI即“中文社會科學引文索引”,選擇CSSCI數據庫中1998-2009年的文獻進行檢索分析,檢索字段為“關鍵詞”,檢索詞為“數據挖掘”,共得到685篇有關數據挖掘研究的論文,以此為統計數據源,并從文獻時間分布、期刊分布、作者分布、單位分布、基金資助分布、學科分布、關鍵詞分布等多個角度進行綜合分析。
1 數據挖掘研究文獻的時間分布
某一時期發文的增加速度和數量,在一定程度上可以說明這一領域研究的理論水平和發展速度。1998-2009年間被CSSCI收錄的有關數據挖掘的論文時間分布情況如圖1所示。
圖1 數據挖掘研究文獻的時間分布
圖1表明,數據挖掘作為一門數據智能分析技術在20世紀末才剛剛興起,因此1998-1999年在我國研究論文發文量較少,且研究內容主要表現為概念的引進與描述、綜述以及一些研究方法的探討與數據挖掘技術的初步應用。2000年以后,數據挖掘研究與應用迅猛發展,新的或改進的算法不斷出現,所考察的數據類型日趨豐富,應用領域逐漸擴大,數據挖掘領域迎來了一個創新的黃金時代[2],從圖1可以看出,2000-2005年間,我國社會科學領域數據挖掘發文量呈指數增長趨勢,數據挖掘作為數據庫、統計學、人工智能等學科的交叉學科正在蓬勃興起。而2006年以后,發文量基本趨于平穩,這也說明我國社會科學領域數據挖掘的研究與應用已過渡到學科發展期。
2 數據挖掘研究領域文獻的期刊分布
統計發現,CSSCI收錄的685篇數據挖掘論文分布在109種期刊上,其中發文10篇以上的刊物有14種,如表1所示。14種期刊刊載數據挖掘論文共計439篇,占總發文量的64.09%,相對較為集中。其中《情報雜志》等9種期刊載文量最大,均在20篇以上。表1還顯示:圖書情報類期刊載文量301篇,是發表數據挖掘論文最多的刊物類別,其次是統計類期刊載文量84篇。說明在社會科學領域關注數據挖掘研究的學科主要是圖書館學、情報學與統計學,圖書情報類和統計類期刊是我國數據挖掘研究領域文獻的主要載體。
表1 刊載數據挖掘論文10篇以上的期刊及載文量分年統計
由表1還可以看出,2003年前,數據挖掘的研究論文基本上都是以圖書情報類期刊為載體,說明社會科學領域數據挖掘的研究基礎是信息領域。尤其在數據挖掘研究的早期探索階段,《情報學報》率先刊載相關論文;在數據挖掘研究的基礎奠定階段,《情報學報》的載文量也是最大的。說明《情報學報》作為我國圖書情報類的權威期刊,能夠及時跟蹤和反映新的學科內容,取得了質量較高的研究成果。
表1還表明,自2003年以后,統計類、科技管理類期刊也逐漸連續性地刊載數據挖掘研究論文,且發文量增長速度甚至趕超圖書情報類期刊,這說明,隨著研究基礎的日漸深厚,統計學、科技管理等領域的學者都從數據挖掘中獲得了廣闊的研究發展空間。因為,數據挖掘是一個多學科交叉的領域,一方面,數據挖掘以計算機的發展為首要條件,數據的有效組織和大量計算算法的支持是其發展和應用的基礎,但另一方面,即使數據得到了有效組織,計算算法足夠先進,要想發現海量數據中隱藏的有用信息,還必須綜合利用統計學、模式識別、人工智能、機器學習、神經網絡等學科的專業知識。比如,數據挖掘使用的分析方法,有相當大比重是靠高等統計學中的多元分析來支撐的,一般定義為數據挖掘技術的CART、CHAID或模糊計算等理論方法,也都是由統計理論發展衍生的[3]。
3 數據挖掘研究領域文獻的作者分布
3.1 論文合作情況分析
研究論文的合作情況,一方面可以反映研究論文的深度和廣度以及該研究領域的學科性質和研究方法等,另一方面有助于弄清合作的特點及影響合作的主要因素,也有助于組織合作研究[4]。文獻計量學通常用論文合著率和合作度兩項指標來衡量論文的合作情況。合著率是合著文獻占文獻總數的比例,合作度則是指每篇文章的平均作者數。統計發現,685篇論文中,只有1位作者的文獻有233篇,占了總數的34%;2位作者的有422篇,占了總數的62%;3位及3位以上作者的有10篇,占了總數的4%。685篇論文涉及到1 140位作者,合作度為1.66,合作率為66%。由此分析可以看出,社會科學領域較高質量的數據挖掘論文是以合作研究為主的。
3.2 核心作者發文統計分析
對作者發文進行統計分析,可以反映出文獻作者與文獻量的關系,不僅能預測和揭示研究人員的研究能力,分析出發文量多,影響力比較大的核心作者,還對進一步了解數據挖掘研究領域的現狀和發展趨勢起到很重要的參考意義[5]。
表2給出了1998-2009年間發文量在10篇以上的作者發文量數據。張玉峰和朱東華各發表了15篇有關數據挖掘研究的論文,戴穩勝和朱建平各發表了13篇,這4人都是我國數據挖掘研究領域的核心領軍人物。表2還給出了4位作者的主要數據挖掘論文題目。可以看出,高產作者關于數據挖掘的研究比較系統,即有數據挖掘技術的理論研究,也有數據挖掘技術在商業、網絡、圖書館、科技管理、金融、財務、心理學等諸多領域的應用研究。他們的研究拓展了我國社科領域數據挖掘理論研究的深度和應用研究的廣度。
表2 核心作者發文量及主要文獻列表
續表2
4 數據挖掘研究領域文獻的單位分布
對685篇文獻的第一作者單位進行分析,發現這685篇文獻來源于257家單位。表3給出了發文量10篇以上的單位及其各年發文量統計情況。從表3可以看出,南京大學關于數據挖掘研究的連續性最強,從1999年起,除了2000年,每年都有數據挖掘論文發表,而武漢大學、四川大學、北京大學次之,從2005-2009年每年都有論文發表。此外,西安交通大學、四川大學、華中科技大學在一定時間內都保持著很好的數據挖掘研究連續性。
表3還表明,武漢大學12年來共發表了31篇論文,居全國之首,其次是南京大學發表了27篇,這兩所高校不僅關于數據挖掘的論文產出量最多,研究的連續性最強,而且也是最早開始社會科學領域數據挖掘研究的院校。這與數據挖掘的理論基礎有密切關系,數據挖掘是以信息領域為基礎的綜合多學科知識的交叉學科,而武漢大學和南京大學的信息管理系在國內高校中享有盛譽,兩所高校確實發揮了在專長領域的領軍作用。
表3 總發文量10篇以上的單位分年統計列表
續表3
5 數據挖掘研究領域文獻的基金資助分布
對數據挖掘研究基金資助論文的數量和基金級別進行統計分析,在一定程度上可以反映我國社會科學界數據挖掘研究的新成果、新趨勢,有利于專業研究人員掌握最新、最有價值的專業情報,同時也可以透視社科界數據挖掘研究的學術水平和質量,反映國家乃至地方對該領域的重視程度。表4給出了歷年受到各級基金資助發表的文獻數量。可以看出,從1999年開始,國家級基金、省級基金、校級基金資助的論文總量在逐年攀升,由1999年和2000年的1篇省級基金資助論文到2001年的5篇國家級基金資助論文。2003年,數據挖掘研究基金資助論文分別為國家級資助8篇,省級資助4篇以及校級資助2篇,以后各年獲得的資助都有新的提高,從國家到高校,都加大了資助力度,研究人員持續性研究的積極性得到提高,我國社科界數據挖掘研究的持續性得到更好的保障。
表4 歷年受到各級基金資助發表的文獻數量
6 數據挖掘研究領域文獻的學科分布
統計發現,社科界數據挖掘研究涉及表5所示的11個學科,其中,圖書館、情報與文獻學發文量最多,達323篇,經濟學、管理學次之。說明數據挖掘研究主體是立足基礎理論,集中在圖書館、情報與文獻學、經濟管理等基礎性學科上。另一方面,數據挖掘研究的學科分布也越來越廣泛,甚至涉及到哲學、政治學、法學、語言學這些貌似與數據挖掘并無關聯的學科,說明數據挖掘的研究正在積極探索新領域,不斷拓展綜合性交叉學科的應用廣度。
表5 數據挖掘研究領域文獻的學科分布統計表
7 數據挖掘研究領域文獻的關鍵詞統計分析
7.1 關鍵詞數量統計分析
關鍵詞的研究有助于我們了解數據挖掘研究的主題。經過統計,選出出現頻次高于3次的關鍵詞,如表6所示。通過分析可以了解到,1998-2009年間數據挖掘領域的研究熱點既有數據倉庫、關聯規則、聚類、決策樹、神經網絡等基礎理論,也有如客戶關系、數字圖書館、知識管理、web挖掘、電子商務、金融等應用領域的熱點。因此,通過查閱相關文獻資料,結合當前社科界數據挖掘研究文獻的關鍵詞統計,可以將數據挖掘研究內容劃分為基礎研究和應用研究兩大類[6],其中基礎研究包括:數據挖掘的概念、功能、算法、技術等。應用研究主要有:(1)數據挖掘在商業(金融業、零售業、電信業等)、科研等領域的應用研究;(2)數據挖掘系統和特定領域的數據挖掘應用軟件建設研究;(3)數據挖掘與其它學科的交叉滲透研究,如統計學數據挖掘等。
表6 數據挖掘文獻關鍵詞統計表
7.2 關鍵詞逐年排序統計分析
按論文出版年份對每一年的關鍵詞進行統計,可以反映數據挖掘領域研究熱點的變化。通過表7的整理可以看出:(1)“數據倉庫、關聯規則、客戶關系管理、數字圖書館、知識管理”等一直是該領域的研究熱點,且這些關鍵詞反映了社科界數據挖掘的研究一直立足于基礎理論的不斷完善和典型應用領域應用研究的不斷深化。(2)越來越多的新關鍵詞出現說明了學者們研究視角的轉變及數據挖掘研究應用領域的擴展。如,隨著電子商務和電子營銷成為零售業的主流環境,數據挖掘在商業方面的探索將會繼續擴展,而且,數據挖掘越來越多地用于新領域的探索,如,體育、電力、教學、科研管理、生物醫藥甚至考古、犯罪偵查等領域。
表7 關鍵詞逐年排序統計
續表7
參考文獻
[1](意)Paolo Giudici.實用數據挖掘[M].袁方,王煜,王麗娟,譯.北京:電子工業出版社,2004.
[2](加)Jiawei Han,Micheline Kamber.數據挖掘概念與技術[M].范明,孟小峰,譯.北京:機械工業出版社,2007.
[3](美)Michael J.A.Berry,Gordon S.Linoff.數據挖掘——客戶關系管理的科學與藝術[M].袁衛,譯.北京:中國財政經濟出版社,2004.
[4]林良夫.中國農村經濟研究狀況淺析——基于對《中國農村經濟》(1995-1999年)載文的統計[J].中國農村經濟,2000,(12):71-75.
[5]李小敏,范帆.我國知識地圖研究文獻計量分析[J].情報科學,2010,(4):550-553.
[6]員巧云,程剛.近年來我國數據挖掘研究綜述[J].情報學報,2005,(2):250-256.