張春梅 張計龍 殷沈琴 汪東偉 郭耀東



[摘要]本文利用復旦大學ERU數據采集平臺,從底層網絡數據中獲取用戶訪問圖書館電子資源時檢索行為的動態數據,運用Sesson ID關系、因子分析和聚類分析等方法,分析我國高校學術研究的學科交叉程度及研究熱點。結果表明,學科交叉研究采用動態數據源進行分析,可以拓展學科交叉研究的深度和寬度,彌補以往研究中僅針對靜態數據分析研究的不足,促進學術研究和科學創新上獲得新的生長點。
[關鍵詞]學科交叉;動態數據;Session ID;因子分析;聚類分析
DOI:10.3969/j.issn.1008-0821.2015.03.013
[中圖分類號]G250.73 [文獻標識碼]A [文章編號]1008-0821(2015)03-0068-09
當前學科交叉研究已成為科學技術發展的一個重要趨勢。自20世紀初學科交叉研究的萌芽在美國出現后,人們便開始認識到學科交叉產生的新興學科,因為其能夠打破傳統學科研究束縛,為學科發展創造新的生長點,為科技進步提供新動力的特點,引起世界各國的廣泛關注。學科交叉借助其研究領域的獨特優勢在新技術開發、新興產業應用研究等領域產生極大的影響力,其科學技術創新的能力也被置于極其重要的地位。
發現學科研究的交叉點,無異于找到學科研究的新起點,許多科研人員、學者都希望獲得本學科與其他學科的交叉點、學科研究新的增長點和研究熱點的信息,那么如何從海量文獻數據中發現這樣的信息,為科學發展、研究創新提供動力呢?從目前已有的文獻可以看出幾種研究思路:第一種是以期刊引文關系為基礎研究學科交叉關系;第二種是通過關聯規則挖掘、文本挖掘等現代數據挖掘技術手段研究學科間的相關性和交叉知識;第三種是以期刊關鍵詞為基礎研究學科交叉的熱點;第四種是以不同的研究對象為基礎,從不同的視角研究學科之間的交叉關系。以上文獻多以靜態數據為基礎切入不同的分析角度探討學科之間的交叉關系,但是對學科交叉的程度以及研究熱點缺少量化分析。
本文將以復旦大學ERU數據采集平臺所獲得的用戶使用電子文獻行為的動態數據為基礎進行數據分析。ERU全稱為“圖書館電子資源使用統計分析軟件”,一般部署在高校核心網絡交換機的鏡像口,從旁路出發,基于網絡底層采集用戶信息行為的數據,ERU軟件可以對圖書館實現電子資源知識庫定制管理,對圖書館所使用的數據庫和數據庫中的文獻內容進行用戶使用行為的數據采集,并以此為基礎實現電子資源使用情況的多維統計和用戶訪問行為的統計分析。通過ERU數據采集平臺獲取的動態數據,實現挖掘學科之間可能存在的交叉關系,為更好地揭示學科交叉關系提供一種新思路,不僅通過網絡用戶使用電子文獻資源的行為研究探討學科之間的交叉程度,而且深入挖掘數據的潛在關系對學科交叉的研究熱點也進行分析,為師生、學者和科研人員的研究提供數據參考,幫助其找到學科研究上新的創新點和突破口。
1.研究方法
學科交叉程度的研究分析運用Session ID關系,通過將SessionID中出現的文獻之間的關系轉換為學科之間的關系。以此建立起學科之間交叉關系的基礎,以學科之間交叉出現的頻次作為學科交叉關系程度的反映。學科交叉熱點的研究分析則是利用因子分析,將學科交叉出現的高頻關鍵詞提取出具有代表性的因子,以這些因子為類,分析得出學科交叉的熱點區域,再結合聚類分析,將結果進行比較,獲得較為滿意的學科交叉研究熱點的分析結果。
1.1Session ID關系運用分析
本文學科之間的交叉關系是建立在Session ID關系的基礎之上獲得的。在Web中Session是指用戶在瀏覽某個網站時,從進入網站到瀏覽器關閉所經過的一段時間,也就是用戶瀏覽這個網站所花費的時間。Session在用戶第一次訪問服務器的時候自動創建,其生成后,只要用戶繼續訪問,服務器就會更新Session的最后訪問時間,并維護該Session。服務器會把長時間沒有活動的Session從服務器內存中清除,此時Session便失效。服務器會分配SessionⅢ給不同的用戶,每個Session ID都是惟一的。文中設Session ID為一個分析對象,在這個分析對象中,所有出現的文獻被認為是存在關聯關系的,它們之間的關聯關系將作為學科之間建立交叉關系的基礎。
(1)明確一個Session ID中包含的每篇文獻的學科分類。文獻學科分類確定好之后,Session ID中出現的文獻之間的關系轉換為學科之間的關系。
(2)再以Session ID為基礎,交叉運算每一個Session ID當中存在的兩學科、三學科甚至多學科之間的相互交叉關系。假設一個Session ID當中有若干篇文獻,每篇文獻都有學科歸屬。文獻1學科分類為A,文獻2學科分類為C,文獻3學科分類既屬于學科A又屬于學科B,此時認為A和B學科之間存在交叉關系,A和C學科,B和C學科,A、B和c學科之間都存在學科交叉關系。在同一篇文獻中出現的交叉關系定義為內在關系,同一個Session ID中出現的交叉關系定義為外在關系。學科之間每出現1次交叉計算1次出現頻次,以學科之間交叉出現的頻次作為學科交叉關系程度的反映。
(3)學科交叉的研究的熱點分析,也同樣引入Session ID關系影響因素,擴大文獻中出現的關鍵詞關聯關系,同一個Session ID的用戶使用文獻的學科關鍵詞,關鍵詞的共現頻次不僅需要計算在同一篇文獻中兩兩共現的次數,‘而且還要計算同一個Session ID中關鍵詞的兩兩共現次數。同一篇文獻中出現的關鍵詞的共現關系定義為內在關系,同一Session ID出現的關鍵詞的共現關系定義為外在關系。
1.2因子分析
因子分析最早是由英國心理學家斯皮爾曼提出的,是一種從變量群中提取共性因子的數據簡化統計技術。因子分析通過研究眾多變量間的內部依賴關系,探求觀測數據中的基本結構,找出變量中隱藏的具有代表性的因子,將相同本質的變量歸入一個因子中,減少變量的數目,同時檢驗變量間的假設關系,用假想的變量能夠反映出原來眾多變量的主要信息。換句話說,因子分析是尋找潛在的、起支配作用因子的方法。通過因子分析,將學科交叉出現的高頻關鍵詞提取出具有代表性的因子,以這些因子為類,分析得出學科交叉的熱點區域。
1.3聚類分析
聚類分析又稱群分析,起源于分類學,是一種探索性分析方法,能夠分析事物的內在特點和規律,并根據相似性原則對事物進行分組,是數據挖掘中常用的一種技術。它特別適用于沒有先驗知識的分類。如果沒有這些事先的經驗或一些標準,分類便會顯得隨意和主觀,這時只要設定比較完善的分類變量,就可以通過聚類分析法得到較為科學合理的類別。學科之間交叉后會產生怎樣的知識分類,事先是無法得知的,通過聚類分析,可以分類得出,這樣就可以與因子分析的結果進行比較,獲得較為滿意的學科交叉研究熱點的分析結果。
2.數據采集與分析
本文以復旦大學ERU數據采集平臺所獲得的用戶使用電子文獻行為的動態數據為基礎,從底層網絡數據中獲取用戶對學校訂購的所有中文數據庫的檢索、瀏覽、下載等信息行為的日志數據,及對應數據庫文獻信息,如關鍵字、作者、引用、發表時間等數據。數據采集時間為2013年8月到2014年2月的有效數據共241 464條,有48 000多個Session ID,平均每個Session ID有5條左右記錄。
2.1學科交叉程度分析
在數據分析中學科分類采用的是《中國圖書館分類法》,以此為基礎揭示學科之間的交叉情況。將采集到的有效數據與Session ID結合,按照上文介紹的運算規則分析,并且對于同一篇文獻中學科交叉頻次,賦值為0.6,同一Session ID出現的學科交叉頻次,賦值為0.4,獲得的學科交叉程度結果如下(見表1):endprint