文獻計量分析中的數據準備工作研究*

2012-02-15 09:34:20沈艷紅江南大學圖書館江蘇無錫214122

圖書館建設 2012年5期

沈艷紅張娣（江南大學圖書館江蘇無錫 214122）

目前，大量學者利用文獻計量學的各種方法來進行學科情報分析，這些分析研究是非常有意義的。期刊刊發的文獻計量分析類論文，一般都會對數據準備工作進行簡單的介紹。但是筆者發現，不論是作者、編輯，還是讀者，對這部分內容的重視程度都比較低，導致一部分文獻計量分析在數據準備工作中出現了很大的偏差。

1 數據準備工作的具體內容

文獻計量分析研究的過程主要包括6個步驟：確定文獻計量分析目標、制定分析方案并設計文獻計量指標、進行數據準備、分析指標數據、形成分析報告、發布分析報告。其中，文獻計量分析中的數據準備工作主要包括數據采集和數據清洗兩個方面。

1.1 數據采集

文獻計量分析中的數據采集是指選擇與文獻計量分析指標配套的數據的過程。目前，文獻計量分析的數據采集主要有3種方法：①直接從數據庫商獲處取數據庫數據[1-4]，其數據來源是CSSCI（Chinese Social Sciences Citation Index，中文社會科學引文索引）的后臺數據庫；②在數據庫商的網站上通過檢索得到檢索結果[5-7]，其分別利用CNKI（中國知網）、SCI（Science Citation Index，科學引文索引）、EI（The Engineering Index，工程索引）數據庫，通過檢索得到詳細記錄，然后復制檢索結果網頁上的相關內容；③自動下載，通過程序構造URL（Uniform Resource Locator，統一資源定位符），然后根據URL下載HTML（Hypertext Markup Language，超文本標記語言）網頁文件，讀取下載的網頁文件且濾掉HTML的標簽，根據字段名稱獲取數據記錄，如通過上述方法下載萬方學位論文數據庫某高校鏡像網站上的符合檢索要求的學位論文全部內容[8]。其中，第1種方法需要研究人員與數據庫商有很好的協商與溝通，一般情況下只有數據庫所在單位的內部人員才有開展的條件；第3種方法需要具有較高的技術水平才能實現。因此，目前使用最為廣泛的是第2種方法，但是這種方法對檢索者的檢索水平要求較高，很多計量分析類文獻的數據出現問題就是因為檢索人員對數據庫了解不夠。

1.2 數據清洗

數據清洗就是將來自不同數據源的不同格式的數據轉換成統一的格式，去除錯誤記錄和重復記錄，補充遺漏記錄，以提高數據質量的工作。數據清洗的原理主要是根據回溯思想，通過分析“臟數據”的產生原因和存在形式，利用現有的技術手段和方法檢測“臟數據”，制訂數據清洗的方法、規則和策略并加以實施，將“臟數據”轉化為滿足數據質量要求或應用要求的“干凈數據”。

2 數據準備工作的重要性：基于實證的闡述

GIGO（Garbage In, Garbage out；垃圾進，垃圾出）理論指出，“無論系統的能力有多強，如果輸入數據是錯誤的，輸出結果必然也是錯誤的。”[9]推而廣之，如果采用不正確、不完整、不一致、不可靠的數據，不論我們運用多么強大的分析方法，也無法確保分析結果的正確、完整、一致、可靠。數據準備工作作為文獻計量分析的基礎，其質量直接影響著分析結果的科學性、客觀性。然而，即便是從同一個數據庫中獲取數據，也會因為數據采集和數據清洗時所運用方法的不同而導致所獲數據差異較大。這就要求文獻計量分析人員高度重視數據準備工作，選用最合適、最有效的方法和手段，從而獲得最正確、完整、一致、可靠的數據。筆者以基于CNKI檢索圖書館學高被引論文為例，進行如下實證的闡述。

2.1 方案1：某文所述檢索方法

張詩博曾對國內2004—2008年圖書館學研究高被引論文的被引用情況進行了統計分析，篩選出了圖書館學研究的重要期刊、多產作者和多產科研機構，同時對高被引論文的產出地區和研究主題進行了統計與分析，該研究對圖書館學的研究工作非常有借鑒意義[10]。張詩博的檢索方法是：選用CNKI的中國引文數據庫，確定檢索項為“被引題名”、檢索詞為“圖書館”、時間段為“2004—2008年”，得到2004—2008年國內圖書館學研究的高被引論文20篇[10]。

2.2 方案2：基于中國引文數據庫的分類檢索

基于CNKI的中國引文數據庫檢索上述課題，筆者采用分類檢索方式，具體步驟如下：

第1步：確定查詢范圍。在中國引文數據庫中點擊高級檢索，在檢索界面的左側查詢范圍中，首先清除默認查詢范圍，然后點擊“電子技術及信息科學”；再次清除默認的查詢范圍（包括無線電電子學等10個專題），然后點擊“圖書情報與數字圖書館”（該專題包括“圖書館學、圖書館事業”和“情報學、情報工作”），勾選“圖書館學、圖書館事業”。

第2步：查詢范圍確定以后，在引文類型中選擇“期刊類型引文”。

第3步：檢索結果的排序方式選擇“被引頻次”。

第4步：根據自己的需要輸入發布時間。例如，要獲得2004年國內圖書館學研究的高被引論文，發布時間就是2004—2004；如果要獲得2004—2008年圖書館學研究的高被引論文，發布時間為2004—2008。

第5步：無需在檢索框中輸入檢索詞，直接點擊檢索就可以獲得2004—2008年該專題論文的被引情況。由于檢索結果按照被引頻次排序，用戶可以根據自己的需要獲取高被引論文。

2.3 方案3：基于中國學術期刊網絡出版總庫的分類檢索

基于中國學術期刊網絡出版總庫檢索上述課題，筆者采用分類檢索方式，具體步驟如下：

第1步：確定查詢范圍。在CNKI首頁點擊“中國學術期刊網絡出版總庫”，進入該庫檢索界面；在檢索界面左側的“文獻分類目錄”中勾選“圖書館學、圖書館事業”這一專題。

第2步：在“輸入檢索控制條件”下的期刊年期處選擇從2004年到2008年。

第3步：無需輸入檢索詞，直接點擊“檢索文獻”。

第4步：在“文獻排序瀏覽”處點擊“被引頻次”，使所得78 935條記錄按照被引頻次從高到低排序，用戶可以根據自己的需要獲取高被引論文。

2.4 數據對比分析

對比方案1和方案3所得的檢索結果發現：方案1所獲得的前20篇論文，除了李國新的《圖書館權利的定位、實現與維護》一文漏檢外，均散落于使用方案3獲得的前40篇論文中。也就是說，方案1的查全率大約是方案3的50%，而基于如此不完備的數據所得的分析結果，其可信度值得懷疑。

對比方案2和方案3所得的檢索結果發現：方案3獲得的前20篇論文中，有5篇論文在方案2中并沒有被檢索出來，而利用方案2檢索得到的前20篇高被引論文，通過方案3均可以得到，只是因為檢索出了一些被方案2所漏掉的論文，部分論文的排名被往后推了，并且方案3所得文獻被引頻次普遍高于方案2所得文獻。這可能是因為中國引文數據庫的更新速度低于中國學術期刊網絡出版總庫的更新速度。也就是說，方案2的查全率是方案3的75%。顯然，通過方案3來獲得某一學科的高被引論文優于前兩種方案。

根據上述實例發現，同樣以CNKI為數據源，采用不同的檢索方法來獲得圖書館學的高被引論文，其檢索結果最多可能相差50%。在文獻計量方法日益受到重視并得到廣泛使用的今天，我們不能只重視采用“什么樣”的方法“如何”分析數據，更要重視我們分析的是“什么樣的數據”。文獻計量分析工作是否有意義，是建立在被分析的數據準確、可靠的基礎之上的。因此，在進行文獻計量分析研究時，一定要重視數據準備工作。

3 數據準備工作的幾個建議

正確、完整、一致、可靠的數據是文獻計量分析的前提，但是如何才能做到這一點呢？筆者在長期的文獻計量分析工作中積累了一些經驗，提出以下幾點建議。

3.1 分析信息需求，選用合適的檢索方法。

在進行檢索之前，研究者首先要分析自己的信息需求，然后根據自己的需求來選擇合適的檢索方法。正如上述案例所示，方案1所得檢索結果與信息需求之間有很大的差距，因為該方法所檢索到的是題名中包含“圖書館”一詞的高被引論文，而不是圖書館學領域中的高被引論文。要對圖書館學文獻的被引情況進行統計，應采用分類檢索，這樣不論題名是否包含“圖書館”3個字，只要是圖書館學領域的學術論文都可以被檢索到，查全率才能得到保障。

3.2 掌握數據庫的使用方法

各數據庫由不同的開發商開發，其檢索功能差別很大。用戶只有在了解數據庫的使用方法的基礎上，才能通過數據庫的檢索功能檢索到自己所需的信息。例如，在Web of Knowledge 中區分自引與他引，靠人工逐篇判斷極為費時費力，還容易出錯，但是如果了解該數據庫檢索功能，就可以利用“檢索結果分析”功能，對檢索到的施引文獻進行“作者分析”，然后排除本文作者，所得結果即他引數。

3.3 盡量提高查全率，及時補充遺漏數據。

當前的檢索系統多是用自然語言組織的，這極大地方便了信息用戶的檢索。但在自然語言中，同一個概念或事物可以用很多不同的詞來表述。如果希望得到高的查全率，用戶在選取檢索詞的時候，必須從多種角度來考慮，如同義詞、近義詞、反義詞、上下位詞和檢索詞的易錯形式等[11]。

得到檢索結果后不要急于進入分析階段，應先查看數據是否合理、是否存在漏檢。例如，筆者利用CNKI的中國引文數據庫，在食品工業類中檢索圖書的被引情況，按照被引頻次從高到低排序后，統計構成總被引量80%的高被引圖書，以構成食品工業類的核心書目。但筆者發現，其中沒有一種圖書是2005年以后出版的，這是為什么呢？考慮到中文學術性文獻的引用期大致為出版后2～5年，因此，筆者以年均被引5次作為一個補充指標，獲得近5年出版的圖書60種，將其納入核心圖書的范疇，得到一個較完整的核心書目[5]。

3.4 刪除誤檢數據

查全率和查準率之間存在互逆關系，估算和補充漏檢數據的難度遠高于刪除誤檢數據。因此，研究者首先要保證的是查全率，貫徹“寧可誤檢，不可漏檢”的原則，在此基礎上對數據進行審核，刪除不符合要求的文獻。例如，丁玉東在統計1999—2008年EI收錄的燕山大學論文時，使用檢索式： ((yan shan univ*)WN AF)AND((qinhuangdao)WN AF))、((yanshan univ*)WN AF)，兩個檢索式的時間限定在1999—2008年，共得到論文3 313篇，手動刪除誤檢論文41篇，得到符合要求的論文共3 272篇[7]。

[1]李平.我國民族學圖書學術影響力報告:基于CSSCI(2000-2007年)數據[J].西南民族大學學報:人文社會科學版, 2009(7):71-80.

[2]許鑫, 王偉.我國文化學圖書學術影響力報告:基于CSSCI的分析[J].東岳論叢, 2009(7):14-21.

[3]謝靖.中國文學圖書學術影響力分析(國內學術著作):基于CSSCI(2000-2007)[J].東岳論叢, 2009(10):59-66.

[4]賈潔.我國“圖書館、情報與文獻學”圖書學術影響力報告:基于CSSCI的分析[J].中國圖書館學報, 2010(2):56-69.

[5]沈艷紅, 吳信嵐.基于中國引文數據庫的核心書目測定研究[J].現代情報, 2011(9):136-139.

[6]沈艷紅, 彭奇志, 張逸新, 等.基于Web of Science的無線傳感網學術研究發展分析[J].現代情報, 2011(2):64-69.

[7]丁玉東.1999～2008年EI收錄燕山大學論文統計分析[J].教學研究, 2010(3):43-46.

[8]化柏林.文獻計量分析研究的分類與處理流程[J].情報科學, 2007(9):1332-1336.

[9]王永紅.定量專利分析的樣本選取與數據清洗[J].情報理論與實踐, 2007(1):93-96.

[10]張詩博.2004-2008年國內圖書館學研究高被引論文的統計與分析[J].情報科學, 2011(3):387-390.

[11]沈艷紅.信息檢索中檢索詞的選擇對查全率的影響[J].情報探索,2006(11):73-74.