張銳
摘 要:筆者研發的科技查新輔助查新工具是針對中國知網、萬方、維普、中國知識產權局專利檢索與服務系統設計的,通過編程實現基于EXCEL平臺的查新輔助工具,該工具能夠讀取各數據庫不同格式的數據、對數據進行去重、并在去重時抽取不同數據庫的內容融合成最完整的數據進行保留,最后按照統一要求的查新格式導出。該工具相較于時下流行的輔助查新軟件,其輸出內容更完全,同時還具有方便快捷、無需安裝、操作簡單易學等特點。
關鍵詞:查新 去重 EXCEL 數據融合
中圖分類號:TP311 文獻標識碼:A 文章編號:1672-3791(2014)11(c)-0005-03
Based on Data Fusion Technology for Development of Novelty Search Auxiliary Tool
ZhangRui
(Library of Fujian Agriculture and Forestry University)
Abstract:The novelty search tools is aimed at deleting duplicate in the serch results of CNKI, WanFang and VIP database, The system based on EXCEL platform, and can read the database data in different formats, and delete duplicate, finally export the result according to the novelty format. This method is more convenient and quick compared with the popular novelty search software, and don't need to install, and easy operation etc., also can make up for the inadequacy of existing software at the same time.
Keywords:Novelty Search;Delete Duplicate;EXCEL Data fusion
隨著文獻數據的不斷增長,科技查新工作變得越加復雜和重要。計算機輔助查新系統不僅可以幫助查新員節約大量重復工作的時間,還可以修正查新員在大工作量下容易犯的錯誤。
目前,國內的查新輔助軟件主要集中在在線委托與查新檔案的管理方面[1-13],檢索結果去重和統一查新格式導出方面的軟件較少,僅見哈爾濱工業大學圖書館應用JAVA語言開發了《圖書館中文查新智能去重系統》[14]。雖然許多收費軟件如NoteExpress和NoteFirst均有查重去重功能,但購買費用較高,且在各大數據庫所提供的基于NoteExpress和NoteFirst格式的數據字段不全的情況下,無法按照查新員需求輸出符合規范的查新結果。一些國外收費軟件如EndNote由于使用習慣不同,也不太符合國內查新員的需求。另一方面,國內的文獻數據庫檢索平臺的檢索結果格式不統一,同一檢索式得到的結果存在許多重復,若要人工一一篩選去重、整理格式,則費時費力,且容易出錯。
1 目標
筆者研發的輔助查新工具是針對中國知網、萬方、維普、中國知識產權局專利檢索與服務系統設計的基于EXCEL平臺的查新輔助工具,其通過雙重的數據融合可使輸出的數據內容最完整。
該輔助查新工具旨在實現以下目標。
(1)讀取各個數據庫(中國知網、萬方、維普、中國知識產權局專利檢索與服務系統、Innography專利分析平臺)不同格式的數據,每個數據庫的兩種格式的數據將在同一在表格中融合,最后只以一張表格顯示;
(2)導出各個數據庫的數據,導出的數據應符合科技查新的參考文獻著錄規則;
(3)根據標題對數據進行去重,在去重時抽取不同數據庫的內容融合成最完整的數據進行保留,去重結果直接顯示在EXCEL表格里,方便查新員調整,若有不符合需求的數據可直接刪除;
(4)按照科技查新要求的格式導出去重后的結果。
2 系統功能模塊的實現
2.1 EXCEL宏語言簡介
EXCEL宏可以使用VB Script指令集編寫針對Office組件的小程序,它是VB編程語言的子集,可以使用VB的常用語句編寫程序,編寫方式與C++類似,依靠EXCEL原有的數據處理功能,可以編寫出強大數據處理系統,而且編寫出的系統根植于EXCEL平臺,相似的平臺操作模式,使使用者更容易上手。
2.2 中國知網、萬方、維普數據庫檢索結果導入
讀取各大數據庫的檢索結果,是該輔助查新工具所要實現的第一個功能。由于不同的數據庫對檢索結果提供了不同的保存格式,所以筆者要根據不同的保存格式編寫不同的讀取程序。同時,筆者發現中國知網、萬方、維普這三大數據庫對檢索結果提供了多種保存格式,即使是同一數據庫的不同保存格式之間所含的內容也不一樣,存在互相包含和互相補充的關系。例如,中國知網數據庫的檢索結果的不同保存格式所包含的字段內容略有不同, CNKI桌面版格式中的專利文獻包含專利類別名稱和公開號卻缺少文獻頁數的內容,而E-Learning格式中包含文獻頁數卻缺少專利類別名稱和公開號的內容。考慮到數據的完整性,筆者選擇E-Learning格式和桌面版格式這兩種較完整的數據格式進行讀取,并融合兩種數據得到信息最完整的數據。同理,筆者對萬方和維普數據庫也采用兩種格式進行讀取,萬方數據庫為萬方查新格式、萬方NoteExpress格式;維普數據庫為維普NoteExpress格式、維普自定義導出格式。endprint
讀取檢索結果的文本文件時,采取逐行讀入的方式,每行以英文冒號“:”為分隔符分隔,存入數組“MyArr”中,然后比較數組中的第一個字符串,當它符合我們的需求時,把它填入相應的空格中。例如,文本第一行為“Title-題名:科技查新信息管理系統的設計與實現”,冒號將其分隔為兩個部分“Title-題名”和“科技查新信息管理系統的設計與實現”,分別被填入數組“MyArr”的第1、2個元素中,當第1個元素即“Title-題名”匹配正確時,就可以將“科技查新信息管理系統的設計與實現”填入題名對應的EXCEL列中。
在使用該查新輔助工具前,需要先將CNKI E-Learning格式、CNKI桌面版格式、萬方查新格式、萬方NoteExpress格式、維普NoteExpress格式、維普自定義導出格式的檢索結果保存為“CNKI-1.TXT”、“CNKI-2.TXT”、“萬方-1.TXT”、“萬方-2.TXT”、“維普-1.TXT”、“維普-2.TXT”六個文本文件,并存儲在該工具所在的文件夾下。
然后,按照序號標示輪流點擊“打開CNKI-1.txt”、“打開CNKI-2.txt”、“打開萬方-1.txt”、“打開萬方-2.txt”、“打開維普-1.txt”、“打開維普-2.txt”這六個按鈕導入數據,如圖1所示。數秒之后,即可在EXCLE表中見到導入的數據,分別存放在“CNKI數據”、“萬方數據”、“維普數據”這三個表單中,如圖2所示。若使用者只需進行各個數據庫的格式整理,可以只選擇相應的數據庫進行導入,點擊相應的按鈕即可。
2.3 數據去重
數據去重是該輔助查新工具的最主要功能,為實現該功能,筆者采用EXCEL提供的CountIf函數對標題列中重復的數據進行刪除。CountIf(range,criteria)函數會統計某個區域內符合指定的單個條件的單元格數量,其中range表示要計數的一個或多個單元格范圍,criteria定義要進行計數的單元格的數字、表達式、單元格引用或文本字符串。在該輔助工具中,筆者以標題數據所在列為計數范圍,以重復的標題內容為要進行計數的文本字符串,計算標題重復的個數,然后刪除計數個數大于1的重復標題。由于中國知網、萬方和維普的數據內容有所差異,通常中國知網中很少給出期刊的卷號,以及專利的申請號,而這些信息恰恰有收集在萬方的數據中,所以在刪除重復數據時,該工具會將首次出現的條目中沒有的數據內容先復制到該條目中,然后再刪除掉重復的條目。
查新員在使用時,只需點擊“去重”按鈕,EXCEL表中即可生成一個新表——“去重結果”,去重后的結果可在該表中查看。第三列“Source-來源”中會標引出哪些數據來自中國知網,哪些來自萬方數據庫,哪些來自維普數據庫,以方便查新員閱讀。
2.4 結果導出
經過去重后,點擊“導出去重結果”按鈕即可在同一文件夾下生成一個文本文件——“導出去重結果.TXT”;若不需要去重,只需對中國知網、萬方、維普這三大數據庫的檢索結果進行格式整理,可以直接點擊導入按鈕右邊的導出按鈕即可,相同的,會在同一文件夾下生成相應的文本文件。
專利文獻數據是查新員所依靠的重要文獻數據,但是中國知識產權局專利檢索與服務系統與Innography專利分析平臺的檢索結果格式均不符合查新報告要求的格式。為完善該輔助查新工具的功能,筆者特別增加了對這兩個專利分析平臺檢索結果的格式整理,只需點擊“導出中國專利”與“導出國外專利”兩個按鈕即可。
3 性能展示
筆者使用“題名=(程序or軟件or系統) and 查新”檢索式分別在CNKI、萬方、維普上檢索,在CNKI上檢出文獻140篇、萬方上檢出139篇、維普上檢出120篇,一共399篇。點擊“去重”按鈕后,即得到181條去重結果。觀察新生成的“去重結果”的表單,可以發現一些源自CNKI的條目中原來沒有的卷號內容,已經被補充上了,如圖4所示。
由于各個數據庫收錄的題錄格式不統一,經常在英文大小寫、空格、標點符號、英文縮寫、有無副標題上不一致,甚至有些題錄會有亂碼的現象出現,所以還需要對去重結果進行人工微調。筆者利用EXCEL的排序功能,以標題為主要關鍵字,年份為次要關鍵字對去重結果進行排序,從而把相似的數據排列在一起,如圖4所示,通過對比發現仍有15篇重復文獻,同時發現兩篇文獻存在不同期刊重復發表的情況。筆者對比后,選擇數據內容不夠完整規范的重復題錄予以刪除,最終得到164個去重結果。
筆者所使用的電腦的主要參數如下:CPU: Intel(R) Core(TM)2 Duo CPU E8400 @3.00GHz 2.99GHz;內存1.84GB。
4 結語
該輔助查新工具雖然小巧,但在科技查新過程中可以節省查新員大量的冗余工作時間,而通過雙重的數據融合可保留最為完整的數據內容。筆者通過一個多月的使用和完善,對各種BUG進行了修補,系統運行流暢,對科技查新工作起到了很好的輔助效果。
參考文獻
[1] 師曉青,尉江星.基于JSP的在線查收、查引和查新檢索系統的設計與實現——以山東大學(威海)為例[J].現代情報,2014,34(3):131-134,138.
[2] 劉莉莉.基于Web的科技查新管理系統設計與實現[J].甘肅科技,2014(4):14-16.
[3] 馮琳,張仁瓊.基于.NET科技查新系統的設計與實現[J].大學圖書情報學刊,2011(3):50-52.
[4] 林爾正,黃瑞敏.科技查新網上申報與管理系統構建研究——以福建中醫藥大學圖書館為例[J].情報探索,2011(12):78-80.
[5] 李海剛,謝毅.基于ASP.NET技術的科技查新網上委托及管理系統[J].企業科技與發展,2009(12):42-43.
[6] 李騰.基于ASP.NET技術的科技查新網上受理系統的設計與實現[J].情報探索,2009(10):74-76.
[7] 宋樂平,丁玉東.科技查新項目管理系統的設計與實現[J].情報探索,2010(2):70-71.
[8] 王權,張纓,楊生舉,等.科技查新項目管理系統中嵌入Word的若干問題研究[J].甘肅科技,2006,22(11):73-74.
[9] 王重陽,許春芳.基于網絡服務平臺的農業科技查新檢索系統簡介[J].吉林畜牧獸醫,2007,28(2):19-20.
[10] 吳玲.情報查新咨詢管理信息系統的研發[J].科技情報開發與經濟,2007(21):16-17.
[11] 張云坤.基于AJAX的科技查新管理系統[J].大學圖書情報學刊,2008(6):30-32,43.
[12] 曾展鵬.基于ASP技術的查新報告管理系統的設計和制作[J].科技情報開發與經濟,2008(2):68-70.
[13] 但旺,聶峰英,科技查新業務管理系統設計分析[J].圖書館學研究,2008(4):67-69,72.
[14] 李雪婷,李莘,王曉丹.基于JAVA的圖書館中文查新智能去重系統的研究與實現[J].圖書館學研究,2013(17):56-58.endprint