〔摘要〕單位集體成果研究為查收查引服務工作拓展了新的生長空間。文章以揚州大學為例,以其近11年來在SCI、EI、ISTP中被收錄情況為基礎,進行年代收錄走向分析,建立了二次指數平滑預測模型,并從檢索方法和檢索技巧、加權系數的取值、初始值的確定、預測模型的應用4個方面進行了討論。
〔關鍵詞〕查收查引;單位成果;集體成果;預測模型
收稿日期:2011-08-01
基金項目:本文系江蘇省教育廳高校哲學社會科學基金項目“中小型圖書館數字化建設模式研究”(編號為:2010SJB870004)的研究成果之一。
作者簡介:周美華(1974-),女,館員,研究方向:信息服務與學術評價,發表論文12篇。
DOI:10.3969/j.issn.1008-0821.2011.10.019
〔中圖分類號〕G252.8 〔文獻標識碼〕B 〔文章編號〕1008-0821(2011)10-0078-03
Research of Collective Achievement PredictionModel Based on Database Retrieving Service
Zhou Meihua Zhou Yutao
(1.Library,Yangzhou University,Yangzhou 225009,China;
2.Information Center,Yangzhou University,Yangzhou 225009,China)
〔Abstract〕Research of unit collective achievements expand new growth space of database retrieving service.Yangzhou University was regarded as an example in this study,and indexed trends of different years was analyzed,and the double exponential smoothing forecasting model was established based on the SCI,EI,ISTP indexed cases of the university.Finally,discussions were made from four aspects such as retrieving techniques,coefficient value determination,the original value determination and predictive model application.
〔Key words〕database retrieving;unit achievement;collective achievement;prediction model
查收查引服務,又稱論文收錄及引用檢索,一般分為個人檢索、單位(集體)檢索兩類[1]。其中單位(集體)檢索關系到一個單位集體科研成果的指標評價,在一定程度上可以反映一個科研機構在基礎研究與應用研究等方面開展的工作及國內外學術界的交流情況,因而日益引起相關單位的關注與重視。
本文以揚州大學為例,以其近11年來在國際三大檢索系統SCI、EI、ISTP中被收錄情況為基礎,進行成果揭示并建立預測模型,旨在拓展查收查引工作空間,提高服務質量,為學校了解自身的科研發展潛力、制訂長遠科研規劃提供一定的參考和決策依據。
1 2000-2010年三大庫收錄揚州大學論文情況
本次檢索時間是2011-02-25,考慮到數據庫收錄文獻與作者發表文獻的時間存在時差,本文數據統一以收錄年為標準,SCI、ISTP選擇“Timespan”或“入庫時間”,EI根據收錄號(Accession number)前四位數字判斷。同時考慮揚州地域性,為避免漏檢,以Yangzhou或Yang zhou為地址查找,并加以刪選。揚州大學每年發表的論文被三大學術評價數據庫收錄情況見表1。
由表1可以看出,揚州大學被三大庫收錄論文數量呈總體增長趨勢,其中SCI由2000年的67篇上升到2010年的415篇,EI由2000年的30篇上升到2010年的443篇,ISTP由2000年的3篇上升到2010年的117篇。論文數量增長說明該校科研水平近年來有了顯著提高,科研生產力擴大,也證明了該校重視科學研究和加大科研獎勵政策取得了顯著成效。為便于直觀表達,圖1以折線圖顯示。
表1 2000-2010年三大庫收錄揚州大學論文數量
由圖1還可看出,揚州大學被三大庫收錄論文數量增幅各不相同,其中SCI基數大,且一直呈逐年穩定增長趨勢;EI增幅較大,但在2007-2009年出現了緩沖期,并且2009年相對于2008年有小幅下降,之后2010年出現了直線上升;ISTP基數小,在2000-2005年呈緩慢上升趨勢,2006-2010年有波動,但總的趨向于上升。
2 揚州大學三大庫收錄預測研究
為了解揚州大學在未來幾年被三大庫收錄情況的發展趨勢,本文嘗試建立學術科研發展預測模型。基于時系列數據的傾向線呈線性趨勢,我們采用二次指數平滑法來進行預測。
2.1 二次指數平滑法內容介紹
指數平滑法兼容了全期平均和移動平均所長,是一種重要的時間序列預測法,它的基本思想是先對原始數據進行處理,處理后的數據稱為“平滑值”,然后再根據平滑值經過計算構成預測模型,用于測取未來預測值。二次指數平滑法是在一次指數平滑的基礎上,再進行一次平滑處理,實質上是將歷史數據進行加權平均作為未來時刻的預測結果,它與一次指數平滑直接利用平滑值作為預測不同,此法用平滑值對時序的線性趨勢進行修正,建立線性平滑模型進行預測,具有抵御或減弱異常數據的功能。因此,它不但可用于短期預測,而且可用于中長期預測。
由表3可知,2011-2015年三大庫收錄揚州大學論文數量仍呈總體上升趨勢,其中EI增幅最大,年收錄量也最大;ISTP次之,年收錄量最小;SCI增幅最少,年收錄量居中,但遠大于ISTP收錄量,遜于EI。
3 討 論
3.1 注重檢索方法與檢索技巧
基礎數據的準確與否會影響預測的結果,單位集體成果的檢索因各個數據庫檢索字段不同而各異,如SCI、ISTP以“地址”或“address”為檢索入口,要查看通訊地址還需打開具體的檢索記錄;EI以“Author affiliation”為檢索入口。地址的著錄也是多種多樣,盡管揚州大學對校名英文名稱進行了規范,統一使用Yangzhou University或簡稱Yangzhou Univ,但還有少數老師使用其它稱呼,由此SCI、ISTP有“Yangzhou Univ”、“Yang Zhou Univ”、“Univ Yangzhou”等多種拼法,EI有“Yangzhou University”、“Yang Zhou University”、“Yangzhou Univ”、“Yangzhou Univ.”、“University of Yangzhou”、“Univ.of Yangzhou”等多種拼法。此外,數據庫還會發生著錄錯誤,如SCI、ISTP地址著成“Yangzhou Uni”、“Yanzhou Univ”、“Yongzhou Univ”、“Yanghzou Univ”、“Ynagzhou Univ”、“Yangzou Univ”、“Yangzhou Unif”等,EI地址著成“Yangzhou Uni”、“Yangzhou U”、“Yangzhu University”等,經過觀察,發現它們都有單獨的Yangzhou或Yang zhou存在。因此,工作人員需要掌握一定的檢索方法與檢索技巧,了解各數據庫的著錄規則,不斷積累經驗,提高業務水平。惟有如此,才能盡可能地避免漏檢。
3.2 注意加權系數α的取值
指數平滑實際上是一種以時間定權的加權平均,越近的數據加權系數也越大,越遠的數據加權系數越小,而加權系數α的取值體現了新觀察值與原平滑值之間的比例關系。一般根據實際數據序列的特點和經驗來考慮:(1)當時序列波動不大,長期趨勢比較穩定時,取α值較小為好,這樣可加重舊預測值的“權重”,α一般在0.05~0.2之間選取;(2)當時序列波動較大,具有迅速明顯的變動傾向時,α選取較大值為好,這樣可加重新預測值的“權重”,α一般在0.3~0.7之間選取。在一般情況下,必須針對不同的序列,分別選取幾個不同的α值加以試算比較,求得使平方和∑(Yt-t)2最小的α[3]。揚州大學近11年三大檢索系統論文收錄呈明顯增長趨勢,根據α的取值原則,α應在0.3~0.7之間選取。分別選取α為0.3、0.5或0.7時,發現α
0.7時,SCI、EI平方和
3.3 注意初始值的確定
指數平滑法有個特點,即新的指數平滑估算總是以前一個周期的估算值為起點,這樣就存在一個初始值S0(1)、S0(2)的問題。如果所求問題中,有明顯的初始值,那就用給定的初始值。如果原序列沒有明確的初始值,原則上這樣規定:(1)若時序列數較多時(如t≥50),或數據項數雖不很多但加權系數α較大時(t≥15,α≥0.3),因為要經過長期的平滑鏈才達到當前估計值或因各項加權系數衰退較快,所以初始值對于當前估算值的作用不大,可以取S0(1)
S0(2)
Y1[4];(2)若時序列數t<15時,可以選用最初3期的數據,用適當方法求平均數作為初始值[3]。本文以2000-2010年共11年作為時序列數,所以初始值取2000-2002年收錄SCI、EI、ISTP論文平均數,并假設S0(1)
S0(2)
1。
3.4 重視對預測模型的運用
查收查引工作對單位集體成果的檢索會有大量數據的獲取,對這些數據,工作人員可多視角、多思維、多窗口地進行統計分析,其中預測模型的建立是一種重要的分析方法。本文所用的二次指數平滑法是時間系列分析預測法之一,它還有多項式曲線法、指數曲線法、生長曲線法、移動平均法等其它方法,此外,回歸分析法也是一種重要的預測方法,它包括趨勢外推法、一元線性回歸分析法、多元線性回歸分析法、非線性回歸分析法[4]。每種方法有自己的優缺點和適用范圍,工作人員掌握這些方法可深層次地開展查收查引服務并為學校的教學科研服務。
參考文獻
[1]梁紅妮,胡小飛.論文查收查引服務的分析與探討[J].情報理論與實踐,2009,32(4):96-99.
[2]張根保,李玲,紀富義.基于成分數據動態指數平滑的用戶需求變化趨勢預測模型[J].統計與決策,2010,(14):32-35.
[3]孟勤憲,黃濤.二次指數平滑法的成都市餐廚垃圾產量預測[J].四川環境,2010,29(4):29-30,53.
[4]鄒志仁.情報研究與預測[M].南京:南京大學出版社,1990:4,300.