摘 要:利用布魯克斯(Brookes)圖形法統計獼猴桃專業核心期刊時,由于獼猴桃專業屬于農業類的狹窄專業,可采用的期刊實體樣本空間狹小,因而會產生較大的系統誤差,而在實際統計中,期刊實體增量十分有限,即短期內通常不會有大量的新增實體樣本出現。本研究通過β圖形輔助分析法得到了可靠的獼猴桃專業核心期刊布魯克斯圖形分界點,并利用這一分界點逆推得到布魯克斯圖形法誤差修正系數。
關鍵詞:獼猴桃專業;核心期刊;β圖形;布魯克斯;修正系數
中圖分類號:O243文獻標識號:A文章編號:1001-4942(2010)02-0089-06
文獻統計研究是布拉德福(Bradford)文獻分散定律產生和發展的基礎[1],該定律自20世紀30年代發布以來,已在多個領域的多個學科得到了實際檢驗以及后人的不斷發展和完善。最重要的是布魯克斯對它的發展,其分段函數式對布拉德福曲線給予了更加全面和準確地描述[2],并發展了圖形法,在文獻計量學理論和應用方面都占有極其重要的地位,專業核心期刊的統計就是其中的一項重要功能。從目前已發表的s值數據[3]來看,布魯克斯圖形法大多應用于專業范圍較為寬泛的學科。s是標度學科專業范圍大小的指標,一般隨專業范圍的擴大而擴大,s≤1說明專業范圍非常窄[3]。獼猴桃專業是典型的狹窄專業,但本研究發現,其s值大于1,為1.75,不具備非常窄專業的特征,從所采用數據樣本來看,處于1994~2004年,其間經歷了一個產業發展膨脹階段,期刊載文數量也會產生相應的膨脹,但獼猴桃專業特征并沒有產生持續的變化,短期膨脹后,仍要回歸狹窄專業特征。在這種情況下,如果簡單套用布魯克斯圖形法,很難得到合理的計算結果,會產生很大的系統誤差[8]。筆者進行該類研究時,在布魯克斯圖形法的基礎上,采用了β圖形[8,9],即以布魯克斯原模型為基礎,按其β值繪制曲線,然后利用該曲線上的合理分界點作為參考點,來獲得誤差變化規律的曲線,從而得到布魯克斯圖形法誤差修正系數x,以達到有效克服誤差目的。在目前國內發表的專業文獻中,已有多篇論文[4~7]獲得了該方法的支持并得到了合理的計算結果。本成果始于對杏專業布魯克斯誤差的研究,并已在多個果樹專業中進行了驗證研究,均取得了良好的結果,以獼猴桃專業為采樣數據的該類研究目前尚未見報道。
1 模型與定義
模型:公式1被稱為布魯克斯公式。
R(n)=αnβ(1≤n≤C) ①kln(n/s)(C≤n≤N) ②(公式1)
式中,s是一個與N成正比的參數,同時與C呈正相關。α=R(1),表示等級為1的期刊載文量,即載文量最多的期刊的載文量。C為核心區期刊數。β為小于1的參數,是布魯克斯圖形曲線部分的曲率,與核心區期刊數量相關。k為布魯克斯圖形中直線部分的斜率。N為期刊總數,n為期刊按載文量遞減順序排列的排列序號[3],即期刊累計數。
在研究杏專業載文核心期刊的統計誤差[8]時,已在該公式和與之對應的圖形法的基礎上給出了4個定義,同樣適用于對獼猴桃專業載文核心期刊的統計進行誤差分析與修正研究。
定義1:β圖形——以布魯克斯圖形各點的β值為橫軸,以期刊累計數n為縱軸制作的曲線。又稱為β曲線。
定義2:合理分界點T——在β圖形中,曲率勻加速變化的線段與曲率趨向常數的線段之交點。
定義3:不合理分界點C——在布魯克斯圖形中,如果分界點C不對應于β圖形中的T點,則C為不合理分界點。
定義4:布魯克斯圖形法修正系數x——在系統誤差修正過程中對實體樣本空間的最佳虛擬變換倍數。
2 數據與圖形分析
2.1 數據采用與處理
表1是一組有關中國獼猴桃專業論文的統計數據[4],其原始數據來源于中國期刊全文數據庫和中文科技期刊全文數據庫,這兩個數據庫幾乎涵蓋了國內所有的農業科技期刊。為便于數據引用和計算,將原創數據表中的常用對數值改為“期刊累計數自然對數值(lnn)”,表中引用的其它原始數據不變。根據該表中的數據在笛卡爾坐標紙上描圖1,即為布魯克斯圖形,其分界點為C,由該點的橫坐標可以求得布魯克斯值n,即核心期刊值。
2.2 β圖形的制作與應用
在布魯克斯圖形法的基礎上研究對其β值的進一步應用。由兩段數學式(公式1)所得的布魯克斯圖形具有連續性,依此,β亦具連續性,因而在應用中可通過求取該圖形曲線上各點的β值并作圖,判斷布魯克斯圖形中直觀獲取的分界點的合理性,即圖1中C點的合理性。布魯克斯圖形法是利用分界點上的縱橫坐標值來求取核心期刊的值n,本研究就是要修正該點的計算結果。
分析發現,利用布魯克斯圖形法計算狹窄專業的核心期刊時,其圖形分界點位置的判斷會存在較大的誤差,因而,需對分界點的準確位置作進一步的分析,以便找到縮小這類誤差途徑,即從圖1中第一個統計點開始,假設其后的每一個描點都是一個分界點(同時滿足公式1①和公式1②條件的點),這樣就可針對每一個實際描點利用公式1①逐一計算其曲率β,并制作曲線,即定義中的“β圖形”。利用指數與對數法則將公式1①轉換為公式2:
β=logR(n)R(1)n=lgR(n)R(1)lgn=lgR(n)-lgR(1)lgn=lgR(n)-lg89lgn(公式2)
將表1中各已知量代入公式2,得到對應的β值(表2)。分別以n值和β值為縱橫坐標描圖2。β圖形更加直觀和清晰,容易找出β值趨于一致的線段邊際,因而能夠更加準確地發現合理分界點的影射點,最大限度地避免僅僅依靠圖1來確定分界點所帶來的系統誤差。
圖2 獼猴桃專業文獻的β曲線
2.3 圖形對比與誤差分析
在研究杏[8]、山楂[9]、棗、核桃等狹窄專業的分界點時,發現如下規律:一是當專業發展比較穩定時,布魯克斯圖形的分界點位于β圖形中勻加速變化階段的線段上,此時可以確定該線段上方的端點即為合理分界點;二是當專業發展急劇膨脹時,布魯克斯圖形的分界點位于β圖形中勻加速變化階段的線段頂端或頂端以外趨向于垂直于橫軸的射線上的近端點處,此時的分界點應視布魯克斯圖形曲線部分的狀況而定。以上兩種情況的β圖形均存在一條由多個統計點構成的規則斜線,即β值勻加速變化的線段。而對發展一直較為平穩的專業突然出現急劇萎縮的情況尚沒有典型實例可供研究。獼猴桃專業在統計期間也出現了膨脹式發展情況,如2001年前,浙江省江山市大力發展獼猴桃生產,到該年度收獲期,價格由年前的8元/kg直降到1.2元/kg[10],非主產區尚且如此,主產區的情況當然也同樣不堪。直觀上看,在圖2中存在著5個比較明顯的拐點,分別為B、D、T、E、F。B、D點對應于圖1靠近核心區的明顯的曲線部分,不予討論;T點明顯地處于勻加速變化線段的頂端,為核心區與發散區的分界點。E、F也是比較明顯的拐點,但它們是相鄰的兩個統計點,是由于專業發展不穩造成的,不具備分界點的條件。
在圖1中,布魯克斯圖形分界點為C,格魯斯下垂區為143 此處β<1,說明所采用的數據符合布魯克斯公式的條件要求,而該點在圖2中的影射點為C’, 顯然,C’已大大超出了β勻加速變化區(DT線段),進入了文獻發散區,這就難以判斷C’是否是合理分界點。從圖1來看,從第9描點T’(對應于圖2的T點)到C點,已完全表現為一條規則的直線,其趨勢線T’H與其完全重合,而規則的布魯克斯直線部分則為CI,T’H與CI存在的剪刀差也正反映了本專業的發展出現過比較大的波動并在C點表現出來,由此可見,合理分界點應處于C點的下方,C則是“不合理分界點”。而圖2中10.60≤n≤45.00范圍內則是一條趨向垂直于橫軸的直線,這在杏專業等核心期刊的誤差研究中也得到了證實,因此,可以判定此范圍對應于圖1的直線部分,至此,可將圖2中的曲率分界點T判定為“合理分界點”,該點有nβ=10.60≈11,從而確認了T點的縱坐標10.60即為核心期刊值,這與區域法[4~7]所獲得的結果相符[4]。這樣便可以通過公式計算找到傳統布魯克斯圖形對應于T點的真實分界點,從而對布魯克斯圖形給出的結果進行修正。在圖1中,核心區與發散區的分界點除作圖與判定誤差外,對照區域法[4]計算結果,利用這一分界點所產生的系統誤差則更大,是誤差的主要因素。經試驗證明,在該點通過對s值進行變換可以有效縮小對核心期刊統計的系統誤差,由于N與s成正比[3],其數學意義是對實體樣本空間進行了變換,這種變換是以β圖形中T點為依據的。 下面給出了兩種情況下的相對誤差: (1)假設樣本空間足夠大,則k≈N[3]=318,C點有R(26)=728,由圖1讀取s=1.75,由公式1②對其進行布魯克斯求值得n=17.27,而該點實際的期刊數nc=26.00(表2),其相對誤差Δnc=|nc-n|=|26.00-17.27|=8.73,相對誤差率為Δnc/nc=33.58%。 (2)圖上讀取相對誤差:由圖1讀取C點的lnn=3.26,則n=26,二者進行比較后發現,Δn =|nβ-n|=|10.60-26|=15.40,相對誤差率為Δn/nβ=145.28%。 第一種情況表明,對于該實例k≈N是不成立的,即N并不是足夠大;第二種情況則顯示了兩個圖形讀取值的差別,兩種情況下的Δn值實際上都已遠遠超出了誤差涵義,顯示了布魯克斯模型在這個專業的應用中其傳統的使用方法存在著缺陷,而出自同一模型的β圖形中T點的結果則表明布魯克斯公式本身并不存在這樣缺陷,僅有作圖及判斷誤差。這看起來似乎是矛盾的,實質上這正說明在兩段數學表達式中不同的段代表著不同的含義,這種顯著的差異也正是在狹窄專業中段的使用不合理所造成的,從而使得修正原先的布魯克斯模型使用方法有了依據。由于誤差是系統性的,因而誤差修正應基于公式的計算結果。 3 獼猴桃核心期刊的計算與誤差修正 3.1 k值的求取 s是標度學科專業范圍大小的指標,一般隨專業范圍的擴大而擴大[3],在圖1中,沿直線作延長線交于橫軸A點,A點所對應的自然對數值即為s,這里讀取s=lnA=1.75,在誤差修正過程中,一經讀取就一直假設該值沒有作圖誤差,是直線在橫軸上的截距(平移量)。 k值即布魯克斯圖形中直線部分的斜率,由于誤差因素,不能以任意描點的縱橫比來求取,而應求取直線部分的每個描點的實際值,爾后再取其平均值,這樣會最大限度地縮小計算誤差與作圖誤差。直觀上看,圖1中的第15描點C是分界點,即k值的計算從第15描點開始,到格魯斯下垂的分界點為止。由直線方程式R(n)=k(lnn-s)求取直線部分各描點的k值,列表3。k的平均值為: 3.2 n值相對誤差分析 當期刊總數N充分大時,N≈k[3],而目前的N=318 也正是對實體樣本空間進行變換。設x為s值的倍數,將各值和s=xlnA代入公式1得: R(26)=89n0.927 (1≤n≤26) ①ln(n/xlnA) (26≤n≤318)②(公式3) 其中,x即為布魯克斯圖形法修正系數,該系數用于在布魯克斯模型的基礎上,對狹窄專業核心期刊的統計結果進行修正。由于公式3①所對應的圖形是布魯克斯的曲線部分,正常情況下合理分界點應是右邊的端點,因此,計算只要使用公式3②即可,也就是從不合理分界點C開始,按n的順序進行。表4列出了通過公式3②計算得到的部分布魯克斯n值,s取0.80~1.90倍,對合理分界點的相對誤差為:δ=│nβ-n│=│10.60-n│,利用這一公式所獲得的最小誤差值所對應的n值就是逆向推理的依據,即利用β圖形所獲得的結果確定公式1中n的結果,再利用這個結果反向求取該方程式的一個因子x,這個x必須對應于最小的δ。加入這一因子后,使布魯克斯公式可以直接在獼猴桃這個狹窄專業中應用而不致產生錯誤。適當加密x值描點作圖3。 由表4和圖3可以看出,在計算和作圖誤差范圍內,當獼猴桃專業載文期刊樣本空間擴大為實體樣本空間的1.27倍(x=1.27)時,所產生的相對誤差最小,為0.02246。 3.3 修正系數的應用將x=1.27代入公式3②進行應用計算,即可將核心期刊數n修正到nβ,即: lnn=R(26)+lns=R(26)+ln(xlnA)=728466.63+ln(1.27×1.75)=2.3588 得此時獼猴桃專業核心期刊數為n=10.58≈11,這樣計算與區域法[4~7]所獲得的結果相符[4]。 4 結論 本文通過對獼猴桃專業載文核心期刊統計實例的研究,獲得了β圖形輔助分析法并逆推獲得了該專業布魯克斯圖形法修正系數x。從統計結束日開始,今后相當長的一段時間內,由于獼猴桃專業載文實體期刊樣本的增量極其微小,因而在該時間區段內可將x視為一個常數使用,這為類似專業的應用計算提供了新的量化依據。同時也顯示了β圖形、合理分界點T、不合理分界點C和布魯克斯圖形法修正系數x這4個定義的必要性,可以將其推廣到其它狹窄專業載文核心期刊的統計中去。本研究成果已為多篇文獻[4~7]的發表提供了支持,并得到了理想的統計結果,這些結果都得到了區域法的驗證。本研究并不涉及布魯克斯模型本身是否存在缺陷問題,而只是研究了該模型在獼猴桃這個狹窄專業載文核心期刊的統計中,其傳統的使用方法因段的使用不合理所產生的問題,并給出了彌補的有效方法。這一實例研究進一步證明了同一模型應用于同一專業,因計算作圖方法不同,其結果卻存在顯著差異的特征。 參 考 文 獻: [1] 邱均平.信息計量學[M]. 武漢:武漢大學出版社,2000,315-316. [2] Brookes B C.Bradford’s law and the Bibliography of Science[J].Nature,1969,224:953-956. [3] 龐景安. 科學計量研究方法論[M]. 北京:科學技術文獻出版社, 2002,168-173. [4] 張 毅,孫玉剛. 1994~2002年獼猴桃專業研究文獻計量分析[J]. 中國農學通報, 2007,23(2):419-421. [5] 張 毅,杜方嶺. 1994~2002年杏專業研究文獻計量分析[J]. 農業圖書情報學刊,2005,17(5):153-158. [6] 張 毅.1994~2002年山楂研究文獻計量分析[J]. 農業圖書情報學刊,2004, 15(1):94-96. [7] 杜方嶺,張 毅. 1994~2002年核桃專業研究文獻計量分析[J]. 農業圖書情報學刊,2005, 17(4):143-147. [8] 孫洪雁,蘇勝茂,王金政. 杏專業載文核心期刊布魯克斯誤差分析與修正[J]. 山東農業大學學報,2009,40(4):609-614. [9] 孫洪雁, 馬 青. 山楂專業載文核心期刊布魯克斯誤差分析與修正[J].圖書情報工作,2009,53(18):66-69,95. [10]許 群,顧大煒. 浙江省江山市發展特色農產品的思考[N]. 人民日報海外版,2001-11-05(5).