〔摘 要〕為了模擬方志類文獻老化過程,本文對幾種常見文獻老化模型進行了比較,并結(jié)合志鑒類文獻實際情況,最終在莫地列夫公式和丁學東公式的基礎(chǔ)上,提出新的老化模型——“丁—莫”修正式,并給出其回歸分析的具體解法。
〔關(guān)鍵詞〕半衰期;B-K方程;丁學東方程;回歸分析;復雜性
DOI:10.3969/j.issn.1008-0821.2011.11.012
〔中圖分類號〕G250.1 〔文獻標識碼〕A 〔文章編號〕1008-0821(2011)11-0051-03
The Modification of Obsolescence Models of Regional DocumentsLv Weiwei
(Lecturer of Jiangsu Radio and Television University,Nanjing 210013,China)
〔Abstract〕This article is intended to simulate obsolescence of regional documents.By comparing several common literature aging models,combined with the actual situation of regional documents,this article proposed a new obsolescence model——“D-M”modified equation,which was based on Мотылев equation and Ding Xuedong equation,and gives out the specific solution of the regression analysis.
〔Key words〕half-life period;B-K equation;Ding Xuedong equation;regression analysis;complexity
文獻老化問題是文獻計量學的重要課題,方志類作為一種綜合性的百科全書,不僅包含著大量社會科學方面的信息,而且也蘊藏著豐富的自然科學信息[1]。研究并模擬志鑒類文獻老化需要選擇適當?shù)臄?shù)學模型。
1 文獻老化的含義與半衰期的概念
1.1 文獻老化的含義
①文獻內(nèi)含科學知識仍然有用,此時已被包含在新的文獻中;②人們對文獻中的知識興趣下降;③被后來的文獻內(nèi)容代替(超越);④完成其使命,已完全無用[2]。
1.2 文獻半衰期的概念
美國學者貝爾納(J.D.Bemal)1958年提出文獻半衰期的概念。其定義:現(xiàn)時正在被使用的某學科文獻中50%的出版年限。若計算出某一學科領(lǐng)域的文獻半衰期為10年,即意味著現(xiàn)有正在被使用的該學科文獻中,50%是在10年內(nèi)發(fā)表的[3]。
2 文獻老化的主要數(shù)學模型及初步分析
2.1 文獻老化的主要數(shù)學模型
共時法有美國學者巴爾頓—凱普勒(B-K)方程(式1)。蘇聯(lián)學者莫德列夫的修正式(式2)、北京大學丁學東的級數(shù)修正(式3)一般取i=3或4即可。北京師范大學的靖培棟、劉忠厚的改進(式4),其中x表示被引文獻的出版年齡,以10年為單位1,y表示被引用文獻累計百分數(shù);
Y=1-(a/ex+b/e2x),?且a+b=1(1)
y=1-aex-0.1+be2x-0.2,?且a+b=1(2)
y=1-∑ni=1aie-ix且∑ni=1ai=1 i=1,2,3,Λ,n(3)
y=1-aeαx+be2αx α為文獻的老化率(通常被看作常數(shù))(4)
及歷時法主要有負指數(shù)曲線模型(式5)等[4]。
G(t)=ke-at(5)
G(t)是發(fā)表了t年的文獻的引用頻次;k是常數(shù),隨學科不同而異;a是老化率。
2.2 老化模型初步對比分析
首先共時法觀察結(jié)果具有穩(wěn)定性、均值性;歷時法觀察具有針對性。在泛談某學科文獻的老化時應(yīng)采用共時法;而針對某學科某年文獻的老化時應(yīng)采用歷時法。共時觀察數(shù)據(jù)收集簡單易行并且共時法比歷時法受老化因子影響小[5]。歷時法模型不能用于描述引文年代分布[6]。
其次用公式(5)來描述文獻老化規(guī)律存在著明顯不足之處,因為文獻老化是由多種因素組合形成,用負指數(shù)模型描述文獻老化,宏觀上大致適應(yīng),微觀上不適應(yīng),文獻利用狀況變化并非完全服從單一負指數(shù)分布規(guī)律[7]。
因此本文選擇共時法模型。從B-K方程和Мотылев修正式的表達形式看,二者的差別僅在于公式中e的指數(shù)上,x相差0.1,即二者在引文年齡上的取值相差1年。但在實際統(tǒng)計分析中莫式與實測結(jié)果更接近,特別是利用物理學和數(shù)學領(lǐng)域的兩組數(shù)據(jù),采用χ2檢驗方法對公式進行了驗證,結(jié)果表明公式(2)與實際數(shù)據(jù)擬合得非常好[3]。因此在(式3)(式4)更為復雜的情況下,首先選用(式2)。
3 莫地列夫修正式計算方志類文獻的老化參數(shù)
3.1 莫地列夫修正式的參數(shù)求解式
在所有老化模型中,莫地列夫修正式相對較成熟,被使用的頻率也最多。
具體求解方法是:
a=e1.8(1-yx)-1e0.9-1=3.4596-4.1447yx,?b=1-a
式中:yx是過去10年內(nèi)出版的實測被引文獻(累積)相對比率。
文獻老化半衰期:
x0.5=10lna+a2-2(a-1)+0.1
3.2 方志類文獻引用資料分析
根據(jù)方志類7種期刊在2008年引用文獻的統(tǒng)計[8],得到自2007-1993年累計引用文獻比率。7種期刊包括:年鑒信息與研究、中國地方志、江蘇地方志、廣西地方志、新疆地方志、廣東史志、黑龍江史志。
統(tǒng)計結(jié)果表明方志類文獻被引用頻率開始隨年齡增加而變大,在期刊出版年齡3~6年為高峰,以后逐漸下降。這完全符合一般文獻資料被引用頻率變化的基本特征。
根據(jù)普賴斯指數(shù)=近五年的被引用的文獻數(shù)量÷被引用的文獻總量×100%,表1數(shù)據(jù)表明方志類文獻的普賴斯指數(shù)為0.445,雖然不符合檔案性文獻為22%~39%區(qū)間,但與社會科學為40%~45%極其吻合[3],說明現(xiàn)代史鑒期刊上刊登的文章以社會科學為主,即以現(xiàn)代的人文理念來分析研究史志。
3.3 計算結(jié)果及分析
用莫地列夫修正式及表1計算得:a=0.2,b=0.8,x0.5=4.924,文獻被引用累計百分率的理論值按表2所示。
現(xiàn)在,重要計算數(shù)值半衰期的理論值小于5年,這與實際有明顯差距,反映了實際老化過程的復雜性和數(shù)學模擬的困難性。
實際數(shù)據(jù)反映的文獻被引用頻率變化是由多方面原因造成,除了本身的內(nèi)在規(guī)律性;還受其它學科的影響;不同時期對人物和事件的不同評價。雖然[9-10]提出文獻引用累計百分比變化規(guī)律按“有現(xiàn)時作用”的文獻和“檔案性”文獻的兩類。并且分別是按e-x、e-2x兩種方式;前一種的速度是后一種的兩倍。實際文獻老化過程遠比想象復雜,如兩方式中要求a與b均大于零,實際中b小于零也是存在的[11],因為方志類文獻老化有太多不確定的因素,所以需要采用的更復雜的數(shù)學模型。
4 丁學東文獻老化數(shù)學模型解析
在尋找新的老化模型代替莫式時,先看(4)式,如用回歸分析求解參數(shù),因為它是非線性回歸模型,不能經(jīng)過變量替換將它轉(zhuǎn)化為線性回歸模型[12],所以計算很困難,一般采用較少。故改用(3)式丁學東文獻老化數(shù)學模型y=1-a1e-x-a2e-2x-a3e-3x
在此筆者給出適合excel的解法(參考了[13])
設(shè)t=ex,因為a3=1-a1-a2,則有y=1-a1(t-t3)-a2(t2-t3)-t3
令Y=y+1+t3,X1=t3-t,X2=t3-t2
得:Y=a1X1+a2X2
需要說明回歸方程和實際模型之間存在隨機誤差項ε,變量替換并不影響所以可化為二元線性回歸,根據(jù)多元線性回歸分析理論
設(shè)Q=∑ni=1(Yi-α1Xi1-a2Xi2)2,
要Q達到最小,取對Q分別對a1、a2求偏導,并令它們等于零,得
Qa1=2∑ni=1(Y-a1Xi1-a2Xi2)Xi1=0,
Qa2=2∑ni=1(Y-a1Xi1-a2Xi2)Xi2=0
則有 a1∑X2i1+a2∑Xi1Xi2=∑YiXi1
a1∑Xi1Xi2+a2∑X2i2=∑YiXi2
解得:a1=∑Yi1Xi1∑X2i2-∑YiXi2∑Xi1Xi2∑X2i1∑X2i2-∑Xi1∑Xi22,
a2=∑Yi1Xi2∑X2i1-∑YiXi1∑Xi1Xi2∑X2i1∑X2i2-∑Xi1∑Xi22,
為了求得半衰期的值取y=0.5,則
a1t+a2t2+a3t3-0.5=0
此時有多種求解方法,如Basic語言電算方法[14],三角函數(shù)法等,最簡單方法的是:根據(jù)實測被引用文獻累計百分數(shù),用電子表格excel,在半衰期估值左右做數(shù)值逼迫的方法。
現(xiàn)由表1數(shù)據(jù),求得a=-0.58878,b=3.95194,c=-2.36316,半衰減周期x0.5=0.574年
文獻被引用累計百分率的理論值按表2所示,雖然理論值較莫式有很大改進,特別是半衰期基本符合實際情況;但是x較大時,y值明顯與實際情況差距較大,多個數(shù)值大于1,顯然需要對丁式再進行改進。
5 一個新的改進模型——“丁—莫”模型
筆者提出一種新的老化模型,取名為B-K方程的“丁—莫”修正式,簡稱“丁—莫”模型。
即:y=1-a1e-x-0.1-a2e-2x-0.2-a3e-3x-0.3(6)
在計算中只需設(shè)t=e-(x-0.1),即在x值上減0.1,其余求解過程與丁式相同。這里將丁式的多項性與莫式的延時性結(jié)合在一起,并可用電子表格非常簡便的進行回歸分析,建立老化模型。
由此求得:a=-0.4192,b=2.7684,c=-1.3492,半衰減周期x0.5=0.559年
文獻被引用累計百分率的理論值按表2所示:
顯著性檢驗:多元線性回歸關(guān)系的顯著性檢驗,可用F檢驗方法。可用t檢驗方法。及相關(guān)系數(shù)法,這里需要注意的是應(yīng)逐一對各偏回歸系數(shù)進行顯著性檢驗[15]。由于篇幅有限不再詳述,現(xiàn)只通過χ2檢驗[11]來校驗理論計算值與實際統(tǒng)計值之間的差別。分別按3個修正式給出理論值數(shù)據(jù)(表2)來進行計算:
(第一個為零不統(tǒng)計),yi是累計引用比率的實際值,n為總頻次1 018;m為自由度=20。
查表得α0.05(20)=31.410,17.3778<α0.05(20),P>0.05
雖然丁式比莫式的有較大進步,但只有“丁—莫”式很好的滿足顯著性檢驗;同時通過下面老化曲線實測與回歸計算值對比圖,看出丁—莫式比其它兩式更接近于實際觀察值。
圖1 老化曲線實測與回歸計算值對比圖1.虛線:實測線 2.莫地列夫理論值曲線3.丁學成理論值曲線 4.丁—莫理論值曲線
5 結(jié)束語
本文從莫地列夫(Μοтыев) 修正式到丁學東修正式,再到兩者結(jié)合的丁—莫修正式的過程,說明了尋找方志類文獻老化模型的艱難。
文獻老化現(xiàn)象是一個十分復雜的問題。甚至有的文獻并不一定隨其年齡的增長而逐漸失去使用價值。在社會科學領(lǐng)域內(nèi)常出現(xiàn)文獻越老越有價值。對于老化本質(zhì)和機制,還沒有普遍可以接受的解釋。也就是說,關(guān)于文獻老化的影響因素及信息是不完備的,人們只是憑某種邏輯推理、概念、觀點來建立其模型[16]。
本文的寫作試圖探索文獻老化其中的規(guī)律。參考文獻
[1]劉慶華,陳賢瑛.方志文獻資源開發(fā)利用探索[J].圖書情報工作,1997,(1):39.
[2]李德躍.中文圖書采訪工作手冊[M].北京:北京圖書館出版社,2004,4:13.
[3]羅式勝,范并思,吳永臻.文獻計量學概論[M].廣州:中山大學出版社,1994,4 :89-93.
[4]危志明.文獻老化新模型探討[J].情報理論與實踐,2009,(2):43-44.
[5]王宏鑫,陶治,余梅,等.文獻老化的共時與歷時觀察比較研究[J].信陽師范學院學報:自然科學版,1999,(4):488.
[6]王宏鑫,謝海修.文獻老化與引文年代分布模型的研究[J].情報理論與實踐,1996,(5):21.
[7]鄭修麗.科技文獻老化的數(shù)學模型[J].情報雜志,1999,(7):76.
[8]趙峰,顧海英,姚雪桃.志鑒類學術(shù)期刊資源及其影響力分析[J].中國地方志,2009,(8):55.
[9]韋秀先.文獻老化B-K方程機理分析[J].情報雜志,2005,(4):14-15.
[10]李正吾.文獻老化B-K方程分析[J].情報科學,1999,(7):430-431.
[11]李霄.材料科學文獻半衰期研究[J].武漢理工大學學報,2009,(1):154-155.
[12]盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計[M].北京:高等教育出版社,2008,6:2 57.
[13]包月英,朱振中.文獻老化B-K方程的計量學方法[J].江南大學學報:自然科學版,2003,(12):646.
[14]侯文林.一元三次方程的公式解法與電算程序[J].新鄉(xiāng)師專學報:自然科學版,1998,(1):10-12.
[15]靳庭良,張寶青.回歸分析中t檢驗與F檢驗關(guān)系的進一步探討[J].統(tǒng)計與決策,2009,(21):7-9.
[16]王宏鑫,雷振玲.關(guān)于文獻老化GM模型的幾點注記——答胡瑋同志[J].圖書情報工作,1998,(9):58.