方志類文獻老化模型修正研究

2011-12-31 00:00:00呂慰慰

現代情報 2011年11期

〔摘要〕為了模擬方志類文獻老化過程，本文對幾種常見文獻老化模型進行了比較，并結合志鑒類文獻實際情況，最終在莫地列夫公式和丁學東公式的基礎上，提出新的老化模型——“丁—莫”修正式，并給出其回歸分析的具體解法。

〔關鍵詞〕半衰期；B-K方程；丁學東方程；回歸分析；復雜性

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０１１．１１．０１２

〔中圖分類號〕Ｇ２５０.１〔文獻標識碼〕Ａ〔文章編號〕１００８－０８２１（２０１１）１１－００５１－０３

The Modification of Obsolescence Models of Regional DocumentsLv Weiwei

（Lecturer of Jiangsu Radio and Television University，Nanjing 210013，China）

〔Ａｂｓｔｒａｃｔ〕This article is intended to simulate obsolescence of regional documents.By comparing several common literature aging models，combined with the actual situation of regional documents，this article proposed a new obsolescence model——“D-M”modified equation，which was based on Мотылев equation and Ding Xuedong equation，and gives out the specific solution of the regression analysis.

〔Ｋｅｙｗｏｒｄｓ〕half-life period;B-K equation;Ding Xuedong equation;regression analysis;complexity

文獻老化問題是文獻計量學的重要課題，方志類作為一種綜合性的百科全書，不僅包含著大量社會科學方面的信息，而且也蘊藏著豐富的自然科學信息［１］。研究并模擬志鑒類文獻老化需要選擇適當的數學模型。

１文獻老化的含義與半衰期的概念

１.１文獻老化的含義

①文獻內含科學知識仍然有用，此時已被包含在新的文獻中；②人們對文獻中的知識興趣下降；③被后來的文獻內容代替(超越)；④完成其使命，已完全無用［２］。

１.２文獻半衰期的概念

美國學者貝爾納(J.D.Bemal)1958年提出文獻半衰期的概念。其定義：現時正在被使用的某學科文獻中50％的出版年限。若計算出某一學科領域的文獻半衰期為10年，即意味著現有正在被使用的該學科文獻中，50％是在10年內發表的［３］。

２文獻老化的主要數學模型及初步分析

２.１文獻老化的主要數學模型

共時法有美國學者巴爾頓—凱普勒(B-K)方程（式1）。蘇聯學者莫德列夫的修正式（式2）、北京大學丁學東的級數修正（式3）一般取i=3或4即可。北京師范大學的靖培棟、劉忠厚的改進（式4），其中x表示被引文獻的出版年齡，以10年為單位1，y表示被引用文獻累計百分數；

Ｙ＝１－（ａ／ｅｘ＋ｂ／ｅ２ｘ），?且ａ＋ｂ＝１（1）

ｙ＝１－ａｅｘ－０.１＋ｂｅ２ｘ－０.２，?且ａ＋ｂ＝１（2）

ｙ＝１－∑ｎｉ＝１ａｉｅ－ｉｘ且∑ｎｉ＝１ａｉ＝１ｉ＝１，２，３，Λ，ｎ（3）

ｙ＝１－ａｅαｘ＋ｂｅ２αｘ α為文獻的老化率（通常被看作常數）（4）

及歷時法主要有負指數曲線模型（式5）等［４］。

Ｇ（ｔ）＝ｋｅ－ａｔ（5）

Ｇ（ｔ）是發表了ｔ年的文獻的引用頻次；ｋ是常數，隨學科不同而異；ａ是老化率。

２.２老化模型初步對比分析

首先共時法觀察結果具有穩定性、均值性；歷時法觀察具有針對性。在泛談某學科文獻的老化時應采用共時法；而針對某學科某年文獻的老化時應采用歷時法。共時觀察數據收集簡單易行并且共時法比歷時法受老化因子影響?。郏担荨v時法模型不能用于描述引文年代分布［６］。

其次用公式（5）來描述文獻老化規律存在著明顯不足之處，因為文獻老化是由多種因素組合形成，用負指數模型描述文獻老化，宏觀上大致適應，微觀上不適應，文獻利用狀況變化并非完全服從單一負指數分布規律［７］。

因此本文選擇共時法模型。從B-K方程和Мотылев修正式的表達形式看，二者的差別僅在于公式中e的指數上，x相差0.1，即二者在引文年齡上的取值相差1年。但在實際統計分析中莫式與實測結果更接近，特別是利用物理學和數學領域的兩組數據，采用χ２檢驗方法對公式進行了驗證，結果表明公式（2）與實際數據擬合得非常好［３］。因此在（式3）（式4）更為復雜的情況下，首先選用（式2）。

３莫地列夫修正式計算方志類文獻的老化參數

３.１莫地列夫修正式的參數求解式

在所有老化模型中，莫地列夫修正式相對較成熟，被使用的頻率也最多。

具體求解方法是：

ａ＝ｅ１.８（１－ｙｘ）－１ｅ０.９－１＝３.４５９６－４.１４４７ｙｘ，?ｂ＝１－ａ

式中：ｙｘ是過去10年內出版的實測被引文獻(累積)相對比率。

文獻老化半衰期：

ｘ０.５＝１０ｌｎａ＋ａ２－２（ａ－１）＋０.１

３.２方志類文獻引用資料分析

根據方志類7種期刊在2008年引用文獻的統計［８］，得到自2007-1993年累計引用文獻比率。7種期刊包括：年鑒信息與研究、中國地方志、江蘇地方志、廣西地方志、新疆地方志、廣東史志、黑龍江史志。

統計結果表明方志類文獻被引用頻率開始隨年齡增加而變大，在期刊出版年齡3～6年為高峰，以后逐漸下降。這完全符合一般文獻資料被引用頻率變化的基本特征。

根據普賴斯指數＝近五年的被引用的文獻數量÷被引用的文獻總量×100%，表１數據表明方志類文獻的普賴斯指數為0.445，雖然不符合檔案性文獻為22%～39%區間，但與社會科學為40%～45%極其吻合［３］，說明現代史鑒期刊上刊登的文章以社會科學為主，即以現代的人文理念來分析研究史志。

３.３計算結果及分析

用莫地列夫修正式及表１計算得：ａ＝０.２，ｂ＝０.８，ｘ０.５＝４.９２４，文獻被引用累計百分率的理論值按表２所示。

現在，重要計算數值半衰期的理論值小于5年，這與實際有明顯差距，反映了實際老化過程的復雜性和數學模擬的困難性。

實際數據反映的文獻被引用頻率變化是由多方面原因造成，除了本身的內在規律性；還受其它學科的影響；不同時期對人物和事件的不同評價。雖然［９－１０］提出文獻引用累計百分比變化規律按“有現時作用”的文獻和“檔案性”文獻的兩類。并且分別是按ｅ－ｘ、ｅ－２ｘ兩種方式；前一種的速度是后一種的兩倍。實際文獻老化過程遠比想象復雜，如兩方式中要求a與b均大于零，實際中b小于零也是存在的［１１］，因為方志類文獻老化有太多不確定的因素，所以需要采用的更復雜的數學模型。

４丁學東文獻老化數學模型解析

在尋找新的老化模型代替莫式時，先看（4）式，如用回歸分析求解參數，因為它是非線性回歸模型，不能經過變量替換將它轉化為線性回歸模型［１２］，所以計算很困難，一般采用較少。故改用（3）式丁學東文獻老化數學模型ｙ＝１－ａ１ｅ－ｘ－ａ２ｅ－２ｘ－ａ３ｅ－３ｘ

在此筆者給出適合excel的解法（參考了［１３］）

設ｔ＝ｅｘ，因為ａ３＝１－ａ１－ａ２，則有ｙ＝１－ａ１（ｔ－ｔ３）－ａ２（ｔ２－ｔ３）－ｔ３

令Ｙ＝ｙ＋１＋ｔ３，Ｘ１＝ｔ３－ｔ，Ｘ２＝ｔ３－ｔ２

得：Ｙ＝ａ１Ｘ１＋ａ２Ｘ２

需要說明回歸方程和實際模型之間存在隨機誤差項ε，變量替換并不影響所以可化為二元線性回歸，根據多元線性回歸分析理論

設Ｑ＝∑ｎｉ＝１（Ｙｉ－α１Ｘｉ１－ａ２Ｘｉ２）２，

要Q達到最小，取對Q分別對ａ１、ａ２求偏導，并令它們等于零，得

Ｑａ１＝２∑ｎｉ＝１（Ｙ－ａ１Ｘｉ１－ａ２Ｘｉ２）Ｘｉ１＝０，

Ｑａ２＝２∑ｎｉ＝１（Ｙ－ａ１Ｘｉ１－ａ２Ｘｉ２）Ｘｉ２＝０

則有ａ１∑Ｘ２ｉ１＋ａ２∑Ｘｉ１Ｘｉ２＝∑ＹｉＸｉ１

ａ１∑Ｘｉ１Ｘｉ２＋ａ２∑Ｘ２ｉ２＝∑ＹｉＸｉ２

解得：ａ１＝∑Ｙｉ１Ｘｉ１∑Ｘ２ｉ２－∑ＹｉＸｉ２∑Ｘｉ１Ｘｉ２∑Ｘ２ｉ１∑Ｘ２ｉ２－∑Ｘｉ１∑Ｘｉ２２，

ａ２＝∑Ｙｉ１Ｘｉ２∑Ｘ２ｉ１－∑ＹｉＸｉ１∑Ｘｉ１Ｘｉ２∑Ｘ２ｉ１∑Ｘ２ｉ２－∑Ｘｉ１∑Ｘｉ２２，

為了求得半衰期的值?。剑?５，則

ａ１ｔ＋ａ２ｔ２＋ａ３ｔ３－０.５＝０

此時有多種求解方法，如Basic語言電算方法［１４］，三角函數法等，最簡單方法的是：根據實測被引用文獻累計百分數，用電子表格excel，在半衰期估值左右做數值逼迫的方法。

現由表１數據，求得a=-0.58878，b=3.95194，c=-2.36316，半衰減周期ｘ０.５＝０.５７４年

文獻被引用累計百分率的理論值按表２所示，雖然理論值較莫式有很大改進，特別是半衰期基本符合實際情況；但是x較大時，y值明顯與實際情況差距較大，多個數值大于1，顯然需要對丁式再進行改進。

５一個新的改進模型——“丁—莫”模型

筆者提出一種新的老化模型，取名為B-K方程的“丁—莫”修正式，簡稱“丁—莫”模型。

即：ｙ＝１－ａ１ｅ－ｘ－０.１－ａ２ｅ－２ｘ－０.２－ａ３ｅ－３ｘ－０.３（6）

在計算中只需設ｔ＝ｅ－（ｘ－０.１），即在x值上減0.1，其余求解過程與丁式相同。這里將丁式的多項性與莫式的延時性結合在一起，并可用電子表格非常簡便的進行回歸分析，建立老化模型。

由此求得：a=-0.4192，b=2.7684，c=-1.3492，半衰減周期ｘ０.５＝０.５５９年

文獻被引用累計百分率的理論值按表２所示：

顯著性檢驗：多元線性回歸關系的顯著性檢驗，可用F檢驗方法?？捎胻檢驗方法。及相關系數法，這里需要注意的是應逐一對各偏回歸系數進行顯著性檢驗［１５］。由于篇幅有限不再詳述，現只通過χ２檢驗［１１］來校驗理論計算值與實際統計值之間的差別。分別按3個修正式給出理論值數據（表２）來進行計算：

(第一個為零不統計)，yi是累計引用比率的實際值，n為總頻次1 018；m為自由度=20。

查表得α０.０５（２０）＝３１.４１０，17.3778＜α０.０５（２０），P＞0.05

雖然丁式比莫式的有較大進步，但只有“丁—莫”式很好的滿足顯著性檢驗；同時通過下面老化曲線實測與回歸計算值對比圖，看出丁—莫式比其它兩式更接近于實際觀察值。

圖１老化曲線實測與回歸計算值對比圖1．虛線：實測線 2．莫地列夫理論值曲線3．丁學成理論值曲線 4．丁—莫理論值曲線

５結束語

本文從莫地列夫（Μοтыев）修正式到丁學東修正式，再到兩者結合的丁—莫修正式的過程，說明了尋找方志類文獻老化模型的艱難。

文獻老化現象是一個十分復雜的問題。甚至有的文獻并不一定隨其年齡的增長而逐漸失去使用價值。在社會科學領域內常出現文獻越老越有價值。對于老化本質和機制，還沒有普遍可以接受的解釋。也就是說，關于文獻老化的影響因素及信息是不完備的，人們只是憑某種邏輯推理、概念、觀點來建立其模型［１６］。

本文的寫作試圖探索文獻老化其中的規律。參考文獻

［１］劉慶華，陳賢瑛.方志文獻資源開發利用探索［Ｊ］.圖書情報工作，1997，（1）：39．

［２］李德躍.中文圖書采訪工作手冊［Ｍ］.北京：北京圖書館出版社，2004，4：13.

［３］羅式勝，范并思，吳永臻.文獻計量學概論［Ｍ］．廣州：中山大學出版社，1994，4 ：89－93.

［４］危志明.文獻老化新模型探討［Ｊ］.情報理論與實踐，2009，(2)：43－44.

［５］王宏鑫，陶治，余梅，等.文獻老化的共時與歷時觀察比較研究［Ｊ］.信陽師范學院學報：自然科學版，1999，(4)：488.

［６］王宏鑫，謝海修.文獻老化與引文年代分布模型的研究［Ｊ］.情報理論與實踐，1996，(5)：21.

［７］鄭修麗.科技文獻老化的數學模型［Ｊ］.情報雜志，1999，(7)：76.

［８］趙峰，顧海英，姚雪桃.志鑒類學術期刊資源及其影響力分析［Ｊ］.中國地方志，2009，(8)：55.

［９］韋秀先.文獻老化B-K方程機理分析［Ｊ］.情報雜志，2005，(4)：14－15.

［１０］李正吾.文獻老化B-K方程分析［Ｊ］.情報科學，1999，(7)：430－431.

［１１］李霄.材料科學文獻半衰期研究［Ｊ］.武漢理工大學學報，2009，(1)：154－155.

［１２］盛驟，謝式千，潘承毅.概率論與數理統計［Ｍ］.北京：高等教育出版社，2008，6：2 57.

［１３］包月英，朱振中.文獻老化B-K方程的計量學方法［Ｊ］.江南大學學報：自然科學版，2003，(12)：646.

［１４］侯文林.一元三次方程的公式解法與電算程序［Ｊ］.新鄉師專學報：自然科學版，1998，（1）：10－12.

［１５］靳庭良，張寶青.回歸分析中t檢驗與F檢驗關系的進一步探討［Ｊ］.統計與決策，2009，(21)：7－9.

［１６］王宏鑫，雷振玲.關于文獻老化GM模型的幾點注記——答胡瑋同志［Ｊ］.圖書情報工作，1998，(9)：58.

現代情報2011年11期

現代情報的其它文章: 以高校教學評估為契機積極推進圖書教材建設; 基于Flash技術的隨書光盤可視化存取管理系統的設計與實現; 云計算環境下數字圖書館網絡與數據中心智能化管理策略研究; 中醫藥高等院校圖書館特色建設之探討; 基于多視角的企業人際競爭情報網絡的構建研究; 網絡侵犯行為的三大運作特點