尹曉旭 王 彥
(北京航空航天大學圖書館,北京 100191)
圖書館藏書流通是圖書館工作的重要組成部分,館藏圖書的流通統計一直是圖書館統計工作的主要對象。目前已有的館藏圖書流通統計研究提出了多種分析方法[1-3],主要采用的方法是:獲取樣本、對樣本數據進行處理、假設分布型式、估計假設分布參數、檢驗假設分布。王健、蔡智澄等學者[1,2],就圖書館流通讀者統計數據引入概率統計方法,闡述了數理統計的數據分析方法和步驟,以上方法都是基于最小方差的統計分析方法。
筆者以本館2009年上半年航空航天類圖書借閱量為樣本,運用統計學原理,引入熵的概念,采用基于最大熵原理的方法分析流通借閱數據,以期探索出一種圖書館流通統計的新方法。
傳統的隨機分布統計大多針對高斯正態分布,僅考慮其期望和方差。然而,非高斯分布廣泛存在,期望和方差已不能完全反映其特性。作為信息論、通信理論和熱力學理論的一個基本概念,熵是一種描述隨機變量的隨機性或者不確定性的度量。
香農(Shannon CE)認為,信息是人們對事物了解的不確定性的消除或減少。1948年,他把玻爾茲曼熵的概念引入到信息論中,把不確定的程度稱為信息熵。信息熵是描述事物無序性的參數,熵越大則無序性越強。
Jaynes證明,對隨機事件的所有相容的預測(相容預測是指符合已知的某些參數與隨機事件相關條件的某種對隨機事件分布的預測)中,熵最大的預測出現的概率占絕對優勢。
Tribus證明,正態分布、伽瑪分布、指數分布等都是最大熵原理的特殊情況。最大熵統計建模是以最大熵理論為基礎的一種選擇模型的方法,即從符合條件的分布中選擇熵最大的分布作為最優的分布。
樣本容量為觀測的總天數n,對n個樣本進行分組,組數為k。樣本值落入第i個區間的個數稱為頻數。由頻數與概率的關系可知,樣本值落入第i個區間內的頻數近似等于隨機變量X落入第i個區間內的概率。
隨機事件的信息熵[4]:設隨機變量 ζ,它有 A1,A2,……,An共n種可能的結局,每個結局出現的概率分為p1,p2,……,pn,則其不確定程度,即信息熵為:

一個系統的熵就是它的無組織程度的度量,熵越大,事件越不確定,熵等于0,事件是確定的。基于熵的定義,可以直觀地說明最大熵分布原理。最小偏見的概率分布是這樣一種分布,使其熵在根據已知樣本數據信息的一些約束條件下達到最大值。由概率分布密度函數的規范性公理,以及n階原點矩的定義,可得如下優化算法:

其中,(fx)為分布密度函數,R為積分限,μn為n階原點矩。最大熵概率分布函數為原點矩為這實際上是一個非線性優化問題。
利用最優化定理,拉格郎日乘子參數 λ(nn=0,1,…,N)滿足如下關系式:

由樣本值求解原點矩μn,求解λn(n=1,…,N)的聯立方程組。則所研究的問題可轉化為如下優化算法[5]:

算法實現流程:
①根據已知樣本數據,計算各階原點矩
②選擇積分限為:R
③建立優化模型式
④調用優化算法子程序
⑤判斷,若滿足優化條件轉⑦;否則轉⑥
⑥用另一初始點重新計算,轉④
⑦輸出參數λn(n=0,1,…,N)
北京航空航天大學是一所具有航空航天特色和工程技術優勢的多學科、開放式、研究性大學,圖書館在藏書建設上注重航空航天特色,匯集了大量關于航空航天事業發展、航空航天工程技術等方面的圖書資料。航空航天類圖書的利用率和流通情況可以反映出北航主要讀者群對圖書館的實際利用情況。因此,該類圖書的借閱量具有一定的代表性。筆者以2009年2月14日至2009年7月16日時間區間內航空航天類圖書每天的借閱量為樣本進行統計分析。
在此區間,除公共節假日以及其他情況的閉館外,借還臺總共開放134天。每天的借出量最大值為163本,最小值為15本。選擇采樣區間(8,170)作為樣本的取值區間,將其等分為18個小區間,求出頻數,列出頻數分布表1。

表1 流通借閱頻次分布表
由優化算法可給出隨機變量的分布函數為:

對于所求得的隨機變量分布函數,可以由期望的借閱量x求出其發生的頻率f(x)。
根據表1數據畫出頻率的柱狀圖(見圖1),橫坐標表示借閱數據分組排序,縱坐標是借閱頻數,圖中曲線是最大熵擬合分布曲線。
由圖1可見,除第3組數據外,該分布較好地擬合了樣本值。這說明流通服務的人員和設備配置比較科學合理地滿足了師生的需求。至于第3組存在較大擬合誤差的原因,經過調查得知,處于該組借閱數據的日期,多是節假日前后,讀者借閱行為與平日有較大不同。
由此可見,最大熵方法可以為圖書館合理配置人員與設備、提高圖書館流通的管理水平提供科學依據,從而為廣大師生提供更優質的服務。

圖1 流通借閱的最大熵統計模型
利用最大熵優化所得的概率分布函數能夠表達不同統計分布形式的隨機變量的統計性,具有廣泛的適應性[6]。在圖書館流通統計中與已有的方法相比,具有適用范圍廣、算法簡便的特點,可為流通統計提供一種有效的方法。同時,這種方法可以推廣應用到圖書館的其他統計工作中。計算中也發現,使用最大熵方法時也需注意以下問題:樣本量選取不宜太小,太小將不能完全反映樣本各階矩的特性;積分限選取比較重要;初始值選擇不合適將影響算法的收斂性和收斂速度。此外,如何考慮一些不確定因素、邊界條件不穩定等情況對借閱量統計分析的影響,也是需要研究的課題。
[1] 王健.高校圖書館流通系統讀者分布分析及假設檢驗[J].情報探索,2008(12):100-102.
[2] 蔡智澄,張根彬.圖書館流通系統讀者分布密度及回歸分析.情報業務研究,2004(3):114-115.
[3] 武晉媛.以流通統計分析驗證館藏結構的合理性[J].晉圖學刊,2009(3):57-59.
[4] 吳乃龍,袁素云.最大熵方法.長沙:湖南科學技術出版社,1991.
[5] 俞禮軍,嚴海,嚴寶杰.最大熵原理在交通流統計分布模型中的應用[J].交通運輸工程學報,2001(3):91-94.
[6] 高翔,鄭建祥.基于最大熵概念的復雜隨機變量統計模型[J].農業機械學報,2008(2):43-46.尹曉旭 女,1961年生。館員,主要研究方向:圖書館學、統計學。