邱均平(武漢大學信息管理學院 武漢大學科學評價研究中心 湖北 武漢 430072)
周 毅(武漢大學信息管理學院 湖北 武漢 430072)
聯機公共目錄查詢系統(Online Public Access Catalogue,簡稱OPAC)是圖書館重要的資源訪問門戶。它是指通過公共終端或工作站訪問、描述圖書館或圖書館系統擁有的圖書或其他資料的書目記錄所組成的數據庫[1]。OPAC于20世紀六七十年代產生,取代了圖書館傳統的卡片目錄。20世紀90年代末,WebOPAC產生,用戶通過因特網可直接訪問OPAC資源[2],為用戶利用圖書館資源提供了極大的方便。在Web2.0環境下,隨著“以用戶為中心”的理念深入人心,傳統的圖書館OPAC越來越不能滿足用戶需求,OPAC改革的需求越來越緊迫。本文將針對OPAC系統存在的不足來探討其在資源揭示方面的改進方案及書目推送服務。
OPAC是圖書館自動化系統面向用戶的窗口,用戶對它的滿意程度極大地影響了圖書館的整體服務,甚至影響到用戶對圖書館的依賴性。OPAC相較于卡片目錄,查找資源更為便捷。但近些年來信息化快速發展,各種網絡數字化資源數據量大、內容豐富而繁雜,圖書資源在整個信息資源中所占比例降低。而搜索引擎、網絡書店、讀書網站等的發展為用戶提供了更加方便、快捷的服務,資源獲得途徑多樣化。相較之下,圖書館OPAC功能僵硬而單一,用戶對OPAC的依賴性越來越小[3]。
OPAC在一般情況下提供基本檢索、多字段檢索、多庫檢索、高級檢索、通用命令語言檢索等多種檢索策略,如Alep500系統提供了簡單檢索、多字段檢索、高級檢索、通用命令語言、分類瀏覽5種檢索途徑,可選擇的檢索字段有全面檢索、正題名、所有題名、題名(前方一致)、著者、主題詞、分類號、出版社、索書號、ISSN(International Standard Serial Number,國際標準連續出版物編號)、ISBN(International Standard Book Number,國際標準書號)、條形碼12個。用戶想要檢索到目標資源,首先要了解各個檢索字段的含義,其次要學會構建合理的檢索策略。對于圖書館廣大的普通用戶來說,OPAC的檢索功能雖然強大,但過于專業,對用戶檢索技能要求較高。據統計,用戶進行檢索時使用的檢索字段主要集中在題名(86.21%)、作者(60.92%)、關鍵詞(54.02%)和出版社(18.39%)[4]。這一數據可以解讀為很大一部分用戶是在查詢目標比較明確的情況下才選擇使用OPAC進行查詢,另一方面也說明很少有用戶會通過其他字段獲取書目數據,其他字段的利用率低。專業性強的OPAC會給用戶快速、準確地獲取信息資源造成阻礙。
OPAC的首要任務是幫助用戶快速地獲取準確的書目數據并定位所需資源。目前,OPAC在檢索結果展示方面還不夠準確、方便。以Aleph500系統為例,在武漢大學圖書館的OPAC中以“題名”為檢索字段,輸入檢索詞“信息管理學基礎”,檢索結果中的第1條書目數據是“《信息管理學基礎》案例與實驗教程”,第2條是“管理學基礎”,第3條數據題名才是“信息管理學基礎”。其檢索結果可以按著者、年、題名升序或降序排列,但沒有按相關性大小排列。如果用戶對要找的資源掌握的信息較少,就必須自己在檢索結果中一一瀏覽,這無疑增加了用戶的負擔。另外,用戶在查詢過程中還可能遇到輸出結果太多、選擇困難的狀況。目前,OPAC的書目數據查詢功能還處在用戶主動尋找、系統被動提供的的階段。
一般OPAC的書目數據體系與圖書館學專業的分類編目體系相一致,如《中國圖書館分類法》、《中國人民大學圖書館圖書分類法》等。其中,Aleph500系統使用的是《中國圖書館分類法》?!吨袊鴪D書館分類法》是目前應用最廣泛的分類法,它將文獻分為4大部類,22個基本大類,大類下設子類,進行標記時嚴格采用層累制。傳統的分類編目體系缺乏關聯揭示和聚類呈現,也缺乏諸如在網絡中越來越流行的由普通用戶添加標簽之類的功能,不完全符合目前普通用戶的思維和查找習慣[5]。例如,在查找某一題名的資源時,用戶對其中某一資源感興趣,想進一步了解此資源作者的其他作品,只能將此作者的姓名輸入檢索框中啟動新的檢索,沒有更為快捷的鏈接。
OPAC每條書目數據提供題名、ISBN、作品語種、出版發行、載體形態、主題、分類號、館藏地等基本信息,這些字段準確、全面地描述了資源客觀存在的特性。但用戶在查詢時還需要更多的信息來幫助用戶選擇、判斷資源的質量。目前,迅速發展的網絡書店(如當當網、亞馬遜等[6])提供的信息和服務更加豐富,有目錄、圖書試讀、顧客評論甚至作者在線訪談等,方便用戶更好地選擇圖書[7]。例如,Aleph500系統的書目數據中已經添加了目錄、網絡摘要、評級等條目。另外,目前OPAC提供的書目數據基本是對資源對象的物理描述,是對每一條描述對象的客觀反映,對資源揭示的深度不夠,缺乏用戶評論、用戶推薦、用戶打分等形成資源“用戶口碑”的條目。用戶在選擇資源時,僅憑客觀信息無法對資源的質量做出評判,在信息量快速增長的環境下,用戶很難取舍,最終阻礙了用戶信息需求的實現,影響了圖書館對用戶的吸引力。
用戶在圖書館系統中留下的借閱數據是準確了解用戶信息需求的重要資源,是圖書館完善服務的依據,用戶在使用圖書館各項服務的過程中留下的痕跡都是圖書館的寶貴資源,充分利用這些資源有助于圖書館完善各方面的服務。對圖書館自動化系統中用戶的借閱數據進行統計分析,一方面,可以掌握用戶的信息需求,為圖書館的資源采訪提供依據,使圖書館的采訪工作更貼近用戶需求。針對數字資源的利用,國際上通用的網絡電子資源在線使用統計標準(Counting Online Usage of Networked Electronic Resources,簡稱COUNTER)有著較為規范的統計,圖書館能在統計數據的基礎上作進一步分析,從而指導采購工作。但是對紙質資源利用情況進行統計與分析,在國內圖書館界沒有得到足夠重視,尤其是對資源在館內借閱的統計,由于技術和人力的原因造成其普遍缺失[8]。另一方面,可以通過對用戶的借閱數據進行數據挖掘,提供書目推送服務,使館藏資源能更全面、合理地展示給用戶,提高館藏資源利用率。
綜上所述,圖書館OPAC存在資源揭示深度不夠、檢索結果輸出不合理、忽視書目數據之間的關系等問題。要使資源得到全面、深入的揭示,便于讀者準確識別并獲取資源,圖書館必須補充、完善書目數據的內容,不再拘泥于傳統的著錄格式。書目數據的聚類將是完善OPAC書目數據的有效途徑。聚類是指將物理或抽象對象的集合分成由類似的對象組成的多個類的過程。由聚類所生成的簇是一組數據對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異[9]。整個社會就是一個大的關系網,OPAC中的書目數據相互之間存在著各種各樣的聯系,目前的OPAC系統忽視了書目數據之間的關系。如何有效地選擇自已需要的資源是圖書館用戶在面對圖書館大量藏書時遇到的困惑之一。本文將從基于檢索字段、用戶分類及用戶資源利用數據的統計分析方面對OPAC中的書目數據進行聚類,以便更加全面、深入地揭示館藏資源,并進行書目推送,使OPAC系統的檢索結果更清晰、易篩選,使用戶的資源獲取過程更加流暢。
基于檢索字段的聚類較容易實現。以Aleph500系統為例,用戶通過OPAC查詢某一資源時,得到的結果中各條書目數據是相互獨立的。如果用戶對某一著作的作者感興趣,只能通過“著者”檢索字段,進行新一輪的檢索。在這個過程中,可能會有一部分的用戶因為過于麻煩而放棄。OPAC一般設置了多個檢索字段以供用戶選擇、查詢。例如,Aleph500系統提供了簡單檢索、多字段檢索、高級檢索、通用命令語言、分類瀏覽5種檢索途徑,檢索字段有全面檢索、正題名、所有題名、題名(前方一致)、著者、主題詞、分類號、出版社、索書號、ISSN、ISBN、條形碼12個。但并不是所有的檢索字段都適合聚類,上文提到用戶選擇檢索字段主要集中在題名、著者、主題詞、出版社等字段。在對書目數據進行基于檢索字段的聚類,可以考慮題名、著者、主題詞、出版社4個字段。題名和主題詞部分反映資源的內容,主題詞是經過規范的自然語言,選用主題詞作相似主題資源聚類更為準確。在某一書目的詳細信息頁面可以設置如“相似主題資源”、“該作者所有作品”、“該出版社本領域資源”的鏈接,用戶通過點擊輕松進入相關頁面。“相似主題資源”將主題相似的資源聚類,“該作者所有作品”將該作者的所有作品聚類,“該出版社本領域資源”將該出版社出版的本領域的作品聚類,不同的出版社在各個領域出版物的水平不同,這一鏈接能夠幫助用戶快速查找同一出版社本領域的其他出版物。北京大學圖書館Unicorn系統已經設置“查找該作者其他作品”、“查找本主題的其他作品”、“書架上的鄰近館藏”3個鏈接,其中“書架上的鄰近館藏”實際上是按索書號聚類,與“本主題的其他作品”在一定程度上是重復的。圖書館OPAC系統本身就可以通過各檢索字段進行檢索,基于檢索字段的聚類,實質上就是在每條書目的顯示頁面上添加相關鏈接。在基于檢索字段的聚類中,書目數據通過作者、主題、出版社等字段與其他書目建立相應的聯系,可使用戶通過快捷途徑查找相同作者、主題、出版社的資源,節省了時間,改善了用戶體驗。
2.2.1 基于用戶基本信息的分類與推送
圖書館的服務理念是“以用戶為中心”,其一切服務都是為了滿足用戶的信息需求。不同類型的用戶,其信息需求千差萬別,根據不同的標準,可以劃分成不同的類型。對于高校圖書館,可以按照學科專業、學歷層次、身份等進行用戶類型劃分:按照學科專業的不同可以劃分成若干個類型;按照學歷層次的不同可以劃分為專科生、本科生、碩士研究生、博士研究生等;按照身份的不同可以劃分為學生、教師、職工。高校圖書館的用戶成份比較清晰、單一。而公共圖書館用戶成份較復雜,用戶的注意力比較分散,對用戶進行類型劃分,進而針對不同的用戶群體改進圖書館的服務顯得更加復雜。在用戶辦理圖書館借閱證時登記了用戶的工作、年齡、學歷、居住地等信息,公共圖書館可以從職業、年齡、學歷、居住地等方面對用戶進行類型劃分。
充分利用館藏是圖書館一切工作的出發點,因此圖書館要認真研究用戶的分類,從而明確用戶的信息需求,據此做好館藏文獻的補充、完善工作,優化圖書館的服務。吳彩鳳在《網絡環境下OPAC用戶需求及其發展方向》一文中將用戶的閱讀需求劃分為社會型閱讀需求、專業型閱讀需求、研究型閱讀需求、業余型閱讀需求4類[10]。圖書館根據用戶的基本信息可將其劃分為不同的類型或進行閱讀需求分類,分析各種類型用戶的共性需求。當用戶登錄圖書館網站時,在其個人圖書館頁面或OPAC查詢頁面推送此類型用戶關注度較高的書目。
根據用戶基本信息,對用戶進行分類,可以獲取用戶所需資源的大致范圍,從而有針對性地推薦用戶所在類普遍關注的資源,通過推送發掘用戶的潛在需求。統計分析用戶在資源利用過程中產生的數據是圖書館掌握用戶信息需求的可靠途徑。大數據時代,數據挖掘技術在實踐中的作用越來越明顯,應用的廣度和深度不斷擴大,但在圖書館OPAC中尚未嶄露頭角。圖書館可應用數據挖掘技術來分析用戶的隱性信息需求[11]、改善圖書館的信息服務[12]等。
2.2.2 熱門書目排行
借閱排行是系統對館藏資源的借閱頻次進行統計,對頻次最高的若干條數據進行排序展示。借閱排行反映了資源受關注度,在一定程度上從側面反映了資源的質量。目前的OPAC借閱排行一般僅顯示所有館藏的總借閱排行或者按學科分類的借閱排行。例如,Aleph500系統顯示近1年、近3個月、近1個月、近1周的借閱總排行或按《中國圖書館分類法》22個大類分類的借閱排行。但按大類的借閱情況排行范圍仍然過寬,對于有些專業來說,從業人員與學生數量都比較少,具體到專業領域的高借閱資源就不能再按大類展示的借閱排行顯示。對于某一個特定用戶,真正對其有意義的借閱排行,應該足夠詳細、全面。圖書館可以從以下幾個方面來完善借閱排行:①按用戶類型統計借閱排行,如高校圖書館可以依據學校開設的專業進行用戶分類,分別統計各個專業的借閱排行,供用戶參考;②將借閱排行應用到檢索結果排序中,在檢索結果展示頁提供按借閱次數排序的功能,甚至將具體的借閱次數顯示在頁面中;③用戶可隨意選擇時段來查看借閱排行,不同時段借閱排行的變化可以反映出專業領域關注點的轉移;④查閱借閱排行時,允許限制條件進行組配。
2.2.3 評分排行與評論數排行
目前,OPAC中的書目數據絕大部分僅反映資源的客觀信息,描述的是資源的物理特征。借閱排行在一定程度上反映了排行中的資源質量,但排行中的資源僅是館藏的“冰山一角”,排行之外還有眾多的優質資源可供用戶選擇。以評論的形式體現的“用戶口碑”是資源質量的一個直觀體現。目前,有一部分OPAC開發了用戶評論、用戶添加標簽等新功能,但用戶的參與度極低,通過調查分析,大多數用戶比較認可書評的導讀功能,認為OPAC所提供的書評功能很好、很強大,但由于其不了解OPAC的這項功能等原因,此項功能沒有達到系統設計者預想的效果[13]。資源要通過評論進行質量的衡量,首選要解決評論的產生問題。OPAC應該可以允許用戶在某一資源的詳細頁面下對該資源進行評論、打分。針對用戶參與度低的問題,圖書館可以從以下幾個方面解決:①要加大對于OPAC這一功能的宣傳力度,通過海報、評選最優評論員等方式擴大影響;②使用打分這種簡單、快捷的方式使用戶對書目做出判斷;③通常情況下限于地域差異、用戶數量不足等原因,僅依靠館內用戶對資源的評論作為資源質量好壞的參考在數量和質量上有一定的局限性,豆瓣、亞馬遜等讀書網站和網絡書店都設有評論這一功能,OPAC可以與這些網站合作,對這些網站中較好的書評進行篩選,對于每種資源選擇較好的幾條評論直接導入OPAC,本館用戶在閱讀這些書評后,也可以對這些書評進行文字評價或者打分評價。在解決書評的產生問題后,用戶除了通過閱讀書評來判斷資源質量外,OPAC可以在檢索結果展示頁通過評論數多少和打分高低對檢索結果進行排序,幫助用戶選擇所需的資源。
2.2.4 用戶興趣聚類與推送
統計分析用戶的借閱數據可以分析用戶的興趣點,向用戶推薦書目。基于用戶興趣進行書目推送包括兩個方面,一是針對用戶本身的興趣、愛好的統計分析。如何針對用戶的興趣、愛好,快速、準確地檢索出用戶需要的書目數據是圖書館提高服務質量的關鍵所在。例如,楊東風提出了一種基于多興趣度的圖書借閱推薦系統模型架構和算法(如圖1)[14];何安提出了在推薦過程中使用協同過濾思想,并分析了用戶借閱圖書的多興趣問題,這樣推薦的結果更加符合實際借閱情況,具有鮮明的個性化色彩,同時也提高了協同推薦效率,具有較好的實用價值和推薦價值[15]。協同過濾是在信息過濾和信息系統中一項很受歡迎的技術,它可以分析用戶的興趣,在用戶群中找到與某個用戶興趣相似的用戶,綜合相似用戶對某一信息的評價,形成系統對用戶信息需求的預測。二是采用共現分析或數據挖掘技術,對圖書館用戶借閱數據進行統計分析,按借閱相似度進行聚類。共現分析是將各種信息載體中的共現信息定量化的分析方法,以揭示信息的內容關聯和特征項所隱含的寓義。通過對用戶借閱數據中主題、題名等字段的共現分析,采用社會網絡分析軟件或SPSS軟件等,可以將興趣相似度較高的用戶進行聚類。利用數據挖掘技術,通過用戶借閱數據提取用戶興趣特征,構建用戶興趣模型,結合基于顯式讀者反饋模式和基于隱式讀者借閱和檢索行為挖掘模式,從權值更新和衰減算法入手,對讀者興趣模型進行學習和更新[16]。OPAC在用戶進行檢索時利用協同推薦技術推薦興趣相似度較高的其他用戶所借閱的資源;同時還可以構建虛擬社區,向用戶推薦興趣相投的其他用戶,便于用戶之間的溝通與交流。

圖1 基于多興趣度的圖書借閱推薦系統模型架構和算法
不論是熱門書目排行、評分排行與評論數排行還是用戶興趣聚類與推送,都加深了OPAC中書目數據對資源的揭示深度,方便了用戶識別、利用。
OPAC書目查詢功能的宗旨是要有針對性地將館藏書目數據最大化地展現給用戶?;诙喾矫娴臅客扑]是使OPAC實現由被動查詢到主動推送角色轉變的重要途徑。本文針對OPAC檢索功能過于專業、書目數據關聯性差、檢索結果可用性低、沒有充分挖掘用戶借閱數據的問題,探討了從基于檢索字段、用戶分類、用戶借閱數據統計分析結果等方面,通過增加鏈接、增加排序選擇、進行書目推薦等完善OPAC書目檢索功能的做法,幫助用戶在檢索OPAC中的資源時快速、準確地獲得所需資源,在一定程度上提高了系統內資源的利用率,改善了用戶體驗,從而促進了圖書館的長遠發展。未來,OPAC應該本著“以用戶為中心”的理念,大力改革,通過采用圖書館學、信息管理學等領域的先進理念和信息技術,從各方面完善功能,以最大限度地滿足用戶需求,贏得用戶的支持。
[1]胡小菁.論新一代OPAC的理論與實踐[J].中國圖書館學報,2006(5):67-75.
[2]Chalon P X, Pretoro E D,Kohn L.OPAC2.0:Opportunities,Development and Analysis.11th European Conference of Medical and Health Libraries[C].Helsinki: University of Alberta Learning Services,2008.
[3]王海英,汪其英.國內現有主要OPAC的調查研究[J].農業圖書情報學刊,2011,23(12):48-53.
[4]黃 進.淺析OPAC系統功能發展趨勢[J].圖書館,2010(4):95-96.
[5]江佳惠.強調讀者參與和資源揭示的OPAC[J].圖書館理論與實踐,2011(10):24-26.
[6]嚴貝妮.互聯網時代館藏目錄建設新思路:嶺南-亞馬遜模式給我們的啟示[J].圖書館雜志,2005(1):50-53.
[7]查 穎,關繼舜,徐建華.高校圖書館資源揭示面臨的挑戰和對策[J].晉圖學刊,2010(1):1-5.
[8]江佳惠.強調讀者參與和資源揭示的OPAC[J].圖書館理論與實踐,2011(10):24-26.
[9]聚類[EB/OL].[2013-06-30].http://baike.baidu.com/view/31801.htm.
[10]彩 鳳.網絡環境下OPAC用戶需求及其發展方向[J].情報科學,2003,21(12):1296-1298.
[11]李瑋平.基于數據挖掘的圖書館讀者需求分析[J].圖書館論壇,2004,24(3):86-88.
[12]司徒浩臻.數據挖掘技術在圖書館信息服務中的應用[J].現代圖書情報技術,2005(10):15-18.
[13]賀海峽.高校圖書館應充分發揮OPAC的書評功能[J].圖書館雜志,2013(4):72-74.
[14]楊東風.基于多興趣度的圖書借閱推薦系統研究與設計[J].信息技術,2011(7):118-120.
[15]何 安.協同過濾技術在電子商務推薦系統中的應用研究[D].杭州:浙江大學計算機學院,2007:15-16.
[16]張 煒,洪 霞.基于OPAC讀者行為挖掘的個性化服務系統關鍵技術分析[J].圖書館論壇,2010,30(1):62-64.