紀婧怡李 岳韓 博
(1.天津音樂學院圖書館;2.南開大學軟件學院,天津 300000)
紀婧怡 女,1985年生。碩士,助理館員。研究方向:中國傳統音樂。
李 岳 男,1980年生。博士,副教授。研究方向:軟件圖像研究。
近 10年來,隨著通信、電子技術的高速發展,信息存儲和交流變得越發重要。圖書館作為承載大量資料的主流數據庫,更是面臨著巨大挑戰。面對著呈爆發性增長的各種書籍、網絡、電子化信息,如何正確地進行收集和管理就成為圖書館管理的重中之重[1-2]。以音樂高校的樂譜圖書館為例,樂譜的采編往往需要管理員花費大量的時間和精力[3-4]。在采編和編輯資源庫的過程中,由于資料的特殊性,如樂譜的難以識別,樂譜收藏時需要收集大量譜音分析、演奏技巧等信息等,大量工作需要由采編管理員人工完成,導致采編工作效率普遍較低。
現階段,傳統圖書館面臨著向自動化、電腦輔助管理、互聯網、信息化圖書館方向轉型的過程[4]。筆者根據在音樂圖書館的工作經驗,分析了現階段音樂學院圖書館中樂譜采編系統的工作流程和現階段采編系統效率較低的原因,進而提出了樂譜資源庫自動采編系統的設計方案,同時采用自行編寫軟件與現有軟件結合使用的方法,創立了該自動采編系統。
在樂譜資源庫采編過程中,系統需要完成一系列的工作,從流程上分析如下(圖1所示)。
在采編過程中,管理員首先需要根據條形碼獲取該書籍信息,而后人工判斷該書籍是否收錄于數據庫中;如果書籍已經收錄數據庫中,管理員需要根據個人對于音樂的專業知識,對書籍中的樂譜數據進行更新。更新數據一般來自于各個網絡數據庫、互聯網信息等信息源頭。更新后的本地數據信息將等待最后全市音樂圖書館整合時統一處理;如果該書籍數據不存在,則管理員需要人工輸入書籍所有的文字信息及分類號等基本信息,并進行分類記錄。其后錄入樂譜的所有相關信息,主要包含作者信息、樂譜評論、譜音分析、演奏注意事項等,之后管理員需要掃描該樂譜,并錄入圖像數據。

圖1 音樂圖書館采編系統工作流程
為完成整個業務流程,采編系統需要由數據交互、數據錄入、相關信息收集以及數據庫管理4個主要模塊構成(圖2所示)。
在上述功能模塊中,數據交互模塊主要完成書目/樂譜數據的上傳下載功能,滿足圖書管理員在線查詢“總圖書館”圖書資源信息,并在需要匯總時完成本地圖書館上傳與合并工作。

圖2 音樂圖書館采編系統功能模塊
數據錄入模塊下設3個子功能模塊,分別為書目錄入模塊、樂譜錄入模塊與樂譜圖像錄入模塊。其中書目錄入模塊管理員需要人工錄入書目的所有信息,并完成信息的整合工作;樂譜錄入模塊管理員需要分別對書中的每個樂譜進行相關信息錄入;而樂譜圖像錄入模塊主要由管理員完成將紙質樂譜掃描并上傳至數據庫,以具備查詢的功能。圖2的虛線所代表的電子樂譜錄入功能子模塊為作者建議增加的自動化模塊。
相關信息收集模塊主要功能是用于管理員收集樂譜的各種信息,包括樂譜的譜音信息、演奏技巧等。該功能模塊現階段仍需要手工完成。
數據庫模塊用于存儲所有數據的相關信息。如工作流程中所描述的,樂譜信息上傳至市圖書館往往不是即時完成的,而是需要將樂譜信息暫時保存在本地數據庫,等待特定時間進行綜合信息匯總,再統一上傳。故此數據庫模塊需要建立并管理一個當地數據庫。
基于上述描述,該采編系統具有以下幾個缺點,對此,筆者提出相應改進意見。
①系統中除交互模塊由相應的軟件完成(圖3所示),且數據庫模塊交由軟件后臺自動管理(圖4所示)外,其余模塊全部需要管理員手動完成,導致效率非常低。其中尤以數據錄入模塊手動輸入工作量較大,不能滿足高效率的自動化辦公的要求。②作為新時代的多媒體圖書館系統,往往要求其保存的資料可以多方面地展示,增加視聽可讀性。而本系統所存儲的資料往往是只有文字資料和掃描的樂譜圖像。故此,作者建議增加電子樂譜錄入功能,在錄入文字信息和掃描樂譜后,同時將紙質樂譜轉化為電子樂譜,進行輸入。③相關信息采集模塊現階段需要由管理員手動完成信息采集,且大部分信息來自互聯網、其他圖書館等機構的復雜資源。鑒于信息收集的困難程度及手動輸入信息的復雜程度,筆者建議引入網絡信息抓取功能,通過使用部分特定軟件,自動化搜索目標數據庫上的相關信息,并對所獲得信息進行優化整理及歸檔。

圖3 系統抓取數據的頁面
筆者所在圖書館已通過合作開發軟件的方法,基本實現數據錄入功能的所有過程自動化并允許輸入電子樂譜。另一方面,鑒于現階段技術原因,完全自動化的網絡信息抓取難以實現,故該功能模塊的自動化處理仍在開發中。

圖4 系統選擇數據庫抓取已存數據
如前所述,現階段智能化的網絡信息抓取系統仍在開發中[5-6],故本系統著眼于數據錄入模塊的自動化實現。筆者將按照數據錄入各個子模塊的順序介紹采編系統自動化實現的過程。
書目錄入模塊主要有兩個功能:圖書條形碼掃描功能及圖書書目信息錄入功能。其中書目條形碼掃描已有較成熟技術[7],該類條形碼“編碼—掃描—識別—比對”技術已經被廣泛應用于圖書館書目管理及其他類似信息管理系統中。
對于書目輸入系統,需要管理員輸入書目扉頁上所有相關信息。對此功能筆者提出自動化設計處理流程如圖5。

圖5 書目信息自動錄入系統處理流程
在本模塊中,書籍扉頁掃描功能可以通過掃描儀或攝像頭抓取圖像獲得,如圖6(a)所示。其后,系統可以使用絕大部分收費或免費的OCR軟件對書籍扉頁圖像中文字加以識別。圖6(b)所示為使用abbxy軟件掃描軟件的識別效果[8]。經試驗,大部分OCR軟件都可以達到較為理想的效果。

圖6 書目扉頁掃描及識別效果(a)、掃描圖像(b)識別word文檔
本模塊的核心在于自動完成書目信息填表的功能。然而,鑒于不同書籍扉頁的信息分布往往并不一致。如圖7(a)、(b)所示,兩本書扉頁上書名、作者、出版等位置都不一樣。

圖7 不同書目扉頁所含信息內容及位置不同
盡管通過語言分析[9]技術可以完成所有文字的自動識別,但該類技術需要較高的技術成本,進而增加了本系統的開發、運行與維護成本。故此,筆者開發了一套半自動系統。該系統可以允許用戶將掃描識別后的文字自動存入浮動窗的剪貼板。而用戶只要雙擊剪貼板的內容,就可以完成自動填表。具體效果如圖8所示。本插件處理對象是掃描以后的Word文檔。鑒于文檔內容的復雜性,本插件只將掃描的內容,以行為單位拷入剪貼板,同時剪貼板懸浮于左側,允許用戶快速雙擊可見剪貼板的內容,并將其拷入所需填寫的欄目。另外,該插件的功能需要使用VC開發,需要安裝微軟的.netframe work和of fice 2007以上com的支持。

圖8 書目信息自動錄入系統
在完成本系統自動化錄入系統并生成電子樂譜的模塊中,由于其使用技術較為類似,故將這兩個子模塊合并論述。本模塊設計思路如圖9所示。

圖9 書目信息自動錄入系統
在本模塊中,所有樂譜首先要使用掃描儀或攝像頭進行掃描/拍照,以獲得該類樂譜的圖像資源。該類資源將被自動保存至數據庫,從而完成樂譜圖像錄入功能模塊的任務。之后本系統可以使用較為成熟的商業樂譜OCR軟件如SmartScore[9]對樂譜圖像進行識別。用戶只需要使用軟件載入掃描后的樂譜,該軟件就可以自動完成MIDI音樂生成(圖 10)。經測試,大部分專業識別軟件都可以較為準確地識別出該類樂譜。

圖10 樂譜掃描及電子樂譜(MIDI)生成
綜上所述,在完成書目錄入模塊與樂譜相關信息(包含樂譜信息、樂譜圖像與電子樂譜)自動化錄入階段后,本采編系統已經基本實現了辦公自動化,并增加了多媒體系統的視聽多樣性。
基于現階段的研究,下一階段的科研方向為使用數據采集技術提高相關信息收集工作的效率,實現相關功能模塊的自動化,進而完成對整個采編系統的自動化改造。
[1] 鄧宗極.高校圖書館信息化建設問題初探[J].教育探索,2003(6).
[2] 黃晨.圖書館信息化的技術工程[J].情報雜志,2001(3).
[3] 朱海燕.音樂文獻編目中應注意的幾個問題[J].圖書館論壇,2008(2).
[4] 張繼紅.數字時代的音樂學院圖書館[J].星海音樂學院學報,2011(2).
[5] 趙德平,等.面向高校信息的垂直搜索引擎的研究與實現[J].沈陽建筑大學學報:自然科學版,2012(3).
[6] 周立柱,林玲.聚焦爬蟲技術研究綜述[J].計算機應用,2005(9).
[7] 李偉.條形碼閱讀器在現場采購圖書中的應用[J].圖書館建設,2004(6).
[8] 陳耀東,王挺,陳火旺.淺層語義分析研究[J].計算機研究與發展,2008(1).