占 磊(廣東省立中山圖書館)
圖書采分編(采購驗收、分類編目、典藏管理)業務是圖書館的核心基礎業務之一,近年來隨著《中國機讀目錄格式》的普及應用和聯機編目的實用化[1],許多圖書館選擇將該業務中的部分環節外包給圖書供應商,以縮短圖書加工編目周期,節省圖書館人力資源,提升圖書的上架效率。但也由于過分依賴供應商而導致圖書館失去了采編業務的主動權,造成了編目質量的普遍下降。因此,圖書館采分編業務迫切需要新的技術或體系來改變現狀。
有鑒于此,廣東省立中山圖書館在經過前期仔細調研及充分論證技術的可行性后,研發了圖書采分編智能作業系統。本文通過介紹和探討其系統構建、實施流程、技術實現的難點和解決辦法,詳細描述和論證了一種既能提升圖書加工編目和上架效率,又能保證圖書編目質量并降低人力成本的智能采分編方案,以期為圖書館采分編工作的智能化發展提供參考。
圖書采分編智能作業系統在國內圖書館界并無先例可循,需要研究開發,其充分將工業機器人、圖像識別、計算機視覺、機器學習、物聯網等新技術應用到圖書驗收、加工、編目和分揀流程中,為有大量圖書編目加工需求的圖書館和書商提供了創新解決方案。
傳統的采分編流程,一般分為圖書采購、驗收、加工、編目、上架等,具體到廣東省立中山圖書館,其流程細化為:圖書采購、拆包核對清單、上機驗收分配條碼和館藏地、貼碼蓋章封邊、編目校對、打印粘貼書標(索書號)、粘貼和轉換RFID標簽、分類分揀上架。要將現有流程進行自動化,首先需要根據現有技術條件確定各流程實現自動化的可行性;其次要根據加工及效率需求對現有流程進行優化整合和自動化改造,以適應智能化采分編的要求?;诖?,在經過大量的前期調研和技術論證后,我們設計了整個智能作業系統的總體流程(見圖1),計劃分階段建設實施。
如圖1所示,系統根據不同類型的圖書設計了三種不同的工作模式,以應對不同類型的圖書,按照流水線作業的模式使機器與人完美分工,形成圖書采分編的全流程閉環,最終達到節省人力且保證編目質量的目的。圖書自圖書入口進入后,系統經過對圖書信息頁的掃描識別,解析出ISBN、定價等關鍵信息,與圖書館編目流通系統(簡稱ALEPH)訂單進行收單對比,之后進行貼碼蓋章等物理加工、系統單冊狀態與館藏地校驗、圖書編目數據自動套錄、書標打印粘貼、圖書按館藏地分揀等流程。在此過程中,系統根據不同的判定邏輯,分別將收單對比不一致和無法加工的圖書剔除出來,轉人工處理并輸出報表;對單冊館藏地校驗異常的圖書輸出清單轉人工校驗;對無法套錄到數據的圖書進行編目信息頁掃描并分流圖書,供館員進行無紙化編目,編目完成后圖書重新回到系統流水線。

圖1 圖書采分編智能作業系統總體流程
根據系統設計流程的特點,其建設分為三個模塊進行,分別為編目前加工、收單驗收和編目、編目后加工及分揀,并按時間分三期進行建設。目前已建成并運行的為編目前加工模塊,其功能為對尺寸在400mm×300mm×50 mm(長、寬、厚)、重量在3kg以內的圖書進行規范化地貼碼、蓋章、覆膜、粘貼RFID標簽等操作,運行效率約為500冊每小時,節省了大量重復性人力勞動。收單驗收和編目模塊需要與我館ALEPH系統進行對接,實現與采購訂單的對比,并更新系統數據實現圖書驗收;運用機器自動化翻頁、掃描、智能圖像識別技術實現編目信息頁的自動掃描識別,對已有聯編數據的圖書實現自動套錄,對無聯編數據的圖書則形成數據包,發送給編目員進行無紙化編目。編目后加工和分揀模塊,其功能是為已完成編目的圖書進行書標(索書號)的打印粘貼、館藏地標識打印、圖書按館藏地和分類自動分揀并傳送到相應流通部門。
系統建設的目標是通過以上三個模塊的建設,使圖書采分編達到全流程流水線作業,讓80%~90%的圖書都能通過這套智能作業系統完成圖書到貨至上架的整個流程,最大程度減少人力投入,提升圖書上架的效率。在后期,我們將逐步探討應用人工智能實現圖書文獻的自動編目標引,進一步提升編目效率。
進入作業系統的圖書并不都是有訂單的新書,也可能是無訂單的征集圖書或贈書,針對不同情況,系統會有不同的工作模式(見圖1)。
(1)第一種模式適用于絕大部分訂購的新書,該模式下圖書正常進行收單驗收、貼碼、蓋章、覆保護膜、貼RFID標簽、系統登到、單冊信息更新、RFID信息寫入、單冊狀態校驗、數據套錄等所有流程,人工介入相對較少。
(2)第二種模式適用于不需要進行系統收單驗收的圖書,該模式主要針對已完成人工驗收登到、館藏分配和條碼分配的圖書。如征集圖書、贈書等,條碼可以是已全部粘貼的,也可以是只粘貼封底一個條碼,其工作流程跳過收單、系統登到、單冊信息更新和校驗,直接進行條碼掃描識別,進行補貼條碼、蓋章、覆膜、RFID粘貼和寫入,之后進入編目數據套錄環節。
(3)第三種模式主要針對已完成人工編目和審校的圖書,跳過前面所有流程,直接進入書標打印環節,是否設置該模式取決于是否在書標打印環節前設置第二個圖書入口。如設置,則不需要該模式;如不設置,則圖書需要在最初的圖書入口進入,使用模式三跳過前面所有流程,使圖書直接進入書標打印環節。
采購到館的圖書,在拆包后需要進行收單驗收,核對其與送貨單、訂購單是否一致。收單驗收時圖書信息的對比涉及圖書實體本身、圖書到貨電子清單和系統訂單三方面。三方面同時對比,若一致則完成收單驗收,不一致則按不同情況分別輸出報表。如,圖書與到貨電子單出現復本數或價格不一致、圖書與ALEPH訂單出現復本數或價格不一致、圖書查不到貨單信息但能查到訂單信息、圖書有到貨單信息但查不到訂單信息、圖書無到貨單和訂單信息等。每批圖書需要清晰列出以上異常情況并形成驗收表單輸出,以供館員核對結算,同時將異常圖書分揀出來轉人工處理。
收單驗收對比一致的圖書,由系統按照圖書館提供的條碼段依順序打印條碼,每個條碼打印兩張,分別粘貼到每本書的指定位置,其中封底條碼粘貼好后,需要覆蓋透明的條碼保護膜。每本書在指定頁面及位置蓋館藏章和粘貼RFID芯片標簽。遇到尺寸、裝幀異常無法進行加工的圖書,則轉人工處理并輸出報表。在智能化應用方面,對大量不同尺寸、厚薄、重量、紙張類型的圖書進行加工時,可利用計算機視覺技術識別并收集其相關信息,通過機器訓練和學習來逐步提升其貼碼、蓋章、翻頁、覆膜的準確率。
關聯加工完成圖書的條碼和RFID信息,將信息寫入ALEPH對應的訂單和單冊中,即完成系統登到、單冊條碼更新和RFID信息關聯。登到時根據單冊狀態為每個單冊添加復本號,同時將單冊處理狀態由“訂購中”更新為“編目中”。圖書信息更新時,面對較為普遍的多訂單情況,需要準確找到相應訂單,還需要依據單冊狀態參數對該種圖書所有訂單下的單冊狀態進行校驗,自動修改并輸出狀態異常清單,供館員人工校驗。
依據ISBN自動匹配套錄編目數據,系統對已完成加工和單冊校驗的圖書,首先查詢館藏數據是否已編目,再根據館藏905字段確定是否為加復本,若是,則做加復本處理,寫入單冊索書號等信息,圖書進入下一流程。如查詢館藏數據未編目,則優先查詢國圖數據,如有,則直接套錄并添加館藏905字段,再對應單冊增加索書號,圖書進入下一流程;如沒有相關國圖數據,則查詢聯編數據,有則套錄并添加館藏905字段,增加單冊索書號,圖書依據單冊狀態分流,外借本圖書和少兒書直接進入下一流程,保存本、地方文獻等非外借本分揀出來,傳送至編目員處進行數據校對。如查詢館藏數據未編目,且無法套錄到任何編目數據的圖書,系統須對相關編目信息頁(封面、封底、題名頁、版權頁、目錄、正文前10—20頁、結尾10—20頁等)拍照掃描,形成數據包在線推送給編目員進行無紙化編目,并通過OCR識別版權頁信息,智能轉換為文字信息,匹配到編目系統的相應字段中,降低編目員工作難度,同時還需將圖書暫時分揀出來供編目員隨時查閱。
綜上所述,相比圖書編目完全外包造成的編目質量下降,本流程的做法綜合考慮了編目質量與編目效率的平衡。
已完成編目的圖書,智能作業系統根據其索書號、復本號打印顏色書標,同時依據單冊館藏地將某些特定的館藏地信息同步打印在書標指定位置。將書標粘貼到圖書書脊下部,覆上透明保護膜,能識別有特定顏色要求的保護膜(如少兒書)并在保護膜指定位置噴上特定顏色。最后,系統將圖書館藏地等數據信息寫入RFID標簽。
已完成驗收、編目、加工流程的圖書會進入最后的分類分揀流程,系統依據圖書的分類和館藏地信息采用工業上比較成熟的AGV(自動導引運輸車)分揀和自動搬運將其運送至各個不同的館藏地。該分揀搬運系統除了對編目加工完的圖書進行分揀搬運,還可對讀者歸還的圖書進行分揀,方便工作人員更加快速高效地將圖書重新上架。
本系統各流程功能的實現涉及眾多新技術的應用與創新,其中編目前加工模塊就含有20項外觀專利和4項發明專利。整套系統涉及物聯網、計算機視覺、工業自動化、機器學習、自動分揀等多種技術的綜合應用。除自動分揀外,其他技術在國內圖書館領域的應用幾乎沒有經驗可循,需要全新開發整合,因此存在較高的實施難度和風險。
為圖書貼碼、蓋章、覆膜等工作對人工操作而言非常簡單,但對機器來說難度較大,機器擅長的是標準化的重復動作,而圖書的加工恰恰不是標準化的。面對不同尺寸、厚度、光滑度的圖書紙張,機器利用負壓翻頁需要的吸力是不同的,翻頁系統智能化要實時判定才能做到精準翻頁。不同尺寸重量的圖書,其姿態調整也需要機器實時匹配調整,左翻書和右翻書的翻頁方向不同,系統需通過圖像識別來判定翻頁方向。每本書粘貼的兩個條形碼必須相同,需要系統識別校驗,條碼和保護膜要從卷帶上剝離再粘貼到書頁上,精準控制力度以確保條碼和保護膜可以100%剝離,粘貼時也要通過圖像識別、程序算法控制和機械設計來實時調整其粘貼位置,使其不遮擋文字內容。書標和保護膜的粘貼位置在書脊,因此需要機器自動將不同厚度的圖書立起并固定,且在粘貼時準確貼合到書脊、封面、封底三個立體位面,粘牢且不損壞圖書。對不同開本、紙張的圖書進行連續翻頁和清晰快速拍照掃描,這對機器設備的要求較高。以上這些,涉及的技術復雜度較高,整合開發有難度,且需要運用人工智能技術對機器進行大量訓練,才能提升其加工的準確率。
(1)通用性指的是系統能夠適用的圖書范圍。系統的設計預期是覆蓋80%~90%的圖書,而對于那些尺寸、重量超出設計的,或裝幀、紙張異常的圖書,則很難通過機器進行加工。
(2)穩定性指的是系統運行的可靠性、耐用性、效率和噪聲控制。對于大型圖書館來說,每年處理的圖書量是很大的,要保證一定的運行效率,完成每年的圖書加工任務,不能出現經常維護或維修的情況。由于系統的復雜性和獨創性,其建設的成本是比較高的,建成后需要經久耐用才能具有一定的性價比。圖書館環境的一個基本要求是安靜,因此噪聲控制也非常重要,在不能影響讀者的同時,也要為工作人員提供一個相對安靜的工作環境。
(3)差錯率指的是系統加工圖書的出錯概率。差錯率越低,需要人工干預的工作量就越少,反之將增加人工干預的次數,嚴重影響效率,這就要求差錯率必須要控制在比較低的水平。
(1)收單驗收時,需要系統識別實體圖書的ISBN、價格和同種圖書的復本數,對比館員人工導入的到貨電子清單,讀取ALEPH系統的訂單信息。在讀取ALEPH系統的訂單信息時,面對較為普遍的單條數據多訂單的情況,能通過訂單信息(書商、分館、單冊數量等)準確識別正確的訂單。面對多條數據多條訂單的情況,也能通過數據中包含的訂單信息(書商、分館、單冊數量等)準確識別正確的訂單。訂單和單冊信息的登到更新,主要有條碼信息的更新、單冊狀態的更新和RFID芯片信息更新等。
(2)單冊狀態校驗時,需要依據館方提供的參數表。該參數表需要盡量列舉出所有的異常情況,還需要列舉出所有異常狀況的正確修改方案,包括每種單冊狀態需要對應的分館和館藏地、同種單冊狀態是否可重復、復本號是否需要分配及按什么規則分配等,使系統可以對不符合參數表的情況對ALEPH數據進行自動修改,實在無法自動修改的,再輸出清單供館員人工校驗。
(3)編目數據套錄時,同一個ISBN經常會對應多條數據(不同版本或多卷書),因此系統套錄數據時,需要準確識別編目數據中的某些關鍵字段(年份、頁數等),判定并套錄到正確的那條數據。供套錄的數據庫需及時更新,若690字段有變化,需要系統形成提示并匯總,由工作人員在規定時間內生成匯總文件反饋借閱部,方便查找錯標書籍重新貼標。對版權頁的準確識別需要依靠OCR(字符識別)識別和大量機器訓練,使智能系統能自行識別掃描版權頁,并將圖片信息文字化,實現部分字段的自動標引,以減少編目員人工輸入。
經過一系列安裝調試,廣東省立中心圖書館的編目前加工模塊于2021年4月建成落地,并開始正式運行。該模塊的具體工作是對圖書的封底和題名頁貼碼并校驗其一致性、對封底已貼的條碼覆膜、在題名頁蓋館藏章、在封底的反面粘貼RFID標簽等。初期為了系統穩定性,其加工速度控制在200—300冊每小時,每天開機4—5小時即可滿足圖書館的圖書加工需求,大大減少了人工重復勞動。在對近2萬冊新書的加工中也發現了一些問題,如在處理有封套圖書和精裝圖書時,機器翻頁系統存在一定的出錯概率、多卷書的加工存在缺陷、條碼剝離時也存在一定失敗概率等,這些都需要通過機器迭代升級與系統算法優化來逐一改進,最終使80%~90%的圖書均能通過智能作業系統進行加工,并盡可能降低出錯概率,減少人工介入頻率。
系統通過自動套錄和無紙化編目的方式初步解決了編目外包造成的數據質量下降問題,同時也兼顧了編目效率。這樣的智能化編目只是停留在對已有數據的自動套錄和對無數據圖書的編目信息頁掃描,并嘗試對版權頁進行智能識別與自動標引,距離真正的全自動標引依然存在距離。要實現全字段的自動標引,需要對大量已有的中文圖書主題手工標引數據的訓練和學習,并由此產生序列實體之間語義關系和規則特征的模板,然后利用該模板進行機器預測[2]。同時,還需對大量圖書信息頁的OCR掃描識別,并與該模板進行對比套用,最終實現較高準確率的自動標引。
近年來,隨著業務外包理念在我國圖書館界的推行,外包商和圖書供應商承擔了越來越多的圖書加工編目工作。采分編智能作業系統的出現不僅為大型圖書館提供了采分編解決方案,同樣也為外包商和圖書供應商提供了替代人工的高效途徑。隨著系統逐步建成并不斷迭代升級,越來越多的專利將隨之出現,其穩定性、效率、成本控制等將持續提升,最終將有較大可能定型為成熟的產品向各大型圖書館和書商推廣。同時,系統對圖書外觀、頁面內容信息的大量采集,可以形成數量龐大的圖書信息數據庫,為圖書館后續提供基于該數據庫的各種知識服務提供了可能。