肖 玥 李念祖 謝 鵬
(首都圖書館,北京100021)
機器學習作為人工智能的核心技術,已經滲透到各個方面,從蘋果的Siri、微軟的 Cortana 、再到淘寶的“猜你喜歡”等無一不是應用機器學習的案例。直到2016年谷歌基于機器學習技術的AlphaGo擊敗世界圍棋冠軍李世石,人們開始逐漸關注機器學習技術。在大數據時代,機器學習憑借其在處理海量數據方面的先天優勢以及良好的性能和效果,可以在智慧圖書館建設中發揮重要的作用。
2020年4月,筆者在中國知網數據庫中以“機器學習”為關鍵詞進行檢索,經閱讀摘要剔除非相關文獻,圖情研究領域與該主題相關的文獻共計77篇,其中張坤等介紹了機器學習在圖書情報領域個性化推薦服務、智能信息檢索和自動文本分類三個方面的研究熱點[1],劉瀏等提出了機器學習在圖書情報領域中智能問答、文本信息處理、信息服務、學術評價四個方面的應用前景[2];其余文獻多數是通過算法實驗對機器學習在文獻自動分類進行可行性的驗證或是對個性化推薦系統進行對比研究[3][4][5]。目前有關機器學習在智慧圖書館中應用方面的研究較少,且對機器學習在智慧圖書館中的應用場景的梳理與歸納也不夠全面。因此本文在根據現有研究的基礎上,從智慧圖書館資源、服務、管理三個方面入手梳理機器學習在智慧圖書館中的應用場景,并提出機器學習技術落地圖書館應用的發展建議。
機器學習(Machine Learning),是人工智能技術的一項核心技術方法,其實質就是利用算法來分析和處理數據,使機器從中學習并做出推斷或預測,進而模擬或實現人類的行為的過程。機器學習技術強調的是“學習”的過程,通過對不斷增加的大量數據樣本進行分析,逐步建立起預測模型并通過“訓練”過程不斷修正和完善,一般來說,樣本數量越多,“訓練”過程越多,預測模型就越趨近于完善,預測模型所產出的結果就越精準。
按學習方式進行分類,機器學習可以分為淺層學習方式和深度學習方式,二者的區別在于機器學習中的“特征”是否由人為設定,以及訓練時所需數據量大小。淺層學習方式的“特征”是一般由人為構造的,即:在訓練模型前先由專家通過分析哪些“特征”是重要的,然后機器通過分析訓練數據中的這些特征的數據,學習“怎樣的特征的組合會導致怎樣的結果”,進而產生相應的模型,在訓練過程中,其使用的訓練數據量不必很大,過量的數據量反而會影響淺層學習的效率。深度學習(deep learning),最早由杰夫·辛頓(Geoffrey Hinton)于2006年提出,是機器學習研究中的一個備受關注的新領域,深度學習通過模擬人腦神經元間的連接、對外界刺激的感知和傳導來獲取對事物的認識、解釋和判斷[6],深度學習進行訓練前一般不必預先設定“特征”,而是使用多層神經網絡進行自動學習獲取“特征”,學習從淺層順次開始,上一層學習得出的數據會作為下一層的輸入數據,由淺層的初級特征逐步學習到深層的高級特征,本質上是一個從全局到局部再到細節特征,每一層都在分段學習的學習過程。由于深度學習需要自動學習獲取“特征”,因此需要大量數據進行訓練,其次由于其模擬神經網絡的結構,在龐大訓練集下,深度學習的性能要優于淺層學習。
在古籍數字化方面,古籍文字的識別是核心內容。由于古籍文字與現代印刷體文字不同,其屬于手寫字體,古籍文字的書寫風格、筆畫、形態各異,同時還會存在因年代久遠出現的筆畫模糊、缺失等現象,因此傳統OCR(光學字符識別)技術并不能很好地處理手寫文字的識別,給古籍數字化工作帶來不小的挑戰。以卷積神經網絡等為代表的深度學習技術突破了傳統OCR技術只能識別印刷字體的局限,在手寫字體識別方面已有顯著成果。2011年ICDAR脫機手寫體漢字識別競賽中,IDSIA團隊首次將卷積神經網絡算法應用于手寫漢字識別,其識別準確率達到92.18%[7];隨后在2013年的ICDAR手寫漢字比賽中,來自富士通公司的團隊使用優化后的卷積神經網絡算法并獲得了脫機手寫漢字識別的第一名,識別率達94.77 %,而來自英國華威大學的 Graham 利用深度稀疏卷積神經網絡的方法,獲得了聯機手寫漢字識別第一名,識別率高達97.39%[8]。可見深度學習方法相比于傳統方法,能達到更高的識別率,顯示出深度學習在該領域的強大潛力。在圖情界,已有學者開始嘗試進行基于深度學習技術的古籍漢字識別研究,以期為古籍漢字元數據加工提供一種可行的解決方案。郭利敏等通過數據生成技術構建訓練集773個漢字、約 24 萬個訓練樣本,通過 TensorFlow平臺進行20輪迭代訓練并測試,測試結果顯示識別準確率為61.09%,在增加訓練樣本數量后準確率提升為66.28%,指出訓練樣本字體的多樣性有助于提升CNN網絡的識別率[9]。
在古籍整理的符號標注、箋注方面,機器學習技術也同樣有著巨大的價值和潛力。古籍大多沒有標注斷句的標點符號,需要人工辨清古文含義后再進行標注,對標注人員的專業性要求極高且工作量巨大,若利用機器學習技術對大量已進行古籍標注的樣本進行訓練,構建古籍標注模型,則可以實現古籍符號標注工作的自動化或是作為人工標注的輔助手段,明顯提高工作效率及準確度。在古籍箋注方面,由于生僻字句需要工作人員在查閱大量文獻的基礎上才能進行正確箋注,工作極為繁瑣,利用機器學習在大數據處理方面的優勢則同樣可以實現古籍的自動或半自動化箋注功能,提高以箋注的效率和準確率。
基于機器學習方法的文本分類則可以輔助識別古籍的文體風格特征,非常適用于解決古籍真偽辨別、寫作年代判定等問題,在古籍辨偽方面有非常大的發展前景。目前已有學者做過基于機器學習的古籍辨偽研究,施建軍運用SVM支持向量機技術,以44個文言虛字頻率為特征向量,對《紅樓夢》120回進行了分類研究,結果顯示從第81回開始的后40回和前80回在寫作風格上存在明顯差別,從技術的角度確認了《紅樓夢》前80回和后40回為兩人所作[10]。
3.1.2 知識發現與預測
機器學習通過聚類及層次分析模型,將文獻中的知識概念實體間的隱性關聯關系揭示出來,形成知識概念關聯圖譜;通過分析文獻的引證、合作等關系,揭示知識用戶群體的集群關系;通過對文獻的知識單元、時間、空間多維度的學習和推理揭示文獻中知識單元的演化與流動軌跡并進行趨勢預測。Qinsight是國外一個應用機器學習技術的用于生物醫學文獻的AI知識發現平臺,它使用生物醫學優化的神經網絡和其他AI方法來模擬專家的大腦如何發現最相關的信息,辨別關鍵事實并發現關鍵概念,此外還提供先進的視覺分析來總結結果,預測趨勢并發現文獻中的隱藏聯系[11]。國內知識發現系統可參考Qinsight知識發現與機器學習融合的經驗,將深度學習引入知識發現系統,在圖書館檢索系統中提供知識概念關聯圖譜,提升文獻知識單元層面的智慧性。
3.2.1 個性化資源檢索
基于機器學習的個性化資源檢索,從功能上可以分為個性化檢索排序以及個性化關鍵詞預測兩種。前者的功能是實現檢索結果的個性化推薦及個性化排序;后者的功能是實現檢索詞的個性化預測。
相關性分析顯示,周圍神經病變、心臟自主神經功能存在相似性,存在以下特征:①正中神經與心臟自主神經功能關系更為密切;②SCV與心臟自主神經功能關系更為密切。可能原因為:正中神經在臂部損傷時可累及全部分支,手并非承重的肢體,不容易受到大血管病變的影響,其能夠更真實的反映高血糖所致的神經損傷,提示心臟自主神經損傷也容易受到高血糖的影響[6]。SCV能夠更好的反映靜止狀態下的神經功能,更好的反映高血糖神經損傷情況,不容易受到運動狀態、方式等因素的影響,不容易受到干擾。
個性化檢索排序,即:通過采集用戶檢索行為數據(如:檢索詞、檢索策略等)以及內容偏好數據(如:瀏覽、下載或收藏文獻內容的主題、瀏覽的時常等)進行機器學習,對用戶行為及偏好特征進行建模,進而預測與用戶檢索內容主題相關或是用戶可能感興趣的其他主題文獻,并將預測結果按照用戶興趣偏好程度或是檢索行為偏好程度進行排序,呈現在用戶的檢索界面上。例如:Exlibris公司開發的Primo檢索系統可根據個性化方式對檢索結果進行排序,通過選擇不同偏好特征并賦予不同權重的方式對檢索結果進行優化,此外該系統還可以通過分析用戶的搜索日志、客戶反饋等情況,不斷增強和優化Primo相關性排名技術。
檢索詞個性化預測主要是通過對用戶歷史檢索數據以及內容偏好數據進行學習,從而對用戶即將要輸入的檢索詞進行預測,在檢索欄的下拉列表中提供與用戶檢索主題相關或者用戶可能感興趣的規范化的檢索詞,并且這些規范表達的檢索詞隨著用戶在搜索欄中添加更多檢索詞而不斷進行調整及變化。目前,圖書館還未出現個性化預測檢索的相關應用,但類似的Google、百度等搜索引擎通過基于熱門搜索的預測搜索算法均可以實現對用戶的檢索查詢的預測。
3.2.2 個性化推薦
基于機器學習的個性化推薦服務,是通過收集用戶的基本身份數據、內容偏好數據、社交數據等進行機器學習,從多個維度的數據中提取用戶興趣的關鍵特征,描繪出完整的用戶畫像,進而實現資源、在線教育、通知信息的個性化定制推送。例如:用戶是一名23歲,專業為計算機科學的研究生,近兩月借閱或是檢索的文獻主要集中于機器學習相關的專著、期刊及學位論文,并在豆瓣圖書中關注收藏了兩本有關機器學習前沿內容的圖書。在通過獲取用戶上述信息進行機器學習后,描繪出該用戶畫像,發現該用戶可能是關注于機器學習的學術研究型用戶,因此個性化推薦系統會向該用戶推薦與機器學習相關的高被引期刊及碩博學位論文、權威作者的專著、相關國際學術會議論文以及在線視頻課程等在內的資源;此外還會向用戶推送近期舉辦的關于機器學習方面的講座信息通知;個性化推薦系統會根據該用戶收藏關注的圖書與館藏情況進行匹配,提示該用戶其收藏的圖書在館內有可借復本。
類似的個性化推薦已被阿里巴巴、美團點評等電商企業廣泛應用。目前基于機器學習的個性化推薦服務在圖書館界尚未出現應用實例,但已經有學者開始關注機器學習在個性化推薦中的應用[12][13],研究結果表明用戶畫像在圖書館個性化推薦方面具有一定的促進作用。
3.2.3 個性化參考咨詢
清華大學圖書館的“小圖”、上海圖書館“圖小二”是目前圖書館界具有代表性的基于機器學習的個性化咨詢服務,其實現方式是采用有監督的機器學習方式,但采用這種監督機器學習的弊端就是在訓練模型前必須要進行大量的數據清洗和加工工作,如果訓練數據質量不佳會導致模型出現偏差,常常導致聊天機器人的回答準確度不高。若引入深度學習技術,能比較好地解決這一問題,數據加工上不需要過多處理僅進行簡單的數據分類即可,降低了數據加工的難度。
此外,使用卷積神經網絡(CNN)、循環神經網絡(RNN)等深度學習技術,可以實現更多元化的智慧圖書館智能咨詢服務。卷積神經網絡(CNN)在圖像處理領域已經取得了統治地位,使用CNN構建機器學習模型不僅可以較為精確地識別圖像,而且還能理解圖像所包含的內容及其相互關系,并通過自然語言表進行表達。Google的研究成果表明,將計算機視覺和語言模型通過CNN與RNN網絡疊加進行合并訓練,所得到的系統可以自動生成一定長度的文字文本,甚至能夠完整講述一張圖片內所包含的故事[14]。將CNN應用于圖書館智慧咨詢服務,則可以實現基于圖像的參考咨詢,通過深度學習的圖像理解模型和聊天模型為兒童、老人等不便使用文字語言或是不同語種的用戶提供更多元化、有針對性的咨詢途徑以及更精準的問題解答。同時,循環神經網絡(RNN)在語音處理方面的表現也十分突出,微軟公司推出的深度網絡語音識別系統,可以對比音素更小的建模單元(senones)進行建模,該系統大幅度地減少了以往語音識別系統的相對誤差,基準測試字詞錯誤率為18.5%[15]。這類語音識別應用類似于微軟公司的Cortana語音助手,如果該成果應用于圖書館中,則可以實現聾啞、視障人群的個性化咨詢服務。
3.3.1 采購決策
采訪的決策影響著館藏資源建設的質量,但在實踐工作中,無論是由采購人員進行決策還是由讀者進行采購決策往往都不能帶來滿意的效果,因此就需要將二者進行結合,通過機器學習形成適當的采購模型實現二者的平衡,一方面通過讀者基本身份數據、歷史借閱等數據進行學習得出讀者偏好,另一方面通過館藏情況、歷史采訪數據、采購預算、文獻評價等形成采訪偏好,并通過大量訓練進行學習賦予讀者偏好以及采訪偏好不同權重形成采購模型,為文獻采訪工作提供科學的決策依據。目前,基于機器學習的智能文獻采訪尚未在圖書館中有完整的應用,但機器學習技術在圖書館的借閱量預測方面則可以提供一些有價值的參考。美國韋恩州立大學圖書館利用機器學習技術正在開發一個對館藏資源的借閱預見分析軟件,以更好預測圖書館館藏的使用情況,這個仍在開發中的應用程序使用美國國會圖書館分類號來預測書籍被借閱的可能性[16]。目前有關基于機器學習的智能采訪的應用案例還未出現,但已經有部分學者開始關注機器學習在圖書館采購決策方面的應用,主要集中在使用不同機器學習算法構建或優化采購模型方面[17][18][19]。
3.3.2 文獻自動分類
自動文本分類應用機器學習技術,通過大量已編目的文獻數據進行分詞預處理并提取特征進行學習,推理生成文獻分類模型,并通過不斷的訓練進行修正最終得到一個分類準確率較高的模型以進行正式文獻分類工作。基于機器學習的文獻自動分類常用的方法有樸素貝葉斯法、KNN、決策樹法、SVM(支持向量)等,其中SVM是文本分類近年來最重要的進展之一。隨著深度學習的引入,以BP神經網絡、CNN卷積神經網絡等為代表的深度學習方法也開始應用于文獻自動分類中。王昊等將機器學習算法中的 BP 神經網絡引入到書目分類中,建立了以機器學習為基礎的書目層次分類系統模型,并以部分類目圖書作為樣本,對模型的可行性與合理性進行了論證和分析[20],其研究基本解決了未進行主題標注情況下書目如何進行自動分類的問題。郭利敏將卷積神經網絡引入到了文獻自動分類,構建了基于題名、關鍵詞的多層次卷積神經網絡模型,使之能夠根據文獻的題名和關鍵詞自動給出中圖分類號,并對7000多篇待加工的文獻做中圖法分類預測,一級分類準確率為75.39%,四級準確率為57.61%[21],證明該模型有著較低的錯誤率。基于機器學習的文獻自動分類,在節省人力成本的同時保證了分類的準確性,使得文獻標引工作更加自動化、智慧化。目前,基于機器學習的文獻自動分類還處于探索研究階段,在圖書館界尚未出現應用的實例。
3.3.3 智能排架
目前,圖書館普遍使用基于RFID 技術的智能圖書定位系統來進行智能排架,但RFID因屏蔽或反射容易產生無法定位的情況。為了克服RFID的缺點,提高定位的準確率,一些學者試圖引入機器學習技術對單字符的索書號進行字符識別,將識別后的索書號與保存的圖書架位信息進行比較從而判斷亂架圖書的位置。陳旭等人采用多閾值及Seed-Filling 種子填充方法提取索書號區域圖像并進行索書號分割處理,通過BP神經網絡對索書號字符進行識別,經實驗得出索書號符識別率達到94%,且BP神經網絡相比于以往的霍夫變換法對索書號的識別率更高[22]。李俊男在原有RFID 技術的基礎上,設計了一個基于深度學習的圖書館架序智能識別系統,該系統首先對書架RFID標簽進行掃描并對存在亂架情況的書架進行拍照,經邊緣檢測、直線分割對索書號區域圖像進行字符識別和分割,通過訓練卷積神經網絡的字符識別模型對索書號進行識別,比較所識別的索書號大小,以此來判斷當前圖書的順序是否正確[23]。當前機器學習尤其是深度學習技術在圖像處理領域被廣泛應用,智慧圖書將深度學習技術引入智能排架中,一方面可以解決小型圖書館因經費不足無法購買RFID設備而無法實現智能排架功能的情況,另一方面也可以作為原有RFID智能圖書定位系統對索書號識別的輔助技術以提高定位的準確率。
機器學習技術可以滲透到圖書館資源、服務、管理等各方面,提升圖書館服務及管理的智慧性。但從上述應用場景來看,目前機器學習在圖書館中的實踐應用非常少,僅僅在個性化資源檢索、個性化參考咨詢方面有少量的實踐應用,在其他應用場景方面大多還停留在研究層面,在這種背景下,圖書館如何引入機器學習技術,如何推進機器學習技術落地智慧圖書館也是當前值得研究的問題。
國務院發布的《新一代人工智能發展規劃》將人工智能發展提升到極高的戰略地位,彰顯國家層面對于人工智能發展戰略布局的高度重視。機器學習作為人工智能技術的重要組成部分,圖書館應給與足夠的重視,加強推進機器學習技術落地的頂層設計。由全國圖書館標準化技術委員會主導制定圖書館人工智能服務在資源、技術、服務等方面的具體標準,對圖書館應用機器學習等各類人工智能技術的應用范圍及條件、數據收集及存儲、監督機制等作出明確規范,確保圖書館在政策文件指導下應用機器學習技術。
在發展初期側重個性化資源檢索、知識發現與預測、個性化參考咨詢這類用戶需求度較高的服務;發展中期側重文獻自動分類、智能排架、古籍數字化等可以提升業務工作效率的應用場景;發展后期,隨著機器技術實踐成果的經驗累積以及與其他人工智能技術的融合發展,可以著重在個性化推薦、智能采訪等高智能化應用方面進行落地。
在現階段,委托開發、合作開發是當前機器學習技術落地圖書館的主要實現途徑。個性化資源檢索、知識發現與預測等對平臺數據(如:數據庫瀏覽及下載記錄等)依賴性較強的服務適宜采用委托開發的方式,如:Exlibris Primo檢索系統、Qinsight知識發現平臺等都是由商業機構進行開發,圖書館可直接購買該服務實現機器學習技術的應用落地;而個性化推薦等對圖書館用戶數據(性別、年齡、借閱記錄等)及平臺數據依懶性均較強的服務更適宜采用合作開發方式,由圖書館提供用戶的基本借閱信息,平臺商業機構提供用戶在平臺瀏覽數據等信息,進行合作開發構建個性化推薦服務。此外,文獻自動分類、智能采訪、智能排架等對圖書館業務數據依賴性較強但開發專業度較高的應用,在現階段也適宜與商業機構進行合作開發,圖書館應充分參與平臺功能設計、底層架構、系統對接、開放接口應用等模塊,實現圖書館豐富業務經驗與商業機構先進開發技術的優勢互補。
圖書館應著重關注數據的獲取途徑、數據獲取的隱私保護。在數據獲取途徑方面,圖書館應擴大數據收集的范圍進行多維度的數據采集,重點采集如:數據庫登錄頻率、登錄時間及停留時長、文獻瀏覽及下載等在內的數據庫使用信息,借閱、收藏、預約圖書等在內的圖書集成管理系統使用信息,在線申請、預約培訓活動等活動信息,咨詢FAQ、課題檢索、科技查新、代檢代查等參考咨詢平臺使用信息,以及對圖書館的微博、微信公眾號評價的反饋信息等,通過全方面、多維度的采集用戶信息,使個體用戶在不同數據間進行互補,增強用戶行為數據的可靠性,以提高用戶畫像構建的準確程度;此外,在獲取用戶行為數據的同時,圖書館也有保障用戶隱私的義務,在獲取用戶行為數據前,需要在資源數據庫、圖書館集成管理系統、活動預約平臺、參考咨詢系統、微信公眾平臺等應用平臺中對所采集用戶信息的范圍、使用目的進行明確說明及告知,在獲得用戶的信息使用許可后,方可進行采集。