沈 杰(浙江中醫藥大學圖書館)
當前,伴隨著智能系統深度學習的興起、大數據的發展、云系統的建設、物聯網的流行以及各種自動化系統的涌現,“人工智能”迅速成為流行熱詞。人工智能(Artificial Intelligence, AI)也被稱作機器智能,是通過模擬人的行為方法來讓機器也擁有和人相似的能力。目前,人工智能已經滲透到社會的各個領域。將人工智能與圖書館信息服務相結合是促進圖書館轉型升級的重要途徑,也是由傳統的“信息化圖書館”升級為“智能型圖書館”的必由之路。2017 年9 月,武漢大學圖書館與百度公司率先聯合舉行了AI 圖書館建設合作研討會,會后雙方簽訂了《百度武大AI 圖書館合作框架協議》[1]。該協議的簽訂意味著智能型圖書館建設向前邁出了一大步,而如何利用快速發展的人工智能技術構建智能型圖書館信息服務系統則成為圖書館轉型升級的關鍵。
傳統圖書館資源是以紙質的形式進行儲存,通過圖書館自動化管理系統進行借還操作。隨著信息技術的廣泛應用和數字時代的到來,數字資源成為高校圖書館信息資源的重要組成部分。相較于書刊、報紙等資源,數字資源具有占地小、內存大、不易損壞、交互性強、囊括范圍廣等優點。圖書館資源的數字化不但能夠擴大用戶規模,滿足用戶需求,還能極大地促進信息資源的交流與共享。對傳統信息資源進行數字化后,還要進一步讓這些數字化信息資源“活”起來,對數字資源進行知識化的劃分和統一標注,使數字資源之間能夠進行語義關聯和知識化指向,為用戶提供直觀的信息資源,實現知識導航。
為用戶提供信息服務是圖書館的重要職能。互聯網的迅速崛起使得圖書、報刊等文獻被逐步取代,取而代之的是各種方便、快捷的數字化資源。但圖書館提供的數字化資源基本上都停留在靜態、被動的層面,與讀者的實際需求還存在一定差距。如信息引導能力差、檢索精度低、個性化檢索能力差和缺乏自適應等問題。基于人工智能的圖書館個性化服務系統能夠在大數據環境下將海量的信息進行減噪、特征提取、相似度匹配和知識融合等處理,對信息進行有機整合,并根據信息智能推薦引擎實現用戶與信息、知識的個性化匹配,最終實現高效、精準、智能的信息反饋。為提高圖書館的信息服務能力,解決圖書館信息服務中現實與用戶日益增長的對高效、便捷信息的需求之間的矛盾,幫助用戶更準確、快捷地從圖書館中查詢到所需信息,建立能夠提供個性化主動服務的智能型圖書館是滿足新形勢下用戶對知識信息交互、感知與體驗需求的重要途徑。
數字資源是海量的,由于資金和技術力量,單獨某一個圖書館無法將所有信息資源都收集齊全。因此,圖書館之間應形成資源共享的互利機制,即每個圖書館根據自己承擔的任務以及服務的對象,有針對性地制定符合自身的數字資源采集制度。采集的原則可遵循全面性、針對性、時效性、選擇性、協調性、需求性、互補性和有效性等原則[2]。采集方式可以遵循:① 通過掃描、文字識別等硬件設施和軟件程序將經典紙本館藏資源進行數字化,同時進行分類整理;② 通過網絡爬蟲程序自動抓取網上具有價值的信息資源,并根據所抓取的信息類型進行分類存儲;③ 不能通過爬蟲抓取的具有極大價值的深層次開放存儲信息,可以通過手工采集的方式進行補充。
圖書館直接采集的數字資源存在許多問題,如信息之間的交叉重復率高、低價值信息過多、冗余信息繁雜、信息關聯程度低等。圖書館如何將采集到的數字資源進行優化重組對智能型圖書館建設至關重要,資源的整合可嘗試以下方式:① 引入先進的數字資源加工系統實現數據庫間無縫檢索以及多庫數據偶聯;② 建立統一聯合檢索系統,合并不同平臺、不同類型數據庫的檢索功能,實現跨平臺信息檢索;③ 采用計算機編程中面向對象的方式,以對象的方式存儲數字資源元數據,以類指針的方式檢索不同類型的資源(文字、圖像、音頻、視頻等),把相同的資源整合、過濾,降低冗余度,實現資源的快速匹配;④ 提取不同類型資源的關鍵詞或特征碼,建立以關鍵詞或特征碼為基礎的資源相似性偶聯系統,使檢索結果更加全面[3]。
數字資源的采集和整合是建設智能型圖書館信息服務系統的基石,而建立標準的采集方式和整合模式又是當中急需解決的關鍵問題。圖書館管理人員和技術人員應聯合起來共同制定智能圖書館信息服務系統的各項標準,以加快推進智能圖書館的建設。
所謂個性化信息服務就是根據讀者的知識結構、信息需求、行為方式和心理傾向等大數據,有的放矢地為讀者創造符合其個性需求的信息服務形式與環境,并幫助其建立個人信息系統。雖然目前大多數圖書館都配備有個性化信息服務系統,讀者可以根據自身需求檢索特定的數字資源。但是,在信息全球化時代,用戶面對的是海量的數字信息資源,如果每一次查詢都需要用戶自己層層篩選,將耗費用戶大量的時間成本,嚴重降低用戶體驗,而以人工智能技術中神經網絡算法為基礎的機器學習技術可以很好的解決這一問題。根據用戶注冊時所填寫的基本資料和追蹤實時查詢時的操作瀏覽過程,它可以對用戶真實目的進行預測并對查詢結果進行智能篩選,將大大提高信息服務系統的效率,同時也能滿足用戶多樣化需求。
數字化圖書館具有三層結構:用戶界面、網絡服務器、資源數據庫。這三層結構在邏輯上既相互獨立,又密切聯系,任何一層結構的內涵對于另外兩層的功能實現都起著決定性作用。
(1)用戶界面可以與用戶直接進行信息交互,包括信息的輸入、結果的呈現,一般采用瀏覽器/服務器(B/S)模式。B/S 模式的優點在于無需安裝特殊客戶端,用戶在任何帶有瀏覽器的計算機上即能夠進行信息檢索。用戶界面這一層,主要對用戶的行為信息進行采集,包括顯式信息和隱式信息。顯式信息包括用戶輸入的搜索文本、用戶評價、用戶點擊的某些單選或復選框等;隱式信息主要包括用戶在某個頁面的停留時間、用戶對某些已經做出的選擇進行撤銷的行為等[4]。用戶信息的獲取是對用戶進行個性化服務的基石。
(2)信息收集完成之后,便打包傳輸到下一層——網絡服務器層。網絡服務器是整個框架的核心,一般用Windows Server 或者Linux 服務器進行搭建。網絡服務器的主要功能包括:① 整合分析從用戶瀏覽器上傳的信息,實時跟蹤用戶動態;② 用戶行為與需求預測;③ 檢索結果智能篩選,按照對用戶需求預測結果的相關性由高到低進行排序;④ 針對不同用戶建立其特征檔案,整合用戶的所有信息,構建并實時升級用戶個性化模型。服務器基本上承載了整個服務系統的運算需求。由于人工智能算法的加入,勢必導致對大數據需求的陡增,同時各種用戶行為分析和用戶需求預測等提高圖書館智能化的數學模型的應用將進一步增加服務器的載荷。因此筆者認為采用云服務器來搭建網絡服務器層將能夠有效的解決這一問題。云服務器為智能圖書館所需的大數據分析能力提供基礎設施保障。
(3)資源數據庫的主要功能包括存儲信息數據和管理數據。基本框架中的每一層的部署與完善對于圖書館員都是巨大的工作挑戰,僅靠人工或者傳統的計算機技術來完成這些工作是不現實的。筆者認為人工智能的引入能很好地幫助解決這些問題,可以采用機器學習的方法來構建一個自動學習、自動升級的個性化信息服務系統。
智能化圖書館的核心任務是快速、準確的為用戶查詢到其所需的信息資源,建立用戶特征模型,推送用戶關注內容的實時進展,為用戶提供知識導向,實現個性化服務。其中個性化智能信息服務的主要關鍵在于為用戶“量體裁衣”。準確、實時、全面掌握和表示用戶的興趣是一個重要的前提和基礎,建立合理的個性化用戶模型,使系統能夠跟蹤用戶行為,學習、記憶用戶興趣,描述用戶的興趣特征,據此向用戶提供有針對性的信息服務[5]。在建立信息服務系統各個模塊時引入人工智能技術,將能夠最大程度上滿足用戶的個性化需求。基于人工智能技術的個性化信息服務系統模塊總體上可分為主動信息獲取與被動信息推送服務兩大類。人工智能的本質是對不同智能算法的應用,筆者將重點介紹現階段較為熱門的人工智能算法、模型在信息服務系統中的應用。
3.2.1 主動信息獲取模塊
主動信息獲取模塊負責用戶主動搜索行為,包括信息流輸入、數據分析、結果匹配、結果輸出。其中初始信息流輸入,即用戶輸入決定了后續采用的數據分析方法。信息流的輸入方式現階段以文本、圖片、語音三類為主,針對不同的類型需要采用不同的算法進行分析。
(1)文本信息處理技術。文本分析是一個多學科混雜的領域,涵蓋了信息抽取、信息檢索、機器學習、自然語言處理、統計數據分析等技術。其中最關鍵的部分是自然語言處理技術,也是文本分析中最難的部分。針對自然語言的特性,在形式語言理論框架下已經建立了不同的模型,形成了自然語言處理的諸多形式化機制。隨著深度學習技術的發展,其中基于聯結的深層神經網絡(DNN)包括卷積神經網絡(CNN)、循環神經網絡(RNN)、長短時記憶模型(LSTM)已經成為處理自然語言的常用模型[6]。深度學習(Deep Learning, DL)是機器學習中一種基于對數據進行表征學習的方法,是一種能夠模擬出人腦神經結構的機器學習方法,深度學習的概念源于人工神經網絡的研究。而人工神經網絡(Artificial Neural Network,ANN) 是從信息處理角度對人腦神經元網絡進行抽象,從而建立某種簡單模型,并按不同的連接方式組成不同的網絡,簡稱為神經網絡或類神經網絡。深度學習提出了一種讓計算機自動學習模式特征的方法,并將特征學習融入到建立模型的過程中,從而減少了人為設計特征造成的不完備性。在大樣本量的訓練下,深度神經模型通過自我學習及自動優化升級將能夠有效的對輸入信息流進行智能化分析,進而獲得最佳的輸出結果。
(2)圖片信息處理技術。人工智能在圖片處理上主要有以下四種算法。① 遺傳算法(Genetic Algorithm,GA) 模擬了達爾文進化論的自然選擇,體現了適者生存、優勝劣汰的進化原則,進化出問題的最優解。其主要特點是直接對結構對象進行操作,不存在求導和函數連續性的限定,具有較強的全局尋優能力[7]。② 蟻群算法(Ant colony Optimization,ACO)來源于螞蟻覓食。螞蟻在前行的路上會根據前面走過的螞蟻留下的分泌物來選擇路徑,分泌物越多,就會吸引更多的螞蟻,螞蟻個體間通過這種信息的交流尋求食物的最短距離。蟻群算法模擬螞蟻覓食時候的信息素原理,經過多次迭代,找到最佳路線[8]。該算法能用于解決大多數優化問題,在圖像分割等領域有重要應用。③ 模擬退火算法(Simulated Annealing,SA)來源于物理中固體退火原理。退火是將固體加熱到足夠高的溫度,使分子呈隨機排列狀態,然后逐步降溫使之冷卻,最終分子以低能狀態排列,固體達到某種溫度狀態。該算法具有全局優化性能,在工程中得到廣泛應用[9]。④ 粒子群算法(Particle Swarm Optimization,PSO)源于對鳥群捕食的行為研究。鳥群通過自身經驗和種群之間的交流調整自己的搜尋路徑,從而找到食物最多的地點。其中每只鳥的位置/路徑則為自變量組合,每次到達地點的食物密度即函數值。同遺傳算法類似,都是基于群體迭代的,但沒有交叉及變異,而是粒子在空間搜索并追隨最優的粒子。優點是速度快,全局搜索能力強,適用于連續函數極值問題[10]。
(3)語音信息處理技術。對語音信息進行處理,首先需要對語音進行識別。語音識別技術,也被稱為自動語音識別(Automatic Speech Recognition,ASR),其目標是將人類語音中的詞匯內容轉換為計算機可讀的輸入,如按鍵、二進制編碼或者字符序列。語音識別技術最初采用的是混合高斯模型(GaussianMixedModel,GMM),隨著2009 年Hinton 把人工智能深度學習解決方案引入語音識別,GMM 被DNN 取代。在深度學習框架下,還可以利用更好的模型,如RNN 和LSTM 以及更多的訓練數據進一步改進結果,深度學習使得語音識別的準確率能達到99%[11],語音信息最終轉變成文本信息進行進一步處理。
3.2.2 被動信息推送服務模塊
被動信息推送服務模塊負責向用戶推送個性化信息,當內容有更新或者更改時通知用戶,使用戶實時掌握其感興趣領域的最新進展。信息推送服務的重點在于了解每一個用戶的個體特征,適時地推送其樂于接受或者急需學習的信息。與之相反,過多的地毯式推送只會降低用戶的體驗感,被用戶選擇自動忽略掉這些信息。因此,圖書館需要針對每個用戶建立存儲并實時更新用戶個性化特征檔案。如,高校圖書館可以按照用戶所在專業、年級進行初步劃分,設置本科、碩士、博士等類別,針對不同類型的用戶推薦與之相應的信息。面向本科生,可以推薦其學年的專業課程、專業競賽和與其專業緊密相關的其他專業的信息等;而針對博士等可以從事科研的用戶,根據其專業領域、所關注的科研問題,著重推薦科學前沿的研究論文。除此之外,圖書館還可以建立個人書架,用戶可以采用在線文獻閱讀器,直接進行標注,服務器將所有信息存儲到用戶個人信息中,方便以后閱讀時直接調出。同時服務器還可以收集用戶閱讀時的重點標記,為用戶推薦相關的信息資源。
目前,推薦引擎可以分為傳統的基于人口統計學的、基于標簽內容的、基于協同過濾的以及基于模型的推薦等類型[12]。① 人口統計學方法通過用戶的個人特征如年齡、性別、專業、興趣等與其他用戶進行匹配,然后將匹配上的用戶所關注的信息進行推薦,但推薦內容較為片面。② 內容搜索法將推薦問題視作一個尋找相關信息的問題,根據用戶搜索歷史,利用其某個屬性構造一個查詢條件,再用該查詢條件來搜索匹配的信息并作為推薦結果。這種推薦算法其實就是一個搜索算法,其缺點是在用戶查詢歷史很少時能產生較好的結果,但是在用戶的歷史記錄逐漸增多時,將無法構造一個有效的查詢條件。③ 協同過濾算法(Collaborative Filtering,CF)是很常用的一種算法,在很多電商網站上都有用到,在傳統算法上具有一定的代表性。協同過濾算法相對簡單,而且很多時候推薦也十分準確,但是向量維度越大其計算量越大,不常用于大型數據集。④ 基于模型的方法是使用一些機器學習算法(DNN 等)對信息的向量進行(針對一個特定的用戶)訓練,然后建立模型來預測用戶對于新的信息的得分。流行的基于模型的技術是貝葉斯網絡、奇異值分解和隱含概率語義分析。經過大數據的訓練,基于模型的推薦系統能較為精確地預測用戶的信息偏好。筆者認為在如今復雜的信息環境下,為了向用戶提供最佳的信息服務,圖書館個性化智能信息服務系統中信息推薦系統的構建可以采用基于模型的算法。

圖1 圖書館個性化智能信息服務系統模型
綜上,人工智能技術的發展為圖書館向智能圖書館轉變帶來了機遇,隨著人工智能技術的不斷發展與完善,基于人工智能技術的圖書館信息服務系統也將愈加成熟。圖書館要發揮對社會公眾信息獲取的推動及引領作用,就應走在時代前列,順應讀者需求,努力推進圖書館的智能化發展。