李 金
(榆林學院,榆林 719000)
隨著我國智能技術的不斷發展,傳統圖書館由于圖書眾多、占據空間大、查詢難度大的缺陷,已經無法適應現今社會的發展趨勢。數字圖書館依據需求而產生,其主要是利用數字技術對圖書等各種文獻進行處理與存儲的圖書館,其實質上是一種多媒體制作的分布式信息系統。數字圖書館可以將不同載體、不同位置的信息資源采用數字技術進行存儲,以此為基礎,便利使用者跨越對象、區域的查詢與傳播。數字圖書館主要包括信息資源的加工、存儲、檢索、傳輸與利用。通俗地說,數字圖書館是虛擬的、無圍墻的圖書館,依據網絡環境構建的知識網絡系統,其具有分布式、大規模、便利性、無時空限制與智能檢索的優勢,已經被多所大學以及城市所應用。但是如何在數字圖書館有效的提取需求的信息成為現今數字圖書館應用的關鍵難題,也是目前智能領域重點研究課題之一。
就現有的研究來看,傳統的基于搜索引擎的知識獲取方式已經無法滿足現今人們的需求,傳統知識獲取方式返回信息過于冗余,用戶需要消耗大量的人力與時間在返回信息中尋找自己需求的信息。智能問答系統可以精準的捕捉用戶的意圖,理解用戶的自然語言提問,可以將答案直接返回給用戶,人們對智能問答系統的重視與研究也越來越多。數字圖書館傳統搜索引擎存在著返回答案速率低、準確性差的缺陷,無法滿足現今數字圖書館的需求,為了解決上述問題,引入云計算對數字圖書館智能問答系統進行設計。云計算實質上是分布式計算的一種,其可以在幾秒鐘內對數以萬計的數據進行處理,從而達到強大的網絡服務。通過云計算的應用可以極大的提升數字圖書館智能問答系統的性能,同時設計仿真對比實驗對設計的數字圖書館智能問答系統性能進行測試與分析。
為了解決傳統搜索引擎存在的難題,對數字圖書館智能問答系統架構進行設計。智能問答系統架構示意圖如圖1所示。

圖1 智能問答系統架構示意圖
如圖1所示,基礎層主要包括的是智能問答系統構建需要的數據,將其以文本形式進行存儲;
資源層主要包括問答數據、特征數據、圖書資源以及知識庫等數據資源;
分析層是智能問答系統的關鍵部分,主要是通過智能問答引擎、圖書庫引擎以及檢索排序引擎來對智能問答系統進行構建,其中每個部分還包含優化方案;
應用層是對智能問答系統的功能進行實現,包括智能問答、相關問題推薦、圖書解釋、歷史追蹤等;
交互層指的是用戶進行智能問答的硬件,主要包括Web終端與移動終端。
系統硬件設計主要包括Web終端、圖書信息采集設備與圖書信息轉換設備。具體內容如下。
Web終端是用戶進行問答的主要設備,是一種在網絡環境下的終端設備,與計算機相比較來看,其沒有軟驅、光驅、硬盤等存儲設備,主要通過網絡對資源進行獲取,軟件與數據存儲與服務器上。其具有發熱量小、無噪音、使用簡便的優勢,廣泛的應用于學校。Web終端示意圖如圖2所示。

圖2 web終端示意圖
數字圖書館主要是對圖書館的圖書信息進行采集,將其以數字化形式進行存儲。由此可見,圖書信息采集設備是其重點設備。該系統主要采用圖書采集器對圖書信息進行采集,該設備也被稱為圖書盤點機,主要是通過激光技術對圖書信息進行掃描,軟件存儲與該設備的內部,共同對采集功能進行實現。圖書采集器具有體積小、攜帶方便的優勢。圖書采集器參數設置如表1所示。

表1 圖書采集器參數設置表
采集的圖書信息需要通過轉換設備對其形式進行轉換,以此來減小存儲空間。該系統主要采用轉換器對圖書信息形式進行轉換。
轉換器指的是將圖書信息進行轉換的裝置。轉換器中關鍵組件為電路,因此,對轉換器進行設計,具體情況如圖3所示。

圖3 轉換器示意圖
通過上述過程完成了系統硬件的設計,但是硬件無法實現智能問答,因此,對軟件部分進行設計,以輔助硬件實現數字圖書館的智能問答。
系統軟件設計主要包括數據庫構建模塊、問句預處理模塊與檢索排序模塊。具體內容如下。
采用圖書信息采集設備與轉換設備對圖書信息進行采集與轉換,通過網絡爬蟲技術對數據庫進行構建。具體過程如下。
網絡爬蟲技術是構建數據庫的有效技術與工具。爬蟲流程主要是根據圖書結構,對爬取規則與策略進行設計,其次對腳本程序進行編寫,最后對采集內容進行保存。
首先,對問答信息進行采集。主要采用開源爬蟲框架Scrapy框架對問答信息進行爬蟲采集。Scrapy框架圖如圖4所示。

圖4 Scrapy框架圖
爬蟲采集數據內容如表2所示。

表2 爬蟲采集數據內容表
其次,對數據庫結構進行優化,其優化流程如圖5所示。

圖5 數據庫結構優化流程圖
通過上述過程完成了數據庫的構建與優化,為下述數據預處理提供支撐。
要想智能問答系統可以精準的對問題進行回答,首要任務就是對問句進行預處理。該系統主要采用問句分類模型對問句進行預處理。具體過程如下。
問句分類模型架構圖如圖6所示。

圖6 問句分類模型架構圖
如圖6所示,xi表示的是第i個詞語的嵌入詞向量;hi表示的是第i個詞語經過隱藏層之后的輸出信息。hi計算公式為:

但是問句中詞語有輕重之分,因此,需要對詞語進行權重分配,則輸出結果為:

其中,ti表示的是第i個詞語的權重。
將得到的特征向量H~導入分類器中,得到類別結果為:

其中,g()表示的是分類器函數;Vx表示的是權值矩陣;.Ms表示的是分類器的dropout處理;bs表示的是分類器的偏置向量。
通過上述過程完成了問句的預處理,為最后的檢索排序提供精準支撐。
以處理好的問句為基礎,通過結構化索引的方式對數字圖書館的數據進行匹配比較,依照匹配打分由高到低輸出檢索結果列表。檢索流程如圖7所示。

圖7 檢索流程圖
如圖7所示,為了提升智能問答系統的返回答案的準確性,對問句、特征以及類目進行匹配。具體過程 如下。
問句匹配檢索。將輸入的問句與歷史問句進行匹配,對相似度進行計算,計算公式為:

其中,simcontent表示的是問句相似度;α,β表示的是計算參數;Q表示的是用戶提出的問句;question表示的是歷史問句。
特征匹配檢索。當檢索出的答案的相似度進行計算,采用simeva進行表示,其采納規則為:

類目匹配檢索。類目匹配檢索指的是對問句的類目進行判別。其判別式為:

其中,simcate表示的是類目相似度;cate_1q,cate_2q分別表示的是問句分類結果;field表示的是歷史問句類目。
通過上述系統硬件與軟件的設計,實現了基于云計算的數字圖書館智能問答系統運行,為數字圖書館的應用提供新的技術支撐。
上述過程實現了基于云計算的數字圖書館智能問答系統的設計與運行,但是對其是否能夠解決傳統搜索引擎存在的問題還無法確定,為此設計仿真對比實驗對設計系統的性能進行測試與分析。
在測試過程中,主要采用設計系統與傳統搜索引擎進行對比實驗,由于問答過程不同,其對問句進行回答的方式也存在著較大的不同,為了保障實驗結論的準確性,對實驗外部環境參數進行統一設置,通過返回答案速率與準確性對系統性能進行體現。返回答案速率計算公式為:

其中,TP表示的是返回答案正確的數量;t表示的是返回答案單位時間。
返回答案準確性計算公式為:

其中,FN表示的是返回答案錯誤的數量。
通過上述公式對系統性能指標進行計算與獲取,以此為基礎,對實驗結果進行具體分析。
通過實驗得到返回答案速率對比情況如圖8所示。

圖8 返回答案速率對比情況圖
如圖8所示,設計系統的返回答案速率遠遠的高于傳統搜索引擎,其最大值可以達到90%。
通過實驗得到返回答案準確性對比情況如表3 所示。
如表3所示,設計系統的返回答案準確性遠遠的高于傳統搜索引擎,其最大值可以達到92%。

表3 返回答案準確性對比情況表
通過測試結果顯示,設計的數字圖書館智能問答系統極大的提升了返回答案速率與準確性,充分說明設計的數字圖書館智能問答系統具備更好的性能。
設計的數字圖書館智能問答系統極大的提升了返回答案速率與準確性,為數字圖書館的應用提供新的技術支撐。但是智能問答系統返回答案的準確性與速率依然還存在著較大的上升空間,因此,需要對設計系統進行進一步的研究與優化。