徐 軼
(赤峰學院 國有資產管理處,內蒙古 赤峰 024000)
房產自動應答(FAQ)系統的發展
徐 軼
(赤峰學院 國有資產管理處,內蒙古 赤峰 024000)
本文根據房產中的應答系統的特點,采用了自然語言處理技術,并對關鍵技術進行了分析.
自動應答系統;分詞;數據庫加密
自動應答系統(Question Answer System,QAS)是一種基于因特網的高性能的軟件系統.隨著網絡技術的發展和互聯網資源的不斷完善,自動應答系統廣泛應用于數字化城市建設、客戶咨詢服務、遠程教育網的自動答疑、移動無線互聯網業務等場合.這一系統的核心技術是基于自然語言理解的相關技術,包括知識信息的語義網絡表示、自然語言理解策略等.
自動應答系統在很多方面已經開始取代一些煩瑣的業務受理服務.首先在查詢方面,如航班查詢、電話費查詢、高考分數查詢等等;其次,在通訊方面,如電話自動應答,傳真機應答,數字存儲式自動應答錄音系統等.這些自動應答式系統從時間上提高了效率,但是這些服務通常是一些比較固定的業務模式,還不能做到根據用戶提出的問題,進行理解后再回答相關的業務問題,還不能算得上是真正意義上的自動應答,嚴格地說應該是一種受限制的自動應答系統.
自動應答系統是利用問題的普遍性和共性而提出的.系統首先由經驗豐富的專家將大量的常見答案保存在應答系統的答案庫中,當用戶將想要提出的問題提交給系統時,系統首先去理解這個問題,之后在答案庫中找到相關的答案提交給用戶進行參考學習.由于用戶對同樣的問題理解一般有形似之處,提出問題也大多相同,因此當答案庫初期建立得比較好時,用戶提出的問題的答案也大都能存在答案庫中,由系統給出滿意的答案,大大減少了答疑專家的工作量,用戶的問題也能得到及時回答.隨著系統使用時間的增加,答案庫將因專家的不斷回答新問題而自動擴大,系統也將變得越來越實用和高效,形成可以檢索的問答知識庫.
C/S(Client/Server)結構,即是大家熟知的客戶機和服務器結構.它是軟件系統體系結構,表示著一個應用與一個服務器之間的相關性.隨著局域網絡和分布式系統結構的迅猛發展,對C/S的理解越來越復雜和深刻.在結構上具有很多差別的許多系統都被稱為C/S結構.
C/S技術本身就是一種分布處理技術,通過它可以充分利用兩端硬件環境的優勢特點,將任務合理分配到Client端以及Server端來實現,降低系統的通訊費用、軟件開發與維護成本,增強應用的可移植性,提高用戶的使用效率,保護用戶的投資,減少對小型計算機和大型計算機的需求.C/S具有以下特征:
C/S是分離的邏輯實體,它們通過網絡協同工作來完成一項工作.在C/S環境下,應用成分包括界面表示邏輯、業務邏輯、數據邏輯和DBMS以及數據在網絡上的分布.網絡節點就可以分為Client和Server,Client是請求服務的節點;Server是執行請求服務的節點.Client和Server通過連接他們的中間件來協作完成某一任務.CIient、Server和中間件就構成了C/S的基本結構.
3.1.1 Client:C/S應用是以Client為中心的,Client運行應用程序的客戶部分.它運行于一個支持GUI而且能訪問分布式服務的操作系統上.操作系統最常見的情況就是要把工作傳遞給中間件,讓Server處理非本地服務.
3.1.2 Server:運行應用程序的服務器部分.Server依靠操作系統和輸入服務器請求的中間件進行聯系.Sevrer最典型的分工就是作為數據庫的服務器.一般而言,數據庫的服務器應能提供高速度大容量的存儲能力,還有較強的處理能力,以及并發運行多個應用程序的能力.隨著技術的發展,Server的功能與范圍將不斷地擴大.
3.1.3 中間件:是一種獨立的系統軟件或服務程序,分布式應用軟件利用這種軟件在不同的技術之間共享資源,中間件位于客戶機服務器的操作系統之上,管理計算資源和網絡通信.中間件處于操作系統軟件與用戶的應用軟件的中間,處于操作系統、網絡和數據庫之上,應用軟件的下層,總的作用是為處于自己上層的應用軟件提供運行與開發的環境,幫助用戶靈活、高效地開發和集成復雜的應用軟件.中間件是C/S基本結構的中樞機構.
最初的信息系統大多采用的是集中式的結構模型,所有的處理和計算都由中心機房的主機完成,用戶端是沒有處理能力的終端.隨著網絡技術的發展,人們對信息、資源的共享和充分利用提出了更高的要求,而出現了二層C/S結構模型,隨著應用的大型化,二層C/S結構模型越來越不能滿足分布式應用的要求,二層C/S結構也逐漸向三層C/S結構過渡.
中文自動分詞是各種信息檢索、機器翻譯、語音識別、文本校對、文本挖掘等研究的前提和基礎.因漢語句子構成的復雜性,漢語自動分詞已經成為目前中文信息自動處理的難點.詞語是自然語言中有意義且可獨立運用的最基本實體,而漢語文本是以字為單位的,要能使計算機從語義上識別漢語,通常與要對漢語言文本進行切分,而中文信息與英文信息有一個明顯的差別:英文單詞之間是用空格分開的,而在中文文本里,詞與詞之間沒有天然分隔符,中文詞匯大多都是由兩個或兩個以上的漢字組成的,語句是連續書寫的,所以對中文文本分析前,先將整句割成小的詞匯單元,即為中文分詞(中文切詞).從現有的成果看,中文分詞可以分為兩大類:一類是基于詞典與規則的字符匹配算法,另一類是基于統計的無詞典切分算法.前者實用高效,因而在實踐中應用廣泛.
在自動應答系統中,自動分詞模塊的速度影響整個系統的效率.中文信息檢索主要有兩種:基于字的檢索和基于詞的檢索和基于字的檢索系統建立單字索引.在檢索時得到每個字的檢索,而后加以適當地邏輯運算,從而得到檢索結果.而基于詞匯的檢索系統對詞匯建立索引,檢索詞匯時一次命中.本系統是采用基于關鍵詞的檢索來實現中文信息檢索.
自動分詞的基本算法有:基于字符串匹配分詞方法和基于統計的分詞方法.本系統采用了基于字符串匹配的分詞.
基于字符串匹配的分詞方法:
這種方法又叫做機械分詞方法,它是按照一定的方法將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某字符串,則匹配成功.按照掃描方向的不同,字符串匹配分詞方法又可分為正向匹配和逆向匹配;按照不同長度優先匹配的原則,可以分為最大匹配和最小匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法.常用的幾種機械分詞方法如下:
(a)正向最大匹配法(由左到右的方向);
(b)逆向最大匹配法(由右到左的方向);
(c)最少切分(使每一句中切出的詞數最小).
字符串匹配的分詞還可將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法.由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般使用很少.逆向匹配的切分精度略高于正向匹配,遇到的歧義現象也比較少.統計結果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245.但這種精度還不能滿足實際的需要.實際使用的分詞系統,都是把機械分詞作為一種初分手段,還需通過利用其它的語言信息來進一步提高切分的準確率.一種方法是改進掃描方式,稱為特征掃描或標志切分.就是優先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,將原字符串分為較小的串再來進機械分詞,繼而減少匹配的錯誤率;另一種方法是將分詞和詞類標注結合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結果進行調整、檢驗,從而極大地提高了切分的準確率.
數據加密就是將明文數據經過一定的交換(一般為變序和代替)變成密文數據.數據解密就是加密的逆過程,即將密文數據轉變成可見的明文數據.
一個密碼系統包含明文集合、密文集合、密鑰集合和算法,其中密鑰和算法構成了密碼系統的基本單元.算法是一些公式、法則或程序,它規定明文密文之間的變換方法,密鑰可以看作算法中的參數.
數據庫密碼系統要求將明文數據加密成密文數據,數據庫中存儲密文數據查詢時,將密文數據取出并解密即可得到明文信息.
較之傳統的數據加密技術,數據庫密碼系統有其自身的要求和特點.傳統的加密以報文為單位,加密解密都是從頭至尾順序進行.數據庫數據的使用方法決定了它不可能以整個數據庫文件為單位進行加密.當符合檢索條件的記錄被檢索出來后,就必須對該記錄迅速解密,然而該記錄是數據庫文件中隨機的一段,無法從中間開始解密.因此,必須解決隨機地從數據庫文件中某一段數據開始解密的問題.
3.3.1 數據庫密碼系統應采用公開密鑰:傳統的密碼系統中,密鑰是秘密的,知道的人越少越好.而數據庫數據是共享的,有權限的用戶需要知道密鑰以便于隨時查詢數據.因此,數據庫密碼系統宜采用公開密鑰的加密方法.
3.3.2 多級密鑰結構:數據庫關系運算中參與運算的最小單位是字段,查詢路徑依次是庫名、表名、記錄名和字段名.因此,字段是最小的加密單位.也就是說當查到一個數據后,該數據所在的庫名、表名、記錄名、字段名都應是知道的.對應的庫名、表名、記錄名、字段名都應該具有自己的子密鑰,這些子密鑰組成了一個能夠隨時加密解密的公開密鑰.這樣,可以設計一個數據庫,其中存放有關數據庫名、表名、字段名的子密鑰,系統啟動后將這些子密鑰讀入內存供數據庫用戶使用.與記錄相對應的子密鑰,一般的方法應是在該記錄中增加一條子密鑰數據字段.
3.3.3 加密機制:有些公開密鑰體制的密碼(如RSA密碼),其加密密鑰是公開的,算法也是公開的,但是其算法是每個人一套.而作為數據庫密碼的加密算法不可能因人而異,因為尋找這種算法有其自身的困難和局限性,機器中也不可能存放很多種算法,因此這類典型的公開密鑰的加密體制不適合于數據庫加密.數據庫加密解密的密鑰應該是相同的、公開的,而加密算法應該是絕對保密的.
目前房產自動應答系統還正處于發展階段,一些不科學、不完善的地方會在應用中逐步得到解決,相信隨著我國房地產市場的不斷發展壯大,房產自動應答系統會得到大量推廣使用,為我國的房地產事業做出更大的貢獻.
TP311.5
A
1673-260X(2012)04-0020-02