張昭楠,馬亞蕾
(陜西職業技術學院陜西西安710000)
基于SQL Server的中文分詞系統設計及應用
張昭楠,馬亞蕾
(陜西職業技術學院陜西西安710000)
隨著當前信息化技術的發展,優化設計中文分析系統已成為必然趨勢,有助于提升網絡索引擎面對中文信息的檢索能力,本篇中將分析基于SQL Server的中文分詞系統設計需求,從而優化設計中文分詞系統,結合實際應用分析設計該系統的應用效益。結果表明,優化設計基于SQL Server的中文分詞系統,簡化系統中文分詞組件間的耦合度,提升系統的靈活性與伸縮性,也提高系統開發效率,提高12.0%,也提升系統的應用效益,提升20.0%。結論證實,基于SQL Server技術設計中文分詞系統,具有可行性,發揮積極應用效益,產生積極影響。
中文分詞系統;分詞系統;SQL Server;設計
在當前中文分子系統設計中,由于中文本身是詞分割標記不明確,致使分詞后中文語言結構會產生詞語歧義問題,對此,基于SQL Server技術,優化設計中文分子系統,有助于改善這些弊端問題。以下本篇對此做具體分析。
中文屬象形文字,不同于一般的字母文字,它不具有明確的詞間分界標志,且單字即可成詞,這給信息處理過程帶來很多難題[1]。目前實用的自動分詞系統大都以機械分詞為基礎,再加上少量的詞法、語法、語義信息的分詞系統[2-4]。該方法易于實現,且對提高準確率有重大意義,但精度低[5]。因此,在實際使用的分詞系統中,機械分詞是一種很重要的初分手段,再利用各種其他語言信息來進一步提高切分的準確率。
在本次設計的SQL Server中文分詞系統中,依次對每個已經入庫的文獻進行掃描,獲得文獻中所有具檢索意義的詞及其位置信息[6];把每個詞的位置匯總到一起,記錄到索引文件中。并且,在中文分詞系統設計中,可以運用SQL Server技術,標準化管理中文中詞的概念難以標準化,統一規范管理分詞。使用SQL Server2000作為中文分詞系統的后臺數據存儲管理[7],能夠實現對人名、地名、機構名稱等專有名詞與新詞進行識別;對未登錄詞(人名、地名等信息)進行分類處理,以確保設計出的該系統可以滿足實際應用需求。
3.1系統總體結構設計
對于本次中文分詞系統設計中,應用B/S設計模式,客戶端只需要安裝一個通用的IE瀏覽器即可運行[8-10],而不需要如何系統自身的任何應用程序。中文分詞系統中,可以訪問Web SQL Server數據庫,HTTP為傳輸協議,客戶端通過瀏覽器(Browser)訪問Web服務器和與其相連的后臺數據庫。基于SQL Server技術,設計中文分詞系統,系統的總體設計結構如圖1中所示。

圖1 系統總體結構圖
第一層是客戶端即瀏覽器,主要完成客戶和后臺的交互及最終查詢結果的輸出功能。在客戶端向指定的Web服務器提出服務器請求,Web服務器用HTTP協議把所需文件資料傳給用戶,客戶端接受并顯示在WWW瀏覽器上[11]。
第二層Web服務器是功能層,完成客戶的應用功能,即Web服務器接受客戶請求,并與后臺數據庫連接,進行申請處理,然后將處理結果返回Web服務器,再傳至客戶端。
第三層數據庫服務器是數據層。數據庫服務器應客戶請求獨立地進行各種處理。
3.2系統功能設計
設計中文分詞系統中,基于SQL Server技術,系統的功能如圖2中所示。

圖2 系統功能
語料檢索:主要是出于對用戶方便性的考慮,需要提供一種能夠簡便的用戶檢索接口。
數據信息提取:在用戶正常的檢索請求情況下能夠遍歷相關主題整個庫文件,把相關的信息檢索出來,而且要保證在系統允許的最低準確率之上和時間可以允許范圍內。
信息文本長度統計:這是文本對齊的必要準備,只有在長度統計準確的前提下才能準確無誤的顯示在用戶的應用界面。
對齊顯示:這是本系統在最終用戶層的最重要的功能之一,必須提供篇章段落級對齊,句句對齊的要求,初步擬訂采用對語料進行切片的方式,把成段的語句切成不同的語句,然后按照語句的順序,分成左右兩邊顯示區域,每個區域顯示一種語言的句子,這樣就實現了句子的簡單對齊。
3.3SQLServer技術的應用
對中文分詞語料進行系統SQL Server數據庫時,對原始數據(數據庫或者文本文件等存放數據的形式)的操作層,而不是指原始數據,也就是說,是對數據的操作,而不是數據庫,具體為業務邏輯層或表示層提供數據服務。系統設計中,部分SQL Server數據表如下所示。
1)中文詞語表,存儲中文詞語信息,表結構如表1所示。
2)中文關鍵字表,存儲中文關鍵字信息,表結構如表2所示。

表1 中文詞語表

表2 中文關鍵字表
同時,在系統設計中,可以對中文分詞中是關鍵詞的詞語加上標簽作為標記,然后采用一種算法提取該關鍵詞語插入到數據庫關鍵詞表中,以便查詢句子或段落直接匹配關鍵詞表;當用關鍵詞查詢句子或段落時,對句子或段落中的關鍵詞中的標記進行刪除,查詢出來的句子或段落都是連貫的語句;當用戶輸入檢索詞后,可以在檢索詞后加入權值,系統將自動進行加權處理,然后將結果按權值大小降序排列返回給用戶。系統中,獲取文本框輸入的詞匯和詞語數據庫中的數據查詢,在查詢之前先將輸入的文本關鍵詞進入拆分,如果輸入的文本關鍵詞中含有關鍵詞分隔符,則拆分成多個關鍵詞進行匹配查詢。過程如圖3所示。
3.4系統軟件代碼實現
基于SQL Server的中文分詞系統設計中,可以在系統后臺操作中語料庫的入庫、刪除、修改功能。在句子語料中插入關鍵詞標簽,部分實現代碼如下所示:



圖3 分詞過程
var obj=objTag.options;
//如果文本框中沒有關鍵詞被選中,或者是文本框不可用,則退出函數

showTips("請先選擇關鍵詞標簽后,再在中文或英文文本框中劃選要加上關鍵詞標簽的詞語!");


在實際中,優化設計應用SQL Server的中文分詞系統,簡化系統中文分詞組件間的耦合度,提升系統的靈活性與伸縮性,也提高系統開發效率,提高12.0%,也提升系統的應用效益,提升20.0%,產生積極影響。
綜上所述,本篇研究中證實基于SQL Server設計的中文分詞系統,可以降低系統開發時間與人員成本,還可確保中文分詞系統簡單易操作,易維護,可適用中文分詞管理中,具有很好的應用前景和推廣價值,發揮積極影響。
[1]李春,黃小嶺.基于全文搜索的中文自動答疑系統設計實現[J].電腦知識與技術,2010,6(21):6074-6076.
[2]朱明瀚.基于數據倉庫的數據搜索引擎設計與實現[D].廣州:華東理工大學,2015.
[3]拉毛措,安見才讓.基于ASP.NET的藏文分詞系統設計與實現[J].計算機光盤軟件與應用,2014(23):267-268.
[4]岳曉光,梁曉誠,麥范金,等.基于.NET的中文分詞系統設計與實現[J].微計算機信息,2010,26(12):215-216,214.
[5]楊鶴標,陳力.自然語言向SQL代碼的轉化方法[J].計算機工程,2011,37(23):72-74.
[6]胡阿明,王衛東.中文分詞歧義識別算法的優化[J].現代電子技術,2012,35(8):107-109.
[7]奉國和,鄭偉.國內中文自動分詞技術研究綜述[J].圖書情報工作,2011,55(2):41-45.
[8]蔣龍.基于統計的漢語分詞在機械產品設計中的應用[D].西安:西安電子科技大學,2012.
[9]杜麗萍,李曉戈,于根等.基于互信息改進算法的新詞發現對中文分詞系統改進[J].北京大學學報:自然科學版,2016,52(1):35-40.
[10]賀歡.統計與規則相結合的中文分詞模型設計與實現[D].成都:西南交通大學,2013.
[11]肖侃,譚長庚,丁玲.基于中文分詞的文本相似度動態規劃算法[J].現代電子技術,2011,34(8):72-74.
Design and application of Chinese word segmentation system of Server SQL
ZHANG Zhao-nan,MA Ya-lei
(Shaanxi Vocational and Technical College,Xi'an 710000,China)
With the development of the information technology and optimization design of Chinese analysis system has become an inevitable trend,to improve the network search engine in the face of Chinese information retrieval ability,this article will analysis based on the SQL server of the Chinese word segmentation system design requirements,so as to optimize the design of Chinese word segmentation system,combined with the practical application analysis and design of the effectiveness of the application of the system.The results show that the optimization design of Chinese word segmentation system based on SQL server,simplified Chinese word segmentation system components between the coupling degree,enhance the system flexibility and scalability,but also improve the efficiency of system development,improve the 12.0%,but also enhance the system the application benefit,enhance 20.0%.Conclusion it is proved that the Chinese word segmentation system based on Server SQL technology is feasible and has a positive effect on the active application.
Chinese word segmentation system;word segmentation system;Server SQL;design
TN99
A
1674-6236(2016)17-0039-03
2016-03-24稿件編號:201603323
張昭楠(1986—),女,陜西渭南人,碩士研究生,助教。研究方向:中國古代文學,語言學及應用語言學。