楊凡 任丹



摘 ?要: 傳統自然語言中歧義字段切分系統設計對于歧義字段的分辨能力較差,切分效率差,準確度低。針對上述問題,設計一種基于知識圖譜的自然語言中歧義字段切分系統。系統硬件設計了三個模塊:采集及分詞知識提取模塊負責對自然語言中的字段進行收集與信息提取,辨別歧義字段;算法與測試模塊處理負責檢測所捕捉字段的歧義字段信息,提高系統精準度;分詞識別模塊負責對歧義字段進行系統切分。軟件設計了系統的各項功能,包括系統分詞精度提升功能、速度提升功能、完備性增強功能、可維護性以及系統可移植性增強功能,綜合整理各結構的性能,進一步提高整體系統切分能力,以實現對歧義字段的切分目的。為檢測系統工作效果,與傳統系統進行實驗對比,結果表明,基于知識圖譜的自然語言中歧義字段切分系統設計的切分效果優于傳統系統設計。
關鍵詞: 知識圖譜; 自然語言; 歧義字段切分; 系統設計; 信息提取; 效果檢測
中圖分類號: TN02?34 ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)01?0044?04
Design of natural language ambiguity field segmentation system
based on knowledge map
YANG Fan, REN Dan
Abstract: The segmentation system of ambiguous field in traditional natural language has poor resolution ability, poor segmentation efficiency and low accuracy. To solve these problems, a knowledge map based segmentation system of ambiguity field in natural language is designed. Three modules are designed for the system hardware. The acquisition and segmentation knowledge extraction module is responsible for collecting and extracting the information from fields in natural language, and distinguishing the ambiguous fields. The algorithm and testing module is responsible for detecting the ambiguous field information of captured fields, and improving the accuracy of the system. The segmentation recognition module is responsible for segmenting the ambiguous fields. The various functions are designed for the system software, including the functions of accuracy improvement, speed?up, and completeness, maintainability and portability enhancement. The performance of each structure is also integrated and the ability of the whole system to segment ambiguous fields is further improved. In order to detect the working effect of the system, some comparative experiments for the system are carried out in combination with traditional systems. The results show that the design of ambiguity field segmentation system based on knowledge map is better than that of the traditional system.
Keywords: knowledge map; natural language; ambiguity field segmentation; system design; information extraction; effect detection
0 ?引 ?言
在社會發展的過程中,我國的中文信息事業不斷發展,中文信息處理技術不斷提高,由于人類需要中文信息的分享與個體享用,所以也就需要更高的中文信息處理能力,由于中文信息存在較大的字段差異,因此,對于自然語言中歧義字段的切分更加重要[1]。在科技與信息產業的有力支持下,自然語言中歧義字段的切分也成了較為重要的事件[2]。自然語言中的歧義字段以普遍字段的形式存在,在語句中對于字段的使用具有較大的影響,使得所檢索的語言為使用者提供兩種語言解釋,模糊語言表達概念,詞義不準確,無法引導自然語言進行語言交流,最終影響自然語言的使用[3]。為此,需要對自然語言中歧義字段進行切分處理,在正常語言語義分析的條件下,進行基本結構與理論的自動分詞操作,同時分析出分詞系統的性能指標數值,并對分析出的數值進行進一步的追蹤處理,不斷進行切分操作,直至完成歧義字段切分[4]。
傳統系統大多專注于歧義字段的表面,在進行字段切分的過程中僅僅切換字段形式,而未徹底改變字段歧義含義,無法消除使用者對字段的模糊定位,并且系統在運行的過程中受到的干擾較大,系統的運行時間較長,工作效率較低,對歧義字段的切分效果較差[5]。針對上述問題,本文提出一種基于知識圖譜的自然語言中歧義字段切分系統設計,對整體系統進行結構設計,對系統的分詞精度、分詞速度、整體系統功能的完備性與可維護性及系統的可移植性進行綜合設計處理,增強系統整合度,提高系統切分能力,以達到對歧義字段切分的目的[6]。通過實驗驗證了系統的有效性,實驗證明,該系統在較大程度上提高了歧義字段切分的準確率,同時縮減了系統所需切分時間,大大提高了系統工作效率,增強系統切分能力。
1 ?自然語言中歧義字段切分系統硬件設計
自然語言歧義字段切分系統中較為核心的結構為分詞中心系統,系統需要具有實用化的特點,并時刻檢查其準確性與實用性程度,為此,進行系統硬件設計,分別進行系統分詞精度、速度、系統功能完備性與可維護性以及系統可移植性的設計[7]。本文研究的基于知識圖譜的自然語言中歧義字段切分系統硬件主要分為采集及分詞知識提取模塊、算法與測試模塊、分詞識別模塊,系統硬件結構如圖1所示。
1.1 ?采集及分詞知識提取模塊
采集及分詞知識提取模塊主要負責中文信息的文字采集,同時對信息中的交集歧義字段進行系統識別,通過知識庫中的分詞知識進行歧義處理,最終產生分詞結果[8]。
在字段的采集中,采取改進后的字段掃描法對收集到的字符串進行逐詞正向值匹配,進而找到第一個詞匯的位置,并以此為初始點,進行逐詞查找,匹配不成詞的具體位置,同時劃分查找的字段為交集歧義字段。查找后,進行進一步的歧義處理,提取知識庫中的字段知識信息對字段進行歧義劃分,并根據分詞結果,利用知識學習方法擴充知識庫中的知識儲備量,其總體框圖如圖2所示。
在系統的分詞知識提取中,要綜合考慮全部規則處理后的歧義字段切分條件,同時設定某一個字段出現的頻率為[P],[P]為語句中字段的總數量與句子出現的總量的比值,將此比值作為分詞知識的頻率因子,最后進行歧義字段的切分[9]。
1.2 ?算法與測試模塊
由于本文系統分詞操作中所選取的算法主要為以字詞庫與文字統計相結合的分詞方式,因此,要對此種算法技能進行機能檢測。在系統進行字段分詞之前,同時選擇不同檢測方法,在完成系統字段分詞后,系統屏幕上會顯示系統分詞過程中所耗費的總體時間,并根據此時間進行適度的系統時間處理調整。將系統網頁與用戶進行交互鏈接,同時在系統輸入指令中進行文字字段的輸入,將分詞最終結果在屏幕上顯示為文本框內輸入形式,算法與測試模塊示意圖如圖3所示。
此模塊功能較為獨立,可以提供較為全面的網絡接口與字段信息傳輸,能夠進行綜合處理。在算法模塊中,為總系統提供系統調用接口,與系統進行交互單獨計算,同時保證算法與接口的功能相同,并進行實際檢測與對比[10]。進一步將此模塊分為字段詞典管理與分詞處理兩個部分,在字段詞典管理中,調用系統中心字段控制臺,避免其在網絡頁面上的使用,同時進行詞典的系統構建與軟件更新操作。在分詞處理中,先輸入系統原始字段文本信息,并采用單獨權值算法將文本信息中的字段詞匯切分出來,進行系統運算,最終返回到分詞結果中,完成系統操作。在測試模塊中,對中心系統提供圖形界面,并對輸出輸入文檔進行數據管理,保存算法模塊中的分詞結果,并進行算法效果的檢測,最終統計系統字段分詞的結果[11]。
算法與測試模塊工作過程示意圖如圖4所示。
1.3 ?分詞識別模塊
在分詞識別模塊中,利用計算機模擬人腦對于句子的權重理解,在分詞的同時進行文本信息語法、句式及語義分析,并根據語法數據以及語義分析結果處理歧義現象。首先對總體控制部分進行語句協調,利用分字詞系統的相關詞匯、句子等的語法及語義分析結果對歧義字段進行分詞識別,并需要同時使用數量龐大的語言語句知識數據信息,對信息中相近出現的每個字詞進行組合頻率的系統統計,同時計算它們之間的互現頻度,以獲取的互現頻度來表示其結合關系的緊密程度。如果緊密程度超出規定標準參數,則可視為本字段組構成了一個詞匯,進而達到對歧義字段的構成分析,并在此基礎上進行數據統計,分辨系統是否需要對詞典進行分詞識別與切分操作[12]。分詞識別模塊結構圖如圖5所示。
由于此模塊具有一定的局限性,為此,添加統計方法進行新式詞匯的識別,并將串頻字詞統計與字符串相匹配,同時發揮分詞切分速度較快、系統效率較高的優勢,最終達到對分詞的識別目的,并進一步實現對歧義字段的系統切分[13]。
2 ?自然語言中歧義字段切分系統軟件設計
根據切分系統硬件結構設計軟件程序,系統能夠實現的功能如圖6所示。
分詞精度主要是保證切分的精確度,為核心系統的重要技術衡量標準。本文系統中,句子為連寫模式,字詞間空格較少,因此,本文系統首先需要解決字段切分問題。首先排除分詞中中文姓名、地點名稱、機構名稱等專有名詞的識別,在不影響更高一級處理的條件下,獲取分詞系統較高的準確率。從系統的整體機能、專用詞匯識別以及歧義分析幾個角度進行機能檢測。為此,自動分詞系統的切分準確率公式為:
[K=i=13αiKi]
式中:[K1,K2,K3]分別為系統機能綜合測試、歧義測試以及專用詞匯測試的精確度;[αi]([i=]1,2,3)為全部測試的添加權值。算法流程圖如圖7所示。
分詞速度為單位時間下系統對于漢字處理的總個數,通常要滿足分詞的基本準確度條件,作為另一個較為重要的系統標準而存在,并且對于分詞準確度的算法較多,本文利用輔助手段,通過對系統想象、原則主義、神經網絡框架以及專業系統等方法進行算法加強,同時排除影響因素:漢字符號機械切分的同時搜索詞典的時間、自然語言中歧義字段的查詢與系統矯正等。在中文信息的處理過程中,先對數量較為龐大的文本信息進行區分處理,同時合理考慮系統總體成本問題。通過人機交互處理的方式,解決字段中的歧義問題,并根據問題進行策略的統計與人機連接口的系統設計,由于系統在運行過程中會對切分速度造成影響,因此,要綜合處理系統切分器的機能反應,并進行反應檢測,從而減少系統切分時間的影響。
針對自動分詞系統的功能完備性與可維護性,本文系統著手考慮系統的詞庫增減刪除、字詞修改、字段查詢以及語句成批處理等基本系統能力,同時對系統進行修正性維護處理,適應性與維護性系統機能增強處理[14]。首先滿足系統數據信息存儲以及運算功能補充的屬性條件,綜合處理詞庫的儲存構造以及輸出輸入的形式變化狀況的拓展與完善,將此項標準與分詞系統的系統清晰度、模塊化、結構簡潔性與系統完備性進行直接連接處理,并不斷進行提高與改進,使其能夠較好地適應中文字段信息的處理應用問題。
在分詞系統的可移植性中,綜合考慮系統移動性能,簡化應用系統從本機環境轉移至另一種系統環境中的轉移步驟,并對其進行系統修正,使其能夠更好地適應轉移環境,同時增強系統的轉移器調制能力,能夠使系統僅需簡便操作便可完成對整體系統的轉移。綜上進行綜合系統設計,在完善系統結構的基礎上,提高系統整體切分能力,為系統歧義字段切分奠定基礎。
3 ?實驗研究
3.1 ?實驗目的
為了檢測本文基于知識圖譜的自然語言中歧義字段切分系統設計的切分效果,與傳統自然語言中歧義字段切分系統進行了對比。
3.2 ?歧義字段切分模型建立
針對自然語言中的字段存在模式對歧義字段進行分類與切分處理,并進行歧義字段切分模型的建立,歧義字段切分模型圖如圖8所示。
根據上述建立的模型,進行實驗參數的設定:
1) 測試系統為專業詞測試系統和歧義測試系統;
2) 選取相同中文字段;
3) 采取權值加重法,選用標準精度的分詞設備;
4) 語言環境固定;
5) 獨立系統自動進行分詞。
3.3 ?實驗結果與分析
根據上述切分模型進行對比實驗,將本文基于知識圖譜的自然語言中歧義字段切分系統的切分效果與傳統自然語言中歧義字段切分系統的切分效果進行對比,得到的切分準確度對比圖與相同時間內切分效率對比圖如圖9,圖10所示。
對比圖9,圖10可知,在相同的參數條件下,本文系統切分的準確度隨時間不斷增長,且增長幅度較大,相同時間內,對于歧義字段切分的數量較多,系統工作效率較高。而傳統系統切分的準確度雖然隨時間增長,但增長幅度較小,且一直低于本文系統,在相同工作時間內,對于歧義字段的切分數量較少,切分效果較差,工作效率較低。
本文系統大幅度提高了對自然語言中歧義字段的切分準確率,能夠較為清晰地分辨歧義字段與正常字段,保證系統的正常工作,提高中文信息的處理能力,在一定程度上縮減了系統的切分時間,提高了系統的工作效率,滿足使用者對于系統自動分詞的需求,具有較為強大的系統工作能力。
4 ?結 ?語
本文在傳統設計的基礎上設計了一種基于知識圖譜的自然語言歧義字段切分系統,相對于傳統系統,本文系統設計對于自然語言中歧義字段的切分準確度更高,能夠更好地提供歧義字段信息,及時避免分詞錯誤,較大程度上減少了歧義字段的切分時間,進而提高了整體系統的工作效率,同時為中文處理系統提供更加強大的切分系統支撐,進一步滿足用戶對于歧義字段切分的較高要求,具有更為廣泛的市場前景與可推廣性。
參考文獻
[1] 邱均平,方國平.基于知識圖譜的中外自然語言處理研究的對比分析[J].數據分析與知識發現,2018,30(12):51?61.
[2] 任函,孫為.知識圖譜在智能教學系統中的應用[J].開封教育學院學報,2017,37(6):171?173.
[3] 蔣鍇,錢夔,鄭玄.基于知識圖譜的軍事信息搜索技術架構[J].指揮信息系統與技術,2016,7(1):47?52.
[4] 時雨,古天龍,賓辰忠,等.基于知識圖譜的旅游景點問答系統[J].桂林電子科技大學學報,2018(4):296?302.
[5] 趙維平,孫寧,楊曉春,等.基于知識圖譜的東方音樂可視化教育研究與應用[J].計算機工程與科學, 2018, 40(z1):56?62.
[6] 鄭逢斌,付征葉,喬保軍,等.HENU漢語自動分詞系統中歧義字段消除算法[J].河南大學學報(自然版),2019,34(4):49?52.
[7] 張培穎,李村合.一種改進的上下文相關的歧義字段切分算法[J].計算機系統應用,2018,15(5):46?48.
[8] 張培穎,李村合.基于知識庫的交集型歧義字段切分系統[J].計算機系統應用,2016,15(8):42?43.
[9] 張利,張立勇,張曉淼,等.基于改進BP網絡的中文歧義字段分詞方法研究[J].大連理工大學學報,2017,47(1):131?135.
[10] 張嚴虎,潘璐璐,彭子平,等.基于規則挖掘和Na?ve Bayes方法的組合型歧義字段切分[J].計算機應用,2018,28(7):1686?1688.
[11] 申琳.中文分詞算法及改進研究[J].電腦知識與技術,2017(11):199?200.
[12] 胡阿明,王衛東.中文分詞歧義識別算法的優化[J].現代電子技術,2012,35(8):107?109.
[13] 曲維光,吉根林,穗志方,等.基于語境信息的組合型分詞歧義消解方法[J].計算機工程,2016,32(17):74?76.
[14] 秦錦玉,翟潔,陳程,等.基于知識圖譜的可視化技術研究[J].電子設計工程,2018,26(14):1?5.
作者簡介:楊 ?凡(1981—),男,湖北襄陽人,碩士,講師,研究方向為數據挖掘和云計算。
任 ?丹(1976—),女,湖北襄陽人,講師,研究方向為數據挖掘、計算機圖形學。