999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

筆跡樣本提取專家知識庫的實踐應用探析

2017-04-14 10:34:40黃李彥
軟件 2017年2期
關鍵詞:系統

黃李彥

筆跡樣本提取專家知識庫的實踐應用探析

黃李彥

(福建警察學院刑事科學技術系,福建 福州 350007)

為解決筆跡樣本提取專家系統無法解析生僻字、繁體字以及系統所輸出的設計文稿質量不夠理想等問題,我們需要對原有的專家知識庫進行升級。具體做法是從筆跡樣本提取流程、漢字庫、漢字特征庫入手,對筆跡專家知識庫進行重新構建。實踐證明,升級完知識庫的筆跡樣本提取專家系統對漢字的解析能力更強,輸出文稿質量更高,更具實用性和拓展性。

筆跡鑒定;樣本提取;專家系統;知識庫

1 引言

筆者曾于2014年研發了一套筆跡鑒定樣本提取專家系統V 1.0(下面簡稱筆跡專家系統),系統主界面如圖1所示,該系統主要包含筆跡樣本提取專家知識庫(下面簡稱筆跡知識庫)、筆跡樣本提取業務邏輯庫以及智能推理機等模塊,系統可以實現對待檢驗筆跡內容按偏旁、筆畫、固定搭配等特征進行分解,并按照檢材文稿格式生成筆跡樣本提取文稿[1]。

該系統的主要用戶包括公檢法系統的工作人員、司法鑒定機構的工作人員及公安、司法類院校開設文件檢驗相關課程的師生。通過使用該系統,用戶可以自行完成當事人設計筆跡樣本的提取。經過兩年多的實踐應用,筆者陸續收到用戶的一些反饋,有褒有貶,下面筆者將用戶反饋的主要問題進行歸納,并探析相應的改進方案。

圖1 主界面Fig.1 The main interface

2 原有系統知識庫問題分析

用戶所反饋的問題,大致可以歸納為以下幾類:

(1)生僻字無法分析

在用戶反饋中,生僻字無法解析所占的比重比較大,諸如“犇”、“焺”、“燚”、“珄”、“贇”、“菥”、“媺”、“鰆”等字都曾有人反饋過,而且這些字是出現在人名當中,正是筆跡鑒定的重點對象。

(2)繁體字無法分析

也有很多用戶反饋繁體字無法解析,這些字主要出現在兩個地方:一是和臺資企業、臺胞來往的文件,幾乎全是繁體;二是一些老人家書寫的文書,里頭也有大量的繁體字,甚至還有很多異體字。比如“墻”字,有寫“墻”的,有寫“牆”的,還有寫“廧”的。

(3)筆畫分析不夠細致

對筆畫特征的分析不夠深入、細致,比如“力”的第一個筆畫、“月”字的第二個筆畫,都解析為“橫折鉤”,但是在筆形上前者更準確的說應該是“橫撇鉤”,后者應該是“橫豎鉤”;相同偏旁不同單字也可能出現筆形的區別,比如“玥”、“情”字,雖然都有“月”,解析筆畫也一致,但是前者的“月”的第一筆畫在筆形上是“撇”,后者的“月”的第一筆畫則是“豎”。

(4)固定搭配分析不全面

對漢字的構件拆分方法比較單一,比如“戴”字,系統把它分解為“異”,但實際上它還可以分解為“田共”、“土田八戈”,再比如“糊”字,系統把它分解為“米胡”,但實際上它還可以分解為“米古月”、“米十口月”。

(5)沒有考慮間架結構

系統缺乏對漢字間架結構的歸類解析,在實踐中,很多書寫者曾練習過書法,并閱讀過《間架結構摘要九十二法》、《結字三十六法》、《黃自元書法間架結構九十二法》、《大字結構八十四法》之類的書籍,其筆跡在間架結構上有明顯特征,但是系統之前沒有考慮到。

3 系統知識庫改進方案分析

3.1原因分析

筆者之前在設計系統時采用的是用戶界面層、業務邏輯層及數據庫層三層分開的系統架構[2],如圖2所示,在整套系統中,處于數據庫層的知識庫是整套系統運行的基礎。由此可見上述問題之所以會出現,其根本原因是當時設計知識庫時考慮不夠全面,和實踐應用存在一定的脫節,另外所填充的數據也不夠完善。因此,想解決用戶反饋的那些問題,只有一個方案,那就是對原有的筆跡知識庫進行更新換代。

圖2 系統架構Fig.2 The structure of system

3.2改進思路

要想完成筆跡知識庫的更新換代,首先需要全面查閱專業書籍、網站及相關文獻,重新收集、歸納筆跡樣本提取的方法,同時聯系一批在一線工作的筆跡鑒定專家、從業人員,進行實地調研,全面分析、歸納提取筆記樣本的流程、要點以及操作技巧。在此基礎上,再從漢字的數量、使用頻率、偏旁部首、外觀結構、異體字、字體、書寫習慣等方面入手,重新分析、歸納漢字的特征。在完成上述兩項工作的前提下,召集計算機編程方面的專家進行研討,重新設計專家知識庫的數據庫模型及數據庫表結構,并設計出自動、人工構建專家知識庫所需要的方法、流程及輔助工具,最終完成專家知識庫的升級、改進。

3.3數據來源

筆者通過大量調研,最終選定以下四個網站作為本次專家知識庫升級的主要數據來源:

(1)HTTPCN

該網站網址為http://www.httpcn.com/,網站有一個漢語字典功能,可提供漢字在拼音、簡繁體、異體字、部首、筆畫、筆順、首尾分解查字、漢字部件構造等方面的信息查詢。

(2)漢典

該網站網址為http://www.zdic.net/,網站有一個漢字條目查詢及拆分功能,可提供漢字在拼音、部首、字形分析、異體字、筆順、漢字結構、構件等方面的信息查詢。

(3)國學大師

該網站網址為http://www.guoxuedashi.com/,網站有一個漢字條目查詢功能,可提供漢字在拼音、部首、總筆畫數、筆順、異體字等方面的信息查詢。

(4)911查詢

該網站網址為http://www. 911cha.com/,網站有一個新華字典功能,可提供漢字在拼音、簡繁體、異體字、部首、總筆畫數、筆順、漢字結構等方面的信息查詢。

3.4升級方案

筆跡專家知識庫的升級由數據抽取、數據轉換及數據加載三個步驟組成[3],如圖3所示,其中數據抽取步驟負責將來自不同網站的異構數據抽取到臨時數據區;數據轉換步驟負責將臨時數據區中的數據進行驗證、替換、補缺、拆分、清洗、規范化以及合并匯總;數據加載步驟負責將轉換后的數據完整的存儲至知識庫[4]。

圖3 知識庫升級Fig.3 Knowledge base upgrade

4 新系統知識庫改進效果分析

通過實施上述改進方案,筆者成功構建了一套新筆跡專家知識庫,并對用戶發布了數據庫升級包,用戶通過安裝升級包便可完成筆跡專家系統知識庫升級[5]。

表1是筆跡專家系統在知識庫升級前后的主要指標對比。

從升級用戶反饋的情況來看,升級完知識庫后的專家系統明顯比升級之前更好用,主要表現在對漢字的解析能力增強,輸出文稿質量提高以及更具實用性和拓展性等方面。

4.1對漢字解析能力增強

舊知識庫僅采集GB2312中所包含的6763個簡體漢字的信息,而新知識庫由于選定了四大專業研究漢字的網站作為數據來源,可采集81408個字的信息,基本克服了生僻字、繁體字無法解析的現象。升級知識庫前的系統大概只能解析實踐中70%左右的檢材,而升級后至今還未出現無法解析的檢材,可見,知識庫的升級使系統在檢材的解析能力方面得到了大幅度提升。事實上,從新知識庫的字庫覆蓋程度來看,系統對漢字檢材的解析能力已經接近100%。

4.2輸出文稿質量提高

實踐中,筆跡檢材字數往往不多,比如常見的簽名筆跡鑒定,僅2-4個漢字,鑒定難度大;樣本質量對鑒定工作是至關重要的,樣本必須包含一定數量的檢材相同字或偏旁部首,但如果樣本文稿設計的過于簡單,比如完全采用檢材一樣的字或者相同的偏旁部首,就容易引起樣本書寫者的注意而導致偽裝現象頻繁出現。專家系統的設計理念是既要保證樣本文稿中檢材特征部位的出現率,又要保證樣本文稿的隱蔽性。

使用舊知識庫的專家系統雖然可以從單字的偏旁、筆畫、固定搭配對漢字進行解析,但是由于對筆畫的解析沒有考慮筆形變化,對固定搭配的設置也很有限,所以整體上對漢字的解析能力不強。用戶反饋的意見是,實踐中基本上只能用偏旁進行漢字解析,如果檢材中漢字特征出現在某個筆畫上,需要人為對輸出文稿進行調整,無形中增加了用戶設計文稿的難度。使用新知識庫的專家系統由于增加了從間架結構、筆形以及多種構件對漢字進行歸類、分解的功能,系統對漢字的解析能力增強了[6],對書寫者書寫特征出現次數、概率、分布位置的設計更加全面、隱蔽、科學,設計思路更加接近人類專家[7],因此系統所給出的推薦文稿質量比升級前有明顯提升,基本不用再做人工干預、修改即可直接投入使用。

表1 系統功能對比Tab.1 Function comparison of systems

4.3更具實用性和拓展性

用戶使用筆跡專家系統來設計文稿的目的是為提取書寫者的設計筆跡樣本服務。在實踐中,通常由樣本提取者采用不同的語速朗讀設計文稿,書寫者把聽到的文稿內容書寫在指定的紙張上。在聽寫過程中,設計文稿可能出現朗讀者自己也不認識的字,按照以前的做法是要去查字典,有時候這些字還不太容易查找到。為此,新知識庫特地增加了對漢字的拼音標注功能,并附帶了相應的語音文件,這個功能不僅可以解決實踐中工作人員由于不認識生僻字難以讀稿所帶來的尷尬局面,未來還可以作為電腦語音自動播報的支撐[8],系統比原來更具實際操作性和拓展性。

5 小結

筆跡專家知識庫是筆跡專家系統的基礎,由于之前在設計知識庫時考慮不夠全面,導致筆跡專家系統在實踐應用中出現了一些問題,為此,筆者從筆跡樣本提取流程、漢字庫、漢字特征庫入手,對筆跡專家知識庫進行了全面升級,升級完知識庫的筆跡專家系統無論是功能、還是性能都得到了大幅度提升,普遍得到了用戶的認可,整套系統具有更高的實用價值、更廣闊的推廣空間。

[1] 黃李彥, 筆跡樣本提取專家系統及其應用研究[J]. 福建警察學院學報, 2014(5): 20-24.

[2] 葛管庫. MVC 模式下程序設計[J]. 軟件, 2013, 34(2): 49-51.

[3] 操牡丹, 基于知識庫的企業異構數據集成[D]. 北京: 北京郵電大學, 2010.

[4] 趙健, 馮喬生, 何娟娟. 面向漢字識別的新特征及其提取方法[J]. 軟件, 2015, 36(3): 31-36.

[5] 劉超, 張明安. 基于Oracle數據庫系統的備份與恢復技術研究[J]. 軟件, 2014, 35(3): 125-128.

[6] 謝輝程, 郭莉. 小型漢字字庫設計與查詢算法分析[J]. 軟件, 2014, 35(10): 43-45.

[7] 曾霖. 基于Web數據庫的數據庫挖掘技術探究[J]. 軟件, 2013, 34(2): 58-60.

[8] 曾誰飛, 王仁波. 語音合成技術在智能語音播報系統中的應用探析[J]. 電信科學, 2010(3): 64-68.

Study on Practical Application of Knowledge Base for Expert System of Handwriting Sample Collection

HUANG Li-yan
(Criminal Science Technology Department of Fujian Police Academy, Fuzhou 350007, China)

In order to solve the problems that expert system of handwriting sample collection cannot analysis rarely-used Chinese characters, traditional Chinese characters and the quality of system output is poor. We need to upgrade the original expert knowledge base. The specific working means is to reconstruct the knowledge base starting from the process of handwriting sample collection, the Chinese character library and the Chinese character database. Practice has proved that after the upgrade of the knowledge base, the analytical ability of Chinese characters is stronger, the quality of output is higher, and the expert system has more practicability and expansibility.

Handwriting identification; Sample collection; Expert system; Knowledge base

D918.92

A

10.3969/j.issn.1003-6970.2017.02.005

福建省教育廳中青年教師教育科研項目(JA15565)

黃李彥(1982-),女,副教授,碩士研究生,研究方向:文件檢驗。

黃李彥(1982-),福建警察學院刑事科學技術系。

本文著錄格式:黃李彥. 筆跡樣本提取專家知識庫的實踐應用探析[J]. 軟件,2017,38(2):19-22

猜你喜歡
系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
基于UG的發射箱自動化虛擬裝配系統開發
半沸制皂系統(下)
FAO系統特有功能分析及互聯互通探討
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統 德行天下
PLC在多段調速系統中的應用
主站蜘蛛池模板: 456亚洲人成高清在线| 美女国内精品自产拍在线播放| 人妻丰满熟妇AV无码区| 99一级毛片| AV片亚洲国产男人的天堂| 欧美性猛交一区二区三区| 国产美女无遮挡免费视频| 无码人中文字幕| AV无码国产在线看岛国岛| 国产在线无码av完整版在线观看| 国产精品欧美激情| 国产伦片中文免费观看| 亚洲日韩精品欧美中文字幕| 日本精品中文字幕在线不卡| 国产成人亚洲精品色欲AV| 色色中文字幕| 喷潮白浆直流在线播放| 久久99久久无码毛片一区二区 | 波多野结衣一区二区三区88| av无码久久精品| 免费高清毛片| 97精品久久久大香线焦| 黄色网在线| 996免费视频国产在线播放| 99久久无色码中文字幕| 精品乱码久久久久久久| 2021亚洲精品不卡a| 婷婷色一二三区波多野衣| 亚洲无码精彩视频在线观看 | 国产精品亚洲一区二区三区在线观看| 亚洲中文字幕av无码区| 91精品国产自产在线老师啪l| 视频二区欧美| 国产精品分类视频分类一区| 亚洲成人在线免费| 日韩无码白| 九色在线观看视频| 成人无码一区二区三区视频在线观看 | 久久a级片| 国产精品冒白浆免费视频| 国产日本一区二区三区| 在线视频亚洲色图| 福利在线不卡一区| 四虎亚洲国产成人久久精品| 国产三级毛片| 国产18在线| 久久精品一卡日本电影| 亚洲Aⅴ无码专区在线观看q| 日韩福利视频导航| 色综合天天操| 99久久国产综合精品2020| 亚洲日韩在线满18点击进入| 免费在线一区| 国产91色在线| 亚洲精品福利网站| 1769国产精品视频免费观看| 九九视频免费看| 香蕉eeww99国产在线观看| 日韩国产综合精选| 91精品情国产情侣高潮对白蜜| 国产成人一区免费观看| 国产精品自在在线午夜区app| 国产99精品视频| 国产欧美日韩18| 91九色视频网| 亚洲欧美日韩另类在线一| 国产精品香蕉在线| 亚洲三级色| 婷婷色中文| 亚洲Av综合日韩精品久久久| 真人免费一级毛片一区二区| 亚洲 欧美 中文 AⅤ在线视频| 少妇高潮惨叫久久久久久| 国产99在线| 一级香蕉人体视频| 青青操国产视频| 国产福利一区二区在线观看| 国产成人综合欧美精品久久| 亚洲天堂网2014| www.亚洲一区| 91精品国产综合久久不国产大片| 亚洲人免费视频|