999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文分詞在標準信息檢索中的應用

2017-04-25 03:40:26張廣慶朱登峰岳琪佳
質量探索 2017年1期
關鍵詞:標準化標準

張廣慶,朱登峰,岳琪佳

(1.青島市標準化研究院,山東 青島 266071;2.核工業計算機應用研究所,北京 100037;3.山東省青島第五十八中學, 山東 青島 266100)

中文分詞在標準信息檢索中的應用

張廣慶1,朱登峰2,岳琪佳3

(1.青島市標準化研究院,山東 青島 266071;2.核工業計算機應用研究所,北京 100037;3.山東省青島第五十八中學, 山東 青島 266100)

本文介紹如何通過建立簡易標準分詞詞典庫,然后運用基于該標準詞典庫的正向最大匹配法、逆向最大匹配法和雙向最大匹配法對輸入的檢索語句進行分詞,最后依據這些分詞檢索標準的中文名稱。

信息檢索;標準題錄;中文分詞

近年來,隨著“三證合一、一照一碼”、“企業標準自我聲明公開”等政策的逐步落實,標準專業機構紛紛打破原有的工作模式,加大了對標準在人員、資金、科研等方面的投入,帶來了全新的標準服務模式,如浙江標準化院推出綜合性標準服務平臺和企業版標準信息管理系統,極大地方便了標準人員的工作。在這些標準服務平臺和信息管理系統中,使用最多的功能是標準題錄信息的檢索,涉及中文檢索的內容主要有標準中文名稱、摘要和全文。

1 簡易標準分詞詞典庫的建立

中文中的詞語是由漢字組成的最小的有意義的語句單位,詞語之間沒有明顯的區分標記,而英文單詞之間是以空格作為自然分界符?,F代中文里,雙音節詞語占的比重最大,也有單音節詞語,如口、廠、洗、染。中文分詞是將連續的漢字序列按照一定的規范重新組合成詞語序列的過程[1],主要應用于智能搜索領域,如百度、搜狗等網站的搜索功能。本文介紹如何通過建立簡易標準分詞詞典庫,然后運用基于該標準詞典庫的三種分詞方法對輸入的檢索語句進行分詞,最后依據這些分詞檢索標準的中文名稱。

本文選取國家標準化管理委員會網站公布的4.88萬條國家標準(含廢止)構建標準檢索庫,選取環境保護類的國家強制性標準166條,構建簡易標準分詞詞典庫(以下簡稱標準詞典庫)。分詞原則主要選取雙音節詞語,如果截取一個詞語影響語義則選擇不截取,如“排放口”不截取成“排放”和“口”,后兩個詞雖然有獨立語義,但合在一起表達的意思更完整,類似詞語還有“發動機”、“固體廢物”、“汽車壓件”等。這些國家標準中文名稱進行人工分詞后的全部詞語有323個,出現次數較多的前30個詞語參見表1。

表1 標準詞典庫部分詞語及在166個國家標準中出現的次數

2 三種中文分詞方法的應用

中文分詞方法有許多種,本文介紹正向最大匹配法、逆向最大匹配法[2]和雙向最大匹配法三種。最大匹配法是指假設分詞詞典庫中的最長詞有i個漢字,取待處理檢索語句的前i個漢字作為匹配詞語,在分詞詞典庫中檢索。如果能檢索到,將該i個漢字截取出來,剩余漢字開始匹配。如果不能檢索到,將該匹配詞語的最后一個漢字去掉,對其余i-1個漢字重新在分詞詞典庫中檢索。重復以上步驟,直到該匹配詞語能檢索到或者只剩一個漢字。以此類推,待處理檢索語句的其余漢字也做同樣方法的匹配,直到匹配完所有的詞語或漢字。正向匹配法是指從前向后匹配詞語,逆向匹配法是指從后向前匹配詞語,雙向匹配法是指用正向匹配法和逆向匹配法分別匹配詞語。如果匹配結果相同,采用這些分詞詞語;如果匹配結果不相同,采用總詞語數最少或者優化后的詞語最少的分詞詞語。

下面,以輸入國家標準GB/T 1.1-2009的中文名稱“標準化工作導則 第1部分:標準的結構和編寫”為例,說明上述三種匹配方法的實現過程。標準詞典庫中的最長詞是“混裝制劑類”5個漢字,最大匹配字數就是5個漢字,每次檢索相應減少1個漢字,直到檢索完成。如果待處理中文語句中有空格、數字、標點符號等自然分隔符,優先截取這些符號之前的語句作為檢索詞語,進行匹配。

2.1 正向最大匹配法的分詞過程

從前向后截取5個漢字是“標準化工作”,在標準詞典庫中檢索。能檢索到,再從第6個漢字截取5個漢字;不能檢索到,則把“標準化工作”每次從后面減少1個漢字。

第1次檢索詞:“標準化工作”,5字,詞典不能檢索到;第2次檢索詞:“標準化工”,4字,詞典不能檢索到;第3次檢索詞:“標準化”,3字,詞典不能檢索到;第4次檢索詞:“標準”,2字,詞典中能檢索到。

第1次分詞完成,找到詞語“標準”,剩余檢索語句“化工作導則 第1部分:標準的結構和編寫”。以此類推,最后的分詞結果是“標準/化/工/作/導/則/第1/部分/標準/的/結/構/和/編/寫”。其中,“標準/第1/部分/標準”詞語屬于詞典詞。因為標準詞典庫的不完善,導致“工作/導則/結構/編寫”詞語沒有被截取,這類詞語屬于非詞典詞。

2.2 逆向最大匹配法的分詞過程

從后向前截取5個漢字是“結構和編寫”,在標準詞典庫中檢索。能檢索到,再從倒數第6個漢字向前截取5個漢字;不能檢索到,則把“結構和編寫”每次從前面減少1個漢字。

第1次檢索詞:“結構和編寫”,5字,詞典不能檢索到;第2次檢索詞:“構和編寫”,4字,詞典不能檢索到;第3次檢索詞:“和編寫”,3字,詞典不能檢索到;第4次檢索詞:“編寫”,2字,詞典不能檢索到;第5次檢索詞:“寫”,1字,詞典不能檢索到。

第1次分詞完成,沒有找到詞語。第2次分詞截取5個字符為“的結構和編”,以此類推,最后的分詞結果是“標準/化/工/作/導/則/第1/部分/標準/的/結/構/和/編/寫”。

2.3 雙向最大匹配法的分詞過程

在上面例子中,正向最大匹配法和逆向最大匹配法的分詞結果都是“標準/化/工/作/導/則/第1/部分/標準/的/結/構/和/編/寫”,則雙向最大匹配法直接采用該分詞結果。在標準詞典庫中增加2個分詞“化工”、“工作”,正向最大匹配法的分詞結果是“標準/化工/作/導/則/第1/部分/標準/的/結/構/和/編/寫”,逆向最大匹配法的分詞結果是“標準/化/工作/導/則/第1/部分/標準/的/結/構/和/編/寫”,兩者的分詞區別是“化工/作”和“化/工作”,可以看出后者是正確的結果。這里引入另一個原則,如果分詞結果不同而總分詞數相同,采用逆向最大匹配法的分詞結果。

雙向最大匹配法的另一個原則是采用單字詞語最少的分詞結果。例如“標準研究院士”在大數據分詞詞典庫中,正向最大匹配法的結果是“標準研究院/士”,逆向最大匹配法的分詞結果是“標準/研究/院士”,前者有1個單字詞語,后者沒有,因此選擇后者的分詞結果。

在標準詞典庫中添加“標準化工作”、“結構”、“編寫”詞語,雙向最大匹配法的分詞結果是“標準化工作/導/則/第1/部分/標準/的/結構/和/編寫”。分別輸入標準詞典庫中的詞語“標準化工作”、“第1”、“部分”、“標準”、“結構”、“編寫”,在標準檢索庫中檢索的結果參見表2。

表2 利用分詞詞語檢索國家標準的結果

從表2中可以看出,使用5字詞語“標準化工作”檢索出來的結果也能符合檢索要求,因此,除直接檢索輸入的語句外,使用分詞后的多字詞語檢索也能滿足人們的檢索需求,這就是智能搜索引擎利用分詞技術實現的檢索語句的搜索功能。

3 結語

以上方法同樣適用于標準的摘要和全文檢索。大多數標準搜索引擎檢索摘要和全文時基于關鍵詞匹配,在區分同形異義和關聯同義詞時存在較大局限。借助中文分詞技術,標準搜索引擎可以預處理輸入的檢索語句,建立以關鍵詞為基礎的查詢分詞庫,通過“模糊化咨詢,智能化回答”,滿足標準工作者的檢索要求,提高查詢效率,幫助他們在最短的時間里獲取更多更優的答案。

[1] 劉開瑛.中文文本自動分詞和標注[M].北京:商務印書館.2000.

[2] 付年鈞,彭昌水,王慰.中文分詞技術及其實現[J].軟件導刊,2011,10(1):18-20.

Application of Chinese Word Segmentation in Standard Information Retrieval

ZHANG Guang-qing1, ZHU Deng-feng2, YUE Qi-jia3
(1. Qingdao Institute of Standardization, Qingdao, Shandong 266071, China; 2. Computer Application Institute of Nuclear Industry, Beijing 100048, China; 3. Qingdao NO.58 High School Shandong Province, Qingdao, Shandong 266100, China)

This paper introduces how to establish a simple standard dictionary database, and then use the standard dictionary based on maximum matching method, reverse maximum matching method and bidirectional maximum matching method of the input query word, finally on the basis of the segmentation criteria Chinese name.

information retrieval; standard title; Chinese word segmentation

TP391.1

A

1672-6286(2017)01-0079-04

張廣慶(1971-),男,山東巨野人。質量高級工程師,本科,主要從事組織機構代碼、軟件、信息化、標準等領域研究。

猜你喜歡
標準化標準
2022 年3 月實施的工程建設標準
標準化簡述
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
企業標準化管理信息系統
你可能還在被不靠譜的對比度標準忽悠
標準化是綜合交通運輸的保障——解讀《交通運輸標準化體系》
中國公路(2017年9期)2017-07-25 13:26:38
一家之言:新標準將解決快遞業“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
2015年9月新到標準清單
以標準化引領科技創新
主站蜘蛛池模板: 白丝美女办公室高潮喷水视频| 久久精品国产电影| 欧美一区二区三区欧美日韩亚洲 | 亚洲欧美精品在线| 久久国产高潮流白浆免费观看| 美女内射视频WWW网站午夜| 国产青青操| 97成人在线视频| 欧美性猛交xxxx乱大交极品| 国产精品国产三级国产专业不| 中国毛片网| 欧美精品色视频| 免费啪啪网址| 伊人久久婷婷| 亚洲高清资源| 在线精品视频成人网| 成人免费网站久久久| 国产成人AV综合久久| 中国一级特黄视频| 91成人在线观看| 亚洲综合片| 色综合天天视频在线观看| 熟妇无码人妻| 九色视频一区| 婷婷伊人五月| 国产女主播一区| 在线看片免费人成视久网下载| 久久无码免费束人妻| 久久久四虎成人永久免费网站| 欧美亚洲一区二区三区在线| 97人妻精品专区久久久久| 白丝美女办公室高潮喷水视频| 日本在线国产| 亚洲中文字幕国产av| 国产一区二区视频在线| 一区二区三区四区在线| 精品人妻一区二区三区蜜桃AⅤ| 色综合中文| 91国内在线视频| 国产精品999在线| 亚洲福利网址| 天天躁夜夜躁狠狠躁图片| 精品91在线| 国产情精品嫩草影院88av| 国产乱人激情H在线观看| 日韩免费视频播播| 动漫精品啪啪一区二区三区| 野花国产精品入口| 精品夜恋影院亚洲欧洲| 在线精品亚洲国产| 日韩欧美综合在线制服| 国产凹凸视频在线观看| 最新国语自产精品视频在| 不卡视频国产| 欧美a级在线| 日韩欧美网址| 亚洲第一色网站| 国产精品视频导航| 欧美、日韩、国产综合一区| av在线人妻熟妇| 成人午夜天| 久青草国产高清在线视频| 99久久亚洲精品影院| 亚洲无码视频一区二区三区| 午夜精品久久久久久久无码软件| 国产精品3p视频| 男人天堂伊人网| 欧美精品啪啪一区二区三区| 99在线小视频| 色偷偷男人的天堂亚洲av| 69视频国产| 无码日韩视频| 亚洲天堂视频网| 全部免费特黄特色大片视频| 国产日本视频91| 午夜精品区| 丁香六月激情综合| 99久久亚洲综合精品TS| 一本大道无码高清| 亚洲综合色婷婷| 久久久久亚洲精品成人网| 亚洲国产精品成人久久综合影院 |