999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文拼音首字母在標準信息檢索中的應用

2016-04-29 00:00:00張廣慶朱登峰劉冬梅
品牌與標準化 2016年11期

【摘 要】 標準題錄檢索是我國標準信息檢索的主要內容,中文拼音首字母檢索作為中文檢索的重要補充,能有效提高檢索效率,是傳統標準題錄檢索的一種創新。

【關鍵詞】 信息檢索 標準題錄 拼音首字母

【DOI編碼】 10.3969/j.issn.1674-4977.2016.11.001

“信息檢索”一詞出現于20世紀50年代,來源于人們對圖書館圖書信息的參考咨詢和文摘索引工作。從19世紀下半葉的手工檢索,到20世紀50年代的脫機批量檢索及60年代以后的聯機檢索,發展到90年代以后的網絡化聯機檢索,信息檢索成為人們獲取知識、豐富生活的重要方式。標準信息作為信息行業的一個分支,在檢索方法上也在不斷發展變化。

標準題錄檢索是我國標準信息檢索的主要內容,根據輸入內容可分為數字、英文字符、中文字符、其他可顯示的字符(如“-”)等。例如,檢索國家標準《GB/T 1.1-2009 標準化工作導則 第1部分:標準的結構和編寫》時,按照標準號檢索,需輸入數字、英文字符、空格、橫線“-”、點“.”;按照標準名稱檢索,需輸入數字、中文字符、空格和冒號“:”。除中文字符外,其他符號或字符都可以直接從鍵盤上找到并輸入,中文字符則需要轉換成中文輸入法后,再輸入拼音找到相應漢字,并且輸入的字符數量較多,國標GB/T 1.1-2009的中文名稱按全拼方式需輸入55個英文字符。有沒有更直接、更簡單的輸入方式代替中文輸入呢?答案是有。中文拼音首字母是一種代替中文字符進行檢索的更好方式。目前,主要的標準綜合服務平臺還沒有使用拼音首字母進行檢索,希望拼音首字母能成為今后標準檢索的必備方式。

1 中文拼音首字母檢索原理

我們以最常用的GB 2312字符集為例,說明拼音首字母代替中文字符進行檢索的原理。GB 2312字符集是ASCII字符集的擴展,有一級漢字3755個,按拼音排序,二級漢字3008個,按部首排序,覆蓋國內漢字99.75%的使用頻率。它采用國標碼或者區位碼對應一個唯一的漢字或符號,國標碼是一個4位十六進制數,區位碼是一個4位十進制數。漢字的國標碼范圍從B0A1到F7FE,如“標準”兩個字的國標碼分別是B1EA、D7BC。在一級漢字中,找到每個拼音首字母漢字所在的國標碼位置,其余漢字與相鄰兩個拼音首字母漢字的國標碼位置進行比較,就能獲得該漢字的拼音首字母。一級漢字中,不同拼音首字母的第1個漢字在GB 2312字符集中的位置參見表1。二級漢字則需采用國標碼位置與首字母一一對應方式查找,因數量較多,本文不再一一列出。

2 實現方法及相關技術

使用中文拼音首字母檢索標準的具體過程如下:首先在標準題錄信息表中添加要檢索的中文拼音首字母字段,根據要檢索的中文內容確定增加的字段數量,如中文標準名稱、中文摘要、起草單位、起草人等都可增加對應的拼音首字母字段。在檢索界面中,可以增加獨立的拼音首字母輸入欄,也可和中文輸入欄同時使用而用軟件判斷輸入的是中文還是英文。標準檢索軟件根據輸入的拼音首字母,直接檢索對應的拼音首字母字段,找到匹配的標準信息,展現給使用者。

通過獲取漢字國標碼數值,取得該漢字的拼音首字母。在不同的軟件語言中,獲取一個漢字的GB 2312國標碼位置的函數和數值不盡相同,因此,表1中列出了3種數值供參考。如C#編程語言使用short函數獲取某個中文字的國標碼位置(十進制數值);而powerbuilder編程語言使用asc函數獲取單字節字符的國標碼位置,漢字是雙字節字符,因此要獲取2個數值,使用十進制二維數組數值。常用計算機編程軟件獲取中文國標碼的函數參見表2。

以國家標準GB/T 1.1-2009為例,檢索中文“標準化工作導則”和拼音首字母“BZHGZDZ”信息,采用目前較流行的ACCESS和SQL SERVER作為標準題錄信息數據庫,安裝在同一臺計算機上,筆者做了一組對比試驗。Stdinfo1_t、Stdinfo2_t、Stdinfo3_t表存放標準題錄信息,分別有6萬、16萬、26萬條數據量,有標準號、標準中文名、拼音首字母3個字段。檢索標準中文名稱和拼音首字母的效率參見表3。

從表3可以看出,在Access和SQL Server數據庫中,無論有無索引,檢索拼音首字母信息均比檢索中文信息的速度快,無索引時,提升的檢索效率更高。設無索引的中文檢索速度為Va,有索引的為Vb;無索引的拼音首字母檢索速度為Vc,有索引的為Vd。無索引且數據量分別為6萬、16萬、26萬時,Access中的提升效率按(Va-Vc)/Vc[×]100%計算,分別為27%、6%、194%;SQL Server中的提升效率按(Vb-Vd)/Vd[×]100%計算,分別為181%、77%、72%。有索引且數據量分別為6萬、16萬、26萬時,Access中的提升效率分別為38%、3%、77%;SQL Server中的提升效率分別為20%、7%、6%。

我國國家標準和行業標準數量已超過20萬條,公開聲明企業標準數量約20萬條,每年動態增加標準數量10多萬條,使用拼音首字母檢索可以有效提高檢索效率。標準題錄信息中,起草單位、起草人、標準摘要、公開標準企業名稱、企業地址、企業聲明等常用中文信息通常沒有索引,使用拼音首字母檢索的效率更是成倍增加,從而提高網絡平臺響應速度,減少檢索人員等待時間。

3 結束語

近年來,標準信息越來越廣泛應用于我國社會各行各業,許多專業機構投入巨資建設標準綜合服務平臺,標準題錄信息檢索是這些平臺的主要服務內容,如何為標準人員提供更快捷、更簡便、更全面的檢索方式,是平臺改進的重要內容。本文提出中文拼音首字母檢索,希望能為標準服務業人員拋磚引玉,不斷探索進一步完善標準服務方式和豐富標準服務內容,為廣大標準從業人員提供更好、更優質的服務。

參考文獻

[1] 于雙成.科技信息檢索與利用[M].北京:清華大學出版社,2012.

[2] 花芳.文獻檢索與利用(第2版)[M].北京:清華大學出版社,2014.

作者簡介

張廣慶(1971-),男,山東巨野人,質量高級工程師,學士,主要從事組織機構代碼、大數據、軟件、信息化、標準等領域研究。

朱登峰(1971-),男,湖北荊州人,工程師,學士,主要從事大數據、云計算、核信息化等領域研究。

劉冬梅(1978-),女,從事標準化科研宣傳工作多年,目前就職于遼寧省質監局后勤服務中心。

主站蜘蛛池模板: 中国国产一级毛片| 91麻豆国产在线| 波多野结衣久久高清免费| 波多野结衣一区二区三区四区视频| 中文字幕人妻av一区二区| 97在线观看视频免费| 亚洲人在线| 婷婷五月在线视频| 久久精品中文字幕免费| 美女啪啪无遮挡| 2021天堂在线亚洲精品专区 | 国产不卡一级毛片视频| 国产第二十一页| 久草青青在线视频| 精品无码日韩国产不卡av| av一区二区无码在线| 91精品国产福利| 成人国产三级在线播放| 99热亚洲精品6码| 欧美日韩va| 99re热精品视频国产免费| a级毛片网| 免费无码一区二区| 色吊丝av中文字幕| 91精品国产情侣高潮露脸| 欧美人与性动交a欧美精品| 亚洲AV无码乱码在线观看裸奔| 欧美人在线一区二区三区| 国产女人18水真多毛片18精品| 亚洲水蜜桃久久综合网站| 亚洲男人的天堂视频| 国产精品女熟高潮视频| 国产成人AV综合久久| 天天综合色天天综合网| 午夜啪啪网| 在线观看视频一区二区| 欧美日韩一区二区在线播放 | 欧美成人h精品网站| 午夜视频日本| av色爱 天堂网| 国产午夜一级淫片| 波多野结衣第一页| 久久久久无码国产精品不卡| 亚洲高清中文字幕| 亚洲成av人无码综合在线观看| 国国产a国产片免费麻豆| 日韩无码真实干出血视频| 国产在线小视频| 天天综合色网| 欧亚日韩Av| 色视频国产| 日韩a级毛片| 亚洲欧美激情小说另类| 国产情侣一区二区三区| 国产又色又爽又黄| 中文字幕波多野不卡一区| 不卡国产视频第一页| 亚洲一区免费看| 国产第一页屁屁影院| 72种姿势欧美久久久大黄蕉| 日韩免费毛片视频| 在线观看欧美国产| 97国产在线播放| 全裸无码专区| 国产一级毛片高清完整视频版| 国产人人干| 色综合天天视频在线观看| 最新国语自产精品视频在| 91麻豆精品国产高清在线| 亚洲黄色网站视频| 国产人成在线观看| 亚洲v日韩v欧美在线观看| 国产91丝袜| 国产一区二区丝袜高跟鞋| 福利一区三区| 中文字幕2区| 亚洲h视频在线| 黄色三级网站免费| 色亚洲成人| 黄色成年视频| 国产成人精品一区二区秒拍1o| 午夜毛片免费观看视频 |