999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

正則表達式在控制MARC數據質量中的應用研究

2014-07-27 06:20:00徐延華
創新科技 2014年20期
關鍵詞:圖書館

徐延華 李 靜

(河南農業大學圖書館,河南 鄭州 450002)

正則表達式在控制MARC數據質量中的應用研究

徐延華 李 靜

(河南農業大學圖書館,河南 鄭州 450002)

隨著網絡和信息技術的發展,聯機編目得以實現,編目工作的重心也由傳統的著錄方式向編目規范控制工作轉變。本文詳細介紹了正則表達式以及用正則表達式的匹配規則來規范MARC數據的方法,為有效控制MARC數據質量、提高審校MARC數據的效率提供了思路。

marc數據;正則表達式;質量

近年來,隨著計算機網絡與信息技術在圖書館的廣泛應用,大大推動圖書館編目工作發展,圖書館聯機編目得以實現,編目工作的重心也由傳統的著錄方式向編目規范控制工作轉移。同時,CNMARC經過幾十年的發展,現也成為當前國內管理中文文獻資源中最具權威性的一種標準化數據格式,廣泛應用于我國各類圖書館。它的應用為實現我國書目數據的標準化和規范化,進而實現書目信息的共建共享提供了可能。但目前,諸多圖書館仍然存在的中西文編目格式“不統一”,編目數據“不規范”,字段信息“不準確”等質量問題的存在,MARC數據的質量得不到保證,不能給讀者提供全面而準確的文獻信息,讀者檢索機讀目錄的效率與興趣將會大大降低,也直接影響圖書館自動化系統的功能發揮,使無障礙的書目數據交換未能圓滿實現。因此,對MARC數據進行質量控制研究,具有十分重要的現實意義。

1 編目數據庫中MARC數據常見問題

1.1 MARC數據不規范,遺漏一些必要的檢索點

一個書目數據庫是由一條條書目記錄組成的。它的檢索功能必然受每一條書目記錄檢索點的制約。字段則構成數據庫的最小單元。CNMARC的字段設置分0~9十大功能塊。這十大塊,基本涵蓋了文獻的所有內部、外部特征,提供了更多的檢索點,方便讀者多途徑、多角度地進行檢索。能提供檢索點的字段主要有O——(部分)、2——(部分)、4——(全部)、5——(全部)、6——(全部)、7——(全部)這六大塊。如500(統一題名)字段、517(其他題名)字段和610(非控主題)字段等,在許多文獻資源揭示中被忽略或遺漏,這樣讀者利用其他題名或其他主題檢索時,就會檢索不出所需結果。如:2001#@a亂世佳人@Aluan shi jia ren@f(美)米切爾著@g黃懷仁等譯(marc數據來源于河南農大圖書館),如果沒有517字段,這樣用“飄”去檢索,就會檢索不出。除此之外,在文獻編目中還存在分類標引不當,主題標引、索書號確立不正確等很多質量問題,從而降低了MARC數據的規范化、標準化程度,限制了讀者最大限度地使用,也為書目數據共享造成障礙。

1.2 著錄字符不規范

MARC數據有其獨特的數據結構標準,包括頭標區、目次區和數據區,是一種變長的數據存儲格式,這些數據在輸入時如有差錯就會影響用戶檢索結果。在文獻著錄過程中,最常見的是著錄字符不規范,文字輸入性錯誤。文字輸入性錯誤是影響用戶檢索,導致漏檢與誤檢的重要原因。例如將題名前無意識地加了個空格,題名中的間隔號錯輸為破折號;著錄中出現錯別字,《四世同堂》錄成《四世同黨》,《現代漢語詞典》著錄成《現代漢語詞典》,將“余”錄成“佘”;ISBN號、分類號、索取號中出現錯號,字母、數字的全角、半角不一致,字母大小寫不一致,選用鍵盤符號不一致,選用字母類型不一致,如010@a錯為@b,M516/ 7812等,這些都將會影響著錄質量,造成錯檢、漏檢[1]。

2 MARC數據與正則表達式

MARC數據是機讀環境下作為準確的描述揭示文獻內容,并能被用戶順利利用一種文獻信息組織語言。這種語言表達的準確與否直接影響著讀者的查全率和查準率。不規范、不準確的MARC數據,就會造成讀者的誤檢、漏檢現象。而正則表達式就是一種控制和分析用戶輸入,提高數據質量控制的常用方法,其最初應用于神經網絡,是一種模式匹配方法,而且具有簡潔、通用、快速的優點,可對任何類型數據及形式進行校驗,更廣泛應用于數據格式驗證、文本數據解析等方面。所以,如果利用正則表達式進行MARC數據字段著錄輸入校驗,對MARC數據必備字段進行查重審核,不失為提高MARC數據質量的“一把金鑰匙”。

3 正則表達式

3.1 正則表達式定義

正則表達式(regular expression)描述了一種字符串匹配模式,用于檢查一個字符串是否含有符合匹配規則的子串、將匹配的子串做替換或者從某個串中取出符合匹配規則的子串等[2]。

3.2 正則表達式的規則

正則表達式是由普通字符和特殊字符組成的文字模式,這些文字模式作為一個匹配規則模板與被檢測的字符串進行匹配,并返回匹配結果。

普通字符包括數字、字母、漢字、下劃線和在正則表達式中沒有特殊含義的標點符號,例如:“/”、“-”、“:”、“.”等標點符號都是普通字符,而“+”、“”、“^”、“$”等標點符號在正則表達式中都有特殊含義屬于特殊字符。

3.2.1 普通字符

普通字符在正則表達式中匹配被檢測字符串中與其本身相同的一個字符,要與2個及其以上普通字符組成的表達式匹配成功,被檢測字符串中必須含有與表達式中字符組成以及先后順序完全一致而且中間沒有多余字符的子串。

例如:表達式“-”,匹配“-45”、“圖書館-”、“123-圖書館”等含有字符“-”的字符串;表達式“書”,匹配“圖書館”、“書香茶館”等含有字符“書”的字符串;表達式“書館”,則只匹配字符串“圖書館”,不匹配字符串“書香茶館”,后者雖然同時含有“書”和“館”這2個字符,但因其中間多了“香”和“茶”這2個字符,所以匹配失敗。

3.2.2 特殊字符

特殊字符是有特殊含義的標點符號,它使正則表達式具備了處理能力。正則表達式的特殊字符較多,本文不再逐一介紹,只舉例說明在做MRAC數據匹配時常用到的特殊字符[3]。

“^”匹配被檢測字符串的開始位置。

例如:表達式“書”匹配字符串“圖書館”,但表達式“^書”不匹配字符串“圖書館”,因為字符“書”不在字符串“圖書館”的開始位置,字符串“書館”則與其匹配。

“$”匹配被檢測字符串的結束位置。

例如:表達式“書館”匹配字符串“圖書館”、“圖書館大樓”,但表達式“書館$”則只匹配字符串“圖書館”,因為子串“書館”不在字符串“圖書館大樓”的結尾位置。

“”也叫轉義字符,與普通字符與元字符組合后,會產生新的特殊含義。

例如:表達式“w”匹配下劃線或任意一個數字、字母、漢字;表達式“d”匹配數字0至9;“+”、“”、“^”、“$”等是特殊字符,在表達式中有特殊含義,要想匹配其字符本身,可以使用表達式“+”、“\”、“^”、“$”依次匹配。

“[]”匹配方括號中的任意一個字符。

例如:表達式“[圖書館]”,匹配字符串“圖畫”、“書報”、“體育館”等含有“圖”、“書”、“館”中任意一個字符的字符串;表達式“[0123456789]”和“[0-9]”功能相同,匹配0至9之間的任意一個數字;表達式“[a-z]”,匹配a至z之間的任意一個小寫字母。

“|”表示或的意思,匹配符號“|”兩端子表達式中的任意1個。

例如:表達式“[0-9]|[a-z]”,匹配數字0至9或26個小寫字母中任意1個。

“()”用來定義特殊字符作用的范圍。

例如:表達式“圖書館|室藏書”,匹配含有子串“圖書館”、“室藏書”的字符串,而表達式“圖書(館|室)藏書”,則匹配含有子串“圖書館藏書”、“圖書室藏書”的字符串,因為圓括號“()”限定了字符“|”的作用范圍,使之只作用于括號內的子表達式。

“+”匹配前面的子表達式重復至少1次后生成的表達式。

例如:表達式“書+”,匹配 “圖書館”、“圖書書館”、“圖書書書館”等含有字符“書”的數量等于或超過1個的字符串,但不匹配像“圖館”這樣的不含有字符“書”的字符串。

“{n}”,n為非負整數,它匹配前面的子表達式重復n次后生成的表達式。

例如:表達式“書{2}”,匹配字符串“圖書書館”,但不匹配字符串“圖書館”。

“{n,}”匹配前面的子表達式重復至少n次后生成的表達式。

例如:表達式“書{2,}”,匹配“圖書書館”、“圖書書書館”、“圖書書書書館”、“圖書書書書館”等含有連續2個及其以上“書”的“字符串”。

“{n,m}”,n、m均為非負整數,m>=n,它匹配前面的子表達式重復最少n次最多m次后生成的表達式。

例如:表達式“書{2,4}”,可以匹配上個例子中所有的字符串,但當所匹配的字符串中含有的“書”字符超過4個時,只匹配該字符串中前4個“書”字符。

4 正則表達式在規范MARC數據質量中的應用

MARC數據包含的信息較多,僅以ISBN號、索取號這些書寫規則比較復雜的字段為例,說明如何利用正則表達式來檢驗其是否符合標準的書寫規則,從而規范MARC數據的質量。

4.1 匹配ISBN號的正則表達式規則

圖 1 ISBN號正則表達式書寫規則對應圖

如圖1所示,ISBN號由5段數字組成,中間用字符“-”連接,例如:978-7-471-81086-x。第一段是ISBN號專用前綴,固定數字978不變,對應的表達式為“978”;第二段是地區國別語種代碼,為任意1個1位數字,對應的表達式為“[0-9]”;第三段是出版社編號,為任意1個3位數字,表達式“[0-9]”匹配任意1個1位數字,用表達式“{3}”將其重復3次便得到匹配任意1個3位數字的表達式“[0-9]{3}”;第四段是圖書序號,為任意1個5位數字,同理其對應的表達式為“[0-9]{5}”;最后一段是校驗碼,為數字0-9或字母x中的任意一個字符,表達式“[0-9]”匹配任意1個1位數字,在其集合中加上一個字母“x”,便得到與之匹配的表達式“[0-9x]”。將五個表達式按順序用字符“-”連接起來得到的表達式“^978-[0-9]-[0-9]{3}-[0-9]{5}-[0-9x]$”便是匹配完整的ISBN號的表達式,可以之檢驗MARC數據中所有的ISBN號,找出不符合書寫規則的數據。表達式的開頭和結尾分別加上了標識字符串開始和結尾的字符“^”、“$”,原因是不加開始和結尾標識的表達式匹配的字符串范圍過寬,只要字符串中任意一個位置含有符合表達式匹配規則的子串,則視為整個字符串符合匹配規則,例如:去掉開始和結尾標識的表達式“978-[0-9]-[0-9] {3}-[0-9]{5}-[0-9x]”,除了匹配字符串“978-7-471-81086-x”外,還匹配不符合ISBN號書寫規則的“abc978-7-471-81086-x”、“978-7-471-81086-x圖書館”、“閱覽室978-7-471-81086-xgh”等字符串。

4.2 匹配索取號的正則表達式規則

索取號由分類號、著者號、種次號、版次、卷冊號組成,其中分類號、著者號是必備字段,部分分類號不含有種次號、版次和卷冊號或只具備其中1到2個,排列格式為:分類號/著者號-種次號/版次:卷冊號,例如:TP13/4434-2/2:2、S435.13-62/6071、S513/1024/2。

現在所用的圖書分類法一般都是中國法,中圖法將圖書分為22個大類,分別用L、M、W、Y之外的22個大寫英文字母表示。分類號除T大類以2個大寫字母(T加1個上其他字母)開頭其他21大類都以1個代表該類的大寫英文字母開頭,英文字母之后接數字,部分分類號還含有字符“.”和“-”,長度一般不超過20位,對應的表達式為“([A-KN-SUVXZ]|T[BDE-NPQSUV])[0-9.-]{1,20}”。其中表達式“[A-KN-SUVXZ]”匹配L、M、W、Y、T之外的任意1個大寫英文字母,T雖然也代表一個大類,但因T大類分類號均是兩個英文字母開頭,分別為TB、TD、TE-TN、TP、TQ、TS、TU、TV,所以單獨以表達式“T[BDE-NPQSUV]”匹配,與前面表達式以字符“|”連接,匹配代表22個大類的除T以外的大寫英文字母或者TB、TD等T開頭的2個大寫英文字母;表達式“[0-9.-]{1,20}”匹配分類號中字母后面的數字部分,有的分類號含有字符“.”和“-”,在字符集合“[0-9.-]”中也作了相應的匹配,“{1,20}”用于匹配分類號數字部分的長度,限定最短1位,最長20位。

著者號由4位數字組成,對應表達式為“/[0-9]{4}”,字符“/”為索取號書寫規則中規定的著者號的引導標識。

種次號由1至2位數字組成,第1位數字不為0,以表達式“[1-9]”匹配,第2位數字為任意數字,以表達式“[0-9]{0,1}”匹配,其中表達式“{0,1}”表示匹配0次或1次,整個連接起來前面再加上引導字符“-”,就得到匹配整個種次號的表達式“-[1-9] [0-9]{0,1}”。有的索取號不含有種次號,要用表達式用“{0,1}”來限定匹配0次或1次,因此最終的匹配表達式為“(-[1-9][0-9] {0,1}){0,1}”。

版次、卷冊號的組成與種次號一致,也是由1至2位數字組成,第一位數字不為0,第2位數字為任意數字,但引導字符分別為“/”、“:”,把匹配種次號的表達式“(-[1-9][0-9]{0,1}){0,1}”中的引導字符“-”更換為“/”、“:”便得到匹配版次、卷冊號的表達式,分別為“(/[1-9][0-9]{0,1}){0,1}”、“(:[1-9][0-9]{0,1}){0,1}”。

將上述表達式按順序連接起來前后分別加上標識開始和結尾的字符“^”、“$”便得到完整的匹配索取號的表達式如下:

“^([A-KN-SUVXZ]|T[BDE-NPQSUV])[0-9.-]{1,20}/[0-9]{4}(-[1-9][0-9]{0,1}){0,1}(/[1-9][0-9]{0,1}){0,1}(:[1-9][0-9]{0,1}){0,1}$”。

5 結語

圖書館中的館藏數據庫每天都要增加大量MARC數據,利用正則表達式的匹配規則驗證MARC數據的是否準確與規范,是有效控制marc數據質量,提高審校MARC數據效率的一種重要方法。同時,通過正則表達式在MARC數據質量控制中的嘗試,也為正則表達式在圖書館自動化系統中大量非格式化文本的分析和利用提供了許多思路。

[1]王乃紅.圖書館編目數據質量控制芻議[J].情報探索,2010(3):125-127.

[2]正則表達式[EB/OL].[2013-10-21].http://baike.baidu.com/ view/94238.htm.

[3]馬永平.正則表達式及其應用[J].電腦編程技巧與維護,2012(04):13-14,38.

G254.362

A

1671-0037(2014)10-44-3

徐延華(1977.11-),男,碩士研究生,工程師,研究方向:數字圖書館、移動圖書館。

李靜(19179.10-),女,碩士研究生,館員,研究方向:信息咨詢。

猜你喜歡
圖書館
去圖書館坐坐
發明與創新(2021年6期)2021-03-10 07:13:54
圖書館
圖書館里送流年
圖書館
文苑(2019年20期)2019-11-16 08:52:12
夜間的圖書館
幽默大師(2019年5期)2019-05-14 05:39:38
圖書館里的小驚喜
圖書館 Library
幼兒畫刊(2018年11期)2018-12-03 05:11:44
時間重疊的圖書館
文苑(2018年17期)2018-11-09 01:29:40
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
飛躍圖書館
主站蜘蛛池模板: 中文字幕不卡免费高清视频| 国产国产人成免费视频77777| 国产福利不卡视频| 亚洲综合中文字幕国产精品欧美| 欧美啪啪精品| 国产精品露脸视频| 97国产一区二区精品久久呦| 久久黄色小视频| 99热这里只有精品在线播放| 高清欧美性猛交XXXX黑人猛交| 噜噜噜久久| 亚洲高清在线播放| 伦精品一区二区三区视频| 少妇高潮惨叫久久久久久| www.91在线播放| 亚洲AV成人一区国产精品| 国产毛片基地| 欧美不卡视频一区发布| 四虎国产精品永久一区| 免费毛片a| 亚洲第一成年免费网站| 亚洲成a∧人片在线观看无码| 一区二区三区精品视频在线观看| 亚洲人成网7777777国产| 一级爱做片免费观看久久| 国内精品久久人妻无码大片高| 四虎影视国产精品| 成年女人a毛片免费视频| 女人18毛片水真多国产| 国产人成在线视频| 亚洲欧美精品日韩欧美| 亚洲中文字幕97久久精品少妇| 欧美综合成人| 九九久久99精品| 五月婷婷导航| 女人一级毛片| 日韩国产黄色网站| 黄色网址手机国内免费在线观看| 免费激情网址| 午夜毛片福利| 国产成人综合网| 久久精品中文字幕免费| 人妻中文久热无码丝袜| 国产剧情一区二区| 日韩欧美中文亚洲高清在线| 国产精品99在线观看| 无码乱人伦一区二区亚洲一| 2020最新国产精品视频| 久操中文在线| 亚洲高清在线天堂精品| 乱人伦视频中文字幕在线| 亚洲天堂网在线视频| 国产成人精品亚洲日本对白优播| 成年人国产视频| 久久男人资源站| 狠狠躁天天躁夜夜躁婷婷| 尤物精品国产福利网站| 在线观看国产精品第一区免费| 国产成人高清亚洲一区久久| 波多野结衣无码中文字幕在线观看一区二区| 国产打屁股免费区网站| 69综合网| 免费中文字幕一级毛片| 国产欧美视频在线观看| 久久久亚洲色| 国产福利2021最新在线观看| jizz国产视频| 狠狠色婷婷丁香综合久久韩国 | 国产精品久久久久久久伊一| 亚洲欧美日韩精品专区| 亚洲色图欧美激情| 国产精品人成在线播放| 日韩视频福利| 大香伊人久久| 免费国产无遮挡又黄又爽| 亚洲精品无码专区在线观看| 一级做a爰片久久免费| 国产精品黑色丝袜的老师| 亚洲成人播放| 日韩经典精品无码一区二区| 色AV色 综合网站| 亚洲精品桃花岛av在线|