目前,大多數(shù)圖書館進行采訪查重主要是利用圖書館自身的自動化管理系統(tǒng)、館配商提供的圖書查重平臺、購買具有查重功能的采集器以及自己開發(fā)的查重軟件幾種方式進行查重,這幾種方式對數(shù)據(jù)的個性化要求,處理的繁簡層次、所耗費的時間以及成本費用都不盡相同。幾種方式各有長處,也各有弊端。本人也先后嘗試過各種查重方式,最終的結果都不那么令人滿意。經(jīng)過長時間的體會和摸索,發(fā)現(xiàn)還是office辦公軟件靠得住些。以下就如何利用office進行查重,與同行切磋。
1 利用Excel進行查看
由于一張Excel表格只能容納6萬多條記錄,采用Excel查重主要是針對比較小的數(shù)據(jù),在這里我把它稱為局部查重,特別適合采訪數(shù)據(jù)間的相互查重(館藏小的也適合),對圖書驗收特別有用,可以有效地杜絕塞書現(xiàn)象。我們可以把來自不同館配商的采訪預訂數(shù)據(jù)做成一個文件,分別放在不同的工作表中,比如將從人天、儒林和三新的預訂數(shù)據(jù)做成一個名叫圖書預訂數(shù)據(jù).xls文件,該文件中就包含人天、儒林和三新三個工作表,也可以把不同館配商的預訂數(shù)據(jù)分別做成不同的文件,如人天.xls、懦林.xls和三新.xls三個文件,本人習慣做成一個文件。當每新訂購一批圖書,就將其采訪數(shù)據(jù)加入相應的工作表中或文件中,并作一備注,標明是第幾批,以供圖書到館驗收查重用。
1.1 同一表中數(shù)據(jù)的處理
包括對書號及重復數(shù)據(jù)的處理,進行這種處理有助于表與表中查重的效率和準確性的提高。書號的處理主要是針對10位同13位ISBN號間進行轉(zhuǎn)換,建議將10位和13位的ISBN號各入一列,這樣就可以用10位查,也可以用13位查。由于同一表中可能會出現(xiàn)幾條相同的記錄,會造成統(tǒng)計的誤差,這就需要對這一重復記錄進行剔除,用手動的方法不僅費時而且費神,用表中高級篩選的話,效率就大大提高了。具體操作為選中工具欄中數(shù)據(jù)下拉菜單一篩選一高級篩選,選中列表區(qū)域和條件區(qū)域,在復選選擇不重復記錄,單擊確定,表中就會隱藏重復的記錄,顯示的則是不重復的記錄,我們也可以將其記錄復制到其它表中。建議以上的操作最好是以ISBN號為條件,書名因同名的太多而不宜用,同一書號的叢書或套書則要單獨進行處理。
1.2 不同表或不同文件間數(shù)據(jù)的查重
采購的圖書入館后,先不急著一包一單驗收,因為一包一單的圖書不一定是本館訂購的書。用訂購數(shù)據(jù)同館配商的發(fā)貨數(shù)據(jù)比對,進行查重,可以將館配商的塞書剔除,從而有效地杜絕塞書現(xiàn)象。數(shù)據(jù)的比對實際上是引用Excel自帶的統(tǒng)計函數(shù)COUNTIF進行統(tǒng)計,最終達到查重的目的。假若本館現(xiàn)在要對人天公司的發(fā)貨圖書進行驗收,只要打開人天的訂購數(shù)據(jù)和發(fā)貨數(shù)據(jù),在ISBN的格式一致時用ISBN號查重:在人天發(fā)貨數(shù)據(jù)插入一列,在要插入的列中調(diào)用統(tǒng)計函數(shù)COUNTIF,這個函數(shù)主要用于計算區(qū)域中滿足給定條件的單元格的個數(shù),語法為COUNTIF(range,criteria),Range為需要計算其中滿足條件的單元格數(shù)目的單元格區(qū)域Criteria為確定哪些單元格將被計算在內(nèi)的條件,其形式可以為數(shù)字、表達式、單元格引用或文本。本例中的Range為人天訂購數(shù)據(jù)中的ISBN列,Criteria為人天發(fā)貨數(shù)據(jù)中的ISBN列。通過計算后,數(shù)字為0的是未訂購的數(shù)據(jù),即人天塞書,非零的就是本館的訂購圖書。記住插入列前的一列數(shù)據(jù)不能為空,計算完畢后最好將計算好的值替換成文本,這樣會提高處理數(shù)據(jù)的效率。為了防止館配商將所到圖書在下次重發(fā),最好將已驗收的訂購圖書作一備注,供下次再查重用。這樣,就可以從根本上杜絕館配商塞書情況的發(fā)生。在掌握這個函數(shù)后,我們可以很方便地進行表與表的比對,不過數(shù)據(jù)太大會影響計算速度,建議太大的數(shù)據(jù)比對不用Excel,改用Access。
2 利用Access查重
Access同Excel相比,具有更強大的功能,支持廣泛的數(shù)據(jù)格式,可以處理大型的數(shù)據(jù),在查重和去重方面有不可比擬的優(yōu)越性,其操作方法如下。
在去重和查重之前,將要處理的數(shù)據(jù)導入Access表中,包括采訪數(shù)據(jù),館藏數(shù)據(jù)以及其它相關的數(shù)據(jù),其數(shù)據(jù)各字段的格式要保持一致。導入數(shù)據(jù)后,接著我們就要進行數(shù)據(jù)的處理。
2.1 同一文件中的數(shù)據(jù)去重
我們先在查詢中建立一個去重文件,在設計視圖中寫入去重命令(sELECT DISTINCT字段名INTO表FROM需要去重的數(shù)據(jù)文件),其中,字段名指導人數(shù)據(jù)的各字段,如書號,書名等,“表”是經(jīng)過處理后的沒有重復記錄的表,點擊執(zhí)行后,不重的數(shù)據(jù)就進入“表”中,打開“表”,全是不重的數(shù)據(jù)記錄。
2.2 不同文件的數(shù)據(jù)去重
若要將采訪數(shù)據(jù)A中同館藏數(shù)據(jù)B中相重復的記錄去掉,可以用DELETE*FROM A WHERE字段名iIl(select字段名from B);命令,其字段名必須相對應,即為同一條件。執(zhí)行命令后,重復的數(shù)據(jù)就在A中刪除沒有了。
2.3 不同文件的數(shù)據(jù)的查重
如果說我們只要知道采訪數(shù)據(jù)A中的哪些數(shù)據(jù)同館藏數(shù)據(jù)B中的數(shù)據(jù)重了,而不動采訪數(shù)據(jù)A,也好辦,用命令SELECT A* INTO c FROM AWHERE字段名in(select字段名from B);命令執(zhí)行后,重復的數(shù)據(jù)記錄就在表c了,只要打開表c就可以查看重復的數(shù)據(jù)記錄,而采訪數(shù)據(jù)A沒有任何變化。
用Access查重去重很容易實現(xiàn),只需用簡短的命令執(zhí)行操作,不過,查重前務必要確保導人數(shù)據(jù)的準確性,否則,查重去重的準確性就沒有保障。
關于用office查重去重,更深層次的東西有待大家進一步挖掘,希望本文起到拋磚引玉之效。筆者以為,為了科學建設館藏資源及優(yōu)化館藏資源,圖書館采購人員必須具備一定的數(shù)據(jù)處理能力,通過在整個業(yè)務鏈的前端把好圖書的質(zhì)量關,確保提高全館的服務水平。