摘 要:本文以大數(shù)據(jù)為背景對中文數(shù)據(jù)庫的閱讀展開分析,并梳理了大數(shù)據(jù)、數(shù)據(jù)庫的基本內(nèi)涵,以及中文數(shù)據(jù)庫的發(fā)展?fàn)顩r,主要以鄭州大學(xué)河南文獻(xiàn)數(shù)據(jù)為例,從其特色內(nèi)容、檢索途徑、檢索方法、功能作用等方面簡要分析了中文數(shù)據(jù)庫的閱讀與使用。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)庫;中文閱讀
作者簡介:林冉(1992-),女,漢族,福建福州人,鄭州大學(xué)文學(xué)院中國古典文獻(xiàn)學(xué)碩士研究生二年級在讀,研究方向:先秦兩漢文學(xué)文獻(xiàn),發(fā)表論文2篇。
[中圖分類號]:G250.74 [文獻(xiàn)標(biāo)識碼]:A
[文章編號]:1002-2139(2016)-12--03
鄭州大學(xué)河南文獻(xiàn)數(shù)據(jù)庫是大數(shù)據(jù)時(shí)代的產(chǎn)物,該數(shù)據(jù)庫中保存著河南省珍貴的歷史文化資料,介紹其使用的方法有利于進(jìn)一步推廣該數(shù)據(jù)庫,同時(shí)對致力于研究河南省的讀者也具有一定的意義。
一、大數(shù)據(jù)時(shí)代數(shù)據(jù)庫建設(shè)
(一)大數(shù)據(jù)的定義及特點(diǎn)
隨著電子信息技術(shù)的發(fā)展與普及,我們正生活在一個(gè)信息爆炸的大數(shù)據(jù)時(shí)代,充斥著形形色色、令人眼花繚亂的信息資訊。大數(shù)據(jù)并非產(chǎn)品也不是技術(shù),只是數(shù)字化時(shí)代的一種現(xiàn)象[1]。關(guān)于大數(shù)據(jù)的定義,學(xué)術(shù)界尚未得出一個(gè)統(tǒng)一的結(jié)論。如基維百科將大數(shù)據(jù)定義為規(guī)模巨大到無法用目前的軟件工具處理的巨型資料量,在相應(yīng)時(shí)間內(nèi)完成擷取、管理、處理后利于企業(yè)完成經(jīng)營目標(biāo)的資訊;再如研究機(jī)構(gòu)將大數(shù)據(jù)定義為必須用新型的處理模式才能更好地洞察、決策并優(yōu)化流程的巨量、多樣化且高速增長的信息資產(chǎn);而麥肯錫的定義則為大數(shù)據(jù)是一種數(shù)據(jù)集合,且在一定時(shí)間內(nèi)無法利用傳統(tǒng)的數(shù)據(jù)軟件對其進(jìn)行數(shù)據(jù)采集、存數(shù)、管理及分析[2]。由此我們可以看出,大數(shù)據(jù)的特點(diǎn)即數(shù)量大、種類多、運(yùn)行速度快。
(二)數(shù)據(jù)庫的建設(shè)及作用
計(jì)算機(jī)的發(fā)明與普及,使數(shù)據(jù)量不斷增長,大數(shù)據(jù)背景下產(chǎn)生了數(shù)據(jù)管理技術(shù),數(shù)據(jù)管理技術(shù)的發(fā)展經(jīng)歷了以下四個(gè)階段:人工管理階段、文件系統(tǒng)階段、數(shù)據(jù)庫階段和高級數(shù)據(jù)庫技術(shù)階段。而數(shù)據(jù)庫的歷史可以追溯到五十年前,當(dāng)時(shí)人們利用穿孔片及磁帶進(jìn)行數(shù)據(jù)儲存。隨著人們對于數(shù)據(jù)共享的要求越來越高,傳統(tǒng)的文件系統(tǒng)早已不足以滿足人們的需求,因而統(tǒng)一管理和共享數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng)(DBMS)應(yīng)運(yùn)而生。根據(jù)數(shù)據(jù)模型的特點(diǎn),數(shù)據(jù)庫系統(tǒng)被分成網(wǎng)狀數(shù)據(jù)庫、層次數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫三類。本文所研究的數(shù)據(jù)庫指的是在大數(shù)據(jù)時(shí)代,儲存著大量信息的大型信息數(shù)據(jù)庫。本文認(rèn)為,數(shù)據(jù)庫廣泛應(yīng)用于社會(huì)的各行各業(yè),按照數(shù)據(jù)庫的使用的領(lǐng)域,又可以將其分為金融數(shù)據(jù)庫、醫(yī)學(xué)數(shù)據(jù)庫、政府?dāng)?shù)據(jù)庫、商業(yè)數(shù)據(jù)庫等。
大數(shù)據(jù)時(shí)代,信息冗雜,若不加以分類,信息查找者便難以在大數(shù)據(jù)的世界中搜索到目標(biāo)信息數(shù)據(jù)。數(shù)據(jù)庫的發(fā)明與應(yīng)用有效地解決了這一問題,數(shù)據(jù)庫擁有分門別類處理信息數(shù)據(jù)的功能,它使紛繁復(fù)雜的數(shù)據(jù)條理化、門類化,并提供了便捷的檢索途徑,使信息查找者通過關(guān)鍵詞的檢索迅速匹配到他們所需的信息,極大程度上節(jié)約了人力與物力,幫助人們便捷高效地從海量信息中挖掘出有價(jià)值的信息。
二、中文數(shù)據(jù)庫發(fā)展及閱讀
信息資源的開發(fā)與利用是衡量國家綜合國力的標(biāo)志之一,而中文數(shù)據(jù)庫建設(shè)是我國信息資源建設(shè)的主要組成部分,中文數(shù)據(jù)庫的閱讀對于提升我國軟實(shí)力具有重要的意義。
從國際數(shù)據(jù)庫的發(fā)展來看,美國是數(shù)據(jù)庫和聯(lián)機(jī)檢索服務(wù)的最大提供者,也是最大的市場。其數(shù)據(jù)庫開發(fā)和聯(lián)機(jī)檢索服務(wù)一直是其信息服務(wù)業(yè)的主體,增長率最高[3]。日本、英國、德國等發(fā)達(dá)國家也同樣對數(shù)據(jù)庫建設(shè)投入了大量資金,企圖擴(kuò)大市場份額。20世紀(jì)80年代中后期,我國利用國外數(shù)據(jù)庫技術(shù)開始開發(fā)國產(chǎn)中文數(shù)據(jù)庫。1979年,我國開始引進(jìn)美國國會(huì)館MARC磁帶,數(shù)據(jù)庫在我國逐步推廣應(yīng)用,到了上世紀(jì)90年代,我國出現(xiàn)了全文數(shù)據(jù)庫的供應(yīng)商[4]。
中文數(shù)據(jù)庫建設(shè)相比較于發(fā)達(dá)國家而言,起步比較晚,數(shù)據(jù)庫技術(shù)也主要是引進(jìn)國外的技術(shù)。近幾年來,我國更加重視中文數(shù)據(jù)庫的建設(shè),進(jìn)一步加大了投入,如CNKI系列數(shù)據(jù)庫、萬方數(shù)據(jù)庫、維普中文科技期刊數(shù)據(jù)庫、中宏數(shù)據(jù)庫等為代表的中文數(shù)據(jù)庫的數(shù)量逐漸增多,其占中文話語市場的份額也在不斷擴(kuò)大,中文數(shù)據(jù)庫得到了長足的發(fā)展。
中文數(shù)據(jù)庫數(shù)量的增加、涉及領(lǐng)域的擴(kuò)大為國內(nèi)用戶在大數(shù)據(jù)背景下瀏覽各類信息提供了便捷的渠道。中文數(shù)據(jù)庫的閱讀改變了傳統(tǒng)紙質(zhì)期刊閱讀的方式,將閱讀進(jìn)一步推向了數(shù)字化。一些中文數(shù)據(jù)庫中收錄了我國經(jīng)典古籍及優(yōu)秀的文化作品,中文數(shù)據(jù)庫的閱讀拓寬了中華燦爛文明傳播的廣度,使經(jīng)典的傳承與發(fā)揚(yáng)更加便捷。在紛繁復(fù)雜的大數(shù)據(jù)時(shí)代,中文數(shù)據(jù)庫的建立與發(fā)展對于國家軟實(shí)力的提高具有重要意義。
三、以鄭州大學(xué)河南文獻(xiàn)數(shù)據(jù)庫為例簡析中文數(shù)據(jù)庫的閱讀與使用
(一)數(shù)據(jù)庫簡介
鄭州大學(xué)河南文獻(xiàn)數(shù)據(jù)庫是鄭州大學(xué)圖書館于2004年研制開發(fā)的CALIS(中國高等教育文獻(xiàn)保障系統(tǒng))專題特色數(shù)據(jù)庫項(xiàng)目之一,屬于典型的中文數(shù)據(jù)庫,其中收錄了河南省諸多珍貴文獻(xiàn)資料,共有81109條記錄。該數(shù)據(jù)庫收錄的數(shù)據(jù)資料內(nèi)容豐富、形式多樣,不僅收錄大量河南文獻(xiàn)、報(bào)刊、學(xué)位論文的相關(guān)介紹,而且還收錄了具有地方特色的名人介紹、名人手稿、名勝古跡圖片等,涉及了方志、年鑒、文學(xué)、黨史、文化藝術(shù)、社會(huì)生活、政治、軍事、工運(yùn)、婦女、文物考古、教育、衛(wèi)生、統(tǒng)計(jì)資料、水利、黃河文史資料、財(cái)政金融工商稅務(wù)、工業(yè)、農(nóng)業(yè)等領(lǐng)域,對于這些珍貴資料的購買與獲得均提供了聯(lián)系方式。河南文獻(xiàn)數(shù)據(jù)庫的網(wǎng)址訪問路徑位于鄭州大學(xué)圖書館網(wǎng)址首頁數(shù)據(jù)資料欄目的自建數(shù)據(jù)庫內(nèi),建庫至今數(shù)據(jù)庫總訪問量已經(jīng)達(dá)到541600人次。數(shù)據(jù)庫以系統(tǒng)齊全的地方文獻(xiàn)收藏和多角度深層次的研究,為致力于研究河南的學(xué)者提供了檢索河南文獻(xiàn)的途徑與導(dǎo)向。
(二)特色內(nèi)容分析
鄭州大學(xué)河南文獻(xiàn)數(shù)據(jù)庫最突出的特點(diǎn)是收錄了大量與河南相關(guān)的珍貴的文字、圖片資料,擁有其他數(shù)據(jù)庫所不具備的資源優(yōu)勢,凸顯了鮮明的河南特色。數(shù)據(jù)庫的特色內(nèi)容包括7個(gè)板塊——河南文獻(xiàn)、舊志提要、珍稀報(bào)刊、歷代名人、名勝古跡、名人手稿、特色學(xué)位論文,為有興趣研究河南的讀者提供了了解河南的良好向?qū)А?/p>
河南文獻(xiàn)板塊中收錄了與河南省相關(guān)的各個(gè)方面的文獻(xiàn)資料,涉及了政治、經(jīng)濟(jì)、文化、地理等領(lǐng)域。數(shù)據(jù)庫雖僅是為研究者提供檢索的向?qū)В磳⑽墨I(xiàn)全文收錄其中,但提供了文獻(xiàn)創(chuàng)建者、編輯者、出版者、出版時(shí)間、ISBN號、開本、地域、頁碼、復(fù)本、購買方式等信息,為研究者檢索提供了極大的便利。
舊志提要中涵蓋了河南省各縣市的地方舊志,并對版本、卷冊、地區(qū)以及購買聯(lián)系方式等基本信息做了簡要介紹。該數(shù)據(jù)庫中保存的地方舊志版本均屬于明清及民國的刊本、刻本、稿本以及鉛印本。舊志內(nèi)容包含了河南省古代名物典章、地方性的人、事、物,為研究該市、縣的學(xué)者提供了寶貴的資料。
珍稀報(bào)刊共保存了40201份史料,該數(shù)據(jù)庫介紹了作者、來源刊名、來源卷、出版地、頁碼、關(guān)鍵字、學(xué)科分類號、聯(lián)系方式等基本信息。這些珍貴資料記錄了不同時(shí)期在河南省發(fā)生的重大事件,內(nèi)容豐富全面,若不是專門收集保存,目前在市面均很難找到,因此該數(shù)據(jù)庫對于了解與研究河南省的歷史具有重要的意義。
歷代名人,數(shù)據(jù)庫共列舉了從古至今17887位河南省名人,如著名的政治名人范蠡、李斯、岳飛等,文化名人杜甫、李商隱、干寶等,以及其他時(shí)代的名人。數(shù)據(jù)庫注明了名人所屬的地域、生年卒年、朝代、著作、民族等信息,數(shù)據(jù)庫還專門提供了名人傳記全文下載。
名勝古跡板塊共有3134處名勝古跡,按照名人故居、陵墓、古遺址、古城址、寺廟、古塔、風(fēng)景區(qū)等類別進(jìn)行分類,標(biāo)注了創(chuàng)建者、所屬地區(qū)、年代、來源,并對其做簡要的介紹,數(shù)據(jù)庫還提供圖片下載,圖文并茂地展示河南省人文與地理景觀,有利于檢索者更加直觀地感受其魅力。
名人手稿與特色學(xué)位論文。名人手稿共4092篇,收錄了來自文學(xué)藝術(shù)、政治經(jīng)濟(jì)、宗教、傳媒、農(nóng)業(yè)、計(jì)算機(jī)計(jì)算、少林武術(shù)等領(lǐng)域的文章,這些文章均出自河南籍各界名人學(xué)者之手,為研究河南名人及河南文化思想的讀者提供了寶貴資料。數(shù)據(jù)庫中收錄了7754篇特色學(xué)位論文,所有的特色學(xué)位論文都是以河南省作為研究對象的,涉及了眾多學(xué)科專業(yè),具有很強(qiáng)的學(xué)術(shù)性與實(shí)踐性,對于全面地了解河南省具有一定的作用。
(三)檢索方法分析
數(shù)據(jù)庫首頁設(shè)置了快速檢索與高級檢索兩大檢索方法。有利于讀者快速鎖定目標(biāo)文獻(xiàn),基本上均能滿足讀者的檢索需求。
快速檢索屬于初步基本檢索,通過題名、作者、關(guān)鍵詞途徑即可進(jìn)行檢索,一般情況下快速檢索所得到的文獻(xiàn)數(shù)量較多,難以一步到位精確到檢索者所需要的目標(biāo)信息。此外,該數(shù)據(jù)庫的快捷檢索不支持同時(shí)輸入兩個(gè)以上關(guān)鍵詞進(jìn)行檢索,即讀者通過題名、作者、關(guān)鍵詞三個(gè)途徑進(jìn)行檢索時(shí)只能輸入一個(gè)詞,系統(tǒng)才能進(jìn)行正常檢索,否則系統(tǒng)將顯示無紀(jì)錄。因此,檢索者在此數(shù)據(jù)庫中進(jìn)行快速檢索后還需進(jìn)一步篩選信息。
高級檢索相比較于快速檢索而言更加智能,搜索得到的文獻(xiàn)更加精準(zhǔn)、范圍也更小。在高級檢索界面,可同時(shí)在題名、作者、關(guān)鍵詞(主題)、地域選擇框中輸入信息,系統(tǒng)將圍繞著這四項(xiàng)信息進(jìn)行匹配。此外在高級檢索中還能選擇檢索來源,檢索者可根據(jù)自己的需求選擇以整個(gè)數(shù)據(jù)庫為范圍,或在數(shù)據(jù)庫下設(shè)的7個(gè)板塊中任選其一作為檢索范圍。快捷檢索與高級檢索各有千秋,快捷檢索適合于模糊查找,而高級檢索則更精準(zhǔn)地匹配到目標(biāo)文獻(xiàn),讀者可根據(jù)自己的閱讀需求進(jìn)行選擇。
(四)檢索途徑分析
鄭州大學(xué)河南文獻(xiàn)數(shù)據(jù)庫設(shè)置了多種檢索途徑,基本滿足讀者從全部、題名、作者、關(guān)鍵詞等常用途徑的檢索外,還結(jié)合數(shù)據(jù)庫各個(gè)板塊的特色設(shè)置了其他檢索途徑。在河南文獻(xiàn)板塊與珍稀報(bào)刊板塊中增加了出版地與學(xué)科分類號兩種途徑;名勝古跡檢索途徑增加了所屬地與古跡分類;名人手稿的檢索途徑增加了出版社與文摘類型;舊志提要的檢索途徑則為題名、年代、地區(qū);歷代名人的檢索途徑為全部、作者、籍貫、職務(wù)、地域、關(guān)鍵詞;特色學(xué)位論文的檢索途徑為題名、作者、關(guān)鍵詞。數(shù)據(jù)庫根據(jù)不同的資料類型提供個(gè)性化的檢索途徑,方便讀者的查找與閱讀使用。
(五)作用意義分析
鄭州大學(xué)河南文獻(xiàn)數(shù)據(jù)庫作為鄭州大學(xué)自建特色數(shù)據(jù)庫,為廣大感興趣于研究河南的讀者提供了了解河南省的重要窗口,正如鄭州大學(xué)河南文獻(xiàn)數(shù)據(jù)庫網(wǎng)站介紹所說,它是“探索河南奧秘的文獻(xiàn)中心,開啟中原文化的一把鑰匙。”中原文化悠久而燦爛,是中華文明的重要組成部分。河南文獻(xiàn)數(shù)據(jù)庫收錄了大量珍貴的河南文獻(xiàn)資料為河南文化的傳承做出了貢獻(xiàn),為致力于研究以及有興趣了解河南的廣大社會(huì)人士提供了良好的向?qū)Вㄟ^這個(gè)向?qū)Вx者不僅可以感受到中原文化與歷史的厚重感,而且還能領(lǐng)略到名勝古跡的獨(dú)特魅力。此外,數(shù)據(jù)庫的開發(fā)與使用有利于河南省文化產(chǎn)業(yè)的發(fā)展,有利于各界人士增進(jìn)對河南的了解及共同開發(fā)河南省豐富的文化資源,進(jìn)而促進(jìn)河南省文化與經(jīng)濟(jì)的進(jìn)一步發(fā)展。
四、結(jié)語
隨著電子信息技術(shù)的發(fā)展,當(dāng)今世界已經(jīng)進(jìn)入了一個(gè)大數(shù)據(jù)時(shí)代,面對紛繁復(fù)雜的大數(shù)據(jù),數(shù)據(jù)庫技術(shù)的產(chǎn)生無疑促進(jìn)了大數(shù)據(jù)的條理化與門類化,提高了閱讀效率。中文數(shù)據(jù)庫伴隨著中文信息的快速增長,其數(shù)目不斷增多,信息更加全面,市場的份額也不斷擴(kuò)大,為讀者提供了諸多便利。河南文獻(xiàn)數(shù)據(jù)庫作為一個(gè)典型的中文數(shù)據(jù)庫,反映了大數(shù)據(jù)時(shí)代中文數(shù)據(jù)庫收錄內(nèi)容豐富、檢索途徑多樣、檢索方式靈活、檢索效率高、具有鮮明中國特色等特點(diǎn)。同時(shí),在大數(shù)據(jù)背景下,其為河南省燦爛文化的傳播做出了一定貢獻(xiàn),利用好這個(gè)特色數(shù)據(jù)庫進(jìn)行閱讀與查找河南文獻(xiàn)對于了解與研究河南都具有重要意義。
參考文獻(xiàn):
[1]程陳.大數(shù)據(jù)挖掘分析[J].軟件.2014,35(4):130-131.
[2]葛春燕.數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)公司客戶評估中的應(yīng)用研究[J].軟件,2013,34(1):116-118.
[3]李莉莉.關(guān)于信息資源開發(fā)與數(shù)據(jù)庫建設(shè)的思考[J].情報(bào)雜志,1998,17(5):29-30.
[4]鐘文一.我國國產(chǎn)全文數(shù)據(jù)庫的檢索閱讀平臺研究[J].情報(bào)雜志,2003,10(6):89-92.