張 戍
(長春師范大學圖書館,吉林長春 130032)
Access 是由微軟發布的關聯式數據庫管理系統。它結合了Microsoft Jet Database Engine和圖形用戶界面兩項特點,是Microsoft Office 的系統程式之一。Access 以它自己的格式將數據存儲在基于Access Jet 的數據庫引擎里。它還可以直接導入或者鏈接數據(這些數據存儲在其他應用程序和數據庫)[1]。TPI 系統是一個新興的數字化圖書館解決方案,完全是由同方知網自主研發的,是一套依托網絡平臺,利用KBASE檢索服務器,實現知識倉庫的創建、生產、維護、管理以及發布的工具軟件系統。其主要優點是:TPI 完全實現了信息的先期組織,中期的存儲與檢索,再到后期的由CPS 內容發布系統、檢索網關和TPI 檢索服務器一起完成的資源發布。筆者所在的長春師范大學圖書館,于2009年起開始了利用Access 軟件和TPI 系統建設特色數據庫的嘗試,取得了一些經驗成果。
國內滿語文研究取得了豐碩的成果,在滿語文研究文獻的整理方面也取得了一定的成績,但是目前還沒有專門的能夠檢索滿語文研究論文的數據庫或者索引,大多數的滿語文研究人員在對滿語文進行研究時,只能參照一些綜合性數據庫,如維普、中國知網、讀秀、E 讀等進行檢索,或者參考有關研究東北民族史方面的索引。而現有的這些數據庫及索引對于查找滿語文方面的研究論文卻存在著諸多盲點。
1.1.1 收錄范圍窄
現有的綜合性數據庫在文獻收錄范圍方面都有一定的局限性,收錄的范圍不夠廣,如對學術會議論文集的收錄,由于學術論文集涉及領域相對狹窄,讀者范圍有限,發行量較小等特點,綜合性數據庫對它們的收錄難免存在缺失和遺漏,如果之后沒有進行補充和擴充,就無法及時反映該學科學術研究工作的進展。
1.1.2 檢索結果不精確
多數現有的綜合性數據庫,針對的讀者范圍較廣,專業性不強,往往檢索出來一些不符合相關研究領域的數據結果,容易影響從事專門學科研究的專家的研究效率。比如,筆者在知網上以“滿語文”為題名檢索詞,只檢索出一篇題為“讓美育的鮮花開滿語文課堂”的文章,與滿語文的研究一點不沾邊。
滿學作為一門國際性的綜合性學科,已成為國際四大(滿、漢、藏、蒙)顯學之一。滿語文研究作為滿學研究的重要分支,其累累碩果在一定程度上推動了滿學研究的繁榮和發展,一方面,滿語文數據庫的建設研究屬于滿學研究領域的基礎、服務工作,是對前人研究成果的總結性歸納和梳理,從而為研究者了解滿語文研究水平和現狀提供了便利;另一方面,結合現代計算機技術,對這些論文進行編輯整理,實現文獻檢索的數字化,開創了國內滿語文研究領域的先河,對推動滿學研究向新的高度和廣度發展具有重要的現實意義。
滿語文特色數據庫建設研究的最終目的是:通過對滿語文特色數據庫建設的研究,構建一個較為完善的有自己特色的數據庫平臺,為研究者提供便利,為滿語文研究向更高層次與更廣領域發展奠定基礎。
為確保數據庫建設中少走彎路,建庫初期就制定了建庫的基本思路。
2.2.1 聘請專家指導
數據庫建設前期,即聘請滿語文研究專家,東北師范大學歷史文化學院博士生導師劉厚生教授,就數據庫的收錄和采集范圍等提供意見,以期使數據庫成果更具專業性。
2.2.2 編寫輔助表
嚴格按照數據庫建設要求編寫輔助表,如關鍵詞、重點作者、專業期刊等輔助表,便于數據庫的數據采集、錄入更專業、更精準。并且,擴大數據庫的覆蓋面,如將搜索范圍擴大至論文注釋,深入挖掘論文注釋中隱含的數據信息,保證數據庫中數據的完整性和收錄的廣泛性。
2.2.3 數據采集、整理更科學、全面
數據采集在準確的基礎上確保全面。然后對采集到的數據信息進行鑒別、篩選、剔除重復,利用計算機技術及網絡信息技術,進行科學的分類、排序,標引和著錄。
數據的整合發布采用清華同方的TPI 系統,TPI 是一款性能先進的工具軟件系統,能兼容普遍使用的MARC 標準和最新的Dublin Core 標準,完全兼容支持XML 文件格式,支持Z39.50 標準協議及最新的OAI協議、METS 協議,支持統一認證和單點登錄等。
數據庫建庫軟件采用微軟的Access,Access 數據庫具有操作靈活、轉移方便、運行環境簡單等優點。該軟件的通用性強,無論在校園網上架設單獨的網站或將來整合入TPI 都能方便、快捷地實現[3]。
利用Microsoft Office 的系統套裝軟件Access2003,可簡單、快速地建立滿語文特色數據庫。
3.1.1 數據庫具體結構
數據庫的整體框架結構在建庫初期就已確定,多方聽取數據庫建設專家的意見,經過認真的研究、討論,根據建設數據庫的用途和實際需要,我們把數據庫定義為11個字段(模塊),它們是:分類號、題名項、責任者、機構、文獻來源、年月、卷期、起止頁碼以及備注,據此確定滿語文研究論文全文數據庫的整體結構(圖1)。
3.1.2 建庫步驟
3.1.2.1 打開一個新建庫
打開Access 2003中的新建庫后看到如下界面,在這個界面的對象欄中包含7個對象(表、查詢、窗體、報表、頁、宏、模塊),通過對表的創建來完成數據庫子模塊的創建(圖2)。

圖1 數據庫具體結構

圖2 打開新建庫

圖3 創建表
3.1.2.2 創建表
Access 2003中所有對象的基礎就是表,因為表存儲的數據是其他對象用來執行活動任務的。設計一個數據庫的關鍵,就集中在建立數據庫中的基本表上。Access 2003中的每個表都是由若干個記錄組成的,而每條記錄又都對應一個實體,并且相同表中的所有記錄也都具有相同的字段定義,且每個字段都存儲著相對應于實體的不同屬性的數據信息。在打開的對話框里選擇“使用設計器創建表”,按照預先設定的依次創建表(圖3),給表命名,并設定出表與表之間的關系、表的索引,在確定表的主鍵之后,打開已創建的表,在各個字段下添加著錄內容(圖4),至此,一個完整的Access 數據庫就基本建成了(圖5)。

圖4 著錄內容

圖5 完成Access 數據庫
3.2.1 數據轉換引入
利用TPI6.0 系統的數據轉換工具(Data Tran)將Access 數據庫的數據導入。不用登錄服務器,直接選擇“導入數據或導出數據”的分頁項,單擊“確定”按鈕,依照TPI6.0 系統使用說明完成數據導入,然后再把PDF 格式的論文逐個鏈接至數據庫中,選擇設置數據庫的發布項目,完成數字對象的命名,整個數據庫才算真正建起來了。
3.2.2 數據的分類、標引
數據導入后要進行數據的分類與標引。數據的分類是指按照《中國圖書館圖書分類法》的分類規則,把論文分別歸納到相對應的類目里,一般只分類到二級類目。數據庫中都設有“分類檢索”選項,只有論文正確分類了,使用“分類檢索”才能夠精準、全面。數據的標引則是指把論文中設定的每一個字段都作為檢索內容標示出來,并指示計算機每一個字段所檢索出來的內容對應論文的哪一部分。標引的文件格式有很多種,如:*.TXT 格式文件,*.PDF 格式文件,*.CAJ 格式文件,*.KDH 格式文件,*.DOC 格式文件,*.XML 格式文件,*.HTML 格式文件等,我們的數據標引格式采用的是*.HTML 格式文件。
3.2.3 內容發布
利用TPI6.0 系統的內容發布平臺(CPS)可完成多種不同需求的發布,加工好的數據發布到網上后,用戶可以方便、快捷地瀏覽和檢索。CPS 有多種數據發布模板,如知網的期刊風格、谷歌搜索風格、工程索引風格、OCLC 風格、圖片風格等。支持用戶數據庫多字段的個性化定制發布;支持各個數據庫間及數據記錄之間的關聯、跳轉、校驗等功能;可以為數據庫同時建立多種導航樹,并支持多種分類體系;支持一條記錄關聯多個全文數據以及多種數據間的連接。總之,數據的發布既簡便又易操作,在數據庫管理一欄里選擇要發布的數據庫(一個或多個),選好要發布的數據庫模板以及檢索字段、概覽字段和細覽字段、排序字段、關聯數據庫字段等項目的發布設置,就可以開始Web 發布了。
特色數據庫建設是一項長期工程,需要全國范圍內的合作。但是,目前國內特色數據庫的建設很分散,運行也相對獨立,大規模聯合運營的方式在國內很少見。我們對滿語文特色數據庫的建設探索,其宗旨與目的不外乎滿語文資源的共享,以期為國內外滿語文研究盡微薄綿力,資源只有實現了實實在在的共享,才不失我們辛苦工作的初衷。
[1]百度百科.Microsoft Office Access[EB/OL].(2013-09-08)[2013-09-10].http://baike.baidu.com/view/1162845.htm?fromId=433649.
[2]同方知網(北京)技術有限公司.清華同方TPI V6.0 信息資源建設與管理平臺使用說明書[Z].2012.
[3]韓鋼.中國東北民族史論文數據庫的建設[J].長春師范學院學報:自然科學版,2010(6):156-158.