徐 雯 邵 榮 丁曉芹
(中國科學(xué)院武漢文獻情報中心,湖北 武漢430071)
開放社會經(jīng)濟信息的元數(shù)據(jù)研究——以開放社會經(jīng)濟信息集成揭示與服務(wù)系統(tǒng)為例
徐 雯 邵 榮 丁曉芹
(中國科學(xué)院武漢文獻情報中心,湖北 武漢430071)
〔摘 要〕社會經(jīng)濟信息與科技創(chuàng)新密切相關(guān)。建立支持產(chǎn)業(yè)發(fā)展、技術(shù)創(chuàng)新和成果轉(zhuǎn)化的技術(shù)、行業(yè)、經(jīng)濟和社會信息資源支持體系 ,滿足用戶需求 ,有效支持用戶獲得經(jīng)過遴選和評價的技術(shù)、行業(yè)、經(jīng)濟和社會等信息 ,為用戶提供全面的信息支撐顯得尤為重要。本文以開放社會經(jīng)濟信息的元數(shù)據(jù)為研究對象 ,對網(wǎng)絡(luò)信息資源、報告、新聞資訊、政策法規(guī)、統(tǒng)計數(shù)據(jù)、生產(chǎn)技術(shù)等資源進行了調(diào)研。
〔關(guān)鍵詞〕開放獲取 ;社會經(jīng)濟信息;元數(shù)據(jù) ;信息組織 ;揭示與服務(wù)系統(tǒng)
經(jīng)濟信息 (Economic information)是指社會經(jīng)濟活動所產(chǎn)生的、反映經(jīng)濟活動并為其服務(wù)的消息、事實、數(shù)據(jù)、知識等[1]。狹義的概念只包含經(jīng)濟活動直接反映出來的信息,而廣義的經(jīng)濟信息則是包含了經(jīng)濟活動所涉及的政治、法律、科學(xué)、技術(shù)、自然環(huán)境等各方面的信息。開放社會經(jīng)濟信息資源指的是能夠開放獲取 (Open Access)的社會經(jīng)濟信息 ,包含技術(shù)信息、政府信息、市場動態(tài)、行業(yè)資訊、統(tǒng)計數(shù)據(jù)、各類相關(guān)報告、科研項目信息等。這之中既包括資源的集合也包括資源的內(nèi)容。
隨著市場經(jīng)濟的發(fā)展,社會經(jīng)濟信息日趨成為科技創(chuàng)新活動的重要組成部分。中國科學(xué)院 “創(chuàng)新2020”方案明確提出今后要把面向區(qū)域經(jīng)濟和產(chǎn)業(yè)發(fā)展需求,開展產(chǎn)業(yè)前沿技術(shù)創(chuàng)新、技術(shù)集成創(chuàng)新、工程化研發(fā)和成果轉(zhuǎn)移轉(zhuǎn)化作為重要工作任務(wù)的戰(zhàn)略部署[2]。針對從事應(yīng)用研究、轉(zhuǎn)換型研究和成果轉(zhuǎn)移轉(zhuǎn)化工作較多的研究機構(gòu)對于社會經(jīng)濟、市場信息需求愈來愈強烈的現(xiàn)狀,中國科學(xué)院國家科學(xué)數(shù)字圖書館二期啟動了 “開放社會經(jīng)濟信息集成揭示與服務(wù)系統(tǒng)”項目,實現(xiàn)對相關(guān)信息資源的發(fā)現(xiàn)、遴選、采集、描述、組織、利用及長期保存。本文以開放社會經(jīng)濟信息資源為研究對象,對相關(guān)的元數(shù)據(jù)進行了研究,嘗試建立準確完善的各類社會經(jīng)濟信息的元數(shù)據(jù)描述規(guī)范 ,使用戶能夠在紛繁蕪雜的各類經(jīng)濟信息中快速準確獲得有價值、可利用的開放資源。
參考元數(shù)據(jù)的研究現(xiàn)狀,科技部科技基礎(chǔ)條件平臺專項資金項目 《我國數(shù)字圖書館標準規(guī)范建設(shè)》中的子項目成果——《網(wǎng)絡(luò)資源元數(shù)據(jù)規(guī)范》[3]基于DC (Dublin Core)元數(shù)據(jù)在資源集合的層面做出定義 ,但沒有對具體的資源內(nèi)容進行描述。國家科技圖書文獻中心制定的 《NSTL文獻資源加工規(guī)范》中有 《科技報告描述元數(shù)據(jù)規(guī)范》[4]是針對資源內(nèi)容的元數(shù)據(jù)規(guī)范,但主要針對的是科技報告,社會經(jīng)濟類的報告和其它資源沒有專門的描述。
由于社會經(jīng)濟信息具有形態(tài)多樣、種類繁雜、渠道眾多等特點,并且受傳統(tǒng)資源建設(shè)觀念的影響,絕大多數(shù)圖書館尚未對這類信息資源進行系統(tǒng)、有效的發(fā)現(xiàn)、組織和保存?;趯α闵⑿畔?、非結(jié)構(gòu)化信息描述不足的現(xiàn)狀 ,研究制定有針對性的開放社會經(jīng)濟信息的元數(shù)據(jù)描述規(guī)范就顯得十分重要和迫切了。
開放社會經(jīng)濟信息的資源調(diào)研與集成揭示主要分為兩個層級:(1)資源集合層級 ,資源集合能夠讓用戶大量發(fā)現(xiàn)結(jié)構(gòu)化信息資源,對資源集合的揭示可以認為是將大量資源作為一個整體描述。例如我們可以將網(wǎng)站上的各個欄目理解成資源集合,那么網(wǎng)站就是對資源集合的集合;同理,商業(yè)數(shù)據(jù)庫通常包括各種類型的統(tǒng)計數(shù)據(jù),每一種統(tǒng)計數(shù)據(jù)可以看作是一個資源集合,那么該數(shù)據(jù)庫就不難理解為集合的集合了。(2)資源內(nèi)容層級,具體來講是指一條新聞 ,一篇研究報告,一部法規(guī),諸如此類具體的某一條信息。對資源內(nèi)容的集成揭示就是將這類單個資源集成為目錄或列表的形式。如 “開放社會經(jīng)濟集成揭示與服務(wù)系統(tǒng)”中 “新聞資訊”、“政策法規(guī)”、“研究報告”等欄目 ,這些都是由單個文檔組成的列表。此外,學(xué)會、協(xié)會、政府機構(gòu)組織產(chǎn)出的報告集也可以歸于此類,報告集目錄是典型的資源內(nèi)容集成揭示對象。
2.1網(wǎng)絡(luò)資源集合的調(diào)研
開放社會經(jīng)濟信息的資源集合包含并不僅限于行業(yè)學(xué)會/協(xié)會、機構(gòu)組織網(wǎng)站、經(jīng)濟信息門戶與學(xué)科導(dǎo)航、統(tǒng)計數(shù)據(jù)庫集合、社會綜合信息資源集合等,對資源集合進行集成揭示的方式有:建立集合目錄;用技術(shù)方式實現(xiàn)集合的統(tǒng)一檢索;在對集合進行統(tǒng)一的描述和揭示的基礎(chǔ)上 ,實現(xiàn)統(tǒng)一檢索[5]。
2.1.1行業(yè)學(xué)會/協(xié)會網(wǎng)站
以International Solar Energy Society[6](國際太陽能學(xué)會)網(wǎng)站為例 ,國際太陽能學(xué)會是一個研究和發(fā)展太陽能利用中的信息中心,該學(xué)會采用實際項目、技術(shù)傳播、教育培訓(xùn)、組織會議等支持會員國開發(fā)可再生能源。網(wǎng)站包含新聞資訊 ,研究報告,項目計劃等幾類資源。
2.1.2政府機構(gòu)網(wǎng)站
以U.S.Food and Drug Administration[7](美國食品藥品管理局,簡稱FDA)網(wǎng)站為例,F(xiàn)DA的職責是確保美國本國生產(chǎn)或進口的食品、化妝品、藥物、生物制劑、醫(yī)療設(shè)備和放射產(chǎn)品的安全。在國際上,F(xiàn)DA被公認為是世界上最大的食品與藥物管理機構(gòu)之一 ,其它許多國家都通過尋求和接收FDA的幫助來促進并監(jiān)控其該國產(chǎn)品的安全。FDA的網(wǎng)站有非常豐富的信息資源 ,新聞資訊、研究報告、食品藥品信息等。
2.1.3經(jīng)濟信息門戶與學(xué)科導(dǎo)航
以中國經(jīng)濟網(wǎng)[8](簡稱中經(jīng)網(wǎng))為例,中經(jīng)網(wǎng)是國家級重點新聞網(wǎng)站 ,以經(jīng)濟報道、資訊傳播和經(jīng)濟服務(wù)為主要發(fā)展方向 ,是目前中國境內(nèi)最大最權(quán)威的綜合經(jīng)濟類網(wǎng)絡(luò)媒體。中經(jīng)網(wǎng)擁有財經(jīng)證券、產(chǎn)業(yè)市場、國際經(jīng)濟、區(qū)域經(jīng)濟、時政社會、文化、教育、時尚等內(nèi)容板塊 ,下設(shè)宏觀經(jīng)濟、理財、消費、股市、外匯、銀行、保險、食品、農(nóng)業(yè)、能源、房產(chǎn)、汽車、家電、通訊和IT等涵蓋經(jīng)濟生活各領(lǐng)域的綜合頻道100多個。
2.1.4統(tǒng)計數(shù)據(jù)庫網(wǎng)站
以中國國家統(tǒng)計局數(shù)據(jù)庫[9]為例 ,國家統(tǒng)計局數(shù)據(jù)庫包含月度、季度、年度數(shù)據(jù),以及地區(qū)數(shù)據(jù)、普查數(shù)據(jù)、國際數(shù)據(jù)六類統(tǒng)計數(shù)據(jù) ,近800萬筆數(shù)據(jù)。月度數(shù)據(jù)主要有居民消費價格指數(shù) (CPI)、工業(yè)生產(chǎn)價格指數(shù) (PPI)、商品零售價格指數(shù)、規(guī)模以上工業(yè)生產(chǎn)、固定資產(chǎn)投資、房地產(chǎn)開發(fā)投資、社會消費品零售總額、對外經(jīng)濟貿(mào)易、交通運輸、郵電通信、采購經(jīng)理指數(shù) (PMI)、財政、金融。季度數(shù)據(jù)主要有國內(nèi)生產(chǎn)總值、農(nóng)業(yè)、工業(yè)、建筑業(yè)、城鎮(zhèn)居民收入與支出、農(nóng)村居民收入與支出、固定資產(chǎn)價格指數(shù)、農(nóng)產(chǎn)品生產(chǎn)價格指數(shù)。年度數(shù)據(jù)包括綜合、國內(nèi)生產(chǎn)總值、人口、就業(yè)人員和工資等27個領(lǐng)域的數(shù)據(jù)。地區(qū)數(shù)據(jù)涵蓋了全國31個省 (區(qū)、市)以及部分城市主要經(jīng)濟指標。
由上述調(diào)研情況來看這幾種類型的資源集合雖然描述對象有些許差異 ,但又涵蓋許多共同點,所以網(wǎng)絡(luò)資源集合的描述會相對比較簡單 ,如果制定合理,多種類型的網(wǎng)絡(luò)資源集合可以使用同一種元數(shù)據(jù)描述規(guī)范。
2.2網(wǎng)絡(luò)資源內(nèi)容的調(diào)研
開放社會經(jīng)濟信息的資源內(nèi)容包含并不僅限于信息報道、研究報告、統(tǒng)計數(shù)據(jù)、政策法規(guī)、生產(chǎn)技術(shù)信息、分析評論等。信息報道又涵蓋行業(yè)資訊、市場動態(tài)、金融信息、經(jīng)濟貿(mào)易、供求信息、新聞動態(tài)等 ;研究報告包括政府機構(gòu)報告、行業(yè)學(xué)協(xié)會報告、研究機構(gòu)公司報告、咨詢公司的市場調(diào)查報告、行業(yè)分析報告、市場預(yù)測報告、投資價值分析報告、券商報告、技術(shù)報告、戰(zhàn)略報告等;統(tǒng)計數(shù)據(jù)類資源包括年鑒、年報、行業(yè)統(tǒng)計數(shù)據(jù)、貿(mào)易統(tǒng)計、專家技術(shù)人員信息、公司廠商信息、市場產(chǎn)品信息、價格信息等。生產(chǎn)技術(shù)信息則包括各類專利、標準、工藝流程、產(chǎn)品規(guī)范等。
2.2.1研究報告
以World Health Organization(世界衛(wèi)生組織 ,簡稱WHO)網(wǎng)站的一篇研究報告 《Global status report on alcohol and health 2014》[10]為例 ,網(wǎng)站上僅揭示了報告的題名、摘要等信息,沒有將報告與其責任機構(gòu)相關(guān)聯(lián),報告對應(yīng)的行業(yè)分類、報告字數(shù)、頁數(shù)等相關(guān)信息也不清楚。
2.2.2信息報道、政策法規(guī)、分析評論等
以生物谷網(wǎng)站的一篇新聞 《中國首個生物資源 “樣本庫目錄”上線》[11]為例 ,元數(shù)據(jù)的描述只有題名、來源與正文 ,許多重要的關(guān)聯(lián)信息如作者、關(guān)鍵詞、行業(yè)分類等信息都沒有,如果這些信息不完整,將很難在系統(tǒng)中實現(xiàn)自動分類與標引。
2.2.3生產(chǎn)技術(shù)
生產(chǎn)技術(shù)中的專利和標準都有專門的描述規(guī)范,也是結(jié)構(gòu)化程度相當高的一類資源,只需要在已有元數(shù)據(jù)的基礎(chǔ)上擴展一些與行業(yè)分類、數(shù)據(jù)來源相關(guān)的字段就比較適應(yīng)整個系統(tǒng)的要求了。除了這兩種資源之外,其他的例如技術(shù)報告、制備工藝、技術(shù)成果等生產(chǎn)技術(shù)信息,則需要根據(jù)資源本身的特點靈活應(yīng)用。
2.2.4統(tǒng)計數(shù)據(jù)
統(tǒng)計數(shù)據(jù)受統(tǒng)計口徑、發(fā)布單位不同等各種因素的影響,呈現(xiàn)效果也多種多樣 ,如何將這些零散的信息整合到服務(wù)系統(tǒng)中,也需要設(shè)計繁簡適度的元數(shù)據(jù)描述規(guī)范 ,對數(shù)據(jù)的來源、數(shù)據(jù)的分類 ,數(shù)據(jù)的體量等重要信息進行描述。
2.2.5公司機構(gòu)
公司機構(gòu)信息是社會經(jīng)濟信息中十分重要的一類,競爭公司的商情、原材料及產(chǎn)品定價、行業(yè)內(nèi)的商業(yè)信息也是用戶最想掌握的核心資源。這樣的信息同樣具有零散、蕪雜、不規(guī)律的特點,集成揭示這一類信息到服務(wù)系統(tǒng)中為用戶所用,也需要設(shè)計相應(yīng)的描述規(guī)范。
從以上資源內(nèi)容的調(diào)研情況分析來看,開放社會經(jīng)濟信息的資源內(nèi)容類型復(fù)雜,不同類型的資源又有其特殊的描述維度,很難遵循同一種描述規(guī)范。為了能夠清晰準確地描述每一種資源 ,應(yīng)該針對它們設(shè)計不同的元數(shù)據(jù)描述規(guī)范。
基于DC的網(wǎng)絡(luò)資源元數(shù)據(jù)描述規(guī)范能夠滿足用戶的基本要求 ,但標引的細致度與完整性有所欠缺,資源集合與資源內(nèi)容間沒有產(chǎn)生有機的聯(lián)系,資源集合所包含的具體內(nèi)容類型無法清晰表達 ,資源內(nèi)容的特征也沒有很好的體現(xiàn)。因此在現(xiàn)有描述規(guī)范的基礎(chǔ)上可以做適度的擴展 ,既能將網(wǎng)站與內(nèi)容相關(guān)聯(lián) ,又可以體現(xiàn)不同類型資源的特征。
3.1網(wǎng)絡(luò)資源集合元數(shù)據(jù)描述規(guī)范
網(wǎng)絡(luò)資源元數(shù)據(jù)描述規(guī)范屬性集在已有字段的基礎(chǔ)上擴展了一些特殊字段來描述資源集合的內(nèi)容類型屬性、資源集合涵蓋的具體內(nèi)容等 ,更適合開放社會經(jīng)濟集成揭示與服務(wù)系統(tǒng)的用戶需求,如表1所示。

表1 網(wǎng)絡(luò)資源元數(shù)據(jù)描述規(guī)范屬性集

表1 (續(xù))
3.2資源內(nèi)容元數(shù)據(jù)描述規(guī)范
根據(jù)調(diào)研結(jié)果和不同類型資源內(nèi)容的形式特征,遵循用戶需求原則,參考影響元數(shù)據(jù)質(zhì)量的幾大維度,即完整性、準確性、規(guī)范性、惟一性、一致性、及時性、有效性、適用性、可維護性、關(guān)聯(lián)性[12],對字段進行了擴展(如表2~表7所示)。

表2 研究報告元數(shù)據(jù)描述規(guī)范屬性集

表3 信息報道、政策法規(guī)、分析評論元數(shù)據(jù)描述規(guī)范屬性集

表4 生產(chǎn)技術(shù)——專利元數(shù)據(jù)描述規(guī)范屬性集

表4 (續(xù))

表5 生產(chǎn)技術(shù)——標準元數(shù)據(jù)描述規(guī)范屬性集

表6 統(tǒng)計數(shù)據(jù)元數(shù)據(jù)描述規(guī)范集

表6 (續(xù))

表7 公司機構(gòu)信息元數(shù)據(jù)描述規(guī)范屬性集
開放社會經(jīng)濟信息與科技創(chuàng)新密切相關(guān),隨著研究的深入和信息技術(shù)、網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,開放社會經(jīng)濟信息的內(nèi)涵與外延也將不斷擴展和完善。該如何進一步去建立準確、完整、適用的元數(shù)據(jù)規(guī)范 ,擴大資源數(shù)量與提升資源質(zhì)量來幫助用戶獲取有價值的開放社會經(jīng)濟信息還需要更多的思考與實踐。
參考文獻
[1]孫更新 .經(jīng)濟信息檢索概論[M].武漢 :武漢大學(xué)出版社 ,2011:2-6.
[2]中國科學(xué)院 .科技發(fā)展新態(tài)勢與面向2020年的戰(zhàn)略選擇 [R].北京 :科學(xué)出版社 ,2013.
[3]《我國數(shù)字圖書館標準規(guī)范建設(shè)》課題組 .網(wǎng)絡(luò)資源元數(shù)據(jù)規(guī)范 [EB].http:∥cdls.nstl.gov.cn/2003/Whole/TecReports.html#allreports,2007-01-19.
[4]國家科技圖書文獻中心 .科技報告描述元數(shù)據(jù)規(guī)范[EB]. http:∥spec.nstl.gov.cn/specification/index.php?title=%E7% A7%91%E6%8A%80%E6%8A%A5%E5%91%8A%E6%8F% 8F%E8%BF%B0%E5%85%83%E6%95%B0%E6%8D%AE% E8%A7%84%E8%8C%83,2009-11-09.
[5]宋文 ,傅紅梅 ,路納新 ,等 .文獻資源集成揭示的思路與實踐[J].圖書情報工作 ,2008,52(4):93-96.
[6]International Solar Energy Society[EB].http:∥www.ises.org/index.php?id=2,2015-07-28.
[7]U.S.Food and Drug Administration[EB].http:∥www.fda.gov/,2015-07-28.
[8]中國經(jīng)濟網(wǎng) [EB].http:∥www.ce.cn/,2015-07-28.
[9]中國國家統(tǒng)計局數(shù)據(jù)庫 [EB].http:∥data.stats.gov.cn/,2015 -07-28.
[10]World Health Organization.Global status report on alcohol and health 2014[EB].http:∥www.who.int/substance-abuse/publications/global-alcohol-report/en/,2014-05-12.
[11]生物谷 .中國首個生物資源“樣本庫目錄”上線[EB]. http:∥news.bioon.com/article/6671602.html,2015-07-27.
[12]程穎 .數(shù)字資源元數(shù)據(jù)質(zhì)量管理的研究與探索 [J].圖書館 ,2015,(7):66-69.
(本文責任編輯:郭沫含)
?信息資源開發(fā)與利用?
Research on the Metadata of Open Socioeconomic Information——Taking Revelation and Service System of Open Socioeconomic Information as an Example
Xu Wen Shao Rong Ding Xiaoqin
(Wuhan Documentation and Information Center,Chinese Academy of Sciences,Wuhan 430071,China)
〔Abstract〕Socioeconomic information is closely related to the innovation of science and technology.It is very important to provide users with comprehensive information support that meet their needs.The system builds support for socioeconomic information of industrial development,technology innovation and transformation through the selection and evaluation.This paper analyzed metadata of Open Socioeconomic Information,and investigated the network information resources,reports,news,policies and regulations,statistical data,production technology and other resources.
〔Key words〕open access;socioeconomic information;metadata;information organization;revelation and service system
作者簡介 :徐 雯(1981-),女 ,館員 ,碩士 ,研究方向 :開放社會經(jīng)濟資源建設(shè)與揭示。
基金項目:本文系中國科學(xué)院國家科學(xué)數(shù)字圖書館二期項目 “開放社會經(jīng)濟信息集成揭示與服務(wù)系統(tǒng)”的研究成果之一。
收稿日期:2015-08-10
〔中圖分類號〕G250.73
〔文獻標識碼〕B
〔文章編號〕1008-0821(2015)10-0055-07
DOI:10.3969/j.issn.1008-0821.2015.10.011