徐雯++邵榮++丁曉芹



〔摘要〕社會經濟信息與科技創新密切相關。建立支持產業發展、技術創新和成果轉化的技術、行業、經濟和社會信息資源支持體系,滿足用戶需求,有效支持用戶獲得經過遴選和評價的技術、行業、經濟和社會等信息,為用戶提供全面的信息支撐顯得尤為重要。本文以開放社會經濟信息的元數據為研究對象,對網絡信息資源、報告、新聞資訊、政策法規、統計數據、生產技術等資源進行了調研。
〔關鍵詞〕開放獲取;社會經濟信息;元數據;信息組織;揭示與服務系統
DOI:10.3969/j.issn.1008-0821.2015.10.011
〔中圖分類號〕G25073〔文獻標識碼〕B〔文章編號〕1008-0821(2015)10-0055-07
Research on the Metadata of Open Socioeconomic Information
——Taking Revelation and Service System of Open Socioeconomic Information as an ExampleXu WenShao RongDing Xiaoqin
(Wuhan Documentation and Information Center,Chinese Academy of Sciences,Wuhan 430071,China)
〔Abstract〕Socioeconomic information is closely related to the innovation of science and technology.It is very important to provide users with comprehensive information support that meet their needs.The system builds support for socioeconomic information of industrial development,technology innovation and transformation through the selection and evaluation.This paper analyzed metadata of Open Socioeconomic Information,and investigated the network information resources,reports,news,policies and regulations,statistical data,production technology and other resources.
〔Key words〕open access;socioeconomic information;metadata;information organization;revelation and service system
經濟信息(Economic information)是指社會經濟活動所產生的、反映經濟活動并為其服務的消息、事實、數據、知識等[1]。狹義的概念只包含經濟活動直接反映出來的信息,而廣義的經濟信息則是包含了經濟活動所涉及的政治、法律、科學、技術、自然環境等各方面的信息。開放社會經濟信息資源指的是能夠開放獲取(Open Access)的社會經濟信息,包含技術信息、政府信息、市場動態、行業資訊、統計數據、各類相關報告、科研項目信息等。這之中既包括資源的集合也包括資源的內容。
隨著市場經濟的發展,社會經濟信息日趨成為科技創新活動的重要組成部分。中國科學院“創新2020”方案明確提出今后要把面向區域經濟和產業發展需求,開展產業前沿技術創新、技術集成創新、工程化研發和成果轉移轉化作為重要工作任務的戰略部署[2]。針對從事應用研究、轉換型研究和成果轉移轉化工作較多的研究機構對于社會經濟、市場信息需求愈來愈強烈的現狀,中國科學院國家科學數字圖書館二期啟動了“開放社會經濟信息集成揭示與服務系統”項目,實現對相關信息資源的發現、遴選、采集、描述、組織、利用及長期保存。本文以開放社會經濟信息資源為研究對象,對相關的元數據進行了研究,嘗試建立準確完善的各類社會經濟信息的元數據描述規范,使用戶能夠在紛繁蕪雜的各類經濟信息中快速準確獲得有價值、可利用的開放資源。
1開放社會經濟信息元數據規范的現狀
參考元數據的研究現狀,科技部科技基礎條件平臺專項資金項目《我國數字圖書館標準規范建設》中的子項目成果——《網絡資源元數據規范》[3]基于DC(Dublin Core)元數據在資源集合的層面做出定義,但沒有對具體的資源內容進行描述。國家科技圖書文獻中心制定的《NSTL文獻資源加工規范》中有《科技報告描述元數據規范》[4]是針對資源內容的元數據規范,但主要針對的是科技報告,社會經濟類的報告和其它資源沒有專門的描述。
由于社會經濟信息具有形態多樣、種類繁雜、渠道眾多等特點,并且受傳統資源建設觀念的影響,絕大多數圖書館尚未對這類信息資源進行系統、有效的發現、組織和保存。基于對零散信息、非結構化信息描述不足的現狀,研究制定有針對性的開放社會經濟信息的元數據描述規范就顯得十分重要和迫切了。
2015年10月第35卷第10期現?代?情?報Journal of Modern InformationOct,2015Vol35No102015年10月第35卷第10期開放社會經濟信息的元數據研究Oct,2015Vol35No102開放社會經濟信息資源調研及分析
開放社會經濟信息的資源調研與集成揭示主要分為兩個層級:(1)資源集合層級,資源集合能夠讓用戶大量發現結構化信息資源,對資源集合的揭示可以認為是將大量資源作為一個整體描述。例如我們可以將網站上的各個欄目理解成資源集合,那么網站就是對資源集合的集合;同理,商業數據庫通常包括各種類型的統計數據,每一種統計數據可以看作是一個資源集合,那么該數據庫就不難理解為集合的集合了。(2)資源內容層級,具體來講是指一條新聞,一篇研究報告,一部法規,諸如此類具體的某一條信息。對資源內容的集成揭示就是將這類單個資源集成為目錄或列表的形式。如“開放社會經濟集成揭示與服務系統”中“新聞資訊”、“政策法規”、“研究報告”等欄目,這些都是由單個文檔組成的列表。此外,學會、協會、政府機構組織產出的報告集也可以歸于此類,報告集目錄是典型的資源內容集成揭示對象。endprint
21網絡資源集合的調研
開放社會經濟信息的資源集合包含并不僅限于行業學會/協會、機構組織網站、經濟信息門戶與學科導航、統計數據庫集合、社會綜合信息資源集合等,對資源集合進行集成揭示的方式有:建立集合目錄;用技術方式實現集合的統一檢索;在對集合進行統一的描述和揭示的基礎上,實現統一檢索[5]。
211行業學會/協會網站
以International Solar Energy Society[6](國際太陽能學會)網站為例,國際太陽能學會是一個研究和發展太陽能利用中的信息中心,該學會采用實際項目、技術傳播、教育培訓、組織會議等支持會員國開發可再生能源。網站包含新聞資訊,研究報告,項目計劃等幾類資源。
212政府機構網站
以US.Food and Drug Administration[7](美國食品藥品管理局,簡稱FDA)網站為例,FDA的職責是確保美國本國生產或進口的食品、化妝品、藥物、生物制劑、醫療設備和放射產品的安全。在國際上,FDA被公認為是世界上最大的食品與藥物管理機構之一,其它許多國家都通過尋求和接收FDA的幫助來促進并監控其該國產品的安全。FDA的網站有非常豐富的信息資源,新聞資訊、研究報告、食品藥品信息等。
213經濟信息門戶與學科導航
以中國經濟網[8](簡稱中經網)為例,中經網是國家級重點新聞網站,以經濟報道、資訊傳播和經濟服務為主要發展方向,是目前中國境內最大最權威的綜合經濟類網絡媒體。中經網擁有財經證券、產業市場、國際經濟、區域經濟、時政社會、文化、教育、時尚等內容板塊,下設宏觀經濟、理財、消費、股市、外匯、銀行、保險、食品、農業、能源、房產、汽車、家電、通訊和IT等涵蓋經濟生活各領域的綜合頻道100多個。
214統計數據庫網站
以中國國家統計局數據庫[9]為例,國家統計局數據庫包含月度、季度、年度數據,以及地區數據、普查數據、國際數據六類統計數據,近800萬筆數據。月度數據主要有居民消費價格指數(CPI)、工業生產價格指數(PPI)、商品零售價格指數、規模以上工業生產、固定資產投資、房地產開發投資、社會消費品零售總額、對外經濟貿易、交通運輸、郵電通信、采購經理指數(PMI)、財政、金融。季度數據主要有國內生產總值、農業、工業、建筑業、城鎮居民收入與支出、農村居民收入與支出、固定資產價格指數、農產品生產價格指數。年度數據包括綜合、國內生產總值、人口、就業人員和工資等27個領域的數據。地區數據涵蓋了全國31個省(區、市)以及部分城市主要經濟指標。
由上述調研情況來看這幾種類型的資源集合雖然描述對象有些許差異,但又涵蓋許多共同點,所以網絡資源集合的描述會相對比較簡單,如果制定合理,多種類型的網絡資源集合可以使用同一種元數據描述規范。
22網絡資源內容的調研
開放社會經濟信息的資源內容包含并不僅限于信息報道、研究報告、統計數據、政策法規、生產技術信息、分析評論等。信息報道又涵蓋行業資訊、市場動態、金融信息、經濟貿易、供求信息、新聞動態等;研究報告包括政府機構報告、行業學協會報告、研究機構公司報告、咨詢公司的市場調查報告、行業分析報告、市場預測報告、投資價值分析報告、券商報告、技術報告、戰略報告等;統計數據類資源包括年鑒、年報、行業統計數據、貿易統計、專家技術人員信息、公司廠商信息、市場產品信息、價格信息等。生產技術信息則包括各類專利、標準、工藝流程、產品規范等。
221研究報告
以World Health Organization(世界衛生組織,簡稱WHO)網站的一篇研究報告《Global status report on alcohol and health 2014》[10]為例,網站上僅揭示了報告的題名、摘要等信息,沒有將報告與其責任機構相關聯,報告對應的行業分類、報告字數、頁數等相關信息也不清楚。
222信息報道、政策法規、分析評論等
以生物谷網站的一篇新聞《中國首個生物資源“樣本庫目錄”上線》[11]為例,元數據的描述只有題名、來源與正文,許多重要的關聯信息如作者、關鍵詞、行業分類等信息都沒有,如果這些信息不完整,將很難在系統中實現自動分類與標引。
223生產技術
生產技術中的專利和標準都有專門的描述規范,也是結構化程度相當高的一類資源,只需要在已有元數據的基礎上擴展一些與行業分類、數據來源相關的字段就比較適應整個系統的要求了。除了這兩種資源之外,其他的例如技術報告、制備工藝、技術成果等生產技術信息,則需要根據資源本身的特點靈活應用。
224統計數據
統計數據受統計口徑、發布單位不同等各種因素的影響,呈現效果也多種多樣,如何將這些零散的信息整合到服務系統中,也需要設計繁簡適度的元數據描述規范,對數據的來源、數據的分類,數據的體量等重要信息進行描述。
225公司機構
公司機構信息是社會經濟信息中十分重要的一類,競爭公司的商情、原材料及產品定價、行業內的商業信息也是用戶最想掌握的核心資源。這樣的信息同樣具有零散、蕪雜、不規律的特點,集成揭示這一類信息到服務系統中為用戶所用,也需要設計相應的描述規范。
從以上資源內容的調研情況分析來看,開放社會經濟信息的資源內容類型復雜,不同類型的資源又有其特殊的描述維度,很難遵循同一種描述規范。為了能夠清晰準確地描述每一種資源,應該針對它們設計不同的元數據描述規范。
3開放社會經濟信息元數據描述集設置
基于DC的網絡資源元數據描述規范能夠滿足用戶的基本要求,但標引的細致度與完整性有所欠缺,資源集合與資源內容間沒有產生有機的聯系,資源集合所包含的具體內容類型無法清晰表達,資源內容的特征也沒有很好的體現。因此在現有描述規范的基礎上可以做適度的擴展,既能將網站與內容相關聯,又可以體現不同類型資源的特征。endprint
31網絡資源集合元數據描述規范
網絡資源元數據描述規范屬性集在已有字段的基礎上擴展了一些特殊字段來描述資源集合的內容類型屬性、資源集合涵蓋的具體內容等,更適合開放社會經濟集成揭示與服務系統的用戶需求,如表1所示。
表1網絡資源元數據描述規范屬性集
字段限定名稱數據類型是否必備ID標識號ID字符型必備題名Title字符型必備其他題名Othertitle字符型可選標識符(URL)Identifierurl字符型必備創?建?者Creator字符型可選其他責任者Contributor字符型可選語種Language字符型可選描述Txt文本型可選格式Format字符型可選行業分類Industry Classification字符型必備領域分類Field Classification字符型必備中文關鍵詞KeywordsCn字符型可選英文關鍵詞KeywordsEn字符型可選中文主題詞SubjectheadingsCN字符型可選英文主題詞SubjectheadingsEn字符型可選出?版?者Publisher字符型可選創建日期CreateDate日期型有則必備信息來源網站對應的資源類型Sourcetype字符型必備所包含的資源類型ResourceType1字符型有則必備所包含的資源類型對應的原始網址ResourceType1URL字符型有則必備表1(續)
字段限定名稱數據類型是否必備覆蓋范圍Coverage字符型可選權限管理Rights字符型可選國家地區Country字符型可選版本Edition字符型可選推薦級別Recommendationlevel字符型可選是否數據庫來源Ifdatabase字符型必備目前國內重點高校保障情況Universityholding字符型可選中科院目前保障情況CASholding字符型可選
32資源內容元數據描述規范
根據調研結果和不同類型資源內容的形式特征,遵循用戶需求原則,參考影響元數據質量的幾大維度,即完整性、準確性、規范性、惟一性、一致性、及時性、有效性、適用性、可維護性、關聯性[12],對字段進行了擴展(如表2~表7所示)。
表2研究報告元數據描述規范屬性集
字段限定名稱數據類型是否必備ID標識號ID字符型必備題名Title字符型必備其他題目Othertitle字符型可選標識符(URL)Identifierurl字符型可選語種Language字符型可選責?任?者Creator1字符型可選責任機構Creator2字符型可選行業分類Industry Classification字符型必備領域分類Field Classification字符型必備報告格式Format字符型可選出?版?者Publisher字符型可選日期Date日期型可選報告編號Reportid字符型可選報告頁數Page字符型可選報告字數Characters字符型可選報告價格Price字符型可選聯系方式Contact字符型可選報告描述Txt文本型可選報告目錄Catalog字符型可選中文關鍵詞KeywordsCn字符型可選英文關鍵詞KeywordsEn字符型可選中文主題詞SubjectheadingsCN字符型可選英文主題詞SubjectheadingsEn字符型可選信息來源網站Source字符型有則必備信息來源網站對應的資源類型Sourcetype字符型有則必備資源類型Resourcetype字符型必備資源內容類型Resourcecontenttype字符型可選報告評級Reportlevel字符型可選權限管理Rights字符型有則必備是否數據庫來源Ffdatabase字符型必備該數據庫中科院保障情況Universityholding字符型可選目前國內重點高校保障情況CASholding字符型可選
表3信息報道、政策法規、分析評論元數據描述規范屬性集
字段限定名稱數據類型是否必備ID標識號ID字符型必備題名Title字符型必備其他題名Othertitle字符型可選標識符(URL)URL字符型必備創?建?者Creator字符型可選其他責任者Contributor字符型可選語種Language字符型可選描述Txt文本型可選格式Format字符型可選行業分類Industry Classification字符型必備領域分類Field Classification字符型必備自動分類Auto Classification字符型可選中文關鍵詞KeywordsCn字符型可選英文關鍵詞KeywordsEn字符型可選中文主題詞SubjectheadingsCN字符型可選英文主題詞SubjectheadingsEn字符型可選出?版?者Publisher字符型可選發布日期PublishDate日期型有則必備信息來源網站Source字符型可選信息來源網站對應的資源類型Sourcetype字符型必備資源類型Resourcetype字符型必備資源內容類型Resourcecontenttype字符型可選信息源的發布時間Resourcedate日期型可選權限管理Rights字符型可選推薦級別Recommendationlevel字符型可選
表4生產技術——專利元數據描述規范屬性集
字段限定名稱數據類型是否必備ID標識號ID字符型必備申?請?號Application Number字符型必備申?請?日Application Date字符型可選申請公布號Publication Number字符型必備申請公布日Publication Date字符型可選申請人(專利權)Applicants字符型可選發明(設計)人Inventor字符型可選申請人地址Applicants Address文本型可選主分類號Classifation字符型可選行業分類Industry Classifation字符型必備領域分類Field Classification字符型必備自動分類Auto Classifation字符型可選中文關鍵詞KeywordsCn字符型可選英文關鍵詞KeywordsEn字符型可選中文主題詞SubjectheadingsCN字符型可選英文主題詞SubjectheadingsEn字符型可選國際分類號IPC字符型可選國別代碼Countrycode日期型有則必備優?先?權Priority Number字符型可選摘要Abstract字符型可選主?權?項PrimaryItem字符型必備表4(續)endprint
字段限定名稱數據類型是否必備法律狀態Legal Status字符型可選同族專利Patentfamily字符型可選專利類型Patenttype字符型必備信息來源網站Source字符型必備信息來源網站對應的資源類型Sourcetype字符型必備資源類型Resourcetype字符型必備資源內容類型Resourcecontenttype字符型必備權限管理Rights字符型可選推薦級別Recommendationlevel字符型可選
表5生產技術——標準元數據描述規范屬性集
字段限定名稱數據類型是否必備ID標識號ID字符型必備標?準?號Document Reference字符型必備標準中文名稱DocumentnameCN字符型可選標準英文名稱DocumentnameEN字符型必備發布單位Announcement Body字符型可選發布日期Announcement Date日期型可選語種language字符型可選標準狀態Document Status文本型可選起草單位Drafting Body字符型可選標準類型Standardtype字符型可選國際標準分類號ICS Number字符型可選行業分類Industry Classifation字符型必備領域分類Field Classification字符型必備自動分類Auto Classifation字符型可選中國標準分類號CCS Number字符型可選總?頁?數Page字符型可選實施日期Effective Date日期型可選國別Country字符型可選中文關鍵詞KeywordsCn字符型可選英文關鍵詞KeywordsEn字符型可選中文主題詞SubjectheadingsCN字符型可選英文主題詞SubjectheadingsEn字符型可選被替代標準Replace字符型可選信息來源網站Source字符型必備信息來源網站對應的資源類型Sourcetype字符型必備資源類型Resourcetype字符型必備資源內容類型Resourcetype1字符型必備權限管理Rights字符型可選推薦級別Recommendationlevel字符型可選
表6統計數據元數據描述規范集
字段限定名稱數據類型是否必備ID標識號ID字符型必備行業分類Industry Classification字符型必備領域分類Field Classification字符型必備表6(續)
字段限定名稱數據類型是否必備數據采集日期Datadate日期型可選數據包含量Datanumber字符型可選統計項目Staticsobject字符型可選數據內容Content字符型可選信息來源網站Source字符型可選信息來源網站對應的資源類型Sourcetype字符型可選資源類型Resourcetype字符型可選資源內容類型Resourcetype1字符型可選權限管理Rights字符型可選推薦級別Recommendationlevel字符型可選
表7公司機構信息元數據描述規范屬性集
字段限定名稱〖〗數據
類型是否
必備字段限定名稱數據
類型是否
必備ID標識號ID字符型必備公司規模Scale字符型可選機構名稱Title字符型必備電子郵件EmailAddress字符型可選機構描述Description文本型可選電話TelephoneNumber字符型可選機構URLURL字符型可選傳真FaxNumber字符型可選機構類型Type字符型可選地址Address字符型可選國家地區Country字符型必備主營業務Main Business Income字符型可選行業分類Classification字符型必備主營產品Main Product字符型可選領域分類Field Classification字符型必備公司上市情況Quoted Company字符型必備中文關鍵詞KeywordsCn字符型可選推薦級別Recommendationlevel字符型可選英文關鍵詞KeywordsEn字符型可選權限管理Rights字符型可選
4結語
開放社會經濟信息與科技創新密切相關,隨著研究的深入和信息技術、網絡技術的迅猛發展,開放社會經濟信息的內涵與外延也將不斷擴展和完善。該如何進一步去建立準確、完整、適用的元數據規范,擴大資源數量與提升資源質量來幫助用戶獲取有價值的開放社會經濟信息還需要更多的思考與實踐。
參考文獻
[1]孫更新.經濟信息檢索概論[M].武漢:武漢大學出版社,2011:2-6.
[2]中國科學院.科技發展新態勢與面向2020年的戰略選擇[R].北京:科學出版社,2013.
[3]《我國數字圖書館標準規范建設》課題組.網絡資源元數據規范[EB].http:∥cdls.nstl.gov.cn/2003/Whole/TecReports.html#allreports,2007-01-19.
[4]國家科技圖書文獻中心.科技報告描述元數據規范[EB].http:∥spec.nstl.gov.cn/specification/index.php?title=%E7%A7%91%E6%8A%80%E6%8A%A5%E5%91%8A%E6%8F%8F%E8%BF%B0%E5%85%83%E6%95%B0%E6%8D%AE%E8%A7%84%E8%8C%83,2009-11-09.
[5]宋文,傅紅梅,路納新,等.文獻資源集成揭示的思路與實踐[J].圖書情報工作,2008,52(4):93-96.
[6]International Solar Energy Society[EB].http:∥www.ises.org/index.php?id=2,2015-07-28.
[7]US.Food and Drug Administration[EB].http:∥www.fda.gov/,2015-07-28.
[8]中國經濟網[EB].http:∥www.ce.cn/,2015-07-28.
[9]中國國家統計局數據庫[EB].http:∥data.stats.gov.cn/,2015-07-28.
[10]World Health Organization.Global status report on alcohol and health 2014[EB].http:∥www.who.int/substanceabuse/publications/globalalcoholreport/en/,2014-05-12.
[11]生物谷.中國首個生物資源“樣本庫目錄”上線[EB].http:∥news.bioon.com/article/6671602.html,2015-07-27.
[12]程穎.數字資源元數據質量管理的研究與探索[J].圖書館,2015,(7):66-69.
(本文責任編輯:郭沫含)endprint