董 宇 安小米 錢 澄 郝春紅
(1.北京石油化工學院經濟管理學院,北京,102600;2.中國人民大學信息資源管理學院,北京,100872;3.中國人民大學數據工程與知識工程教育部重點實驗室,北京,100872)
目前,國內對國外科技檔案研究的關注度較低,采用“外國”、“國外”、“西方”、“科技檔案”、“科研檔案”、“科技文件”、“科研文件”、“科技文檔”、“科研文檔”、“科技數據”和“科研數據”的組合字段對CNKI數據庫進行題名檢索,檢索到的相關期刊只有6 篇,2005年以后的數量僅3 篇,總體數量上較少。在研究內容上,2007年發表的《中外科研檔案管理的現狀比較及借鑒》,從科研檔案的概念、服務對象、管理模式等幾方面對中外科研檔案管理進行了研究,得出了值得我們學習借鑒的國外科研檔案管理經驗[1]。在2007年發表的《國外科研文件和檔案管理研究》中,作者在國外相關術語的涵義、國外科研文件和檔案管理的特點、規律、存在的主要問題等方面對國外科研文件和檔案管理進行了闡述,并指出了國外科研文件和檔案管理今后的發展趨勢[2]。2005年以前發表的相關文獻有4篇,1996年的《國外科技報告的收藏與利用》,文中給出了收藏國外科技報告的2 種途徑、國外科技報告的管理方法及使用方式[3]。另外3 篇內容只集中在國外科技報告的獲取方法上[4-6]。
上述研究揭示,至今國內尚無從信息化視角開展的國外科技檔案管理研究。目前,信息化對整個信息資源管理的影響巨大,技術手段的飛速更新,使信息資源的管理模式變化很大,這其中也包括科技檔案的管理,而在全球信息化過程中,西方國家一直走在其他國家的前列,及時了解西方國家科技檔案管理的現狀、發展情況及發展過程中取得的經驗和教訓,對我國的科技檔案管理將會提供有益的參考。本文從科技檔案管理發展歷程、科技檔案管理中存在的問題及對策等幾方面對英文文獻進行了調查研究及分析。
本文將科技檔案看成直接來源于科學研究和科技生產活動的原始記錄,是科技活動中形成和接收的具有一定保存和利用價值的科技數據、報告、文件、信息和知識等科技信息資源。在文獻調查過程中對Web of Science 三大引文庫、ProQuest 系列數據庫、EBSCO進行相關檢索。
根據檢索結果揭示:與“科技檔案管理”直接相關的文獻幾乎沒有,故可以認為:國外對于專門研究“科技檔案管理”這一課題的關注度很低。而查詢到的與“科技檔案”這一課題相關的文獻有以下的特點:
1.涉及到“管理”方面的內容較少;
2.關注最多的主題主要涉及到“國外科技檔案管理的技術手段”等內容上。
根據上述的檢索情況,可以認為:國外并不將“科技檔案管理”單獨作為一個問題來研究,只將其劃歸為“檔案管理”的一部分,其“管理”方面的內容會在“檔案管理”中闡明。
在我國檔案工作基本術語(中華人民共和國檔案行業標準 DA/T1—2000)中檔案指“國家機構、社會組織或個人在社會活動中直接形成的有價值的各種形式的歷史記錄”,科學技術檔案指“反映科學技術研究、生產、基本建設等活動的檔案”[7]。國外并沒有對應的科技檔案概念和專用的科技檔案詞匯用于概括上述綜合性的科技領域活動檔案,國外文獻中使用最多的是science archives、science data、science information、 science information resource、 science records、science knowledge、science reports 等詞匯,這些主題的文獻都與上述定義的涉及“科技檔案”的概念有關聯,本文選擇了其中涉及有價值的各種形式的歷史記錄的內容和直接來源于科技活動的內容,作為主要的研究對象,探索國外科技檔案管理與發展的規律。
從發展歷程上看,以信息化技術手段劃分,經歷了3 個不同的階段,分別為科技檔案的計算機電子化管理(1967-1994)、科技檔案的分布式計算機網絡化管理(1994-2000)、科技檔案的互聯網大數據智能化管理(2000-2013),詳見表1。
在科技檔案的計算機電子化管理階段,計算機的使用率較低,性能也與現在的計算機相差很大,如何將計算機技術應用到科技檔案管理中去是當時國外研究的主題,例如,在研究美國國家航空航天局(NASA)如何處理從宇宙飛船傳回地球的數據時,研究的重點也是放在單機版的計算機應用上[8]。而在其他領域,如何使硬拷貝的科技檔案轉化為計算機可識別的文件,如何使用單機版的計算機管理科技檔案等方面的研究成為主流。
在科技檔案的分布式計算機網絡化管理階段,國外研究主要關注如何利用計算機網絡對科技檔案進行管理,一些主要數據檔案機構,例如美國校際社會科學數據中心(ICPSR),為了能給數據管理者和個人研究人員提供更好的服務,運用網絡技術建立起數據集成系統。通過這個集成系統,可以使研究人員能夠搜索到存檔在世界各地各類機構的數據集,可以對文檔進行詳細研究,可以使用簡單的分析工具對數據集進行分析探究,并對數據集進行抽取或完整拷貝,所有活動均在這個集成系統中完成[9]。在臨床學領域,有學者采用競爭網絡技術,來實現對列表信息的存儲和檢索[10]。這個時期,人們也開始研究互聯網技術在科技檔案管理方面的應用,美國國家空間科學數據中心(NSSDC)建立了基于網絡的數據系統來支持交互數據的可視化及其分發[11]。
從檢索到的國外文獻可以看出,2000年以后,國外對科技檔案管理的研究重點已放到互聯網時代的科技檔案的利用上,探討的問題主要是采用何種技術才能更好的利用科技檔案,這標志著國外在研究上已處在科技檔案的互聯網大數據智能化管理階段。而是否在科技檔案管理中加入智能化的分析利用功能,正是劃分這兩個階段的依據。對于這個階段國外科技檔案管理相關內容的研究是本文的重點,研究內容包括:國外相關科技檔案管理的措施、技術手段,利用及服務,主要問題及對策等,可為我國提高科技檔案管理水平提供有用的參考。
根據檢索結果,國外科技檔案管理按所應用的領域分布有以下特點:
·科技檔案的研究領域主要集中在社會科學、地球科學、生命科學、天文科學及信息學這5 個領域中。
·科技檔案的研究一直處于平穩上升的趨勢。
·在各學科領域中,對于科技檔案的研究內容主要集中在科技檔案管理的技術手段的研發上。
2.3 國外科技檔案管理面臨的一些問題及對策
從可獲取的文獻分析得出,國外科技檔案管理最為關注的問題與對策涉及兩個方面:
1 科技檔案的歸檔范圍制定
在科技領域有一種觀點,即使在我們不知道信息、數據和軟件最終用途時,我們還是有必要對這些信息、數據和軟件進行歸檔保存。但考慮到成本等因素,在實際過程中并不能完全做到這一點。所以,會出現由于科技檔案的歸檔保存范圍制定不當造成的管理問題,例如,在2006年以前,NASA 在管理行星科技檔案過程中,制定了一般性的科技檔案歸檔方案,其初步設計如下[12]:
·由試驗團隊中的一組準備科技檔案,小組成員中應包括檔案工作者。
·試驗團隊中的另外一組進行科研規劃和儀器操作,但是不參與歸檔活動。
這就出現了科研規劃和儀器操作信息無法找到其最終的存檔方式,造成了歸檔保存范圍的縮小,NASA的解決方案是:由試驗團隊中的第三組完成與上述檔案有關的任務,同時,對儀器操作正確性和數據有效性進行核實,并將結果直接反饋給科研規劃組。此方案的缺點是:任務存檔的設計和實施沒有按照常規成熟的軟件標準去執行,使信息(包括軟件等)和數據不能經常按計劃傳送到最終的任務歸檔部門[12]。
電子環境中,為使科技檔案更便利更有效地被人們利用及服務,搭建一個良好的人機交互平臺是一個重要的技術手段,三維可視化交互平臺可以使客戶更直接有效對科技數據進行分析利用,但面臨許多問題:雖然能夠提供可視化的一些新技術已經存在,但是它們在學術期刊出版界中的應用還處于嘗試性階段。這些出版商不愿意采用這些技術的原因有很多,具體包括:很難將準備和分發內容的新方法與現有的工作流程相結合;對于讀者和投稿者來說,不能確定其新穎的呈現方式的真正價值等內容。可行的解決對策是:促使出版商、作者、圖書館、軟件開發商和相關科學家共同協作開發[13]。目前,三維可視化交互平臺的開發還不完善,還有許多問題需要解決,將是今后國外科技檔案管理領域的一個重要研究方向。
從檢索到的國外文獻可以看出,2000年以后,國外對科技檔案管理的研究重點已放到互聯網時代的科技檔案的利用上,探討的問題主要是采用何種技術才能更好地利用科技檔案以及如何在科技檔案管理中加入智能化的分析利用功能。
普遍采取的做法是:開發適合本領域的科技檔案管理(包括收集、儲存等功能)系統,并在此基礎上增加語義網技術、數據挖掘技術、人工智能技術等手段的智能分析模塊。
從所屬領域上看,空間技術方面的內容較多,其中美國NASA 方面的內容不僅多,而且處于每個時代的最前沿,一方面:空間技術是前沿科學,對每個國家的其他領域的科學發展有很大的帶動作用,另一方面:空間技術領域的科技檔案海量,科技檔案的管理、利用等要求最迫切。
同時關于如何保護科技檔案的信息安全也將是今后科技檔案管理研究中一個長期存在的熱點話題。
國外并不存在對應于我國的“科技檔案管理”概念,我國科技檔案管理涉及多種科學技術活動,國外并不存在將所有科學技術活動看成一個綜合對象開展的科技檔案管理研究。科技檔案管理不是獨立的研究對象,只是“檔案管理”的一部分。本文局限于將science archives、 science data、 science information、 science information resource、science records、science knowledge、science reports 看 成 來源于科技活動的有價值的歷史記錄,作為研究對象,探索國外科技檔案的管理與發展規律。未來研究將選擇更多類型的科學技術活動探索不同類型的科技檔案的管理與發展規律。

?
[1]安小米.中外科研檔案管理的現狀比較及借鑒[J].中國檔案,2007(8):60-61.
[2]安小米.國外科研文件和檔案管理研究[J].北京檔案,2007(5):40-41.
[3]李家瑞,黃崇安.國外科技報告的收藏與利用[J].圖書館雜志,1996(5):24-25.
[4]趙婷婷.國外科技報告全文的獲取途徑[J].科技信息,2009(13):379.
[5]翁賡年.國外科技報告及其檢索法[J].藥學實踐雜志,1984(3):32-35.
[6]作者不詳.國外檔案情況—美國國家檔案館的科技檔案[J].檔案學通訊,1979(2):25-26.
[7]國家檔案局.中華人民共和國檔案行業標準—檔案工作基本術語(DA/T1-2000)[S].北京:8中國標準出版社,2000.
[8]Ludwig G H.Space sciences data processing[J].IEEE Transactions on Nuclear Science,1967,NS-14(1):626-632.
[9]Rockwell R C.An integrated network interface between the researcher and social science data resources:In search of a practical vision[J].Social Science Computer Review,1994,12(2):202-214.
[10]Cheng K J.Retrieval of clinical science information using an interactive activation and competition network[J].Artificial Intelligence in Medicine,1996,8(4):359-375.
[11]Mathews G J,Towheed S S.WWW-based data systems for interactive manipulation of science data[J].Computer Networks & ISDN Systems,1996,28(13):1857-1864.
[12]Zender J ,Grayzeck E.Lessons learned from planetary science archiving[J].Advances in Space Research,2006,38(9):2013-2022.
[13]McMahon B.Interactive publications and the record of science[J].Information Services&Use,2010,30(1/2):1-16.
[14]Bisco,R L.Social science data archives:progress and prospects[J].Social Science Information,1967,6(1):39-74.
[15]Macêdo M,Cook D,Brown T J.Visual data mining in atmospheric science data[J].Data Mining and Knowledge Discovery,2000,4(1):69-80.
[16]Ananthanarayan A,Balachandran R,Grossman R,et al.Data webs for earth science data[J].Parallel Computing,2003,29(10):1363-1379.
[17]Quan D.Improving life sciences information retrieval using semantic web technology[J].Briefings in Bioinformatics,2007,8(3):172-182.
[18]Cheung K H,Yip K Y,Townsend J P,et al.HCLS 2.0/3.0:Health care and life sciences data mashup using Web 2.0/3.0[J].Journal of Biomedical Informatics,2008,41(5):694-705.
[19]Hambly N C,Collins R S,Cross N J G,et al.The WFCAM science archive[J].Monthly Notices of the RoyalAstronomical Society,2008,384(2):637-662.
[20]Subirats I,Onyancha I,Salokhe G,et al.Towards an architecture for open archive networks in Agricultural Sciences and Technology[J].Online Information Review,2008,32(4):478-487.
[21]Warner G C,Blum J M,Jones,S B,et al.A social science data-fusion tool and the Data Management through e-Social Science(DAMES)infrastructure[J].Philosophical Transactions of the Royal Society A: Mathematical Physical and Engineering Sciences,2010,368(1925):3859-3873.
[22]Unkel S,Trendafilov N T,Hannachi A,et al.Independent exploratory factor analysis with application to atmospheric science data[J].Journal of Applied Statistics,2010,37(11):1847-1862.
[23]Futrelle J,Gaynor J ,Plutchak J ,et al.Semantic middleware for e-Science knowledge spaces[J].Concurrency and Computation: Practice & Experience,2011,23(17):2107-2117.
[24]Cross N J G,Collins R S,Mann R G,et al.The VISTA science archive[J].Astronomy & Astrophysics,2012,548,A119:1-21.
[25]Lombardi M.IEAD: A Novel One-Line Interface to Query Astronomical Science Archives[J].Publications of the Astronomical Society of the Pacific,2012,124(913):254-262.
[26]Jacob R,Krishna J,Xu XB,et al.ParNCL and ParGAL: Data- parallel tools for postprocessing of large- scale Earth science data[C].International Conference on Computational Science (ICCS 2013).Barcelona: Procedia Computer Science,2013,18:1245-1254.
[27]Katayama T,Wilkinson M D,Micklem G,et al. The 3rd DBCLS BioHackathon: improving life science data integration with Semantic Web technologies[J].Journal of Biomedical Semantics,2013,4(1):6.
[28]Oesterreicher S B,Türker C,Panse C.FCC–An automated rule-based processing tool for life science data[J].Source Code for Biology & Medicine,2013,8(1):1-7.
[29]Yang X Y,Dove M T,Bruin R P,et al.An e-Science data infrastructure for simulations within Grid computing environment:methods,approaches and practice[J].Concurrency and Computation: Practice and Experience,2013,25(3):385-409.