黨洪莉(湖南師范大學圖書館)
共享數據、信息、思想和研究材料一直是公認的學術合作和推動科學發現的基本特征之一。科學研究者們對大量共享資源中的數據進行實時、動態地監測與分析以進行科學研究,或者基于數據來思考、設計和解決科學問題?!皵祿寗涌茖W”,數據因而也被視為最有價值的共享資源。自Gray提出科學研究的第四范式,[1]即以大數據為基礎的數據密集型科學以來,國內外學者非常重視數據收集、分析及管理研究。延伸到社會科學領域,研究人員也逐漸重視社科數據的作用和價值,采納并使用具有“人文計算”、計算機處理模式和分析方法、計算機模擬與實證,社會科學研究的精確性明顯增強。然而不可否認的是,社會科學領域依然存在諸多問題:現有的科學數據共享平臺主要依據自然科學領域而建,數據共享建設也集中于自然科學領域,適用于社會科學的數據共享平臺及體制建設非常少;社會科學領域充斥著大量科研數據,但其存儲形式和管理都很不規范;相較自然科學領域,社科人員的數據共享意識低。在開放科學的環境下,推動社會科學數據的開放與共享不僅有利于社會科學學科發展,還能極大地促進社會經濟發展。
社會科學是用科學的方法,研究人類社會現象本質和發展規律的學科。社會科學數據是指人們在社會生活中和研究人類社會的過程中,所產生的各種原始數據和基礎性數據,以及各種社會系統運行過程中產生和加工的數據產品和相關信息。社會科學數據不僅僅是重要的科研成果產出,更是人文社會科學研究的基石與創新的保障,對于社會科學領域的實證研究具有重要價值和決定性意義。社會科學的數據來源較自然科學有所不同,其復雜性、主觀性及學科差異性決定了數據創建方式、類型、數據搜集和利用的側重點等與自然科學有較大差異:如檔案研究、資料匯編是歷史學創建數據的主要方法,數據類型集中于一些如記錄、照片和觀測數據之類的定性數據;教育測量、心理測量、觀察法則是教育學的創建方法,數據主要是調查數據、數值數據、個體或微觀數據;商業和經濟學偏向于定量方法,更多的使用政府公開的二手數據,其數據類型以列表數據、數值數據、匯編或宏觀數據為主;社會學通過大量的社會調查,以調查數據、數值數據、個體或微觀數據為主,研究使用一手數據達44%。[2]總體來說,社會科學數據類型復雜多樣,不僅包括數值型數據,還包括文本數據、檔案數據、匯編數據、音頻、圖片等非結構化數據,以及微觀宏觀尺度數據等。[3]訪談、問卷調查、資料匯編、檔案研究是社會科學數據創建的常用方式。
(1)主觀性。在社會活動中,由于社會交往對象之間利益關系(主要是經濟利益關系)的影響,人們對于社會事物的認識和評價不可避免地會受到社會主體的主觀因素(特別是感情因素)的制約,因而社會科學很容易帶有強烈的感情色彩。受利益關系影響的主觀因素(特別是民族感情和階級感情),很容易“先入為主”誘導人們形成非理性、非客觀、非中性的觀察態度,進一步影響所取得的社會科學數據的客觀性。
(2)依賴性和持續性。社會科學研究的目的是發現社會生活規律的邏輯性,研究社會科學的一切方法都需要經歷時間的累積。隨著時間的推移,社會科學對研究內容做出新的研究和分析,不斷地解釋這些變化并總結規律。[4]此外,社會科學中不同的變量個體具有不同的社會屬性,運用不同的組合方式形成復雜的社會體系結構,能夠得出不同的解釋客觀社會問題的結果。相比線性的自然科學數據集合,社會科學數據關系是社會關系變量的網狀結構體,數據關系更復雜,也更依賴語境。
(3)復雜性。社會科學的研究受到觀察者的思想動機限制,社會科學數據也就呈現出較強的隨機性和模糊性。社會科學的研究對象一般都具有自我組織、自我創造、自我發展的能力,這些都給社會科學研究的精確、客觀分析帶來了巨大的困難。作為研究成果的社科數據,種類繁多,不僅包括數值數據,還包括用于語言研究的聲音或語言分析的電影;甚至還會使用書籍、地圖、報紙、期刊、照片和行政記錄之類的歷史資料。有時會出現研究數據和出版物被混淆或混合的情況。
(4)難驗證性和不可逆性。社會事物的運行周期一般較長,且過程也具有不可逆性,有些社會事物在運行過程中會涉及到復雜或者重大的利益關系,甚至會引起一些不可預測的災難,因而難以精確重復其演進的過程,許多社會科學的數據難以在短期內和較小范圍內得以驗證。
(5)保密性和匿名性。在數據收集過程中,大多數的社會科學數據直接或間接與受試者相關,對于共享和重用這類數據特別是定性數據時,需要更多的考慮倫理道德方面的因素。在存檔和共享數據時,確保保密性和匿名性(即保護參與者的身份)尤其重要。
與一般意義上的研究成果或匯總結果共享不同,社會科學數據開放與共享不僅需要國家層面上提供法律依據、規范化標準化政策,還需適用的共享平臺提供技術支撐,從而進一步實現對原始數據的深入揭示與發現。歐美等國家很早就從宏觀層面上主導社會科學數據管理,最大化共享數據。表現在成立了專門的機構制定相關政策,歐洲社會科學數據存儲委員會(Council of European Social Science Data Archive,CESS-DA)、社會科學數據組織國際聯合會(International Federation of Data Organization for Social Sciences,IFDO)、國際社會科學信息服務與技術協會(International Association for Social Science Information Services and Technology,IASSIST)等機構從組織上提供了社科數據開放與共享的保障。此外,一些大型數據中心建立了數據管理平臺和數據標準,并提供相關服務。如,美國密歇根大學的高校校際政治和社會研究聯盟(Inter-university Consortium for Political and Social Research,ICPSR)、英國數據存檔計劃(UKDataArchives,UKDA)、德國波恩的社會科學信息中心(GESIS)、日本社會科學數據存檔項目 (Social Science Japan Data Archive,SSJDA),這些機構均采用了適合自身的數據管理與共享平臺、制定了資源保存政策和數據服務政策,以及統一的元數據標準。
我國社會科學數據管理與共享處于起步階段,近些年逐漸被重視,表現在開始建設數據中心與數據管理平臺,推進共享政策,共享觀念被逐漸接受。國內的社科數據管理機構主要有兩種類型,一種是以調查業務為主的數據中心(人大、北大),另一種是以圖書館建立的機構知識產權為基礎的數據集(復旦、武大)。中國人民大學的中國社會調查與數據中心是我國最早的全國性、綜合性、連續性學術調查項目,自2003年起,每年一次,對我國大陸10000多戶家庭進行連續性橫截面調查。年度調查結束兩年后,向全社會公布原始數據和所有資料。該中心負責執行的中國國家調查數據庫開創了我國社會科學數據開放與共享的先河。北京大學中國社會科學調查中心(Instituteof SocialScienceSurvey,ISSS)主要對中國家庭、中國健康與養老進行追蹤調查,調查結束1-2年后,數據對學術界開放。目前,復旦大學人文社會科學數據中心(FudanUniversityInstituteforSocialResearch,FISR) 已有長三角居民消費與碳排放數據庫、新中國歷次人口普查分省數據庫、中國人口、消費與碳排放數據庫等數據集,初步實現了科學數據長期保存和公開獲取。武漢大學圖書館通過試點院系、搭建共享平臺的方式逐步面向全校提供數據存儲和共享服務。
整體來看,我國數據共享理念越來越為學界所接受,人大和北大的數據中心都能主動開放自己的數據,但依然存在諸多問題,“資源單一,集成度共享度不高;缺乏統一的組織標準規范,缺乏完善的管理與服務政策體系”被認為是國內目前社會科學數據管理與服務的缺陷。[5]此外,數據管理機構數據搜集程度不夠高,多數數據管理機構以一兩個主要的數據集來帶動其他數據的收集;數據政策是非強制性的,數據搜集策略以后期資助為推手的協商和自愿為基礎;數據服務水平相對較低,主要業務仍以調查為主;數據管理水平還有待提高,平臺建設還需加強。
國外大量的研究顯示個體、制度、技術等因素影響了數據共享行為。其中個體因素又包括職業風險、感知努力和對數據共享的態度。[6]科研人員拒絕數據共享主要是擔心數據的惡意使用、篡改、知識產權等問題。[7]在對我國科研人員調查的結果顯示:影響我國科研人員數據共享行為意愿的直接因素主要有態度、主觀規范,間接因素有感知行為控制、感知風險、感知有用性。[8]另有學者認為科研人員的自我價值感知、互惠預期、人際信任、形象是形成共享信念的重要維度。[9]我國社會科學數據共享的主要驅動因素包括個體驅動因素(經濟補償、數據積累意識、節省成本、道德激勵)、科研驅動因素(數據回報、學術交流、學術認可)、社會驅動因素(政策驅動、社會評價)。[10]總體來講,當前影響社會科學數據共享的因素有以下方面。
多數社會科學學者高度重視數據分享,但是他們并不分享自己的數據。原因之一是數據創建者對數據共享風險的感知,而感知風險側面說明了數據創建者對數據規范及引用等相關政策的執行程度的信任不夠。Louis[11]、Campbell[12]等發現部分研究人員拒絕共享研究數據主要是為了保留將來數據出版的專有權。Fisher等[13]認為目前各個國家正式的知識產權法并沒有涉及到數據共享。這些都變相說明了建立社會科學數據共享等相關法律政策的重要性。
社會科學數據中包含大量的觀測數據、調查數據,這些都是可以進行再分析利用的數據,但重用之前需要制定引用標準對其進行規范的標引。美國研究信息網(Research Information Network,RIN)在報告中指出,[14]阻礙研究人員共享科學數據的原因之一是缺乏管理缺少統一的元數據標準。Jeng等[15]在對社會科學數據共享的研究中發現,標準完善是社會科學學科數據共享中亟待解決的問題。目前,國外許多研究團體已開始采用統一的元數據標準來支持數據的發現和重用。[16,17]而我國數據標準不完善成為社會科學數據共享的瓶頸。
社會科學數據方面的分析軟件或工具非常有限。目前絕大部分工具并不是為數據共享而設計的,主要集中在數據監管 (如 Data Curation Profiles,DCP)、數據保存(如康奈爾成熟度模型,The Cornell Maturity Model)、數據管理(如CMM for SDM),及數據支持基礎設施(如Community Capability Model Framework,CCMF)?,F有的工具主要是用于大科學或數據密集型研究(如CCMF)的自然科學,并不完全適用于社會科學或人文科學。
Tenopir[18]等指出研究人員的數據共享行為受到研究過程中的學科文化氛圍的影響,他認為正是由于學科文化的多元性導致目前各個學科實踐中的數據共享差異性。Akers[19]也指出學科文化在研究人員管理和分享數據中起著重要的作用。學科文化是在各學科形成和發展過程中積累起來的一些共同的價值觀念和行為規范等,最終沉淀為各學科穩定而明顯的文化特質。成熟的學科具有特定的語言系統、價值觀念和思維方式,形成了獨特的理論體系、研究方法及學科文化。社會科學是以社會為研究對象的科學,包括經濟學、社會學、政治學、法學等。社會科學有著區別于自然科學的學科文化,而社會科學各子學科又有著自己獨特的學科文化。學科文化的多元性造就了共享數據的差異性。
由于社會科學數據與受試者直接相關,開放與共享還面臨著嚴格的道德制約、倫理等方面的問題。
掃除科學數據共享的制度性障礙,健全科學數據共享政策法規,保障數據創建者的合法權益,才能從根本上解決科學數據的知識產權保護和共享之間的矛盾。國家層面上可以建議科技部等職能部門制定《數據保護法案》,規定公眾訪問公共機構科學數據的權限;各級科學基金委、廳局級等項目資金資助機構也可以效仿歐美國家,對由政府資助的項目在結題后明確規定科研數據無償向公眾開放;期刊雜志社要求作者在發表文章時提供原始數據,或者作者將數據包存儲于定向儲存庫,建立科研論文與原始科研數據的關聯,再通過數據期刊的發表為讀者提供開放式瀏覽和獲取數據方式。建立長久的政策保障,長遠規劃,才能從立法角度有效保障科學數據開發與共享,有效促進科研和社會的發展。
在科研和學術交流體系中,科研人員既是科學數據的生產者也是接受者和利用者。積極調動科研人員的數據共享意識,應當加強科研主體之間的相互信任,降低科研人員對科學數據共享的風險感知并提升其對科學數據共享的長期利益的認知。依據數據質量評價體系,對科學數據創建者實行獎勵能有效提高數據共享的感知有用性。要真正做到科研人員、科研團體、科研機構主動地開放和共享科研數據,除了適當的獎勵外,將開放數據作為科研評價體系的指標或是科研立項的條件之一不失為目前激勵數據分享的有效方式。
歐美國家相當重視數據管理機構的合作與共享,而調查中發現我國社科數據管理機構中北大、人大和復旦開展的幾項大型數據集被重復利用,有較大的共享需求。因而國內對社會科學數據的利用和管理可以考慮從大型數據集開始,加大此類數據集的共享力度。高校是科研的重要力量,也是數據的主要使用者。在全國高校中大范圍宣傳和聯合推廣使用這些數據集,加強機構間的合作,是開放和共享數據的有效途徑。制定相關可行性計劃,明確各自的權責范圍,發揮各機構專業領域特長,緊密協作,有效提升數據管理的效率和質量。與此同時,各機構還可以憑借豐富的實踐經驗,為其他機構提供可行的參考與指導。在此基礎上,還可以將合作延伸到其它領域。通過與高校、社科院的合作,加強數據的管理與整合能力;通過與企業、IT服務等部門的合作,借助其技術的專業性,對基礎設施和技術支持進行規劃,提升數據的開放與共享范圍。
在技術層面,充分開放數據資源共享交換平臺,加快各級數據資源共享交換平臺建設,建立各類數據資源共享交換主干通道,構建統一的社會科學領域數據資源共享和交換體系,推動與各種科學信息系統的互聯互通。要盡快實施開放共享標準規范建設。研究完善社會科學領域數據標準體系,加快元數據、資源標識符編碼規則等基礎性數據標準制訂及修訂,并進一步加強標準執行的監督管理力度。建立數據目錄服務系統,推動社科數據資源目錄服務體系建設,開展存量數據著錄工作,實現基于目錄的數據資產管理及服務,逐步提高數據服務水平。
開發適用于社會科學數據共享的分析工具,綜合各種數據工具的優缺點同時在配置文件上可以根據社會科學數據的特點及項目本身的需求進行設置,如數據格式、數據量(數據規模)、數據敏感度和數據可共享性都可以根據實際情況因時因事而宜。分析工具要簡潔,但又呈結構化的形式幫助研究人員收集、分析數據和集合信息,幫助上游從事數據管理的人員做出決策,下游需要查詢服務的科研人員快速準確的找到所需信息。對待社會科學研究人員比較擔心的隱私數據,可以在訪問方式上進行設置,或者開發專用的工具來管理機密數據,并提供必要的安全保障。
每一門學科都有自己的理論、方法,簡而言之,每門學科有自己的文化。在實現科學研究的開放性時,沒有千篇一律的方法。可以根據學科類別在不同學科建立自己的學科數據共享框架,既適應于自己的學科特點,又能在本學科內實現數據的互操作性,實現共享。每個學科還須兼顧管理其子學科的多樣性。