魏園婷,李桂華,魏 靜
(1.西安理工大學圖書館,2.四川大學公共管理學院,3.西安電子科技大學圖書館)
據IDC發布的《數據時代2025》報告指出,到2025年,我們的世界將會被數據淹沒,2025年的數據量將會是2016年創建的數據量的10倍。[1]正如圖靈獎得主Jim Gray所言,在“指數級增長的科學數據”背景下,科學研究的第四范式——數據密集型科研已經到來,其特點是以數據考察為基礎,在此范式下科學研究工作主要由數據收集、管理和分析三種活動過程組成。[2]在這樣的環境下,科研人員的信息需求也由以往的單純對文字資料的需求轉化為對文字、數據多內容的資料的需求。因此,選擇適合的數據源成為科學研究的重要部分。
數據源選擇偏好是指用戶為了滿足其數據需求,在數據查找過程中會與不同的數據源發生交互,在交互過程中,用戶產生的選擇傾向性,即選擇某種數據源而不選擇另一種的行為。目前關于用戶數據查詢行為的研究較匱乏。因而本研究在此綜述信息源選擇偏好的有關內容,為研究數據源選擇偏好提供研究借鑒。
在有關信息源內容方面,燕麗君[3]認為信息源包括機構信息源,網絡信息源、媒體信息源、印刷信息源和口頭信息源,共5種。李珊[4]認為信息源主要包括網上信息源與數據庫資源、圖書報刊信息源和信息職能機構。Bronstein J[5]認為信息源主要有網絡信息源、人際信息源、紙質資源和專家資源。Lliodra-Riera[6]等主張不能將互聯網僅看作是一個信息源,而應是信息源的集合,里面包括不同性質的信息源。
最早深入研究用戶信息源選擇的是Saul Herner。Herner[7]以美國藥學科學家為研究對象,研究其對正式與非正式信息源的利用。Areces D[8]調查了高中生在查找大學學位信息時對信息源的選擇。KS Kim[9]以225位大學生為研究對象,使學生對不同信息源按使用頻率打分(從0到6),結果表明,大學生最常利用的信息源為網絡搜索引擎,最少使用的是咨詢圖書館員。
通過對用戶信息源選擇偏好的研究,可以看出不同類型的用戶在查找信息時有著不同的偏好。本研究在用戶選擇數據源的過程中借鑒此理論,進行研究設計,并完成研究。
本研究首先選取15位用戶進行訪談,了解社科用戶經常使用的數據源種類,其次,根據訪談結果設計問卷并發放。之后將問卷編碼后錄入電腦,采用SPPS 19軟件做數據分析,主要利用的分析方法有列聯表分析,單因素方差分析。
通過對訪談用戶提到的數據源整理、歸類,發現用戶常用的數據源有紙質數據源、人際數據源和網絡數據源。①紙質數據源。紙質數據源指一切紙質資料。主要分為年鑒、專著、工具書、文獻、案例合同資料和未公開發行的資料。②人際數據源。人際數據源指通過人與人之間的交流獲取數據的來源,主要分為:親密關系者、研究領域專家、目標行業從業者、信息服務機構工作人員。③網絡數據源。網絡數據源指所有通過互聯網獲得數據的來源,主要有數據門戶網站、政府/機構官網、搜索引擎、商業數據庫、免費機構數據平臺、國家統計數據庫等。
2.2.1 信度、效度分析
信度指問卷的可信度,本研究采用阿爾法系數進行信度檢驗。利用SPSS工具計算本問卷量表部分的α值,得出結果均大于0.9,說明本問卷具有良好的信度。效度是指問卷的準確性,使用KMO值和Bartlett球度檢驗的結果來判斷結構效度。本問卷KMO值均大于0.8,Bartlett球度檢驗值小于0.005,因此認為本問卷具有結構效度。
2.2.2 樣本人口特征分析
本研究共回收有效問卷356份,來自100多個高校。剔除61位理工科用戶,對295名社科用戶做進一步分析。其中,男性占28.1%,女性占71.9%,女性多于男性,符合社科領域女性研究者較多的現狀。本科生占29.5%,碩士生占46.1%,博士生占10.8%,教師占13.6%,博士生與教師樣本量較少,符合高校總體人員分布。
2.2.3 數據源使用頻率
用戶通常使用的數據源為:紙質數據源、人際數據源、網絡數據源,本研究將用戶對數據源的使用頻率分為“沒用過-經常使用”五個程度;并對每個選項進行賦值,從一分到五分,逐漸增加。賦值后對三類數據源的使用頻率分別求得均值,紙質、人際、網絡數據源使用頻率均值分別為2.83、2.46、4.46。

表1 數據源使用頻率分布表
由表1可知,經常使用紙質數據源的用戶有9.1%,人際數據源的為2.6%,網絡數據源的為56.6%。由使用頻率均值可知用戶對于三種數據源的使用頻率從高到低為網絡數據源、紙質數據源、人際數據源。
用戶使用最多的數據源為網絡數據源,網絡數據源的使用不受時間、地點的限制,具有極大的便利性。這也與目前用戶的信息源選擇偏好相符,現有研究表明用戶在選擇信息源時首先考慮可獲取性,最便于獲取的信息源最先被使用。[10]
紙質數據源的使用受限因素較多,高校用戶使用的紙質書數據源大多為圖書館的館藏資源,要利用館藏就會受到圖書館物理距離和開館時間的限制。此外,紙質數據源數據時效性差,對于查找到的數據需要耗費時間記錄,不便于利用軟件處理等原因,所以被使用的頻率相對較低。
使用頻率最低的為人際數據源。人際數據源是通過人與人之間的交流獲得數據的一種數據源,人際數據源依賴于被咨詢者的數據或數據源儲備,質量由被咨詢者直接決定。人際數據源的使用過程,不容易留下記錄;交流的結果只有參與者知曉,難以產生中立的第三方去評價;此外并不是所有用戶都善于交際,與用戶的性格也有關,這些原因都可能導致人際數據源使用頻率較低。
2.2.4 數據源使用頻率與身份、專業相關性分析

表2 數據源使用頻率與身份、專業方差分析表
為探求數據源使用頻率與身份、專業之間有無關聯性,對身份、專業分別與紙質、人際、網絡數據源的使用頻率做方差分析。由表2可知,各組方差在顯著性水平為0.05時,具有方差齊性。①紙質數據源的使用頻率與用戶身份、專業有關聯性。②人際數據源的使用頻率與身份和專業均無關。③網絡數據源的使用頻率與用戶專業具有關聯性,與專業身份無關。
(1)不同身份用戶的紙質數據源使用頻率具有差異。由圖1可知,對紙質數據源利用最多的用戶為教師群體,其他三類用戶無明顯差異。相對而言,博士生對紙質數據源的利用較多,其次為碩士生,最少使用紙質數據源的為本科生。對紙質數據源利用較少的原因可能是其他數據源已滿足需求,不需要利用紙質資料。

圖1 不同身份用戶紙質數據源使用頻率差異分析圖
(2)不同專業用戶的紙質數據源使用頻率具有差異。由圖2可知,對紙質數據源的使用頻率從高到低的專業依次為:法學、文學、教育學、管理學、經濟學。對紙質數據源需求最高的為法學用戶,這可能是因為法學用戶常用的數據多以紙質形式出版等原因造成。對紙質數據源需求最低的為經濟學用戶,紙質數據源出版周期長導致數據時效性差、不便于利用軟件建模分析等原因,難以滿足經濟學用戶的需求。

圖2 不同專業用戶紙質數據源使用頻率差異分析圖
(3)不同專業用戶的網絡數據源使用頻率具有差異。由圖3可知,對網絡數據源利用頻率從高到低依次為:教育學、管理學、經濟學、法學、文學。對網絡數據源使用頻率最高的為管理學、教育學,最低的為文學用戶,同時,文學用戶對紙質數據源的利用較多。整體而言,大多數用戶較為偏好網絡數據源。

圖3 不同專業用戶網絡數據源使用頻率差異分析圖
2.3.1 紙質數據源選擇偏好
(1)紙質數據源選擇。對紙質數據源進行歸類,結果如表3所示。通過統計用戶對紙質數據源的選擇可知,用戶最常使用的紙質數據源為專著數據源,其次為文獻數據源;32.2%的用戶會使用圖書專著來獲取數據;30.7%的用戶會選擇通過文獻來獲取數據。專著數據源與文獻數據源具有一定的相似性,即均為被深度加工、處理過的數據。24.9%的用戶會通過年鑒查找數據,年鑒中有大量的統計調查數據的原始記錄,數據可信度高,數據量大;12.1%的用戶會通過其他紙質數據源獲取數據,這類數據源的獲得具有一定的難度,需要一定的條件才能獲得所需數據。(2)紙質數據源偏好與身份、專業相關性分析。為探究不同用戶對紙質數據源選擇的偏好,對用戶的選擇分別與身份、專業做卡方檢驗,得到Pearson卡方值如表4所示。可知:專著數據源的選擇與身份和專業無關聯性;工具數據源的選擇與身份、專業均具有關聯性;文獻數據源的選擇與身份、專業均具有關聯性;其他紙質數據源的選擇與身份無關,與專業具有關聯性。

表3 紙質數據源分類表

表4 紙質數據源偏好與身份、專業卡方檢驗結果表
①工具數據源選擇與身份列聯表分析。由分析結果可知,在身份分組中,碩士用戶更偏好于使用工具數據源,其次是博士、本科生,最后是教師用戶。69.5%的碩士用戶都會通過工具源來查找數據。工具源中利用較多的為年鑒數據源。
②工具數據源選擇與專業列聯表分析。由分析結果可知,在專業分組中,經濟學用戶更偏好于使用工具數據源,其次為管理學、法學、教育學,最后為文學用戶。有85.2%的經濟學用戶會選擇從工具源中查找數據,這可能是因為工具數據源數據量大,且數據較系統、全面,比較適合經濟學的科研任務與研究方式。
③文獻數據源選擇與身份列聯表分析。由分析結果可知,對文獻數據源利用最多的為教師,其次為博士生、碩士生,利用最少的為本科生。
④文獻數據源選擇與專業列聯表分析。由分析結果可知,教育學、法學、文學用戶對文獻數據源的利用較高,管理學、經濟學用戶對文獻數據源利用較少。
⑤其他紙質數據源選擇與專業列聯表分析。由分析結果可知,最偏好于使用其他紙質數據源的專業為經濟學用戶,其次為管理學、法學、文學,最后為教育學用戶。
2.3.2 人際數據源選擇偏好
(1)人際數據源選擇。通過統計用戶對人際數據源的選擇可知,用戶最偏好使用的人際數據源為研究領域專家,其次為親密關系者、目標行業從業者,最后為數據咨詢機構工作人員。43.4%的用戶表示,會通過研究領域專家獲取數據;25.4%的用戶表示,會通過詢問親密關系者獲得數據;16.4%的用戶表示會通過咨詢目標行業從業者來獲取數據;14.8%的用戶會選擇咨詢數據咨詢機構工作人員,該方式通常比較高效,但費用較高。但是也有用戶表示,如果能提供我需要的,高質量的數據,花錢也可以(訪談用戶S5)。
(2)人際數據源選擇與身份、專業相關性分析。為探究不同用戶對人際數據源選擇的偏好性,對用戶的選擇分別與身份、專業做卡方分析,得到卡方值如表5所示。可知:是否選擇咨詢親密關系者或研究領域專家與用戶身份和專業無關;是否通過咨詢目標行業從業者獲得數據,與用戶身份無關,與專業有關;是否通過數據咨詢機構獲取數據與身份無關,與專業具有關聯性。

表5 人際數據源與身份、專業卡方檢驗結果表
①目標行業從業者選擇與專業列聯表分析。由分析結果可知,最偏好于通過咨詢目標行業從業者獲得數據的專業為經濟學用戶,其次為管理學、文學、教育學,最后為法學用戶。有48.15%的經濟學用戶表示會通過咨詢數據所屬行業的工作人員獲得數據。
②數據咨詢機構工作人員選擇與專業列聯表分析。由分析結果可知,最偏好于通過數據咨詢機構獲得數據的專業為經濟學用戶,其次為管理學、教育學、文學,最后為法學用戶。數據咨詢機構是指有償根據用戶的需求,定制搜索策略,進行數據搜集的機構。有44.4%的經濟學用戶表示,會通過數據咨詢機構來獲取數據,說明經濟學用戶在查找數據時更愿意付出經濟成本,也反映出數據對于經濟學研究的重要性。
2.3.3 網絡數據源選擇偏好
(1)網絡數據源選擇。將問卷中的10類網絡數據源歸為5種,如表6所示。通過統計用戶對網絡數據源的選擇可知,用戶利用最多的網絡數據源為綜合性數據源,有25.6%的用戶選擇此類數據源查找數據,這類數據網站的特點是數據都是由個人負責的,擁有的數據內容多且雜,這類數據源通常較易于檢索,大多數人會采用搜索引擎來利用此類數據源;其次,有22%的用戶選擇利用電子文獻數據源,這點同紙質文獻數據源偏好一樣;再次,有20.4%的用戶會選擇國家數據網,包括政府/機構網、國家統計數據庫,這類數據源的特點是,數據均是由國家部門統計發布的,數據質量由國家政府部門決定,大多為統計數據,數據量較大、具有權威性。此外,有19.6%的用戶會選擇數值數據庫,包括商業數據庫、免費機構數據庫,其特點是,數據庫內的數據集是由專門機構收集整理的,在數據庫平臺上進行發布,這類數據通常數據質量較高;最后,有12.5%的用戶會選擇調查數據共享平臺,包括社科項目數據平臺和社科數據共享平臺,主要包括社會調查類數據,數據具有一定的深度,但是還屬于建設初期,數據量和知名度都比較低,所以用戶較少。

表6 網絡數據源分類表
(2)網絡數據源選擇與身份、專業相關性分析。為探究不同用戶網絡數據源選擇的偏好性,對用戶的選擇分別與身份、專業做卡方分析,得到卡方值如表7所示。可知:用戶對綜合性數據源、電子文獻數據的使用與身份和專業均無關;用戶對數值型數據庫的選擇與身份無關,與專業有關;用戶對國家/機構數據網的選擇與身份、專業有關;用戶對數據共享平臺的選擇與用戶身份有關,與專業無關。

表7 網絡數據源選擇與身份、專業卡方檢驗結果表
①數值數據庫選擇與專業列聯表分析。數值型數據庫是圖書館重要的數據館藏資源,由分析結果可知,有79.6%的經濟學用戶及71.2%的管理學用戶表示較常使用數值數據庫查找數據,其次為文學、法學,最后為教育學用戶。②國家數據網選擇與身份列聯表分析。由分析結果可知,相比于其他用戶,碩士生更偏好于使用國家數據網,有77.1%的碩士生會選擇通過國家政府網、統計網查找數據;其次是本科生,為61.3%;再次為教師59.5%;最后為博士生,為54.8%。③國家數據網選擇與專業列聯表分析。由分析結果可知,最偏好于使用國家數據網的專業用戶為經濟學用戶,其次為管理學、法學、教育學,最后為文學用戶。這與不同專業的用戶研究任務、查找習慣有關,國家數據網大多為一些統計類數據,與經濟學、管理學類專業研究任務較相符,因此有較多用戶使用。④數據共享平臺選擇與身份列聯表分析。由分析結果可知,對數據共享平臺的利用從高到低依次為教師、博士生、碩士生、本科生。有59.5%的教師,58.1%的博士用戶表示會通過數據共享平臺查找數據。隨著研究水平的增高,科研經驗的增多,對數據共享平臺的偏好程度增加。一方面是因為數據共享平臺還處在建設初期,其知名度有限,只有科研經驗較豐富的用戶才知曉并選擇使用。
數據開發服務是指圖書館主動開發圖書館藏文獻及所屬機構科研數據進行發現、組織、并上傳至自建的數據共享平臺。通過對專著、文獻等數據源中的數據進行開發,可以極大的滿足用戶查找數據的需求,降低數據查找困難度。
社會科學研究者在科學研究過程中會收集、生產大量數據,可以對社會調查過程中的數據進行開發,形成專門的數據集。一項社會調查往往要花費大量人力、物力、財力,如果只發揮一次作用,便是對資源的浪費。通過圖書館數據開發服務,使調查數據獨立于文獻存儲,可提高檢索效率,使更多的研究者利用,更大的發揮調查的價值。通過數據開發,可以豐富圖書館的數據館藏,提高科學研究的利用價值,節省用戶查找數據的時間。
網絡數據源是用戶較為偏好的數據源,具有數據量大、覆蓋面廣的特點,但是如何在海量的數據源中選擇出高質量的數據源又給用戶帶來了困難。為了解決用戶在網絡數據源選擇、篩選等方面的困難,圖書館可建構數據源導航,數據館員利用其專業知識對大量的數據源進行篩選,在數據導航網頁中列出優質的數據源,并對其內容及數據獲取方法進行介紹,分類呈現。國外很多大學圖書館都將數據產品作為館藏建設的一部分,如,哈佛大學圖書館[10]、麻省理工大學圖書館[11]主頁中均有“How to find data”的指引,并將數據源按照專業進行分類組織,提供檢索欄,便于用戶查找數據。訪談用戶及問卷的開放性問題中,也有用戶提到,最理想的數據查找方式就是有一個匯集了很多數據、數據源的導航網站,可以簡單高效的檢索。
通過資源發現系統用戶可輕松地在圖書館主頁發現自己所需的文獻資源。數值型數據庫也是圖書館數字館藏的重要構成,卻不能被直接檢索,這將降低圖書館資源發現系統的全面性,也給用戶查找數據資源帶來難度。因此,應當將數值型數據庫或其他數據源接入資源發現系統,可以提高數據查找的效率,滿足數據需求。如,耶魯大學圖書館[12]主頁的檢索系統在資源類型中就包括“數據”這一選項,給用戶檢索數據帶來便利性。