凌霄娥
(廣西民族師范學院圖書館 廣西崇左 532200)
大數據時代的信息風暴改變了人們的思維、生活與工作方式,大數據在各行業、領域的開發和利用有助于推動社會發展。數據價值的挖掘要通過各技術平臺實現,要求人們能夠參與。因此,如何高效利用大數據資源成為目前業界需要考慮的主要問題。大數據使圖書館數據發生了改變,使其從少量、有序、單一的結構化數據轉變成為海量、無序、多元化的非結構化數據[1]。本文基于現代數字人文視角,分析圖書館開放數據服務機制的創新。
數字人文指的是使用現代化網絡信息技術開展的多學科人文領域應用組織方式,其研究基礎是將計算機技術融入人文學科,使人文文獻資料向圖片、音頻、視頻等數字媒體化方式轉變,是一門涉及多學科領域的交叉學科。數字人文研究主旨是利用數字化技術和人文學科相互融合產生的全新服務模式,拓寬人文學科的發展方向和渠道。在此過程中尤為重要的就是尋找計算機技術和人文學科的相關連接點,從而創新數字人文背景下的服務內容。
和國外發達國家對比,我國數字人文研究起步較晚。我國高校圖書館的數字人文研究比較多,有很多研究成果被廣泛應用。比如,武漢大學圖書館數字人文研究中心將最新的計算機數字處理技術應用于圖書館人文文獻資料查詢與存儲,便于高校人文社科研究學者利用網絡數據庫查詢和獲取所需資料信息,提高學術研究效率。部分研究學者提出在古籍文本數字化建設過程中使用數字技術、色彩還原技術以及數據重建、圖像分析等技術,具有良好應用效果。目前,大部分高校圖書館面向大眾開放數字化人文數據庫,為人文學科研究者與愛好者提供文獻支持。總體而言,目前我國數字人文研究層次水平比較低,在相應問題研究不斷深入的過程中,圖書館信息服務也會充分展現更多社會人文研究成果[2]。
在科學知識出版、開放研究出版、開放存取運動等開放數據具體實踐過程中,圖書館一直都是推行者與參與者。由于開放數據運動的實踐主體為政府,發達國家尤為重視公眾需求,比如法國、美國等國家征求公眾的意見,逐漸開放有價值的數據集,充分展現開放數據運動過程中政府的推動者、踐行者地位。圖書館在此背景下要精準定位自己的角色,充分發揮自身優勢,以此實現開放數據的價值。Hope等人在研究過程中表示,圖書館員是知識支持專家與工具箱,能夠實現概念知識的技術研發支持。我國研究人員表示,在開放數據環境中,圖書館的角色一般為數據保存管理中心、科學產出匹配知識服務中心[3]。
在科學研究的不同階段,圖書館科研服務及其作用也不同。比如在科研概念階段,圖書館為進行科學研究與計劃討論的用戶提供書目,并且將討論結果創建成全新的知識。圖書館科研功能體現為:在知識分析與出版時,通過開放存取實現科研實驗數據、科研進程與結論的共享交流;在同行評審時,充分發揮自身的科研情報作用,基于開放存儲與社交網絡分析論文與數據,提取有用的指標作為論文評價的科學依據,從而科學評價某研究領域論文與作者的學術影響力。
歐洲研究圖書館協會表示,在科學研究開放工作流中,要提高專業圖書館可見度,重視科學數據的保存與再使用。本文認為,圖書館應將數據密集型科學研究特征作為科研范式,尤其是將記錄科研過程與實驗過程等主要信息的科學數據作為科學研究再使用的主要數據對象,圖書館有責任扮演開放數據管理中心的角色,給科學家等用戶群體提供開放數據的檢索、分析與保存等服務。圖書館針對數據連續使用視角還要設置開放數據關聯、標志、發布等服務[4]。
在高校圖書館發展過程中,數字人文起到了推動作用,并且對圖書館服務提出了高要求和挑戰。圖書館服務模式的轉變促使文獻服務向數據知識服務轉變,并對館藏文獻資料進行保存、收集和整理,利用文本分析、資源導航、數據挖掘等技術對知識進行整合,將信息技術和資源與學者研究相結合,人文研究人員通過海量文獻信息精準、全面地尋找與主題相關的內容,保證跨學科研究。圖書館在此過程中推動文獻服務向知識服務轉變,拓展了服務職能[5]。
圖書館館藏資源主要包括數字文獻和紙質文獻,目前紙質文獻占據較大的比例,數字文獻占據了館藏文獻小部分的內容。數字人文背景下,人文學者研究范式得到改變,在資源、技術獲取方面對圖書館提出了更高要求,傳統紙質文獻已經無法滿足實際需求,需要圖書館對館藏資源結構進行調整。圖書館在經費有限的條件下,要適當降低紙質文獻的購買率,可以購買人文數據庫,增加數字資源的投入比例,滿足人文學者的研究需求。雖然數字化館藏無法替代紙質資源,但其所占空間小,能夠快速檢索,并實現智能化處理,在未來會成為圖書館主要的館藏資源[6]。
數字人文將現代信息技術和人文科學相結合,通過全新技術手段與方法使人文研究者的知識獲取和研究方式得到改變,有利于跨學科與跨領域的研究,屬于目前人文社會科學創新發展的重點。基于數字人文背景,現代信息技術在圖書館領域被廣泛使用,圖書館打破了傳統學科界限,改變了館內學科固有的模式,使面向社會的研究得到加強,朝著學科整合研究體系發展,使傳統圖書館學理論與方法內容得到充分體現,還將信息時代背景下不同領域學科的補充、滲透特征展現出來。數字人文發展使圖書館學發展為現代科學,轉變了傳統的服務模式,拓寬了圖書館學研究范圍,豐富了圖書館學的研究內容[7]。
圖書館在傳統模式中的主要功能就是實現知識匯聚,在提高知識普及率、提升讀者閱讀效率等方面處于被動地位。此為新時代人文領域面臨的主要問題,如何使作為知識傳播場所的圖書館在知識普及過程中的地位得到提高,使被動服務轉變為主動服務,成為人文領域從業者需要考慮的主要問題。比如,嵌入式服務模式指的是通過圖書館知識匯聚場所的作用尋找所需專業知識,吸收西方發達國家科研成果,以此尋找規律、得到啟發,促進本國相關研究的發展;另一方面根據圖書館自身獨特定位,將圖書館作為數字人文創建的研究平臺,將數字人文理念嵌入圖書館體系中。實踐表明,將嵌入式學科服務模式應用到現代圖書館中具有重要作用[8]。
為了適應新時代數字人文環境,圖書館服務體系要轉變為集成化知識體系。意即在信息整理組織處理過程中,圖書館通過已有數據庫掌握多個信息資源的聯系,尋找科學規律,關聯各知識章節,使知識整體認知朝著高水平方向發展,在圖書館知識普及過程中創建專業化的知識結構,使更多信息資源通過集成化知識模式向廣大使用者進行傳遞。在此過程中,集成化使知識傳遞更加簡單明了,使人們對資源獲取、儲備、整理的需求得到滿足。雖然集成化知識能夠使圖書館知識推廣效率得到提高,創建更為廣闊的平臺,但也會使相關部門任務加重,對集成化知識進行深度整理,要求圖書館的工作效率與服務水平得到進一步提高。
圖書館作為新時代的信息平臺,主要功能是對數據進行全面分析。信息時代,大部分信息平臺的主要職能是提供數據分析服務。在數字技術與人文技術融合過程中,數據分析服務具有重要作用,能夠深度挖掘科學知識,使科學思維得到拓展;還能夠通過人文領域分析數據,對人們需要的數據進行提取。對圖書館數據進行有效分析,需要圖書館從自身豐富的文獻資源中提取相關信息。在此過程中,單位和組織要強化數據分析能力,使相關人員專業技能素養得到提高[8]32-40。
我國目前正在探索人文技術和數字技術的有效結合方式,圖書館也積極投入數字人文研究,創建相應平臺和完善硬件設備,為人文領域和數字化技術結合提供平臺支撐。另外,圖書館也要提高館藏量,使專家學者能夠創建有效數據信息,滿足廣大用戶對數字信息的需求。在此過程中,圖書館從業人員要樹立正確的數字人文理念,積極投入相應研究,利用科研成果人文領域中的問題,促進兩者結合發展。在資源投入方面,圖書館不必使用大量資源創建研究中心,能提供文獻材料知識即可。
另外,在豐富自身社會資源儲備的過程中,圖書館要進一步加大資源投入,可以使用國外先進知識體系;加強版權意識,獲取每份數據文獻都要征得作者同意。圖書館從業人員要提高自身專業能力,保護文獻作者的合法權益。
分析現代開放數據運動的發展,主要實踐包括機構知識庫、開放政府數據、存儲學術期刊,和數字人文時代所要求的多類型、多領域的發展程度還有一定的距離。圖書館的館藏資源比較豐富,適合擔當大數據時代數據整合與開放的實踐者。因此,圖書館要整合各方資源,比如氣象、政府、科技、人文等領域的實驗數據,以滿足公眾對于圖書館檢索服務的需求。
另外,數字人文背景下開放數據是對不同政府部門、系統、機構的數據集進行整合,所以要創建數據共享與互操作框架。圖書館可以根據成功案例創建或者參與由政府、企業、社會機構構成的知識聯盟,利用協作分析技術實現系統、數據的無縫隙整合[9]。
圖書館數字閱讀量不斷增加,數據信息也不斷增加,導致數據庫超負荷運行,如何對數據進行有效管理成為數字人文背景下需要解決的主要問題。目前,對于圖書館開放數據的管理并不成熟,主要面臨的問題包括:其一,目前信息存儲系統無法利用大數據管理實現信息共享,信息庫數據結構比較復雜,數據的共享與存儲是主要問題;其二,由于數據呈爆發式增長,信息網絡傳輸性能無法滿足實際需求,文件管理與保護是需要考慮的問題;其三,互聯網的共享性,要求對全網開放信息資源,因此要重視信息保護,尤其是保障信息安全性與真實性;其四,長時間的數據積累,導致文件的重復性使用,占據的存儲空間比較大,因此,目前需要解決的主要問題就是數據存儲。
大數據本質為數據,數據本身存在安全問題。目前開放式網絡資源共享速度比較快,導致信息安全風險較高。比如,用戶在利用互聯網對圖書館進行訪問的過程中會和圖書管理員進行交流互動和資源共享,如果在此過程中網絡環境存在漏洞,就會泄露用戶信息。互聯網時代與前互聯網時代的信息安全具有一定差別,人們希望在共享資源的過程中對個人隱私進行保護。這就要求能夠兼顧資源共享和隱私保護,對兩者關系協調處理,使其能夠共同發展。
簡單來說,圖書館要滿足時代發展的需求,對信息資源進行調整,使現有信息資源服務系統轉變成為完善的信息服務系統[10]。
在現代數字技術不斷發展的過程中,傳統圖書館信息服務設備已經無法滿足數字人文發展的需求。目前傳統圖書館服務設施受到數據技術的沖擊,利用數據庫能夠快速查詢普通文獻信息,但是如果數據信息比較復雜就難以查詢。所以圖書館要使用先進數據管理技術,使大數據處理需求得到滿足。其次,圖書館管理人員還要與時俱進,學習新技術,提升數據庫使用能力。新時代對于圖書館管理人員也提出較高的要求,要及時掌握大眾偏好,提高服務質量與效率,從而滿足用戶需求。
目前社交網站備受歡迎,圖書館也開通了網絡互動功能,利用交互平臺加強用戶和圖書館的聯系,增強了圖書館的吸引力。圖書館利用互動平臺收集用戶反饋建議與有價值的數據信息,提升服務水平。圖書館還能夠整合互動平臺資源,用戶可以利用搜索功能查找和下載所需資料,也可以上傳自己的研究成果并與其他用戶分享,以此促進學術交流,使圖書館信息資源得到進一步擴充。圖書館要嚴格篩選數據,保障其真實性。
信息組織指的是處理收集的信息,創建有效數據處理系統。由于收集的數據種類繁雜,所以在數據集中處理過程中面臨大量技術難題。傳統圖書館數據處理技術無法滿足數字人文的數據處理要求,所以要利用個性化方式處理圖書館數據[11]。
由于現代數字技術的不斷發展,傳統信息服務方式已經無法滿足目前的環境需求,圖書館要通過拓展新業務使自身信息服務能力得到提高。首先,圖書館要收集大量視頻、音頻、圖片等數據信息,通過合理加工使圖書館信息資源得到擴充;其次,要選擇互聯網中有價值的信息進行處理,豐富自身的服務業務;最后,要利用互聯網給客戶提供個性化服務,比如通過微信定位服務,圖書館可以將周邊服務項目推薦給用戶,方便人們的出行。用戶終端可向用戶推送實時信息,使用戶實時掌握圖書館最新動態,便于后續信息查詢。
其一,數字人文數據全面開放。伯納斯-李曾經根據開放數據程度創建了五星評價模型,一星指數據可上網,二星指數據機器可讀、三星指數據采用非專有格式,重視網絡數據開放,但是要消除信息孤島,數據就要達到四星標準,使用RDF資源描述框架,五星則可使關聯數據需求實現,以此得到高質量數據。圖書館可以創建數字人文平臺,通過初始數字化掃描進行數據管理,實現初始數據的加工、清洗、轉化,以此得到關聯化、結構化的數據,再利用開放結構將數據提供給公眾,推動大眾科研創新,實現數據全面開放,促進開放科學發展。
其二,簡化數字人文數據。開放數據存在數據無法理解的問題,我們可以基于五星評價模型提出發布數據集中使用本體,使可讀性得到增強。圖書館應創新開放數據,使數據朝著RDF格式轉變,重視API標準化或者為不同類型用戶設置針對性訪問方法。圖書館還應實現數字人文開放數據管理的通用設計,使不同專業背景的用戶都能夠使用,讓開放數據轉變為簡單數據,從而解放數據。在人們使用數據的時候,利用平臺的可視化分析軟件發現知識,可以有效促進對數字人文開放數據的智慧化使用[12]。
其三,整合圖書館原有資源和數字人文。圖書館原有的特藏資源在不同數據庫和發布平臺中使用,基于數字人文環境,圖書館通過數據倉庫或者本體整合關聯數據,基于此創建人文服務平臺,為人文學者提供支持服務,使原有的資源使用率得到提高。因此,平臺能夠通過提供眾包數據、統一檢索與分析數據等功能使知識發現程度得到提高。
5.2.1 招聘數據館員
在圖書館開放數據服務過程中,館員為重點。數據服務工作的開展,與數據館員密切相關。館員的行為及服務理念將直接影響圖書館服務工作質量。基于大數據背景,圖書館在服務理念上朝著主動化、個性化的方向發展,并且改變了工作方式,對于數據館員的專業技能與知識提出了全新要求。所以,圖書館在招聘數據館員的過程中要嚴格把關,以此保障數據服務工作的順利開展。
首先,考察館員的學科背景知識。數據服務館員一般應具備圖書情報學和計算機專業背景,部分特殊部門要求館員具備社會科學或其他學科背景。工作經驗也尤為重要,尤其是科研信息咨詢服務與知識庫創建等方面。在數據服務過程中,這些技能具有重要作用,能夠使館員盡快融入數據服務工作中。
其次,考察館員的個人技能。選拔人才的重點就是要求受聘人員能夠勝任服務崗位,個人技能為重要保證。館員要進行數據服務,就要全面認知數據生命周期,并且具備數據服務、分析與項目管理的能力。數據庫生命周期知識能夠使館員認識到數據運行規律,精準定位自己的工作,以此進行數據服務工作。數據處理能力十分重要,館員要對數據進行收集和存儲,并且使用常用分析軟件分析數據,為用戶提供個性化、立體化的服務,為數據的正常流通提供保證。無論是哪個崗位,都要求受聘人員具備管理能力。這樣他們才能合理規劃圖書館資源與服務,掌握相應的法律與政策知識,促進圖書館服務工作有序開展。
5.2.2 培訓數據館員
數據服務工作難度較大,圖書館要組織館員參與專業培訓,加深館員對于數據服務工作內容的理解,使其樹立良好的工作意識。培訓還能夠提高館員服務意識與工作能力,保證其勝任數據服務工作,促進圖書館數據服務工作的順利開展。目前,館員培訓主要包括:
其一,數據服務意識。館員要全面掌握數據概念,提高數據敏感性,有針對性地收集信息,并對信息進行整理與分析。另外,館員應思考圖書館數據服務工作的特點,強化主動服務意識,主動收集用戶需求信息,主動推廣圖書館服務。主動推送式服務是開展數據服務工作的主要方式,利用高質量和個性化服務深入開展數據服務工作,能夠促進圖書館數據服務工作快速、穩定發展。
其二,知識培訓。圖書館開放數據服務工作是傳統服務工作的延續,不僅要求館員掌握圖書館專業知識,還要具備數字人文背景下的技能與知識。外語課程與計算機為必修項目,是因為圖書館外文資源量不斷增加。另外,為了滿足個性化服務要求,館員要具備專業化數據分析能力。其次,充分挖掘館員創新與交往能力,樹立圖書館正面形象,促進圖書館服務事業快速發展。在大數據時代中,數據館員知識結構按需變動,要求圖書館基于實際需求進行培訓,完善圖書館數據服務框架。
其三,心理素質教育。對于復雜的數據服務工作,館員可能會出現焦慮、自卑等心理,所以,要重視館員心理。另外,圖書館要對館員開展職業道德教育,使數據交流工作能夠有序、安全地開展[13]。
5.3.1 數據收集
圖書館和數字人文中心管理者要根據項目實際需求和數據規劃要求,對負責人員開展培訓,包括數據收集等工作。圖書館利用資金籌措等方式提供平臺建設資金,根據數字人文專家和圖書館需求設計圖書館開放數據服務機制,完成數據收集前的準備工作。之后,相關工作人員通過元數據收割協議,對圖書館和合作機構的館藏進行元數據收割。在對公眾數據進行收集時,圖書館可以通過人文專家創建相應的標準,設置激勵機制,在平臺中發布項目數據需求和概況,實現登錄接口、入口的設置,利用游戲激勵的方式激發公眾持續參與的熱情。另外,圖書館要滿足用戶對數字資源與紙質文獻的需求,及時處理用戶反饋,通過專題講座、工作坊等方式對用戶進行數據素養教育,以通用性、適用性的原則協調課程體系,提高用戶對數據的科學認知。
5.3.2 數據處理
其一,數據清洗。通過數字人文館員實現數據清洗,在此過程中館員將知識庫中所存儲的初始數據進行提取,然后根據項目數據的需求,利用相應的數據清洗工具剔除重復、錯誤、不準確、缺失的臟數據,保證基本數據質量。館員在數據清洗時要以唯一性、真實性與可靠性的原則核實數據來源,避免出現數據偽造等問題,對不精準的數據進行修正。
其二,數據加工。圖書館在數據加工前要協助數字人文專家創建元數據框架,基于已有元數據,根據項目特點添加其他原數據集,確定字段結構,實現項目元數據規范標準的制定;在數據加工時與專家合作,以信息加工數據庫與元數據標準實現元數據的補充、錄入、排序、存儲。
其三,數據轉換。雖然數據通過加工、清洗之后已經成為結構化、清潔數據,但是要想利用API接口對外開放,還要通過數據轉換。數據轉換包括層次轉換與格式轉換,使文本類信息轉變為機器可讀信息。技術人員和館員相互協作,利用RDF格式轉變工具將數據編碼存儲到RDF存儲庫中。RDF資源描述框架能夠使Web資源需求得到滿足,具備針對性的模型與語法,能夠對多圖、單圖或者節點模式進行存儲。單圖調動和存儲比較簡單,并不經常使用。如果數據量比較大,可將數據切割為多單元存儲,創建多圖模式。小的節點模式一般比較靈活,不需要在物理層面對數據集進行整合,在更改數據之后不需要對整合數據進行更改。數據在通過格式轉換之后,利用統一或者分類的開放方式進行開放[14]。
信息社會復雜多變,圖書館要積極踐行數字人文理念,探索數字人文背景,利用嵌入式學科服務和集成化知識服務開展數據分析服務,豐富數字資源儲備,創建數字人文平臺,從而實現現有圖書館開放數據服務機制的轉變及圖書館平臺效應的優化,并完善服務體系,改革規章制度,使圖書館能夠在數字人文背景下得到快速。