摘要:文獻資源的數字化轉型與智能化升級已成為時代的必然。以光學字符識別、圖像處理、元數據、物聯網等技術為代表的數字化科技,克服了傳統實物文獻資源在載體和使用方式上的局限性,實現了文獻資源的第一次躍升。以人工智能技術為核心的智能化科技,順應了信息時代發展的必然趨勢,契合了以人民為中心的發展思想,進一步提高了文獻資源的利用效率和閱讀體驗,實現了文獻資源的第二次躍升。信息時代的發展日新月異,要充分利用數智化科技推動文獻資源的轉型和升級,推進文化教育事業的發展。
關鍵詞:數字化轉型;智能化升級;數智化科技;文獻資源;文化教育
一、前言
文獻是記錄、積累、傳播和繼承知識的重要載體,充分利用好文獻資源對提高全民素質和推進文化教育事業的發展具有極為重要的作用。進入信息時代以來,互聯網、云計算、大數據等數智化科技深刻地改變著人類的思維方式和學習方式,傳統文獻資源的使用方式越來越展現出其固有的局限性。順應信息時代的發展,利用數智化科技對文獻資源進行數字化轉型和智能化升級,既是推進文化教育事業發展的題中應有之義,也是建設網絡強國和數字中國的必由之路。
二、轉型:文獻資源從實物到數字化的躍升
隨著科技的日新月異,文獻資源的保存與傳承方式也在經歷著由實物向數字的歷史性轉變。這一變革不僅為文獻資源的保護與傳承提供了全新的工具,更為文化知識的傳播學習和宣傳教育注入了源源不斷的活力與創新動力。
(一)傳統實物文獻資源的局限性
1.文獻資源載體的限制
傳統實物文獻資源主要包括書籍文稿、文件檔案、報紙雜志、日記書信、文獻資料匯編等。這些文獻資源基本上都以紙質材料為載體,以印刷型和手寫型文獻居多,紙質文獻資源受自身材料性質所限有諸多局限。首先,在長期的流轉中易受蟲蛀、酸化、老化和霉蝕等自然因素的影響發生損壞。其次,在使用過程中,因搬移、翻閱等人為因素,有破損、遺失的風險。最后,紙張的信息承載量有限,需要大量紙張記錄文獻資源的內容,加工整理程序復雜,體積較大且不易攜帶。因此,紙質文獻資源在貯存方面需要較多的儲存空間和較高的保存條件,在使用方面需要謹慎的態度和較為嚴格的管理意識。尤其是珍稀的文獻資源原件,因為其巨大的價值意義和不可再生性,一般都收藏在專業的文獻收藏機構加以妥善地保存和使用,且通常不允許私人查閱和外借。
2.文獻資源使用方式的局限性
文獻資源的數量繁多且紙質成本較高,個人很難依靠購買途徑獲得充足的研究資料,因而通常會向文獻資源收藏機構借閱相關資料。文獻資源收藏機構主要包括國家級圖書館、公共圖書館、大學圖書館和一些專門圖書館等,也包括一些藏有文獻資源的檔案館和博物館等。在數智化技術推廣之前,這些收藏機構對文獻資源的利用都具有一些局限性。首先,管理工作繁重。收藏機構一般按照由分類號和種次號組成的索書號順序排架,以書名、作者、類別等作為檢索工具,將索書號和文獻基本信息制作成卡片放置在相應的卡片柜中供讀者查找。然而由于館藏文獻本就浩繁,加之每日出借歸還的文獻數目龐大,很難及時更新卡片的出借信息并將已歸還的文獻重新上架。其次,借閱程序繁瑣。讀者使用收藏機構的文獻,需要身份核實和資格認證,據此限制借閱數量并繳納相應押金。同時,讀者需對所尋文獻有基本的了解,以便通過卡片柜找到相應的索書號和文獻基本信息,確定是否在館可借閱,再依據索書號找到具體位置。最后,館藏文獻資源有限。一方面就單一的收藏機構而言,其收藏的文獻資源體量再大,在總量上還是有限的,并不能囊括所有刊行的文獻資源,一些具有鮮明地域性的珍稀文獻資源更是珍藏在個別收藏機構中別無他尋;另一方面,收藏機構的文獻資源在同一時間僅能為一人所用,他人若要使用同一文獻資源,只能等上一個讀者歸還后方能使用。
(二)數字化科技對文獻資源的改造轉型
1.從實物到數字的轉變
進入信息時代以來,數字化科技的推廣為文獻資源的改造轉型提供了技術支撐,開啟了從實物到數字的轉變。文獻資源的數字化涉及多種技術,其中最核心的是光學字符識別技術和圖像處理技術。
光學字符識別(OCR)技術是一種將紙質文檔中的文字轉化為計算機可編輯文本的技術。它通過光學儀器,如影像掃描儀、傳真機或任何攝影器材,將影像傳入計算機,識別出其中的文字,并將文字轉化為可在計算機上編輯和搜索的文本格式。在文獻資源的數字化過程中,OCR技術的應用極大地提高了文獻資源數字化的速度和準確性,不僅使得文獻資源的存儲和查詢更為便捷,還使得文獻資源的利用價值得到了極大的提升。
圖像處理技術在文獻資源數字化過程中同樣發揮著重要作用。由于許多文獻資源在保存過程中會出現磨損、污漬等問題,可能導致OCR技術無法準確識別文獻資源中的文字。此時,圖像處理技術通過對文獻資源進行預處理,如去噪、增強對比度等操作,顯著提高了OCR技術的識別準確率。此外,圖像處理技術還可以用于文獻資源的數字化修復,通過對破損的文獻資源進行圖像處理,可以恢復文獻資源的原始面貌,為學術研究提供更為準確和完整的資料。
經過數字化科技的應用,文獻資源完成了從實物到數字化的轉變,突破了傳統文獻資源載體的限制。首先,文獻資源的載體由紙質材質轉變為數字儲存設備,規避了自然因素和人為因素對傳統紙質材質造成損壞或遺失的風險,可以長久保存。其次,數字儲存設備的信息承載量大,所需空間極小,方便攜帶。最后,OCR技術和圖像處理技術數字化能夠高度還原文獻資源原件的歷史本貌,不僅可以將文獻資源原件的本體形式完整地記錄保存下來,而且可以將文獻資源原件所承載的內容向廣大讀者公開,實現了本體保護和價值利用的統一。
2.從數字到數據的轉變
《大數據時代》認為,“數字化是指把模擬數據轉換成用0和1表示的二進制碼的過程;數據化是指一種把現象轉變為可制表分析的量化形式的過程”[1]。數據化是數字化的高級階段,是在初級數字化的基礎上,進一步提取數字化文獻資源的相關描述內容,使計算機能夠理解文獻資源的內容,并深入分析和發現文獻資源之間的關系。想要實現文獻資源利用方式的轉變,還需要從數字化初級階段發展到數據化,具體而言就是建立數據庫。
元數據是實現文獻資源數據化的主要手段,在數據庫的建立和運行中發揮核心作用。元數據是關于數據的數據,用于描述數據的屬性、結構、關系等信息。它像是一本書的目錄,展現了數據庫中有什么、在哪里、如何關聯。元數據不僅提供了數據的描述性信息,還定義了數據之間的關系和規則,使得數據庫成為一個有序、高效的信息存儲系統。在數據庫領域中,元數據為數據庫設計提供了基礎信息,用于描述數據庫、表、列、索引等對象的結構和屬性,幫助開發者明確數據庫的結構和關系,以實現對數據完整性、安全性和一致性等方面的控制,提高數據的質量。同時,通過優化元數據的結構和管理,可以提高數據庫的查詢速度和響應能力,使得數據檢索更加高效。
各個文獻資源數據庫的建立,實現了文獻資源利用方式的轉變。數據化的文獻資源,通過數據庫與互聯網的聯通,使線上閱讀成為可能,極大地便利了廣大讀者。首先,免除了繁瑣的借閱程序,讀者可以通過互聯網在各個文獻資源數據庫檢索所需文獻,對數據庫中存有的數字資源即時閱讀,無須再到收藏機構中借閱。其次,突破了借閱數量的限制,讀者能夠在數據庫中閱覽需要的所有書籍,無須繳納押金,也免去借閱時間的困擾。最后,克服了館藏文獻資源有限的制約,數據庫的建立使得文獻資源得以在全球范圍內共享,打破了地域限制,讀者無論身處何地,只要有網絡連接,即可輕松獲取所需文獻資源,同時也讓更多人可以同時接觸到同一份資料,避免了一書難求的現象,提高了文獻資源的利用率。
3.物聯網技術的應用
雖然文獻資源數字化的程度不斷提高,線上閱讀成為文獻資源新興的使用方式,但是線下閱讀作為一種傳統的閱讀方式擁有比線上閱讀更加全面和深入的閱讀體驗,依舊為眾多讀者所青睞,加之部分文獻資源尚未數字化或者不宜放入開放的網絡數據庫,文獻資源收藏機構在推進文化教育事業的發展中依舊發揮著重要的作用。隨著數字化技術的發展,文獻資源收藏機構的運營模式也發生了顛覆性變革,尤其是物聯網技術的應用,極大地提高了收藏機構的工作效率和讀者的閱讀體驗。
物聯網技術,是指通過網絡連接物理世界和數字世界,實現物品與物品、人與物品之間的互聯互通和信息共享。從交互對象和過程的角度來看,事物與事物之間以及人與事物之間的相互作用是物聯網的核心。物聯網的基本結構可以分為三個層次:感知層、傳輸層和應用層[2]。因此,物聯網的構建涉及諸多種類技術的綜合運用,其中最核心的技術包括無線射頻識別(RFID)技術、無線傳感器網絡、云計算等,這些技術使得物體能夠“說話”,從而極大地豐富了信息獲取方式和處理手段。
物聯網技術應用于收藏機構的文獻資源管理中,實現了文獻資源的自動識別和跟蹤。通過RFID技術,收藏機構可以自動識別文獻資源的位置、借閱情況等,大大提高了文獻資源管理的效率。同時,讀者也可以通過物聯網設備全自助進行身份認證,查詢文獻資源的位置、借閱狀態等信息,辦理文獻資源的借閱、歸還、續借、預約等業務,提升了借閱體驗。
三、升級:文獻資源從數字化到智能化的躍升
隨著信息時代的深入發展,以人工智能技術為核心的智能化科技極大地促進了社會的進步,文獻資源也開始了從數字化向智能化的躍升。這種躍升不僅極大地便利了文獻資源的獲取方式,也極大地提升了文獻資源的閱讀體驗。
(一)從數字化到智能化的必要性
1.以人民為中心發展思想的客觀要求
中國自1994年正式接入互聯網以來,歷經30年的發展給社會帶來了顛覆性的變化。如今,數智化科技已經深入社會的各個角落,深刻地影響著人們的生產、生活和學習方式。很多人經歷了數智化科技從無到有、從微末到輝煌的發展,在如此短暫的時間里發生了如此巨大的技術變革,使他們難以適應信息時代的發展,形成了由知識和技能構成的數字鴻溝,制約著他們享受科技發展的成果。雖然社會大力鼓勵他們提高自己的數字知識素養以適應時代的發展,但是一方面這種提高短時間里難以實現,另一方面隨著他們年齡的增長,學習能力愈發下降,更加難以掌握日新月異的各種科技知識。
人的方面難以解決,就應該將訴求加之于科技。科技發展的出發點和落腳點本就應該是服務于人,而不是限制于人。如果知識和技能成為人們利用科技的數字鴻溝,科技就應該向更容易被人利用的方向發展,使科技發展的紅利為人民所共享。這既是科技發展的意義所在,也是以人民為中心的發展思想之客觀要求。就推進文化教育事業的發展而言,積極運用人工智能技術,實現文獻資源從數字化到智能化的進一步躍升,正是這種理念的具體體現。
2.信息時代發展的必然趨勢
在信息時代的浪潮中,人們已經見證了技術的飛速發展,從早期的計算機編程到互聯網的普及,再到如今的大數據、人工智能和機器學習等前沿技術。這一切進步都指向了一個明確的方向:從數字化到智能化發展的必然趨勢。
數字化是智能化的基礎。通過數字化,現實世界的信息得以轉化為計算機可以理解和處理的數據。這一過程極大地拓寬了人類的視野和能力,使得信息傳播、存儲和處理變得前所未有的便捷和高效。智能化是數字化的升華。在數字化的基礎上,智能化利用人工智能、機器學習等技術,讓計算機系統具備了自主學習、決策和優化的能力。從數字技術操作、信息管理、協同合作、內容創建、安全維護等多重維度[3]提高了生產效率,促進了醫療、教育、交通等領域的革命性變革,讓生活變得更加便捷、安全和美好。因此,文獻資源從數字化到智能化的躍升是信息時代發展趨勢的必然結果。
(二)智能化科技對文獻資源的改造升級
智能化是指通過人工智能技術,使機器、設備和系統具備像人類一樣的感知、思考、學習和決策能力。智能化強調的是機器的智能水平,核心是人工智能技術的推廣和應用。人工智能(AI)由“人工”和“智能”兩個部分組成,“是用人工的方法在機器(計算機)上實現的技能,或者說是人們使機器擁有類似人的智能”[4]。智能化的實現需要依賴于大數據、云計算、機器學習等技術手段,通過不斷學習和優化,提高機器的智能水平,從而為人類提供更加便捷、高效的服務。智能化科技的應用,使得文獻資源在信息檢索方式和閱讀體驗方式等方面實現了新的升級,進一步提高了文獻資源的利用率和使用效果。
1.信息檢索方式的升級
進入信息時代以來,隨著數字化技術的推廣,各種信息充斥于互聯網之中。搜索引擎的出現雖然極大地提升了信息獲取的效率,但是日益飆升的信息量使人們越來越難以明確地獲取自己需要的信息。例如,在日常學習的過程中,偶然了解到一個知識點,想要找到出處進行更深入的研究,而通過搜索引擎找到的網頁,卻大多都是些包含相關內容但沒有關鍵信息的無用之物,最終也只是空耗時間精力。傳統的關鍵詞搜索方式已經難以滿足人們的需求。人們需要的不僅僅是信息,更是精準、個性化、有價值的內容,這正是人工智能能夠發揮巨大作用的地方。
人工智能通過深度學習和自然語言處理技術,能夠更準確地理解用戶的意圖和需求,實現智能化的信息檢索。智能信息檢索主要具備以下功能:理解自然語言,使用戶能夠用自然語言提出檢索要求和詢問;具備推理能力,根據數據庫中的事實,推理得出用戶要求和詢問的答案;擁有一定的常識性知識,結合專業知識,能夠演繹推理出專業知識中未涵蓋的答案。因而,利用人工智能搜索相關信息時,它不再簡單地根據關鍵詞返回網頁鏈接,而是能夠為用戶提供更具體、更深入的答案。例如,在回答某個專業問題時,人工智能可以直接給出答案,甚至提供相關的案例、數據和研究報告,幫助用戶更全面地了解問題。此外,人工智能還能根據用戶的興趣和習慣,智能地推薦相關內容。這種個性化的信息檢索方式不僅提高了用戶的滿意度,也讓信息分發更加精準高效。
2.閱讀體驗方式的升級
隨著人工智能技術的不斷進步,人機交互技術也迎來了新的發展和變革,由圖形用戶界面交互階段發展到自然人機交互階段[5]。隨著人機交互新技術的應用,人們可以以聲音、視覺、體感甚至腦波等形式完成與計算機的對話。以此為基礎,虛擬現實(VR)和增強現實(AR)技術也得到了長足的發展。在人工智能的驅動下,虛擬現實不再是簡單的模擬,而是變得栩栩如生,仿佛真實存在;增強現實技術也可以在真實世界中添加虛擬元素,創造出全新的互動體驗。虛擬現實和增強現實技術,已經逐漸融入人們的日常生活之中,不僅在游戲、娛樂等領域大放異彩,更在學術研究中展現出巨大的潛力,尤其是在文獻資源閱讀體驗方面的提升。
傳統的文獻資源閱讀方式,或是閱讀紙質資料,或是瀏覽網絡上的數字資源,都無法為讀者提供更加豐富和生動的信息呈現。而虛擬現實和增強現實技術的推廣和應用,徹底打破了這一局限,得以重現文獻資源中的重要場景和事件,為文獻資源的學習提供了更為生動、真實的教學材料。通過頭戴式顯示器和手勢識別等設備,讀者可以沉浸在一個三維的文獻世界中,與文獻資源中的內容進行互動,甚至能夠親身體驗其中的場景和人物。例如,在閱讀《滕王閣序》的相關文獻時,不再只是單調的文字描述,而是可以通過虛擬現實和增強現實技術,依托于滕王閣、唐代的文物和文獻等現實資源,再現公元675年重九日在滕王閣中的盛會,讓讀者置身其中,在體驗文學之美的同時,又欣賞了滕王閣的絕美景色,普及了唐代的歷史知識。這樣的閱讀體驗無疑更加深入和難忘。增強現實技術也可以為文獻閱讀帶來全新的視角。通過增強現實設備,人們可以在閱讀過程中隨時調用相關的圖片、視頻,甚至三維模型等輔助資料,幫助讀者更好地理解和記憶文獻內容。這樣的閱讀方式不僅提高了效率,也讓學習過程變得更加有趣和輕松。
四、結語
隨著數智化科技的飛速發展,文獻資源的數字化轉型與智能化升級已成為時代的必然。數智化科技對文獻資源的兩次躍升,既是形式上的改變,也是一種質的提升。大數據分析、人工智能等技術手段可以對文獻資源進行深度挖掘和整理,發現其中隱藏的規律和趨勢,為各個領域的學習研究提供有力支撐。隨著信息時代的不斷發展,數智化科技手段要更充分地利用在文獻資源的轉型與升級之中,推進文化教育事業的賡續發展。
參考文獻
[1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代[M].杭州:浙江人民出版社,2015:104.
[2]鐘義信,周延泉,李蕾.信息科學教程[M].北京:北京郵電大學出版社,2005:38.
[3]周歡.新時代數字鄉村建設的前提、困境及路徑探究[J].新經濟,2022(04):46-51.
[4]陳志華.人工智能原理認知與應用研究[M].北京:電子工業出版社,2023:7.
[5]袁銘潤,許斗,張研.智能人機交互技術[M].哈爾濱:哈爾濱工業大學出版社,2022:3-5.