韓泉葉 張耀民



[摘 要]中華優秀傳統文化數字化是傳統文化創造性轉化的路徑之一。本文介紹了中華優秀傳統文化數字化的必要性,闡述了目前傳統文化數字化研究的現狀,在此基礎上構建了傳統文化數字化框架,給出了構成框架的三個主要部分功能,最后對實現數字化采集與海量存儲、公共服務與資源共享以及大數據分析與反饋功能的平臺部分進行了詳細剖析。
[關鍵詞]傳統文化;數字化;框架體系
[中圖分類號] TP311.132[文獻標識碼] A [文章編號]1008-4649(2023)01-0088-06
Exploration on Digitalization and Framework System of Chinese Excellent Traditional Culture
Han Quanye,Zhang Yaomin
(The Open University of Shaanxi ,Xian 710119)
Abstract:Digitization of Chinese excellent traditional culture is one of the paths of creative transformation of traditional culture. This paper introduces the necessity of the digitalization of Chinese excellent traditional culture. The present situation of digital research on traditional culture is expounded. On these basis, the digital framework of traditional culture is constructed. The three main functions of the framework are give. Finally, the platform part of the framework is analyzed in detail. Which realizes digital collection & mass storage,public service & resource sharing, and big data analysis & feedback function etc.
Key words: Traditional Culture; Digitalization; Framework Systemn
中華文明數千年一系,蘊藏博大豐厚的精神文化資源,浩瀚典籍里的文字佳篇,博物館里的精品,廣闊大地上的文化遺存,都是文明華彩樂章的歷史凝結,已成為今天繁榮文化事業的“戰略性資源”。面對信息化、數字化發展大趨勢,以社會主義核心價值觀為標準,取其精華去其糟粕,將中華優秀傳統文化數字化是傳統文化創造性轉化的路徑之一,運用數字新技術、新應用,大力發展數字文化新業態,催生數字文化新產品。
一、優秀傳統文化數字化的必要性
在互聯網信息技術風靡全球的時代,利用數字技術賦能傳統文化轉化與傳承,將中華優秀傳統文化數字化,通過傳統經典再造,弘揚主旋律,傳播正能量,打造具有中國特色、中國風格的數字化產品,在內容上符合精神文明需要,是新時代傳統文化創造性轉化與傳承的偉大實踐,也是新時代優秀傳統文化傳承與發展的必然。韓泉葉,等.中華優秀傳統文化數字化與框架體系探索[J].陜西開放大學學報,2023,(1).
1.優秀傳統文化數字化是時代發展的必然
近年來,以數字技術為支撐、數據資源為關鍵要素的數字經濟蓬勃興起,習近平總書記強調,要“充分發揮海量數據和豐富應用場景優勢,促進數字技術和實體經濟深度融合,賦能傳統產業轉型升級,催生新產業新業態新模式,不斷做強做優做大我國數字經濟”[1]。
中華優秀傳統文化數字化是新時代的一種新思維,日新月異的數字技術,為弘揚中華優秀傳統文化開辟了新的空間和路徑。實現以數字技術為載體的中華優秀傳統文化的創造性轉化和創新性發展是大勢所趨。傳統文化的數字化能讓傳統文化傳播的更快更廣、產生更大影響,充分展示中華歷史之美、文化之美。
2.優秀傳統文化數字化是文化沉淀與保護的需要
中華優秀傳統文化運用傳統方法進行修復和保護有其一定的局限性,相較于傳統的紙質保存方法,數字化和網絡存儲打破了時空限制,更容易進行資料的歸納整理與實時更新,有助于永久保存文化資源,增加了收藏價值。運用數字技術,通過數碼顯微技術、三維虛擬技術等手段,能夠解決手工修復無法完成的難題。對于文獻典籍、非遺文化、古村落這類不可再生的文化資源、文化遺產,通過拍攝圖片、錄音、錄像、文字識別等方式組建數字化檔案,進行數字化保護,讓書寫在古籍里的文字“活”起來,讓古村落文化遺產得以沉淀和傳播,增加其可讀性和趣味性;數字化可以很好地保護現有的文化遺產,后人可以隨時隨地地進行查閱,而不必去實地考察文化遺物,也就避免了對文化遺物造成部分破壞和損害。
3.優秀傳統文化數字化是大眾多元化文化需求的必然
隨著互聯網+應用的迅速普及,人們學習生活方式的改變,網上文化需求的比例迅速增加,只留在文字典籍、博物館、旅游勝地里的傳統文化已不能滿足大眾需要,不同層次,不同群體對文化的需求多元化趨勢加快,人們期待著品種多樣、內容豐富的精神文化產品的出現,習慣于通過網絡追求更豐富、更方便、互動性更好的文化生活,優秀傳統文化也就自然地向數字世界進軍,這與當代人的閱讀習慣相適應,與大眾化的文化需求相適應。
二、傳統文化數字化研究現狀
關于傳統文化數字化方面的研究,到目前為止,已取得了一些成績,主要是利用現有的信息技術,將有關傳統文化的內容進行數據資源的數字化處理、借助圖片、音頻、視頻等信息轉換、存貯、檢索和交互展示等方式,有效地將各類傳統文化轉變為數字化產品,這在某一時間段為傳統文化保護、傳承提供了一種思路,其對應的數字化后的數據信息存儲,是對結構化數據的簡單存儲,更多半結構化、非結構化數據,如視頻等類型數據,利用不夠充分,更不涉及如何利用保存數據來產生信息、知識,或者有價值軟件商品等方面的問題。
隨著大數據時代的到來,各種新媒體應用的爆發式增長,原有的數字化方法不能應對傳統文化數字化過程中產生的大量非結構化和半結構化數據,缺乏對海量數據的支持,特別是面向海量數據后如何挖掘傳統文化數據的模式、分析內在的關系結構,從而指導未來復雜社會條件下開展傳統文化數字化保護、傳承等方面的思考。這已不是圖片、音頻、視頻的簡單存儲能解決的,而是需要一個包含數字化資源采集、數字資源存儲、數字資源管理、數字化生產、數字化展示、數字化傳播和數字消費等在內的數字化保護和開發全生命周期的數字化共享和服務平臺[2]。
目前傳統文化與影視、動畫、數字博物館的交叉研究相繼出現快速增長。學術研究發展趨勢基本符合數字新媒體技術發展趨勢,即從數字化、視聽化發展到網絡化、移動化、交互化。總體來說,目前國內的研究,對新媒體創新的內容研究多,對數字化技術的研究偏少,特別是具有保障功能的數字化體系研究不多信息安全技術類的保障沒有;單一學科視角多,跨學科綜合研究少;創新傳播的系統性研究、特別是網絡傳播保障機制方面的研究偏少。
鑒于以上情況,下面對傳統文化數字化框架體系進行詳細的研究與闡述。
三、構建傳統文化數字化框架體系
優秀傳統文化數字化是將優秀傳統文化轉變為可度量的數據,并加以處理的過程,包括數據采集、傳輸、存儲、計算和應用。目的是把傳統文化形成數字模型,通過共享、呈現、優化等方式展現在大眾面前,最終實現文化的轉化與傳承。
傳統文化的數字化是一個系統工程,是需要運用海量存儲、光速傳輸、智能分析、精準推送、云端共享等數字技術,將優秀傳統文化轉化為可儲存、管理、共享的數字形態,包括在網絡環境下搭建智能化數字共享平臺、開發數字軟件,同時將社會主義核心價值觀貫穿整個數字化轉化體系的每個環節,達到進一步實現傳統文化的創造性轉化與傳承。
傳統文化數字化框架體系如圖1所示。主要由平臺部分、應用/終端部分和兩翼保障部分組成。
圖1中,平臺部分用來完成傳統文化數字化轉化的核心功能,主要包括數字化采集與海量存儲、異構系統整合與資源共享服務及數據分析與反饋三部分。
應用/終端部分包括熱門應用和手機電腦等終端設備。其功能是接收平臺部分推薦的資源、跟蹤用戶行為數據并提交給平臺部分的數據庫存儲、相應用戶請求抽取平臺部分的資源。也就是說,一方面平臺部分將大數據分析得到推薦資源或熱度資源,推薦給熱門應用,如抖音、B站、微信、MOOC等;另一方面,用戶通過手機、電腦等終端設備請求訪問平臺部分或熱門應用,并將訪問瀏覽的行為數據信息存入平臺部分的數據庫。
兩翼保障[3-4]部分主要是為優秀傳統文化數字化及其網絡傳播提供清朗的網絡空間、可行的制度保障和完備的社會保障。包括以社會主義核心價值觀為標準的左翼和右翼,即“網絡空間安全”和健全的“政府主導監管、社會參與、市場運作”機制。
四、平臺部分剖析
平臺部分用來完成傳統文化的數字化處理,包括:數字化采集與海量存儲、異構系統整合與資源共享服務、數據分析與反饋三個部分。
(一)數字化采集與海量存儲
在傳統文化數字化系統體系中,傳統文化原始素材從來源上大致分為來自圖書館、來自博物館、來自美術館、來自各種旅游景點的實體實物和非物資文化遺產等文化遺存,因此根據傳統文化來源對傳統文化以文本、圖片、圖像、音頻、視頻等非結構化數據(信息)形式進行分類采集與梳理,數字化為相應的數字圖書館、數字博物館、數字美術館、數字旅游景點和數字非物質文化遺產遺存等數字資源。
數字化采集到的數據有結構化數據和非結構化數據,結構化數據(如二維表數據)由于其數據量不大,采用塊存儲方式,如:SQL Server。非結構化數據(如圖像、音頻、視頻、文本等)由于其占比越來越大,為滿足大容量、高吞吐的存儲要求,系統對非結構化海量數據存儲有文件存儲和對象存儲兩種方式,相應地,它們分別采用樹狀嵌套分層結構和扁平結構,分布式多節點并發處理,以物理上分散、邏輯上集中的形式存儲。其非結構化海量數據存儲框架如圖2所示。
圖2中,文件存取統一接口,封裝了系統中非結構化數據的讀寫操作接口,其中Hadoop HDFS負責對大文件的存儲,HBase負責對小文件的存儲。
對象存取統一接口,封裝了對象文件的元數據和接口命令,該元數據是獨立出來的,并不封裝在對象文件內部,這樣可以大大提高對象的排序、分類和查找速度。
針對文件存儲和對象存儲兩種非結構化數據海量存儲方案,實際應用中要根據具體情況而定,其適用場景及特點如表1所示。
所謂元數據(Metadata)指對象數據的標簽,記錄著對象的各種描述信息。
(二) 異構系統整合與資源共享服務
異構系統整合與資源共享服務采用應用虛擬和資源虛擬技術,為數字圖書館、數字博物館、數字美術館、數字旅游景點、數字非物質文化遺產等分散數字資源共享、服務整合和異構系統之間互融互通,提供基于標準、面向服務、事件驅動的數字化資源服務、共享,主要包括以下關鍵技術:構建統一的資源數據標準,異構系統的互融互通,資源共享模式與調度,數據質量檢測和數據運行監控,推送各類優勢資源,統一應用認證。
其一是構建統一的資源數據標準,包括資源標識符標準、資源元數據標準、資源互操作標準和資源目錄標準等。現有的海量數字化資源,分散在不同地方,不同系統中,要實現資源共享,必須構建統一的資源數據標準,獨立于不同的應用,才能進行資源數據融合,完成資源數據的交換和集成,達到資源共享。
其中,資源數據標準中的數據源,要兼容支持各種類型的數據庫,既支持結構化數據又支持非結構化數據,包括SQL Server、Oracle、MySQL、DB2,Cube數據集市、XML、SOAP服務、REST服務、RSS服務等。
其二是異構系統的互融互通。通過異構數據橋接方式,使用統一資源數據標準,統一異構系統之間的資源數據,從而實現異構系統的互融互通。異構數據的橋接可提供上百種數據轉換的組件,用戶根據自己的數據轉換規則選擇相應組件,完成復雜的數據轉換需求,用到的數據庫數據轉換組件有:字段拆分組件、字段組合組件、數據過濾組件、多字段計算組件、空處理組件、字段映射組件、數據類型轉換組件、腳本轉換組件等,可實現異構數據與數據交換網關的橋接,不需任何編碼即可實現資源的服務化共享(通過配置自動生成REST/SOAP服務)。
其三是資源共享模式與調度。從共享管理角度看,資源共享采用層次化方式,即,國家、省、市、縣或頂級節點、二級節點、三級節點……。其共享模式如圖3所示
圖3中,位于n層的每個節點內保持了本節點的資源統一目錄、資源的元數據庫和部分熱門成品資源,該層節點將各自元數據提交到其上層所屬節點,上層節點對其管轄的所有節點提交的元數據進行審核,并保存通過審核的元數據,同時將審核結果告知被管轄節點;頂級節點保存其下屬所有節點的總目錄、總元數據和部分熱門資源;
資源共享時,使用頂級節點的總目錄,根據資源元數據定位到該資源所在節點,然后按照算法調整該資源的熱度值,同時按照相應的調度策略,將該成品資源同步至頂級節點;用戶通過頂級節點的統一目錄對資源進行檢索和下載;用戶之間采用當前廣泛應用的IP電話、IP視頻、IP會議的國際標準的JXTA P2P端到端數據通信架構來傳輸資源,端到端之間可以自動根據帶寬創建多條并行數據傳輸通路,任何一條通路出現故障,均不影響端到端的數據傳輸,保證了端到端傳輸的實時性和高可靠性。
其四是數據質量檢測和數據運行監控。使用DQC(Data Quality Control)和SLA(Service Level Agreement)工具進行數據檢測與監控,及時發現使用中不斷暴露的數據問題,補全數據缺失、不準、不穩定等,完成數據清洗,去掉冗余數據,構建閉環的數據生態,推動資源數據質量提升;
其五是主動推送各類優勢資源。根據大數據分析與反饋的結果,將滿足各層次文化受眾體的傳統文化資源推送出去,將人們喜聞樂見易于理解的資源推送出去,人們通過手機、電腦、移動終端發出服務需求后,共享平臺會通過瀏覽器向用戶提供資源和程序等。
其六是統一應用認證。各類傳統文化應用數量繁多,為了為各類特色應用提供統一的檢索、導航、不同終端訪問接口等,需要統一應用認證。當用戶訪問平臺時,輸入用戶名和密碼進行登錄,賬號信息被保存,該用戶通過平臺訪問其他應用時,被保存的賬號信息被傳遞給該應用,從而實現統一應用認證。統一認證流程如圖4所示
(三) 大數據分析與反饋
大數據分析的主要目的是精準推送資源和輔助決策。
平臺采用HDInsight分布式計算,處理大量非結構化和結構化數據并快速從中獲得價值,整合業務分析工具Pig、Hive、Pivot、Map、Impala等,以實現精準分析、精準推送、精準把握群眾文化需求,合理引導文化消費。
1.通過大數據分析與反饋實現精準服務
其一是個性化服務。通過數據分析處理用戶的行為數據,挖掘用戶興趣,提供價值數據,為用戶個性化推薦,包括數字化文化資源推薦、文化應用軟件推薦、興趣群組推薦等個性化服務,提供更精準地投放文化內容,更高效的提供文化服務。
其二是為遠程學習者提供學習指導。通過數據分析處理學習者最感興趣的傳統文化是哪些,最想學習的傳統文化是哪些,或最合理的授課、時間安排、地點安排,以提高中華優秀傳統文化傳播的受眾精準性。
其三是方向性指導。通過數據分析文化熱點,實現大眾主流文化需求的精準推送,精準對接大眾傳統文化需求,從而滿足大眾文化需求,貼近大眾審美趣味,有效增進大眾參與度,吸引青年人主動了解和傳播優秀傳統文化。
其四是趨勢指導。分析大眾喜聞樂見的文化傳播形式,為文化轉化、傳播的展現形式研究及其他應用軟件的開發提供指導。開發者根據反饋,在云系統的API基礎上不斷改進、開發出新的應用產品。有利于管理者制定有針對性的、適合大眾需要的平臺服務來實現傳統文化的創造性轉化和傳播。豐富傳統文化的時代內涵,為民族文化的創新和傳播提供更多的可能。
2.大數據分析工具的選取
不同的數據分析工具有著不同的適用場所,具體選擇根據實際需求來定。
表3中,在數據獲取階段,通過SQL從數據庫中提取數據,也可通過python爬取數據;數據處理階段,如果數據量不大,Excel方便快捷,在大數據量的情況下,使用SQL和Python更為常見,在大量不可變數據的批處理作業中,Hive則最為合適;分析建模方面,Excel、BI工具用于簡單分析,R、SPSS用于專業的統計分析,Python也是不錯的選擇;做可視化時,可以使用常見的BI工具Tableau、PowerBI、FineBI等,報表工程師更適合選擇專業的報表工具例如Finereport,開發人員喜歡選擇開源的可視化工具,如Echarts、Tagxedo。
Hadoop是對大量數據進行分布式處理的軟件架構,能夠處理PB級數據,且使用成本低,是進行大數據分析的合理選擇。其上衍生的Hive、Pig和Impala三種分析工具,Hive是基于Hadoop的一個數據倉庫工具,其語法類似SQL,適合于長周期的、復雜的批處理查詢分析任務,其最大缺點是慢,而Impala是基于Hive的大數據實時分析查詢引擎,適合于實時交互式SQL查詢,數據庫管理人員使用。Impala是處理海量數據的高性能SQL引擎,它的查詢可以達到秒級,甚至有些數據少的可以達到毫秒級,延遲很低,比Hive、Pig或Map Reduce快10到50倍。Pig是一個基于Hadoop的大數據分析工具,其語法是類似shell的數據流語言,運維人員使用。
3.數據分析核心算法
為了幫助管理者輔助決策,實現資源的精準推送,需要從用戶大量行為信息中挖掘用戶感興趣的內容信息[3]、從大眾視角挖掘當前社會熱點信息,圖5描述了第一種情況,圖6描述了第二種情況。
圖5是一個封閉的實時反饋圖,根據用戶m的歷史訪問行為數據,過濾出該用戶的訪問行為偏好,采用內容相關性算法和用戶相關算法,為該用戶推薦內容或應用,跟蹤用戶下一步實時訪問行為,包括點擊、瀏覽時間、下載等,并將此實時訪問行為數據記錄入該用戶的歷史訪問行為數據中,同時刷新用戶的行為偏好,進入下一輪實時反饋。
基于內容相關性算法:
通過分析信息內容的相關性,即,根據用戶瀏覽的信息內容,向該用戶推薦與內容關聯度最大的信息。
內容關聯度計算公式如式(1)所示,最大關聯度公式如式(2)所示:
公式(1)(2) 中,RC值越大表明雙方內容關聯度越大,其中Y是元素Y1,Y2,…Yn的集合,即Y={Y1,Y2,…Yn…},集合中Yn表示從不同角度判斷與信息X具有相關性的第n個信息,RCn表示X信息與信息Yn的相關度,在相關度集合{R1C,R2C,…RnC…}中,求出相關度的最大值RCmax,其對應的Yi就是要推薦的信息。
基于用戶相關性推薦算法:
通過分析兩個用戶相似的偏好,計算他們之間的相似關聯度,關聯度越大者,他們的相似偏好越大,可以根據用戶甲的瀏覽行為,將其他相似度大的用戶瀏覽內容推薦給用戶甲。
根據用戶年齡、性別、職業及其歷史瀏覽的內容1、內容2、……內容i,構建用戶偏好矩陣,并根據用戶再次的瀏覽下載等行為,動態刷新更新此偏好矩陣,用Matrix(X)表示用戶X的偏好矩陣。用戶關聯度計算公式如式(3)所示:
公式(3)中,RU值越大表明用戶X與用戶Y的關聯度越大,其中Y是元素Y1,Y2,…Yn的集合,即Y={Y1,Y2,…Yn…},集合中Yn表示第n個用戶,RnU表示用戶X與用戶Yn的關聯度,在用戶關聯度集合{R1U,R2U,……RnU…}中,如式(4)所示,求出關聯度的最大值RUmax,其對應的用戶Yi的瀏覽信息偏好就是要推薦的。
基于內容相關性算法和基于用戶相關性推薦算法皆是從用戶角度出發,依據用戶個人喜好進行內容推薦,讓用戶得到自己感興趣的內容,從用戶角度考慮很好的解決了用戶需求,但其也存在一些問題,如:該用戶的喜好是否為大眾主流喜好,是否弘揚社會主義核心價值觀等,為保障向用戶推薦的資源屬大眾主流喜好,或是弘揚社會主義核心價值觀的資源,將大眾喜歡的內容推薦給用戶,從而使用基于熱度的資源推薦方法,如圖6所示。
圖6中,首先依據資源大類將數字化內容分為數字化圖書館類、數字化博物館類、數字化美術館類、數字化旅游景點類和數字化非物質文化遺產遺存類,每類資源下有其具體資源1、資源2、……、資源n,對于任選資源,該資源主要展現形式又分為文本類、音頻類、視頻類、VR類等,計算資源下具體展現資源的點擊量、駐留時間與內容量之比、下載量等合成該展現資源的熱度,形成熱度值排序表。當用戶登錄平臺瀏覽時,根據用戶當前瀏覽的展現資源向其推薦熱度值高的資源,熱度值計算如式(5)所示。
hot=αA+βB+γC(5)
A表示某資源的點擊量,B表示用戶在該資源上的駐留時間與容量之比,C表示該資源的下載次數。α,β,γ分別表示A,B,C的動態可調整影響因數。
五、結束語
為了使中華優秀傳統文化得到更廣泛的傳播,將傳統文化數字化是傳統文化創造性轉化路徑之一,也是時代發展的必然趨勢。傳統文化數字化框架體系的構建是文化與科技的融合,是傳統文化數字出版和服務方式的創新,能夠推動移動互聯時代個性化學習,完善文化傳播體系,為加強精品數字文化的生產和傳播,提升我國文化軟實力,促進文化產業的可持續發展提供技術支撐。
[參考文獻]
[1]“十四五”數字經濟高質量發展的行動綱領, http://theory.people.com.cn/n1/2022/0119/c40531-32334626.html
[2] 向江,等.楊毅全國公共數字文化共享云服務平臺研究與設計[J].計算機工程與應用,2018,54(13):258-265.
[3] 韓泉葉,等.基于大數據的高職院校信息化建設框架體系研究[J].電子測試,2020(8).
[4] 韓泉葉,等.基于數據生命周期的智慧校園設計及原型實現[J].中國教育信息化,2021(6).
[5] 高丹,等.基于尾隨迭代分析的精準內容推薦方法[J].辦公自動化雜志,2021(11):62-64.
[責任編輯 李 帆]
[收稿日期]2022-10-11
[作者簡介]韓泉葉(1974— ),女,江蘇省睢寧市人,陜西開放大學教育研究中心主任,教授,工學博士。張耀民(1976— ),陜西省藍田縣人,陜西開放大學信息與智能技術學院院長,工程碩士。
*[基金項目] 陜西省高等教育理論與實踐研究項目“中國優秀傳統文化數字化與傳播保障研究”(項目編號2022HZ0959)。陜西省“大思政課”建設試點項目“一室三會、兩支撐、四平臺”思想政治實踐育人體系的構建與實施。