周子晴/上海大學文化遺產與信息管理學院
2012年,聯合國發布的白皮書《大數據促發展:挑戰與機遇》鄭重宣告:“大數據時代已然降臨,社會各個行業和各個領域將因大數據的介入而發生深刻改變。”[1]面對大數據的沖擊,整個社會都發生顛覆性變革,數據成為國際社會的搶奪點和現代化生存的邏輯起點。2013年,維克托·邁爾-舍恩伯格(Viktor Mayer-Schonberger)和肯尼思·庫克耶(Kenneth Cukier)在其著作《大數據時代》中,首次將“數據化”(datafication)作為一個有特定內涵的專業術語引入大眾的視野。“所以我們姑且稱其為‘數據化’吧——這是指一種把現象轉變為可制表分析的量化形式的過程,數據化和數字化大相徑庭”[2]。數據化旨在挖掘數字信息更復雜、更高級、更直觀的存在形態和數據內涵價值。同樣舍恩伯格也首次提出大數據技術催生了“數據化生存”這一論斷,“明天,我們的下一代,一群被‘大數據觀念’陶冶長大的家伙,會發自肺腑地認為‘量化一切’并從中學習對于社會是至關重要的”[3]。正如南京大學唐正東教授所言,“當今世界已經處在一個數據化生存的語境中,數據的中介使個體聯系在一起,也使主客體世界延伸”[4]。因此與時俱進轉變思維、提前布局尋求突破,方是明智之舉。
截至2022年4月1日,筆者以主題為檢索字段、以“檔案AND數據化”為檢索式,獲得高度相關文獻51篇,對其研讀梳理,發現相關研究主要聚焦以下幾點:一是對檔案數據化的概念、內涵、特征和意義、建設困境和路徑的闡釋;二是比較檔案數字化和檔案數據化的側重點,探討二者演進關系,提出檔案領域從數字化檔案向數據化檔案的轉向;三是探索特定檔案如人事檔案、高校檔案、非遺檔案的數據化建設路徑。檔案數據化進程既有高歌猛進的一面,也呈現出檔案部門一家之言、沒有在大數據時代背景下考量檔案數據化生存問題的態勢。本文將鋪敘從數字化生存到數據化生存的環境嬗變和時代背景,爬梳大數據時代檔案數據化生存困境,力圖尋求檔案數據化生存的出路和突圍之徑。
2020年4月發布的《中共中央 國務院關于構建更加完善的要素市場化配置體制機制的意見》要求“加快培育市場要素,提升社會數據資源價值”[5]。檔案部門應以資源優勢為競爭內驅力,成為當今數據驅動型社會的積極參與者和建設者。因此,透析當代數據化生存的時代背景,厘清檔案數據化生存的理論內涵就顯得尤為重要。
一方面,信息方式的非結構化發展催生了數據化生存。隨著人類對物質世界認知的縱深發展,物理學家對夸克等微小微粒的探索持續推進,微觀物質世界的神秘面紗被逐步揭開。而人類對外部環境的認知也從信息層面發展到數據層面,更接近了“信息”的本質[6]。信息處理和傳播方式經歷了從附著在紙張上的圖文形式到模擬信號的模擬時代,再到以0、1的計算機識別處理符號的數字時代,最后再向萬物萬聯、時空關系被打破、數量龐大且不規則的非結構化和半結構化的數據時代演化。5G測試點遍地開花,2019年成為5G元年,視頻流這一信息表達方式漸成主流,成為孕育數據化生存的沃土。
另一方面,計算機技術、云計算技術、電子媒介技術等現代化技術的發展和演進催生大數據時代的到來。計算機的出現帶來了數字測量和存儲設備,帶來了計量和記錄的革命,也使得通過數學分析挖掘數據的更大價值變成了可能,大大提高了數據化的效率[7]。以云計算為基礎的信息存儲、分享和挖掘手段,可以降低多變的終端數據存儲、分析和計算的成本、誤差以及時間,為其提供處理數據的手段和方法。大數據將一切數據化并儲存起來以便隨時進行量化分析,電子媒介技術為其提供技術支持。通過電子媒介,過去作為“人的延伸”的技術都會轉變成“信息系統”,“將人類的意識遷移到電腦中去”,“給人的各種感覺編制程序,使之更接近于人的意識”[8]。互聯網的普及和移動終端及第五代信息技術的快速發展,全面提升了互聯網應用平臺對個人數據的采集和處理能力,數據化生存時代悄然而至。
“數字化”和“數據化”議題密不可分,它們是不同的信息方式,前者是信息社會的技術前提,后者是信息社會的信息基礎,二者缺一不可。數字化是把模擬數據變成計算機可讀的、以0和1表現出來的數據,以比特的形式存在,和數據化有本質上的不同[9]。數據化關注的是信息內涵的剖析、信息內在價值的挖掘、信息發展規律的把控以及信息決策的預判,數據化是對數字化的拓展與深化以及更高形態,二者無法相互替代。
大數據技術、人工智能技術的發展極大地推動了社會“深度數據化”的進程。一般而言,數據化是近代自然科學的基本特征,但這里的“數據化”不再局限于科學意義上的數據化,特指人類行為和社會活動的數據化,即將社會行為轉換成在線量化的數據,從而能夠對它進行實時跟蹤和預測分析[10]。我們也可將這種數據化稱為社會數據化,其目的在于將人類行為和社會活動計算機數據化,通過數據挖掘和處理,創造新的價值,即將數據轉換成新的價值形式[11]。關于數據化生存和檔案數據化生存,目前學界尚無統一明晰的定義。因此基于以上理論基礎,筆者將“檔案數據化生存”定義為“以檔案價值挖掘、滿足檔案受眾需求和決策預判為宗旨,以數據思維為意識形態引領,將豐富多樣的檔案形態轉換成數據態并對其進行操控、跟蹤、關聯性分析和處理以及風險管理的全過程”。
尼克·庫爾德里(Nick Couldry)和尤利西斯·A.梅西亞斯(Ulises A. Mejias)在《連接的成本:數據是如何殖民人類生活并使其為資本主義所用的》一書中,重新定義了數字時代的數據殖民主義:“隨著當前對數據的收集、處理和提取價值的普遍化,形成的一種新的促進經濟增長的分配和掠奪世界資源的方式。”[12]利用數據技術對用戶開展精準畫像、控制社會輿論導向甚至操縱政治選舉或外交決策已屢見不鮮,“2021年臉書封殺澳大利亞政府”事件、“哈薩克斯坦因天然氣漲價問題出現大規模騷亂”事件、“英國脫歐”事件等背后暗含的資本邏輯和數據管控、體現的數據殖民本質給我們敲響了警鐘,大多數國家由于無力反抗已在無形中淪為數據殖民地。檔案部門作為不可或缺的數據管控者和數據治理參與者,數據主權安全風險成為大數據時代的重要議題。檔案數據生成、采集與存儲過程中面臨過度采集利用、泄露或被竊取的風險,檔案數據跨境管理和流動存在諸多風險,本國數據流失、情報泄露等隱患逐漸凸顯,檔案數據監管問題未有定論。此外如何推進檔案數據治理、助力檔案部門融入國家數據治理體系、建立新的國際秩序等,也需要探索。
習近平總書記指出:“數據是新的生產要素,是基礎性資源和戰略性資源,也是重要生產力。”[13]互聯網技術日新月異,數字經濟時代悄然而至,數據的資產性特征日益凸顯,數據逐步成為企業之間、企業和政府之間以及新一輪國際競爭中爭奪的戰略性資源和核心,與之相伴的數據資本化運作、數據資源被搶占等問題不斷沖擊現有的信息格局,大數據時代新的數字鴻溝由此產生。此外,政府與公民、企業與消費者之間因數據不對稱而導致的隱性不公等問題日益嚴峻。大數據時代的數據革命、數據思維和數據文明,與人們的生存發展邏輯關聯性較強。我國檔案學發展過程本身就是一部技術變革史,然而在此輪與企業、政府和公民的數據博弈中,檔案部門似乎并未占據制高點,技術匱乏帶來的內驅力不足的問題亟待解決。一方面,檔案館原有的檔案資源數字化程度還不夠高,而各地的大數據中心建設正如火如荼,無數據可管或將成為未來檔案部門數據化生存的最大威脅和挑戰;另一方面,檔案部門的技術、人員和資金支持等相較于其他數據掌控者稍顯落后。
21世紀是大數據的時代,更是數據可視化的時代。這不僅因為各領域的專家學者都能利用數據可視化開展學術研究,也因為信息技術作為一種普遍的技能為大多數公眾所掌握甚至精通,數據可視化越來越“親民”[14]。數據可視化作為技術實現和藝術表達的綜合結果,對數據進行分析、視覺呈現、傳播、預測,輔助決策和記錄居民日常生活。在媒介融合語境下,大眾早已進入了“讀圖時代”,這標志著圖像主因型文化取代了傳統的語言主因型文化[15]。現如今短視頻作為數據的最新呈現方式,抖音、快手、小紅書等短視頻社交媒體平臺異軍突起,重新形塑人類社會的交往方式和運行秩序。檔案資源開發利用是檔案工作重要環節,目前存在開發利用力度不強、覆蓋面較窄、數據化成果匱乏等問題。青島市檔案局承擔了國家檔案局科技項目“大數據背景下檔案信息資源挖掘策略與方法研究”,形成“數字圖像+檔案目錄數據庫”,成為推動檔案數字化進程的重要舉措,但檔案的數據化開發、檔案數據的圖像、視頻等可視化表達等仍處于起步階段,且極具影響力的成果較為匱乏。
近年來,隨著計算機和信息技術的發展,大數據挖掘正深刻地改變人類的生活。大量數據流與日益提升的算法分析和技術能力相結合,使人們能夠利用基于機器學習的算法來解決復雜問題[16]。智能算法在一定程度上能克服人類決策的主觀性,但也帶來了算法時代數據化生存的深度疑慮:誰有能力和權力控制數據?誰在實際控制著數據?控制了數據意味著什么?這些問題背后隱藏著算法傳播的興趣偏向和渾然不覺的符號暴力,更復雜、更隱蔽的歧視帶來了檔案數據化生存的傳播新困境。一方面,凱茜·奧尼爾在《數學毀滅武器:大數據增加不平等和威脅民主》中警告,算法存在著不透明、可擴展且不公平的特點,可能會把我們引入歧途,如強化針對窮人的歧視、強化種族主義和擴大不平等[17],而這與檔案維護社會公平正義、消除種族歧視和各種不平等現象的初衷與使命相悖。另一方面,隨著算法與資源分配深度融合,算法歧視進一步惡化了分配不公的情況。如商業算法運作中普遍推行“動態差異化定價”即殺熟等消費歧視,以及信息繭房等信息歧視,都讓檔案的網絡化傳播之路荊棘叢生。檔案主動推送機制不成熟且起步較晚,當今平臺為吸引用戶以實現流量變現而打造的傳播環境對于檔案部門這類起步晚的新用戶十分不利,因此檔案較難實現個性化精準投送和互聯網大范圍傳播。
在《大數據時代》一書中,舍恩伯格斷言應樹立大數據思維,指出“一旦思維轉變過來,數據就能被巧妙地用來激發新產品和新型服務”。數據、技術和思維是大數據價值鏈的主要構成要素。大數據思維是其中的一個要素,可以直接創造價值,“所謂大數據思維,是指一種意識,認為公開的數據一旦處理得當就能為千百萬人急需解決的問題提供答案”[18]。對于檔案工作者來說,樹立大數據思維包括三個層次:第一層次需要認識到利用大數據技術可以解決許多檔案問題,如實現檔案的跨時空傳播和共享,提供高質量、深層次的檔案數據資源、數據服務和知識服務。此外,還需要充分認識檔案數據化的必要性和重要性。第二層次意在認識大數據如何解決檔案問題,如在思維方法上,傳統思維方式以因果關系分析為主,大數據思維方式則轉向相關關系分析,通過分析受眾需求的關聯性,實現檔案從被動服務向主動推送的轉變。第三層次需要樹立關于檔案大數據的反思和批判思維,實現從感性認知向理性分析的思維轉變,剖析大數據背景下檔案數字化建設誤區,強調檔案數字化不能代替檔案數據化,并且避免檔案大數據被過度炒作。檔案數字化建設應以著錄標引等標準化和規范化工作為基礎,以推動檔案數據化,進而創新檔案服務模式[19]。因此檔案工作者樹立數據思維和創新思維,能打破原有的思維僵局,彰顯想象力經濟時代的大智慧。
數字人文是一種將數據化思維及其工具、方法作用到傳統人文學科中的一門新興學科,其將量化思維與實證傳統相結合,彌補了傳統人文學科實證研究中對于量化分析的觀照不足[20]。隨著數字轉型升級和新技術環境變遷,檔案管理對象由數字態轉向數據態[21],檔案部門也逐漸發覺二者在資源、目標上的高度契合,檔案與數字人文的跨界融合日益縱深,數字人文為檔案的數據化呈現和人文開發提供新視角,數字人文技術為檔案數據層的挖掘與關聯、檔案知識服務提供新方法。現如今我們每個人都不可避免地生活在技術社會中,科技迅猛發展帶來的“內卷”、害怕被時代拋棄而產生的焦慮心理等帶來了許多問題,人們的生活被技術社會所肢解。檔案部門開展數字人文項目能彌合科學與人文的裂痕,利用科技傳播人文關懷和人文理療,甚至帶來美學體驗。歐洲“時光機”項目、浙江臺州高遷古村落數字記憶項目等,都是數字人文項目的經典案例,都提供了很好的經驗。但可以發現,數字人文的困境和痛點也已顯現,我國數字人文研究因文本與語言的特殊性,要求基礎技術、數據庫和專業軟件的研發必須匹配中文語境,由此導致了技術開發困境[22]。除此之外,對數據的過度信任和依賴、對算法的過度崇拜,會遮蓋數字人文研究的人文屬性。因此檔案部門應堅守人文治療的初心和使命,在技術社會中發現自身特性。
當前人工智能蓬勃發展,已廣泛應用于醫療、企業、教育、城市建設等領域,并取得成效。人工智能的廣泛應用必將為檔案管理帶來深遠而全面的變革,利用“大數據+AI”或將為新一輪智慧檔案館建設提供新的著力點。第一,對人工智能技術、大數據技術等進行深入研究,如機器學習、大數據關聯分析、大數據分類等技術,并將其與智慧檔案館建設深度融合,為檔案利用時的精準查找、用戶畫像、檔案數字化、檔案智能編研等提供技術支持。第二,助力智慧檔案館運營,人工智能為數字檔案的信息安全和紙質檔案安全提供監控和保障,為智慧檔案館的能級提升和大數據競爭等提供決策依據。第三,推進智慧檔案隊伍建設,人工智能助力提升檔案從業人員的科技素養和信息素養,完善檔案用戶對檔案服務質量的評價與反饋體系。第四,打造面向用戶的服務型智慧平臺,以用戶的數據需求為索引,以用戶的檢索軌跡為依據,通過打造AI在線客服、AI對話型服務機器人等,為用戶提供多感官、多層次的檔案服務,打造一個人文關懷、沉浸式多感官體驗、情感觀照和記憶重現的綜合性公共空間。需要把握好人工智能的價值審度、倫理調試以及賦權限度,堅持以人為本的思想,遵循人工智能的倫理。
信息的推廣和傳播從模擬時代向全媒體時代邁進。自媒體平臺的興起引發了傳播方式的重大變革,實現了信息的供需適配,在提升信息匹配效率的同時,也帶來了算法和規則下新的信息“黑箱”和數據資本化視域下的信息霸凌,檔案信息的傳播與擴散也深受其害。因此,一方面,檔案的數據化轉型必將借勢5G時代,利用“視頻流”這一檔案數據化生存的重要突破口,尤其是短視頻,在抖音、快手、小紅書、知乎、嗶哩嗶哩等社交媒體網絡上傳播內容簡短但受人青睞的視頻,響應平臺活動和話題,吸引大量用戶參與討論,達到引流的目的。此外還需推進用戶精準化管理,通過分析其社會地位、興趣偏好、行為表征、社群特征或行為結構,提供相應的檔案數據個性化推送服務。另一方面,數據化時代“算法+規則”的平臺運營機理的精神內核就是數據相關性,要想實現算法逃逸,需要將目光重新聚焦在“為什么”等問題上。
大數據技術、人工智能和第五代信息技術的迅猛發展,使得信息產業原有邊界模糊甚至消失。大數據時代將驅動一場新的信息生態革命,信息技術不僅會改變檔案數據生產和分發的流程及模式,也將觸發檔案部門運行機制的改革和產業結構的優化升級。檔案數據化生存是時代發展的必然結果,檔案部門更應順勢而為。