高建輝,祁建華,師 薇
(楚雄師范學院圖書館,云南楚雄 675000)
彝族口述歷史資料是重要的非物質文化遺產,記錄了彝族在歷史發展過程中形成的政治、經濟、文化、宗教、源流等各方面的歷史和文化信息。彝族地區的很多圖書館、檔案館和文化館等機構都把它作為特色館藏資源進行采集和收藏,有的還建立了數據庫,但目前這些資料的開發利用水平基本還停留在粗放和淺層次的狀態,利用效率很低。2016年12月國務院印發的《“三五”國家戰略性新興產業發展規劃》特別強調大數據時代文化創意創新和新興文化產業培育。在互聯網時代,大數據既是內容也是媒介,同時還是技術手段。[1]數據分析和數據挖掘等技術的應用將改變原有的開發利用模式,推動資源開發利用能力由被動向主動轉變,由數字化資源服務向智慧化資源服務轉變,使資源產生更大的經濟和社會效益。
由于彝族口述歷史資料數據庫(以下簡稱“數據庫”)用戶大多是科研人員,利用大數據分析工具對資源和利用情況進行統計和聚類分析,可以總結和挖掘大數據背后的規律,為歷史學、民族學、語言學、圖書情報學等學科研究指明熱點和趨勢。通過分析用戶檢索詞的學科屬性來拓展研究領域,統計資源中時間和事件的對應規律可以總結出彝族歷史發展過程中文化創新的規律,挖掘用戶訪問的熱點知識可以為學術研究指明方向。
通過對數據結構和用戶行為的分析,可以指導彝族歷史文化的保護和傳承工作。第一,根據大數據分析的結果,可以優選采訪對象,篩選出重點保護內容、保護對象和保護區域進行搶救性采集。如找出訪問量最大的專題模塊、檢索的關鍵詞頻率、熱點資源和口述者等進行重點采集。第二,根據資源統計數據,可以了解各種類型資源的比例,宏觀控制每類資源的數量,從而指導數據庫建設中的數據采集工作。[2]如分析資源的主題和地域及數量情況,可以發現資源的分布規律,指導資源的采集和更新,使數據庫資源體系不斷優化。
第一,根據用戶訪問數據統計,可以得出訪問的流量情況和受訪情況。利用這些數據,可以完善數據庫服務平臺,優化檢索策略。如通過數據找出用戶訪問量最多的欄目、數據條目或字段,完善檢索庫和索引庫,自動推送熱門資源,發現數據之間的關聯,建立語義檢索策略。第二,大數據也是資源,是智慧化利用的基礎。運用大數據思維開啟智慧化利用,可以創新服務方式,提高資源利用率。如利用各種大數據統計分析結果支持彝族特色資源和民族文化的智慧化宣傳展示,為其提供數據支持。
資源建設是開發利用的基礎,沒有資源,開發利用就是無源之水,無本之木。第一,雖然目前部分機構開展了彝族口述歷史資料的收集整理及數據庫建設工作,但總體上彝族資源還是比較匱乏,大數據開發利用的基礎比較薄弱。第二,現有的資源大多沒有經過科學化和規劃化的整理。彝族口述歷史資料一般以音頻資源為主,標引著錄是其數據庫建設過程中最耗時耗力的工作,大多處于零散狀態的資源無法進行大數據分析。第三,各類資源保存機構之間沒有形成共建共享機制,無法開展不同機構之間數字資源的區域性整合,這極大地限制了資源的外圍拓展,最終導致大數據分析結果的普遍性和代表性降低。
第一,彝族口述歷史資料的傳統開發模式主要是以出版編研著作和光盤為主,并內容偏重于歌謠和民間文學,如各地大量存在的“民間文學集成”系列圖書、各種類型的“酒歌”“民歌”光盤等。對于其他內容和形式的開發成果很少,如哲學宗教、歷史政治等主題。
第二,目前開發形式不符合現代用戶的利用習慣和需求。傳統的開發模式信息服務比較單一化,更新不夠及時,沒有充分利用現代信息技術,數據庫資源都是以簡單網站的形式呈現,檢索體驗和展示效果差,沒有考慮移動終端的利用需求,缺乏良好的用戶體驗,資源利用效益低。
第一,傳統的利用平臺缺乏個性化服務,無法應對讀者多元化的需求。資源保存機構一般以網站的形式提供資源的檢索和下載,用戶資源的獲取盲目而呆板,用戶無法參與資源建設,資源建設和利用沒有形成良好的互動。
第二,資源提供機構未能充分挖掘和利用數據。資源和用戶沒有建立關聯信息庫,無法提煉和發展讀者的隱形需求,無法真正體現資源價值。
第三、沒有實現資源的智慧化管理,利用服務的人文智慧程度不高。如用戶遇到的問題難以及時反饋和解決。資源世界和物理世界沒有實現連接,缺乏直觀形象的資源宣傳和展示。[3]
1.數據來源
本文所分析的數據來源于楚雄師范學院圖書館建設的“西南彝族口述歷史資料數據庫”。[4]該數據庫于2017年開始建設,目前共包含4029條彝族口述歷史資料,資源類型主要有音頻、視頻、圖片和文字,內容涵蓋彝族歷史政治、語言與文學、歌謠與藝術、科技與教育、哲學宗教、禮儀習俗等方面。每一條數據都包含資源的格式、內容提要、來源、關鍵詞、日期、采訪者、口述者、語種、方言類型、主題分類、采訪地點、時長、比特率、文件大小、整理上傳者、口述者詳情、全文鏈接地址等詳細信息。該數據庫著錄規范、內容全面,既有采集的資源,也有整合的資源,這些彝族口述歷史資料都用音視頻或文字形式的如實記錄,是研究彝族歷史文化不可或缺的重要原始資源,具有很強的代表性。此外,分析時對于有時間效應的資源則選取最近一年的數據進行分析。
2.分析工具
在數據分析領域,分析工具一般分為四個層次:數據存儲層、數據報表層、數據分析層、數據展現層等,每一層都分為用戶級、部門級、企業級和BI級。在本文的分析中,存儲層采用MySQL數據庫,是最流行的關系型數據庫管理系統之一,在 WEB 應用方面,MySQL是最好的 RDBMS,也是部門級的互聯網數據庫必備的軟件,搭配 PHP 和Apache 可組成良好的開發環境。當有了數據后,首先要解決報表問題而不是分析問題,這里采用部門級軟件Tableau,它也具有部分可視化分析功能。數據分析層軟件比較多,我們采用用戶級的Excel和部門級的SPSS兩個軟件,前者功能靈活多樣,后者可以及時地自動統計繪圖和進行數據的深入分析。表現層主要是應用一些小工具,包括用戶級的PowerPoint和企業級的Xcelsius軟件,可以及時地在互聯網上對分析結果進行展示。[5]
1.資源結構分析
(1)資源類型結構。彝族口述歷史資料主要由四種類型組成(如表1所示),其中文本歷史資料比重最大,其原因是該類型資料獲取和著錄相對容易,與音頻資料的占比超過了90%,是資源開發利用的主要類型。

表1 彝族口述歷史資料資源類型統計表
(2)資源主題結構。彝族口述歷史資料的主題分布(如表2所示),從中可以看出,語言文學與藝術是占比最大的資源,體現了彝族愛好藝術和文學的民族特性,為專題開發利用提供了主題方向,也為資源建設提供了重點。
(3)資源更新情況。2018年資源的更新情況(如表3所示),2018年共更新數據2155條,平均每天更新5.9條,資源更新頻率較高,相關數據適合用于宣傳展示。

表2 彝族口述歷史資料主題分布統計表

表3 數據庫2018年數據更新統計表
2.平臺應用分析
(1)總體流量分析。從表4可以看出,2018年內資源使用量有逐漸下降的趨勢,表面上人們對該數據庫的程度正在降低,也反映了關心數據庫的宣傳推廣有待加強。從受訪占比來看,訪問IP比重較少,說明用戶來源比較集中,獨立訪客和瀏覽次數占比差不多,說明同一來源地的用戶變化較大。如果要提高數據庫的使用效益,需要進一步鎖定意需用戶。

表4 數據庫2018年7月至2019年6月的訪問流量統計表
(2)熱門資源和熱門欄目分析。從表5可以看出,用戶關注的熱門資源主要是梅葛、馬纓花、彝弦、咪依嚕傳說等內容,熱門欄目是民間故事和傳說。這些內容主要是彝族文學和藝術領域,與表2對比可以看出數據庫中資源的主體內容基本符合用戶的需求,也反映了目前彝學研究的熱點領域。從欄目訪問次數還可以看出,用戶對圖片類資源的興趣要高于其他資源,因而開發利用時要以用戶需求為導向。

表5 數據庫熱門的資源和欄目統計表
3.用戶行為分析
(1)用戶來源地點分析。從表6中可以看出,用戶較多的地區有北京、云南、美國、浙江、湖北、上海等,其中美國和浙江的訪問量主要來源于美國谷歌公司的搜索引擎和浙江杭州市阿里巴巴公司的BGP數據中心,說明通用搜索引擎對用戶利用數據庫資源起到了重要的作用,是獲取資源的重要入口,北京市訪問量大,其主要原因是北京地區的高校眾多,學術需求較多,如北京傳媒大學、北京郵電大學、中國人民大學、北京體育大學等機構的訪問量都較大。云南省訪問量主要來源于省內高校和本地用戶。此外,貴州畢節、四川涼山等彝族聚居區及廣西訪問量也相對靠前。湖北省武漢市訪問量相對較大的原因是該數據庫的技術支持公司在當地,日常維護也產生了大量的訪問數據。來自我國東北和北方訪問量普遍較少,說明這些地區關于彝族的研究很少。

表6 數據庫用戶歸屬地統計表
(2)用戶檢索詞分析。第一,關鍵詞詞頻統計。最近一個月檢索頻率較高的部分檢索詞統計如下:一是以來源檢索:《云南省民間文學集成》《巍山彝族回族自治縣民間歌謠集成》《巍山彝族回族自治縣民間歌謠集成》《哀牢山文藝》《祿豐縣民間故事普查資料匯編》等。二是以口述者檢索:胡阿云、白正寬、左峰、劉志新、倮木、張福、葉連富、張秀珍、鄂美林、師有福、赫青龍、普正才、李澤、畢慶鑫、何剛、柳遠超、恩扎洛格、海來惹機、海乃一新、阿比伍各、楊興榮、楊榜、王獻元、李增耀、普長壽、李國森、沙馬拉毅、龍倮貴等。三是普通檢索:彝語、畢摩說親、吟禱詞、守孝、征兵、阿伸妮、獻水、換號角、飛龍馬、樂金仙、野牛、鸚哥、克智、阿細先基、選婿、拉羊、挑女兒、沙冒山、彝族女權、捉龍賣、雞的傳說、變家禽、查姆、白晶山、指路經、癩蛤蟆、祭祖大典、氏族、蒙險蟲、老虎祖宗之毛、大閹雞、金葫蘆、碗窖、火塘邊、阿魯舉熱、殉情、中年梅葛、延壽橋、老妖婆、桂花、想戀、麂子、癱子馬、紅痣、肉瓜、龍溶等。四是以關鍵詞檢索:婚俗、砍火地、請神、開堂、彝話、漂亮、梅葛、開天辟地、怨憤、瞧郎、勞累、打冤家、彝族不吃狗肉、非物質文化遺產、山歌、感恩、癩疙寶討媳婦、火頭等。五是以地點檢索:貴州省大方縣響水鄉青山村、云南省峨山彝族自治縣、新平彝族傣族自治縣、石屏縣一帶、景東彝族自治縣、永仁縣彝族地區、巍山縣、紅河。從中可以發現,用戶的檢索方式主要以普通檢索為主,口述者檢索為輔,其他檢索為補充,檢索詞涵蓋的范圍比較廣泛。
第二,高頻關鍵詞分析。彝族相關研究領域的學者和彝族地區的檢索量也比較大,有的比較奇特,可能是首次遇到,而且不明白其含義,這樣的檢索詞比較珍貴。這些內容很多并非數據庫中的內容,通過對這些檢索詞的收集和分析,既可以了解近段時間用戶需求的熱點,還可以指導資源采集工作。
地鐵車輛采用不同的車輪,利用有限元分析軟件LS-DYNA,針對完全相同的兩列4節編組地鐵列車在不同的載荷類型和軌道類型下發生正面碰撞的情況,建立仿真計算模型,研究彈性輪在碰撞過程中對車輛安全性的影響。
第三,關鍵詞聚類分析。通過分析工具,把聯系密切的關鍵詞聚集在一起形成類團,可以大致揭示彝學研究領域的重要人物關系與研究分類。
(3)利用方式分析。從表7可以看出,用戶利用方式主要是以直接瀏覽和簡單檢索為主,高級檢索相對較少,說明目前用戶中對彝族口述歷史資料進行一般了解和簡單查詢的人數較多,進行深入研究的學者較少。用戶檢索習慣也為元數據的著錄工作提出了要求。

表7 數據庫用戶利用方式統計表
第一,智慧型門戶網站不同于普通數據庫檢索網站,響應和感知是其核心。網站在運行過程中可以感知用戶需求,對大數據進行實時分析,就用戶關注的問題進行相應的、有針對性的調整,實現兩者的良性互動。[6]
第二,對資源進行智慧化管理,隨時掌握資源的動態。網站可以建立熱門檢索詞、熱門欄目、熱點資源的推薦模塊。對熱點信息進行排序和展示,可以引導用戶的檢索和研究思路,激發用戶的靈感,提升用戶之間的認同感。
第三,建立智能交互式模塊,使用戶參與資源建設。如表7中很多內容都沒有包含在數據庫中,要充分利用大眾的力量補充資源。用戶可以通過一個智能化界面,直接編輯用戶的圖片、視頻、音頻等數據,然后上傳到數據庫中,由數據庫管理者審核后就可以供其他用戶使用,提高資源的更新速度。
第四,建設專題子庫。根據用戶使用情況的大數據分析結果,將某個方面資源信息進行總匯后,重新組織成新的知識單元,充分利用已有的資源和圖書館其他數據庫的相關知識信息,在此基礎上建立各種資源專子題庫。
第一,建立智能檢索系統。一是整合相關機構的資源,把數據庫嵌入到圖書館或檔案館等機構門戶網站的檢索系統中,并與同類數據庫進行關聯,實現彝族文獻信息資源的一站式檢索。二是提供的專業的檢索功能,支持任意復雜的布爾邏輯檢索式搜索。提供中外文多種同義詞、相關詞的提示,方便擴展搜索。三是檢索結果具有聚類分析功能。提供多種聚類分析模式和圖示,使用戶能快速獲得搜索結果的各種分布情況。四是檢索結果排序時考慮相關性和重要性。相關性可采用各字段加權混合索引,重要性則通過對文獻來源權威性分析,實現對資源質量的評價,使結果排序更加科學。
智慧化宣傳和展示是虛擬空間和物理空間相連接的橋梁,通過圖書館等機構的智能硬件和門戶網站,可以實時展示分析大數據結果,起到很好的宣傳作用,提高數據庫的使用量。在圖書館的各類顯示終端上,適合展示數據的可視化圖形包括四類:一是趨勢圖。以時間為橫坐標,適合于展示數據庫訪問和利用數據隨時間的變化情況,如展示數據庫實時訪問流量和資源更新情況。二是數據累積圖,一般為柱狀圖。適合于展示各類熱點的情況,如展示用戶來源的熱點地區、熱點欄目和熱門資源。三是餅狀圖,也可采用分段柱狀圖。適合于展示各資源和用戶結構和組成以及各組成部分所占的比例。如展示數據庫資源類型和主體結構、數據庫利用方式構成比例等內容。四是關鍵詞聚類分析圖。適用于展示人名、地名、事物等各類詞語的相互關系。除此,還可以用文字滾動的形式動態展示檢索熱門詞和實時檢索關鍵詞。
在媒體融合的背景下,用戶獲取資料途徑多樣化,為用戶提供精準信息資源服務,需要開發各種類型的智慧服務平臺。
第一,研發數據庫移動端APP應用。移動應用已經占據了互聯網訪問流量巨大市場的份額,考慮到未來的發展趨勢。目前數據庫都必須適應移動檢索、閱讀和學習等移動端需求,打造完善的彝族特色資源服務生態體系。
第二,建立微信公眾號和官方微博賬號。用戶可以通過公眾號平臺采集和分析資源,參與資源共建。目前微信公眾關于彝族文化的專題庫已有很多,如“彝族”“彝族社區”“品讀彝族文化”“萊國索”等公眾號,但缺乏綜合性的資源平臺。微博和公眾號可以每天以官方的形式公布最新或熱門資源的音視頻及介紹,宣傳彝族歷史文化,進一步擴大數據庫的影響力。
第三,開發管理員移動端管理功能。對數據庫管理功能進行集成,包括資源的審核與增刪、權限控制、用戶管理、數據實時監控等功能,滿足管理者隨時隨地監管數據庫的需求。
第四,開發用戶交流平臺或論壇,分享研究成果,記錄學習過程,交流心得,形成一個完整的知識服務空間。
本文在楚雄師范學院圖書館“西南彝族口述歷史資源數據庫”的基礎上進行深入思考,通過對該數據庫的資源、用戶和平臺等方面使用情況的大數據分析,也提出了數據庫智慧化開發利用策略,其中所用的大數據分析方法和開發利用策略同樣適用于其他少數民族特色資源數據庫。這些方法和策略為民族地區圖書館和檔案館等文化機構開發利用本地少數民族特色資源庫提出了新的思路,為數據庫下一步建設和開發利用方式指明了方向,亦基于大數據分析的智慧化開發和利用。