溫愷寧 熊靜



摘要:當今,我國國民的有聲閱讀率持續上升,越來越多的人選擇有聲閱讀的方式來獲取知識與信息,以喜馬拉雅FM為代表的在線音頻分享平臺因資源豐富、獲取方式便捷受到用戶的追捧。隨著近年來“國學”升溫,“國學”和優秀傳統文化類有聲讀物的平臺播放量也在逐年提升。本文通過數據的挖掘與處理,對該平臺國學有聲讀物的選題、受眾以及內容質量進行分析,并據此提出有針對性的建議。
關鍵詞:傳統文化 有聲閱讀 有聲讀物 數據挖掘
自文字誕生起,聲音就與其有著密不可分的聯系,“聲音”在文本與閱讀之間發揮著重要的作用。例如在古希臘,受書本的昂貴性與識字率普遍低下的限制,“聆聽”才是那時候人們最重要的閱讀手段。[1]隨著數字閱讀時代的到來,人們的閱讀行為發生了巨大變化,“讀聲”的閱讀方式越來越受到歡迎。以有聲閱讀為例,由中國新聞出版研究院組織實施的“全國國民閱讀調查”于2018年發布的第十四次報告中首次提及有聲閱讀,認為有聲閱讀已成為國民閱讀新的增長點;該院最新的調查報告顯示,2020年,我國有31.6%的成年國民有聽書習慣,較2019年的平均水平(30.3%)提高了1.3個百分點。對我國成年國民聽書介質的考察發現,選擇“移動有聲APP平臺”聽書的國民比例較高,為17.5%;有10.8%的人選擇通過“微信公眾號或小程序”聽書;有10.4%的人選擇通過“智能音箱”聽書;分別有8.8%和5.5%的人選擇通過“廣播”和“有聲閱讀器或語音讀書機”聽書。[2]
所謂“有聲讀物”,就是“以磁帶、光盤、移動數字終端和其他音頻方式為載體,以文字內容為主體,能夠通過下載、在線等多種形式播放收聽的錄音制品。”[3]隨著有聲閱讀用戶規模的擴大,各種在線有聲閱讀平臺相繼涌現,為用戶提供了豐富多樣的內容供給。其中,以“國學”為代表的傳統文化及相關內容尤其引人矚目。在線有聲閱讀已經成為弘揚傳統文化的重要傳播方式之一。麥克盧漢曾指出中國人是“聽覺人”,中國傳統文化對聽覺存在傳播路徑依賴。[4]余園園認為,我國聽書的傳統奠定了“聽”這一形式在閱讀接受度上的優勢,并且促使部分文化典籍在創作的過程中追求聽覺上的美感,從而使傳統文化具有聽覺美的特質。[5]由此可見,有聲閱讀在文化傳承中有著重要作用,是一種已被研究證明的優秀傳統文化傳播和傳承的有效途徑。
筆者以在線有聲平臺市場占有率第一的“喜馬拉雅FM”為例,搜集該平臺下與國學相關的高播放量專輯樣本,通過挖掘與分析這些專輯的標題、標簽以及用戶評論數據,來對其各項質量特征進行定量化研究。
研究設計
喜馬拉雅FM的檢索系統提供搜索詞的智能關聯功能,以“國學”為關鍵詞檢索,可搜索到同時包括標題、標簽中無明確“國學”字樣的中華傳統文化相關專輯近5萬張,頭部專輯的播放量高達4億,可見,無論是生產者還是受眾對于國學都有著十分濃厚的興趣。喜馬拉雅FM提供的主要音頻內容來源于廣大普通用戶參與創作并分享的網絡音頻,即所謂的UGC(用戶生產內容)音頻。與PGC(專業生產內容)音頻相比,很多UGC音頻的隨意性很強。用戶的異質性與無責任性一方面使UGC音頻包羅萬象,另一方面也必然導致其質量良莠不齊。[6]當前,國內對于UGC有聲讀物質量建設的相關研究較少,主要集中在:受眾傾向于收聽哪些國學內容?受眾是哪些年齡段?什么因素影響受眾喜愛或者不喜愛某張專輯?筆者嘗試通過優質樣本提取、數據挖掘和文本分析等方式對以上問題作出解答。
筆者對上述檢索到的專輯依照播放量進行排序,取前1000張專輯,利用爬蟲技術采集這1000張專輯的標題、標簽、評論數據,經過數據清洗濾除空白、無效的數據后,再利用“GooSeeker中文分詞軟件”進行智能分詞、人工篩選、同義詞合并,并使用百度AI開放平臺的情感傾向分析API接口進行文本情感傾向分析,得到一系列相關數據,從而對喜馬拉雅FM國學有聲讀物的選題、受眾以及內容質量進行研究并得出相關結論和建議。
國學有聲讀物選材、受眾和用戶評價數據分析
選材主題分析。“國學”概念涵蓋面廣泛,包括文史哲等不同主題都可能被喜馬拉雅FM標注為“國學”,而幾乎所有生產者都在標題中體現了該專輯所選擇進行誦讀或賞析的國學材料。本研究在獲得高播放量專輯下,根據不同主題的出現次數與播放量,確定作者與受眾喜愛的國學內容。
在初步的分詞操作完成后,需通過人工判定、篩選與專輯所選材料相關的詞匯。在這一步中,例如“易經”“三字經”“論語”“紅樓夢”等詞匯被初步篩選出來,并按照詞頻高低依次進行排列。不過,此時得到的數據較為零散且會出現詞義包含的現象。
聚類后得到了21個選材主題。由數據可以得出,累計出現頻次最多的前十個選材主題分別是五經(22.07%)>蒙學(18.10%)>詩文(9.19%)>四書(7.64%)>道家(7.21%)>小說(6.65%)>術數(6.51%)>斷代史(3.68%)>醫家(3.67%)>儒家(3.54%)。而累計播放量最多的前十個選材主題分別是蒙學(27.80%)>詩文(20.78%)>道家(15.46%)>五經(9.81%)>小說(9.36%)>術數(4.24%)>醫家(2.71%)>四書(2.16%)>斷代史(1.87%)>儒家(1.29%)。
若對“斷代史”按照時序進一步細分,以“上古”(公元3世紀以前,先秦兩漢)、“中古”(公元3世紀至16世紀,魏晉至明中葉)與“近古”(公元16世紀至20世紀初期,明中葉至“五四”運動)三個時間段進行劃分統計,可得出現頻次中的占比分別為中古(59%)>上古(27%)>近古(14%),而播放量的占比分別為中古(69%)>近古(17%)>上古(14%)。值得一提的是,在樣本中作為中國近古主要朝代的元史、明史都有所缺失,是作者沒有創作出足夠優質的音頻內容吸引讀者,還是讀者群體對于這兩個朝代的歷史并不感興趣?從元明史通俗讀物的暢銷程度來看,后者的可能性非常小。說明該領域有開發的潛力,值得歷史領域的生產者關注。
從統計結果可以粗略看出,專輯作者喜愛選擇的題材與受眾喜愛收聽的內容之間似乎存在一些差異,最為明顯的是“四書”與“五經”,它們在累計出現頻次中的排名都進入了前四;然而在累計播放量方面卻表現平平,兩者合計僅占11.97%。與之相對應的,在累計出現頻次中僅占9.19%與7.21%的“詩文”“道家”卻在累計播放量中分別占20.78%與15.46%,專輯數量雖然不多,播放量卻名列前茅。
為了驗證上面的結論,并分析兩者之間的差異程度,筆者對累計出現頻次與累計播放量這兩份數據進行了線性回歸分析。取全體21個選材主題進行計算,兩者間的相關系數為0.75(置信度99.99%),若只挑選累計播放量前十的數據進行計算,它們之間的相關系數僅為0.59(置信度93.8%)。這表明,某個選材主題的播放量與其出現頻次與之間有著一定的正相關關系,但這種正相關的強度為弱至中等,這說明有一部分出現頻次較高的選材主題確實能獲得與之相應的高播放量。在累計播放量位列前十的主題區間段中更是如此。在該區間段中,有近一半的高出現頻次主題并不如預期,出現頻次較少的主題卻意外地能夠獲取高播放量,這代表著有一部分的受眾并不滿足于生產者大量提供的內容,反而是一些相較小眾、制作不多的題材更受這些受眾青睞,這個現象值得關注。
受眾人群分析。研究發現,喜馬拉雅FM平臺的不少專輯會在標簽欄中標注該專輯針對的受眾人群。通過對一千張專輯標簽欄的數據采集與分詞分析,得到受眾標簽638條,去重后(有些專輯會同時標注多個相同的受眾標簽),可知有534張專輯標注了受眾。在對受眾標簽進行人工篩出后,發現所有的受眾標簽無一例外都與青少年和兒童有關,全年齡受眾的專輯通常不會特別標注“全年齡”相關字樣,多是直接與主題相關的標簽;而提供給青少年和兒童的國學專輯卻非常樂于使用標簽標注自己的受眾,以便家長挑選合適自己孩子年齡段的國學專輯。雖然以青少年和兒童為受眾的專輯從數量上來看僅占總體的一半左右,但考慮到受眾劃分存在年齡分布不均衡的情況,青少年和兒童可以被視為受眾的主力軍。
若以青少年和兒童年齡階段的關鍵詞劃分進行同義詞合并操作,例如將類似于“蒙學”“寶寶”等標簽關鍵詞全部劃分入“啟蒙”中,可進一步細分出標明受眾專輯的青少年和兒童年齡層次。其中,“啟蒙”定義為0—6歲的學齡前孩童,“少兒”定義為7—12歲學齡期兒童,“青少年”定義為13—18歲的未成年人。
按以上規則劃分統計后可以得知,少兒是其中占比最大的受眾年齡層次,遙遙領先于其他兩個年齡層次,占74%;啟蒙占23%,接近1/4,是不容忽視的差異化受眾群體;青少年是占比最少的受眾群體,僅占3%,幾乎可以忽略不計。
受眾評論分析。喜馬拉雅FM平臺的專輯評論區主要由“評論正文”“打分”與“評論的回復”三部分組成,評論直觀地反映了受眾對于國學有聲讀物專輯的態度,以及他們對于專輯的關注點。筆者挑選1000張專輯中播放量前10%的優質專輯,對“評論正文”和“打分”這兩個部分的數據進行采集,初步得到打分為1—10分的所有評論和部分未打分的所有評論。
首先,評論情感傾向分析。共得到28357條積極評論、856條消極評論和少量沒有明確態度的中性評論。總體來看,由于播放量較高的專輯總體素質較為優質,積極評論的數量遠遠大于消極評論的數量,用戶對于優質國學專輯的綜合評價是比較積極的。
其次,消極評論分析。要對評論中分詞篩選得出的關鍵詞進行分析,首先需要確定一個劃分關鍵詞的分類指標。筆者使用遲雨晴提出的“數字有聲讀物內容質量評價因素”[7]中的一級指標進行大類的劃分。該評價因素一級指標分別有選題質量、知識質量、播讀質量、錄音質量、后期質量,每個指標對應的關鍵詞如表2所示,關鍵詞由消極評論分詞篩選后的高頻相關詞匯(出現頻次≥1)組成。由于關鍵詞過多,表中指標只展示部分典型詞匯。
按以上規則統計得出消極評論質量評價指標占比:知識質量(50%)>選題質量(21%)>錄音質量(13%)>播讀質量(9%)>后期質量(7%)。從數據可以得知,有關知識質量方面的消極評論占到評論總量的一半以上,錄音質量、播讀質量、后期質量等因素占比較為接近,共占29%。可見,導致受眾消極評價的因素主要還是在于專輯的內涵(選題與知識)有所欠缺;同時對表現形式(播讀、錄音與后期)亦有關注,但占比較小。
最后,積極評論分析。與消極關鍵詞對比可以發現,由于數據量的增加,各指標中對應關鍵詞數量和維度豐富程度都有提升,特別是“播讀質量”指標下的增加尤為明顯。
按以上規則統計得到的積極評論的質量評價指標占比:知識質量(38%)>播讀質量(24%)>選題質量(24%)>錄音質量(11%)>后期質量(3%)。與消極評論對比看出,播讀質量因素和選題質量的占比都有所增加,各占24%。在積極評論中,受眾對專輯表現形式(播讀、錄音與后期)的關注增加,占38%。雖仍低于專輯的內涵(選題與知識),但表現形式因素的占比相較于消極評論中有了顯著增加,在增進受眾的滿意度方面有著積極作用。
思考與建議
根據對喜馬拉雅FM國學類有聲讀物選材主題、受眾群體、用戶評價的數據分析可以發現:生產者大量提供的內容并不一定能獲取相應的高播放量;青少年與兒童是國學有聲專輯的主力受眾;專輯內涵的缺失是受眾產生負面評價的主要原因,而表現形式的精彩豐富會更多地增加受眾對于某張專輯的滿意度。下面,就將對產生上述現象的原因進行分析,并提出針對性建議。
一是要注意選材的“邊際收益遞減”現象,積極開辟新內容、新形式吸引受眾。如前文所述,專輯作者喜愛選擇的題材與受眾喜愛收聽的內容之間存在一些差異,生產者大量提供的內容并不一定能獲取相應的高播放量,筆者認為“邊際收益遞減規律”能夠解釋這一現象。當同一個內容之下的專輯達到飽和時,由于同種內容的受眾數量是有限的,繼續制作這種選材的專輯會受到邊際收益遞減規律的限制,即使這個專輯可能內容足夠優質,實際播放量增量還是會不可避免地下降。作者要積極開發新的內容和新的表現形式,從而挖掘更多潛在受眾,避免邊際收益遞減效應。對于受眾而言,合理匹配的知識供需結構能夠避免過量、重復的信息所導致的“信息過載”現象。
二是平臺與作者要通力合作,開發針對更多不同年齡層次群體的國學有聲內容。結果顯示,青少年和兒童是高質量國學有聲專輯的主要受眾。而在實際生活中大部分青少年兒童,特別是低齡兒童群體,缺乏在互聯網上主動搜索偏好內容收聽的能力與認知力,因此可以認為這些內容多為家長特意挑選并播放的,從各種帶有“給孩子的”字樣的專輯標題、標簽以及蒙學相關選材的受歡迎程度中可見端倪。高質量的國學內容應該能讓所有人都受益,因此,首先應該通過生產者與平臺的配合,打破這種刻板印象。例如可以讓生產者制作相關問卷,通過平臺有針對性地分發,對成年受眾群體的喜好進行全面調查,制作出根據用戶群體特征分層的優質內容,再通過平臺配合用戶大數據進行精準的個性化推薦與宣傳,讓更多受眾能接觸到與之相對應的優質國學有聲內容,從而拓展受眾的年齡層次。
三是制作優秀國學有聲專輯,需把握住內容質量的“保健因素”與“激勵因素”。“保健因素”與“激勵因素”的概念來源于美國心理學家赫茲伯格的“雙因素激勵理論”。該理論最初在人力資源管理領域得到應用,其后被不少學者借鑒并應用于對用戶激勵的研究。因此,在制作國學有聲專輯時確保選題適宜以及知識含金量高是第一要務,這可以被看作“保健因素”的部分。想要做好國學有聲讀物,不在表達方式下功夫是不行的。特別重要的是主播的素質,口齒清晰、語言組織能力強、講述方式得體等特質可以為一個有聲專輯大大加分,是獲得受眾好評的關鍵,在積極評論之中的比例相較于消極評論有著顯著的提升,因此可以認為這些質量因素是一種“激勵因素”。
作者溫愷寧系上海大學圖書情報檔案系2020級碩士研究生,熊靜系上海大學圖書情報檔案系副教授、碩士研究生導師
參考文獻
[1] 栗月靜. 閱讀的歷史:從朗讀到默讀[J]. 教師博覽, 2012(12):54-56.
[2] 中國新聞出版研究院全國國民閱讀調查課題組. 第十八次全國國民閱讀調查主要發現[J]. 新閱讀, 2021(5):7-9.
[3] 蔡翔, 王睿. 從國民聽書率看我國有聲閱讀產業發展趨勢[J]. 現代出版, 2018(1):65-70.
[4] 傅修延. 為什么麥克盧漢說中國人是“聽覺人”——中國文化的聽覺傳統及其對敘事的影響[J]. 文學評論, 2016(1):135-144.
[5] 余園園. 碎片化閱讀時代有聲書弘揚傳統文化研究——以喜馬拉雅FM為例[D]. 南昌: 南昌大學, ?2019.
[6] 陳崢. 不平行的空間:用戶生成內容大數據質量探析[J]. 圖書館, 2021(3):90-98.
[7] 遲雨晴. 我國數字有聲讀物內容質量問題研究[D]. 南京: 南京大學, ?2020.