陳銘 徐麗芳
摘 要:圖書咨詢公司Archer Jockers致力于使用人工智能破解圖書暢銷的一般模式,幫助不同領域的小說家改進他們的書稿,以數據驅動的角度重新理解、優化自己的小說創作。此外,Archer Jockers還朝著為出版商、經紀人和其他書籍業務相關機構和個人提供定制服務的方向努力,包括挑選書籍、撰寫圖書簡介、書籍分析和暢銷書趨勢分析等,期望運用算法找到最佳的小說暢銷方案。
關鍵詞:Archer Jockers 暢銷書 文本挖掘 機器學習
暢銷書的概念最早起源于美國,《大不列顛百科全書》對“暢銷書”(Bestseller)的定義是:在某個時期內受到大眾歡迎,銷量在同類書中位列前茅的圖書,可作為反映大眾文學趣味和評價標準的一種指標。作為市場產物,一本暢銷書雖然不一定能成為經典,但出色的銷量證明了它們相當契合某個時期內大眾的欣賞趣味、心理需求和價值觀念等。這也表明,一個作家要寫出一本暢銷書必須具備洞察人性和把控故事節奏的能力,在撰寫時知道如何創造緊湊的情節和故事的高潮。暢銷書應該是什么樣的?這個答案也許在作家心中,也可能在出版社編輯和文學經紀人的運作里,但都要經過讀者的檢驗。有些書評人和編輯認為一些書得以大賣是巧合和運氣,畢竟暗藏于暢銷書中的獨特信號總是讓人無法捉摸。
那么,暢銷書是否有“規律”可循?來自斯坦福大學和蘋果公司iBooks的自然語言處理專家茱蒂·阿切爾(Jodie Archer)和馬修·喬克思(Matthew Jockers)自2010年共同組成團隊,運用人工智能技術研究小說,花5年時間分析了近三十年的5000本暢銷小說,用機器分類算法得到暢銷書最一般的構成要素,定量和定性相結合探究暢銷書的基本原理。Matthew認為:“關于暢銷書的分析,計算機能看到人們無法直接看到的信息,還能找到暢銷書最常見和可預測的特征。”2016年,Jodie和Matthew在文學經紀人的推動下將他們的發現總結成《暢銷書密碼》(The Bestseller Code)一書。該書被翻譯成8種語言出版發行,兩位研究者也因此成名。隨后,二人于2017年一同創立圖書咨詢公司阿切爾·喬克思(Archer Jockers)繼續他們的暢銷書研究,致力于幫助不同領域的小說作家改進他們的書稿,以數據驅動的角度重新理解自己的小說創作。此外,Archer Jockers還朝著為出版商、經紀人和其他書籍業務商提供定制化服務的方向努力,期望通過算法找到最佳的圖書暢銷方案。
一、技術路線:用算法程序“揉碎”和讀取語言數據
Archer Jockers主要通過算法運行作家書稿,依靠自主研發的計算機程序Bestsellerometer開展業務工作。這是基于計算機科學和文學兩個不同領域的理論開發的運算程序,其核心是兩位創始人在研究“暢銷書密碼”時開發的算法。機器擅長海量閱讀和數據分析,可以大規模處理文本模式和細節;而人類更傾向于閱讀故事情節而不會注意到文字的量化特征。Bestsellerometer則可以將小說文本中的語言數據“揉碎”后進行分析和讀取,并輸出有用的數據點幫助作家理解其作品的文風、主題、角色和情節等主要元素。例如,小說中平均句子長度是偏短還是偏長?敘述和人物對話的篇幅分別是多少?從情感角度出發得到的故事情節線起伏是否貼近暢銷書的敘述節奏?經過Jodie和Matthew在研究暢銷書過程中長達四年的訓練,Bestsellerometer閱讀了近萬本品質不同的小說,已經可以通過計算判斷一個作品是否將會暢銷。例如,J.K.羅琳的作品在Bestsellerometer的算法模型中得出的暢銷可能性為95%,美國超級暢銷書作家詹姆斯·帕特森作品的暢銷可能性為99.9%。
為了讓Bestsellerometer的預測更為精確,二人進行了大量工作,主要包括三個部分:第一,文本挖掘(Text Mining)。發現和提取小說的文本特征,借助計算機程序從書面文字中挖掘信息。這一步驟屬于自然語言處理(Natural Language Processing,NLP)領域的研究主題,涉及分詞、識別句子、詞性標注和依存句法等多個基本任務。但每一項“基本”任務對機器而言并不意味著“容易”,一旦真正深入研究小說語言和語法的工作方式,情況都會變得相當復雜。即使是教機器識別每個單詞開頭和結尾的分詞任務,也會出現很多難以解決的情況,例如cant和shouldnt這類帶著標點符號的詞就不能依靠單詞之間的空格來識別為兩個不同的詞。NLP技術人員通過編寫程序將基于規則的“解析”轉向基于統計推斷的算法,利用詞典和統計推斷算法教會機器在海量閱讀時消除歧義和處理邊緣情況,包括命名實體識別(Named Entity Recognition,NER)等方法(注:NER是Bestsellerometer在自然語言處理過程中進行文本挖掘的一種語言處理方法,目的是識別語料中人名、地名、組織機構名等命名實體,判斷小說是否暢銷與小說人物以及地緣政治背景的選擇等要素是否相關)。第二,機器學習(Machine Learning)。篩選文本挖掘抓取到的文本特征,總結出與“暢銷元素”強相關的代表特征。借助機器學習和分類實驗,Jodie和Matthew將最初得出的28000個文本特征進行篩選,只留下10%,其中故事發生地和年份等文本特征被認為與“暢銷與否”無關。而剩下的文本特征,例如親密關系主題等被確定為判斷暢銷書的依據。第三,機器歸類。利用前兩個步驟得出的暢銷書判據對“未知”小說文本進行歸類,放入由近3000個特征構成的維度空間內,判斷它是否能夠暢銷。Bestsellerometer采用的歸類算法有三種:K近鄰(K Nearest Neighbors,KNN)算法,會自動搜尋每本書在空間內和它最接近的5本書,由這5本書的暢銷性質推測這本書是否具備暢銷書潛質。支持向量機(Support Vector Machines,SVM)算法,假設暢銷書量表只需要“very”這個詞的使用率和“人物親密關系”2個文本特征作為維度(注:Jodie和Matthew通過研究發現,在暢銷書中,“very”這個詞的使用率不高,而且作家會重點落墨于人物之間的親密關系;反之則可能為冷門書)。 SVM算法先將每本書的位置在特征空間中標注出來;再通過統計推斷出暢銷書集合和冷門書集合之間的分界線;最后計算機根據小說文本的位置判斷它是否暢銷。最近收縮形心(Nearest Shrunken Centroids,NSC)算法則是先計算暢銷書和冷門書的數學重心,并通過參數縮小重心之間的距離,通過比較每本書與2個重心的距離判斷它是否能夠暢銷。三種算法的平均預測精確度達到80%。
二、產品形態:多角度分析文本報告
作為一家圖書咨詢公司,Archer Jockers致力于使用Bestsellerometer算法程序為作家提供文本分析服務,從小說的文風、主題、人物和情節等維度生成精細數據,并提供1份包含建議和反饋圖表的詳細書稿分析報告。分析報告涵蓋小說主題分析、情節和情感分析、角色設置、人物性格和句子結構等多個板塊;書稿中的語言數據會與從數千本書挖掘到的類似數據進行比較,然后由Bestsellerometer給每個板塊評定一組代表星級的分數。就小說主題而言,大多數暢銷書只有3-4個最顯眼的主題,描寫重要主題的篇幅大致占據小說篇幅的30%。而新作家往往會在小說中引入太多主題導致情節變得難以控制,使故事走向“難以結束”和“迅速結束”兩個極端。小說主題比重對Bestsellerometer的算法有重大影響:暢銷書主題需要存在潛在的劇烈沖突,同時還不能太脫離現實生活。一般而言,特別離奇和過于緩和的主題都不太會暢銷,例如搖滾和園藝等。Archer Jockers使用不同的主題模型展示小說的主題焦點與主題的整體分布情況,并與暢銷書主題作相應的比較。例如圖中展示的是作家亞歷珊德拉·范麗卡(Alexandra Velika)的小說《紐約脫衣舞小姐》(Big Apple Strippers,簡稱“BAS”)與暢銷書以及市面上其他圖書中占比前十的主題分布比例(T-1是指書中占比第一的主題篇幅,T-2是指書中占比前2名的主題篇幅總和,以此類推)。由于BAS前3-4個主題的總比沒達到30%,而且其前10個主題中每一個的占比不僅大大落后于暢銷書,甚至也落后于其他一般正式出版的圖書,因此Archer Jockers建議其針對主題焦點添加更為豐富的內容,刪除一些與重要主題無關的故事描寫。
除了小說主題,情節線的起伏和節奏也是Archer Jockers小說文本分析服務的關鍵。故事情節的高峰和低谷越密集,小說人物和讀者的情緒起伏越頻繁,越容易引人入勝。在劇本和小說中,最簡化的故事曲線為三幕式架構:觸發、沖突和解決。利用三幕式架構分析小說可以快速看出情節的基本輪廓,但還不夠微觀詳細。為此,Bestsellerometer在分析小說時會追蹤情緒詞語,并將各種故事情節歸納成七大曲線,從而可以直觀地看出人物情緒是如何隨情節推進而產生變化的。如圖4所示的BAS情節線,圖表中間的水平線代表毫無波動的情緒,水平線以上的部分表示人物處于積極情緒中,例如開心、興奮、曖昧和雀躍等,水平線以下的部分則表明人物進入消極情緒中。向上的斜坡標志著讀者將跟隨故事情節的推動獲得越來越積極的情感體驗,往下的曲線波動則表明事態朝著消極的方向發展。垂直的虛線表明BAS的敘事節奏。它們在故事時間軸上的分布間隔越均勻,讀者的閱讀體驗就越趨于平衡。整體而言,由于小說的大部分情節在水平線以下,這可能導致該書在市場上表現不佳,因此作者應設置更多積極的情節轉折點,避免情節線長時間位于消極情緒中。另外,每一部小說都有自己特定的敘事焦點。敘事焦點的變化推動了情節的發展,從而影響讀者的閱讀節奏。Bestsellerometer的統計結果表明,情節線的振幅和頻率與小說暢銷與否高度相關,高低對稱且韻律協調的情節線更容易吸引讀者,例如現象級暢銷書《達·芬奇密碼》全書的情節線分布上屬于整體均勻對稱、韻律感強的“W”線型。
三、發展方向:從作家市場轉向出版業暢銷書業務
目前,Archer Jockers主要聚焦于作家市場,為小說家的書稿提供基于算法的個性化反饋,并給作家一些出版社編輯不能提供的修訂建議。它的服務包括個性化書稿分析、小說系列分析以及VIP服務。個性化書稿分析需要作家支付200美元服務費用,作家會在一周內收到Archer Jockers的報告。小說系列分析是幫助作家在寫系列小說時,判斷是否應該繼續下一本的寫作,它會為作家提供整個小說系列的情節走向和主題連續性等方面的反饋報告。根據小說系列的具體冊數(5冊以內),服務費用大致在340-750美元之間。VIP服務主要針對一些需要一對一專業指導的作家,由原先出版社編輯出身的Jodie提供專業指導。Jodie會依據書稿分析報告與作家一起探討所有數據點對他們小說的意義,幫助作家打開思路。此外,Jodie還會給作家提供關于出版方面的業務指導等。該項服務費用在165美元以上。隨著Archer Jockers業務的逐步開展,已經有多名作家對他們的服務表示認可;而且有越來越多的作家開始嘗試這項具有“算法智慧”的圖書咨詢服務。
此外,Archer Jockers還朝著為出版商、文學經紀人和其他暢銷書相關業務機構提供定制服務的方向努力,包括挑選書籍、撰寫圖書簡介、書籍分析和暢銷書趨勢分析等。Jodie和Matthew認為出版業內的暢銷書銷量存在一個可預測的模式。美國東北大學的Albert-László Barabási團隊也對此表示支持。后者通過對“紐約時報暢銷書排行榜”進行數據研究,提出了一個暢銷書動力學機制。Albert-László Barabási團隊在調查中發現,在虛構類小說市場中,女性作家的作品每年銷量更高,所占比例較男性作家更重。而Archer Jockers發現,從語言風格的量化結果出發,女性作家掌握憑借簡潔行文打動人心的寫作技巧,文風更接近市面上暢銷書的文風特征。如今,圖書出版業的競爭相當激烈。每年僅是在美國印刷出版的新書就超過20萬種,而位列《紐約時報》暢銷書單的只有不到500本圖書。Jodie和Matthew認為,將大數據算法和人工智能應用于圖書出版業能準確地預測小說作品的暢銷品質以及當前市場動態,有望幫助出版商打造現象級暢銷書。如今,Archer Jockers不僅幫助出版商或經紀人將小說作品與市場上的暢銷書進行比較并判斷其發行潛力,還能提供其他方面的決策支持。例如,在出版商把某作家的書稿發給Archer Jockers后,后者會通過機器閱讀該作家的作品,判斷其是否具備暢銷書作家的潛質,幫助出版商決定是否雇用這個作家。
四、結語
隨著大數據和人工智能的應用滲透到出版的各個環節,已經有多家公司像Archer Jockers一樣將機器算法用于暢銷書運作中。例如,有的公司依靠大數據挖掘出大量用戶搜索的非虛構題材,然后雇人按照數據分析所得的大綱快速創作,借助數據挖掘獲得的先機獲得利潤。如今,雖然許多出版商開始認可大數據和機器算法等先進技術對行業運作的推動作用,但仍存在質疑的聲音。部分業界人士認為,機器算法可能有助于出版商盈利,但如果將銷量視為衡量小說的文學標準,會毀了小說本身。換言之,純粹迎合讀者的小說作品更像是機器進行文字切割和加工后的工業產品,將小說世界變成沒有多種可能性和“美感”的科學領域,限制了讀者的閱讀體驗。毫無疑問,出版業屬于文化產業,文學作品需要百花齊放而不是標準化生產;機器算法等人工智能并不能取代作者所能給予讀者的文學智慧。在這科技無處不在的世界里,未來的分析算法該如何運作才能做到不對小說創作產生影響,這是每個像Archer Jockers這樣的圖書咨詢服務提供商都要思考的問題。
參考文獻:
[1]Encyclopedia Britannica Online, Bestseller[EB/OL].[2018-12-22].https://academic.eb.com/.
[2]Jodie Archer,Matthew L.Jockers.The Bestseller Code: Anatomy of the Blockbuster Novel[M].London:St Martins Press,2016.
[3]方卿,徐麗芳,許潔,等.出版價值引導研究[M]. 北京:商務印書館,2018.
[4]Burcu Yucesoy et al.Success in Books: A Big Data Approach to Bestseller[J].EPJ Data Science,2018(7):7.
[5]搜狐.他們揉碎了5000本書籍的數據,曝光了暢銷書的成功套路[EB/OL].[2018-12-22].http://www.sohu.com/a/229292059_100039183.
[6]Jianbo Gao, Matthew L. Jockers et al. A multiscale theory for the dynamical evoluti-on of sentiment in novels[C].2016 International Conference on Behavioral, Economic and Socio-cultural Computing (BESC). Durham:2016.
[7]澎湃.如何制造現象級暢銷書[EB/OL].[2018-12-22].https://www.thepaper.cn/newsDetail_forward_1536608.
[8]The Atlantic. Can Big Data Find the Next “Harry Potter”[EB/OL].[2018-12-22].https://www.theatlantic.com/technology/archive/2016/09/bestseller-ometer/499256/.
[9]陸利坤,游新冬.大數據技術在出版行業中的應用研究[J].出版科學,2017,25(06):89-96.
(作者單位系武漢大學信息管理學院,武漢大學數字出版研究所)