張 洋 江銘虎
大數據時代,各種信息服務給人們的生活帶來很多便捷,人們足不出戶就能知曉天下事.然而,人們在獲取信息的同時也飽受信息泛濫的困擾.垃圾短信、虛假信息、網絡詐騙等嚴重影響人們的日常生活.因此,準確而及時地識別垃圾信息、阻止虛假信息或低俗作品的傳播,對于維護互聯網生態健康以及保障人們的正常生產生活具有非常重要的意義.作者身份識別(Authorship identification)又簡稱作者識別,是通過分析未知文本的文體學特征或寫作風格,推斷作者歸屬的一類研究.有些研究者也稱其為作者身份歸屬(Authorship attribution),其主要思路是將文本中隱含的作者無意識的寫作習慣通過某些可以量化的特征表現出來,進而凸顯作品的文體學特征或寫作風格,以此確定匿名文本的作者[1].
19 世紀以前,科學研究的社會化程度較差,數學等相關工具的應用不普及,作者識別尚處于傳統研究的歷史階段.在這一時期,西方研究者通過韻律節奏的變換推斷未知十四行詩的作者歸屬.其判別標準多基于研究者的主觀經驗,而缺乏客觀參數衡量.進入19 世紀,隨著生產力的不斷發展,科學研究的社會化程度不斷增強,數學等相關工具也逐漸被應用到作者識別研究中.最早嘗試用數學工具去量化作者寫作風格的是Mendenhall[2],他利用詞譜和特征曲線對莎士比亞的戲劇等不同作品進行作者歸屬研究,標志著作者識別現代研究的開端.Yule[3]在Mendenhall 基礎上進行了改進,他利用文本句子長度作為識別散文等文學作品作者的有效特征.最有影響力的早期研究是Mosteller 和Wallace[4]合作完成的,他們首次提出利用少數特殊詞出現的頻率以及分布作為特征,識別聯邦主義者論文的作者.Damerau[5]在分析前人方法的基礎上,首次提出基于功能詞(Function words)頻率的作者識別方法,有效地拓展了詞匯特征.Efron 和Thisted[6]通過作品的詞匯量推斷未知文本是否為莎士比亞所作.從此,詞匯成為作者識別以及作者風格分析一個重要的研究方向.隨后研究者不斷嘗試新的文本特征,字符、句法、語義等特征均被研究者用于作者識別研究中,取得了一些進展.20 世紀90 年代隨著計算機技術和網絡應用的發展,大量電子文本產生,于是便有了處理這些信息的需求.這使得作者識別在情報分析和計算機取證等領域的地位越來越重要.作者識別的意義主要體現在相關技術的應用上.在法醫學中,作者識別技術可以對關鍵文字證據進行識別,從而確定當事人的身份,這對進一步偵破案件有著重要的作用[7].在文學研究中,作者識別技術可以用來識別匿名作品的作者,或者推斷爭議文本的作者,給作者身份的確定帶來新思路[8].在互聯網領域,作者識別技術可以追溯垃圾郵件、謠言以及計算機病毒等非法程序源代碼的作者,對于打擊網絡違法行為和維護網絡安全具有重要的意義[9].
作者識別是一個涉及眾多學科的交叉學科,為了簡化問題和便于研究,研究者常常提出一些假設.首先,第一個假設就是,作者的寫作風格會受到作者自身特征的影響,比如作者的身份地位、性別、性格、年齡和受教育程度等[10].這個是作者識別研究的首要假設.第二個假設就是作者的這些特征能夠從他的寫作風格中看出來[11].這個假設是作者識別研究中最重要的一個假設.在現代研究中,研究者常常需要量化作者寫作風格.這個假設為量化作者寫作風格提供了理論依據.然而,在一般情況下,作者的寫作風格并非一成不變,它會受到很多外部條件的影響,比如社會背景、時間、文本主題、傳播媒介、受眾等因素.但研究者也一致認為作者寫作風格的某些特征元素始終存在,無論這些因素是什么,它們都能夠被研究者通過特定手段進行量化.研究者所要做的是盡可能多地保持潛在的相互作用因素恒定,而并非將它們剝離出來,因為這會損失更多的信息[12].
作者識別領域有兩個大的研究方向,大多數作者識別研究都是從這兩個方向進行的,其中一個方向是數字人文(Digital humanities)方向,而另一個方向則是計算語言學(Computational linguistics)方向[13].這兩個方向的研究內容并無太多差異,但在目的和側重點上則有顯著不同.在數字人文研究中,重點主要放在實際有爭議的作者身份或文學風格分析的案例上;而在計算語言學研究中,研究者則更多地關注已知作者身份的數據集的表現以及確定最可靠的技術[13].計算語言學中更系統的方法允許嚴格控制與作者身份相互作用的因素,比如主題和流派,這種設置通常在有爭議的作者身份的情況下無法實現.一些模擬大規模作者身份歸屬的研究,比如增加作者集合大小或減少訓練數據大小,允許系統地評估在各種情況下的技術水平.以數字人文為導向的研究的主要優點之一是注重結果的解釋以及對作者寫作風格的分析.這種類型的分析目前缺乏以計算語言學為導向的研究.用一句話來概括數字人文和計算語言學這兩個大方向的不同點:數字人文學科更注重可解釋性,研究者常常希望通過模型解釋作者識別結果或者分析作者風格特點;而計算語言學更關注算法本身的正確率、魯棒性、運行效率等性能,而并非可解釋性.
如果進一步細分,作者身份識別任務通常有如下3 種不同的形式:閉集歸屬(Closed-set attribution)、開集歸屬(Open-set attribution)和作者身份驗證(Authorship verification)[14].也有研究者給出了不同的分類標準,他們把作者身份識別任務分為閉集歸屬、開集歸屬以及作者身份概述(Authorship profiling),而把作者身份驗證視為開集歸屬的一種[12].一般而言,閉集歸屬指的是未知文檔的作者包含在候選作者集中的一類問題.這是相對比較簡單的一種情況,也是學者們研究得最多的一類問題.而開集歸屬則是未知文檔的作者不一定包含在候選作者集中的一類問題.這是比閉集歸屬更加困難的情況,在很多與互聯網相關的作者歸屬研究中,研究者常常會面臨龐大的候選作者集合以及未知文本不包含在候選作者集合中的情況.作者身份驗證是確定給定的文本是否由某位作者撰寫的任務.它與開集歸屬的主要區別在于,作者身份驗證樣本數量少、候選作者集合單一.所有作者身份歸屬問題都可以轉換為一組單獨的作者身份驗證問題[14].因此,作者身份驗證問題是作者識別中的基本問題,研究有效處理此類問題的方法對于作者識別研究至關重要.
本文后續章節的具體內容如下:第1 節介紹了作者識別中的文體風格特征,主要包括字符特征、詞匯特征、句法特征和語義特征在內的多元文體特征;第2 節闡述了常見的作者識別方法,主要分為無監督的方法和有監督的方法;第3 節總結了作者識別中的一些多層面的研究,主要包括數據規模、跨域研究和特殊方法;第4 節介紹了與作者識別相關的一些評測;第5 節綜述了作者識別領域的一些公開數據集以及各種評價指標;第6 節指出作者識別領域存在的一些問題;第7 節針對作者識別領域存在的問題,分析并展望了該領域未來可能的發展趨勢.
文體風格是指作者在創作過程中表現出的一切行文方式的總和.作者的寫作風格來源于作者思想表達的方式.在表達過程中,作者會無意識地將其個性及社會背景融入進去.雖然作者的寫作風格會隨著時間的推移而慢慢改變,但研究者通常都假定衡量作者寫作風格的特征元素始終存在,并且可以通過某種技術手段進行量化.文體風格特征主要分為一元文體特征和多元文體特征.一元文體特征主要包括單詞長度、句子長度、段落數、總詞匯量等,具有簡單、便于統計等特點,因此早期的作者識別采用的都是一元文體特征.然而,一元文體特征過于簡單,無法進行更深入的分析,因此研究者又提出多元文體特征.多元文體特征往往是一些簡單特征的進一步組合,研究表明多層面的文本特征能夠有效提高作者識別的準確率[15].根據文體風格特征對語言學計算的需求和復雜度,可以將多元文體特征分成字符特征、詞匯特征、句法特征和語義特征等[1].有關一元文體特征的研究在上一部分已經簡單敘述,本部分主要針對幾類典型的多元文體特征進行闡述.
字符是指文本中使用的字母、數字、字和符號.根據字符的種類可以定義各種字符級別的度量:字母字符數、數字字符數、大寫和小寫字符數、字母頻率、標點符號數等.這種類型的度量很容易用于任何自然語言和語料庫,并且已被證明對量化寫作風格非常有效[13].更高階的字符特征是基于字符組合的特征,研究者稱其為字符n-gram.字符n-gram即為n個連續字符的組合,這種高階字符特征具有很多優秀的性質.它可以捕捉到作者風格的細微差別,包括由詞匯、上下文、標點符號以及大小寫變動所帶來的差別[16].而且,字符n-gram 比單一字符抗干擾能力強,特別適合短文以及風格多變的網絡文章、電子郵件等.
很多研究者嘗試使用字符n-gram 來進行作者識別研究.Keselj 等[17]提出一種通過計算和比較字符n-gram 頻率識別作者的方法.該方法由1976 年的開創性方法衍生,首先選擇少量頻繁出現的字符n-gram 構建文檔輪廓,然后選擇包含在輪廓中的最佳n元組計算文檔的相似度.在對英語、希臘語和中文數據進行的實驗中證明了該方法的有效性和語言獨立性.Houvardas 和Stamatatos[18]在Keselj 研究的基礎上做了改進,他提出了一種可變長度的ngram 方法,用于選擇可變長度的單詞序列.研究結果表明該方法至少與選擇最重要的n-gram 的信息增益一樣有效.
Keselj 等的研究是作者識別領域中n-gram 特征與作者輪廓相結合的早期研究,最初的作者輪廓只包含單一類型的特征,比如只包含字符n-gram或者詞匯頻率,后面也逐漸發展出包含不同類型特征的作者輪廓.Stamatatos[19]提出一種基于特征集子空間的作者識別方法,把每個文本表示為字符ngram 的頻率向量,產生了具有高準確率的分類模型.這是基于字符n-gram 的集合模型,給后續研究提供了新的思路.
除了由字符組成的n-gram 之外,一些研究者也會探究由單詞、詞性(Part of speech,POS)標簽、標點符號、詞綴等元素組成的n-gram 在作者識別中的應用.Sapkota 等[20]研究了與不同語言特征相對應的字符n-gram 子組,結果表明關于詞綴和標點符號的n-gram 幾乎占據了字符n-gram 的所有功能,為將來的作者識別工作和其他分類任務使用n-gram 提供了新的見解.Sari 等[21]使用連續的字符和單詞n-gram 表示研究作者身份歸屬,與使用離散特征表示的工作相比,模型可以通過神經網絡與分類層一起學習n-gram 特征的連續表示,進而產生較優的的結果.Gomez-Adorno 等[22]利用字符、單詞和POS 標簽的n-gram去學習文檔段落向量,獲得了優于基于單詞嵌入和基于字符n-gram 線性模型的結果.
詞匯是一種語言里所有詞語和固定短語的總和.最初的作者識別研究就是對詞匯進行簡單地統計分析,這種方法簡單易行,適用于任何語言和任何語料庫.然而,對于某些自然語言,還需要一些其他輔助手段.比如,漢語需要首先進行分詞,然后才能進行詞匯的統計分析.某些大量使用縮寫或首字母縮寫的文本,應當加入相應的識別規則,盡管在這一過程中可能引入相當大的噪聲.
詞匯的豐富程度被認為是衡量作者寫作風格的一個重要因素,有些研究者提出了各種各樣函數來衡量詞匯豐富度.后續研究者更多的是通過實驗驗證不同組合的有效性.Burrows[23]概述了使用常用詞的相對頻率來比較書面文本和測試其可能的作者身份的方法,其中涉及的程序為區分超過1500 字長的文本作者提供了一個簡單但相對準確的補充.Hoover[24]探討了使用詞匯豐富度進行作者識別的效果,并測試了詞匯豐富度的適當度量可以捕捉作者寫作風格或身份的假設.實驗表明,詞匯豐富度在文體和作者研究中具有邊際價值,而它對于大型文本群體是無效的,因為不同文本之間存在極大的可變性.Garcia 和Martin[25]根據前人在詞匯領域里提出的諸多參數,研究它們實際表征的文本特定特征,以尋求一種可靠的表達方式來衡量作者的詞匯豐富度.實驗證實,不同參數可以互相補充,富文本往往通過其低功能來表征密度,反之亦然.
然而,詞匯豐富度往往與很多因素密切相關,比如文本的主題、內容、類別等因素.因此研究者需要進一步考慮根據何種詞匯特征來衡量特定作者的寫作風格.功能詞被認為是區分作者的有效特征之一.由于功能詞不攜帶任何語義信息,與文本主題無關,作者很大程度上是在無意識的情況下使用它們,因此功能詞能夠捕捉不同作者的寫作風格.Zhao和Zobel[26]研究功能詞在新聞專線文章作者歸屬中的性能,并通過增大數據量進一步觀察其表現.實驗證實基于功能詞特征的方法具有較好的可擴展性,隨著問題規模的增加,其性能只有適度的下降.Coyotl-Morales 等[27]通過組合功能詞和內容詞的一組詞序列來表征文檔,并用詩歌進行分類實驗,得到了優于大多數方法的結果.
還有一種與功能詞類似的思路,就是為特定作者定義詞匯特征集.一種簡單且常見的方法是在語料庫中提取常用詞,然后再決定用作特征的頻繁單詞的數量.不同研究者所定義的詞匯特征集大小不同,除了他們個人對衡量作者文本風格的因素的把握之外,所使用的分類算法也會在很大程度上限制特征集的規模.因為當問題的維度增加時,許多分類器會出現過擬合.并且,特征集維度增加時,一些特定于內容的單詞也會包括在該特征集中.
Stamatatos[28]提取1000 個最常用的單詞構建特征集,研究基于特征集子空間的分類器集合.結果表明,使用窮舉的不相交子空間構造的集合在兩個基準語料庫上得到了較優的結果.Koppel 等[29]使用250 個最常用的單詞構建特征集,利用基于學習的方法表征兩個示例集之間的 “差異深度”,并證明了該方法以非常高的準確率解決了作者身份驗證問題.Savoy[30]提出一種計算標準化Z分數的技術,該分數能夠定義未知文本中的特定詞匯.與其他方法相比較,該方法優于基于最常用詞的Delta 方法、基于詞匯和標點符號的卡方距離以及基于預定義的方法.Akimushkin 等[31]引入一種通用的相似性度量來比較文本,通過考慮對應于節點的單詞來增強復雜網絡中文本的表示.在3 個書集上的實驗表明,該方法獲得了超過90 %的準確率,比基于詞頻?逆文本頻率指數(Term frequency-inverse document frequency,TF-IDF)的傳統方法要高得多,也比不考慮節點標簽的其他網絡方法要高.
句法是句子各個組成部分排列規則的統稱.研究者一般認為作者的寫作風格在很大程度上由其遣詞造句的模式決定.因此,句法特征在很長一段時間內都受到研究者的重視.句法特征分為淺層句法特征和深層句法特征.淺層句法特征是指不需要經過句法解析就能提取的特征,比如詞匯n-gram;而深層句法特征則是必須要經過句法解析才能提取的特征,比如依存句法.淺層句法特征多是一些詞匯特征組合,在之前的章節中已有敘述,本節著重敘述深層句法特征.
深層句法特征能夠表達隱含的文本結構,并且在更高維度上刻畫作者寫作風格.因此,與詞匯特征和淺層句法特征相比,深層句法特征被認為是更可靠的作者指紋.Raghavan 等[32]為每個作者構建概率上下文無關文法,并使用該文法作為分類的語言模型進行作者歸屬.該方法在幾個數據集上的性能優于基線模型,并且還具有一定的擴展性.
句法樹是描述句子中各種不同成分之間相互關系的樹狀結構,在句法特征的研究中有著重要的應用.常見的兩種句法樹是短語結構樹(Constituent tree)和依存句法樹(Dependency tree),二者的主要區別在于短語結構樹用來描述句子的句法結構,葉子結點與輸入句子中的詞語相關聯,中間結點都是標記短語成分;而依存樹用來表達句子中詞與詞的依存關系,其每個結點都是一個詞語,詞語之間通過有向依存弧連接,依存弧上標有相應的依存關系.
有些研究者嘗試使用短語結構樹研究作者識別.Tschuggnall 和Specht[33]提出一種通過分析作者的句法來增強作者識別的方法.該方法先計算文本中每個句子的短語結構樹,再使用pq-gram 將其分成長度無關的模式,然后使用最常用的pq-gram來組成作者的樣本,再利用各種距離度量和相似性得分進行作者識別.使用三個不同且獨立的數據集進行的評估得到了有希望的結果.Patchala 和Bhatnagar 等[34]提出了一種有效的基于模板的方法,用于組合文檔的各種句法特征以進行作者分析.基于短語結構樹的特征獨立于文檔主題,能夠反映作者固有的寫作風格.結果表明,使用包括解析樹子樹的模板以及其他句法特征可以提高作者識別正確率.Zhang 等[35]提出一種將句子的短語結構樹編碼為可學習的分布式表示形式的方法.該方法為句子中的每個單詞構造一個嵌入向量,在對應于該單詞的句法樹中對路徑進行編碼.此方法在五個數據集上獲得了更高的準確率.
Sidorov 帶領的研究團隊提出句法n-gram 的概念.傳統的n-gram 是文本中若干同類元素的順序組合,這些元素可以是字符、單詞、POS 標簽等.而句法n-gram 則是句法樹中若干同類元素在句法路徑上的順序組合.換句話說,句法n-gram 是根據句法樹中的路徑構造的n-gram,而不是在文本的表面表示中獲取的.從本質上來說,傳統的n-gram 是對文本局部信息的描述;而句法n-gram 則是對句法樹或句法結構局部信息的描述.因此,與傳統ngram 相比,句法n-gram 將句法知識引入機器學習方法中.
Sidorov 等[36]利用基于句法關系(Syntactic relation,SR)標簽的句法n-gram 特征搭配支持向量機(Support vector machine,SVM)、樸素貝葉斯(Naive Bayes,NB)和樹分類器J48 進行作者識別.實驗結果表明,與多種傳統的n-gram 相比,基于SR 標簽的句法n-gram 獲得了更好的結果.并且在絕大多數情況下,SVM 要優于NB 和J48.句法ngram 把特征組合的思想從鏈式結構拓展到樹形結構上,擴展了n-gram 特征的維度.同時為研究者提供了一種衡量句法樹相似程度的思路,研究者可以通過衡量句法樹之間的距離間接判斷不同文本的相似程度.
受此思想的影響,學者們進一步探究了不同的句法n-gram 特征在作者識別中的應用.Posadas-Duran 等[37]提出了一種基于完整的句法n-gram 作為風格標記的作者身份歸屬方法.該方法利用SR標簽、POS 標簽以及詞根的句法n-gram 等特征刻畫作者的寫作風格,并利用SVM 進行分類.實驗結果表明,完整的句法n-gram 是比字符n-gram 更有效的識別作者的特征,使用該方法可以在較小的樣本集中獲得更準確的結果.在另外兩篇文章中,Posadas-Duran 等又把多種基于句法的n-gram 特征用于PAN 2015 作者身份驗證任務[38]和作者身份概述任務[39]上.結果表明,在作者身份驗證任務中,荷蘭語獲得了較低的分數,而英語和西班牙語獲得了適中的分數;而在作者身份概述任務中,在預測個人特征時,將句法n-gram 與其他特定的推文特征結合使用可以獲得良好的結果;但在預測年齡和性別特征時,它們的使用則并不成功.
語義特征是根據文本語言所蘊含的意義而提取的特征.由于語義特征與文本的內容和主題相關性強,并不容易借助它捕捉作者自然流露出的寫作風格,因此語義特征在作者識別領域內的應用較少.應用語義特征進行作者識別的研究者往往也會把語義特征和字符、詞匯、句法等特征結合起來使用,以提高作者識別的準確率.
Gamon[40]提出了一些特征集和分類方法,并使用了一種能夠生成語義依賴圖的工具,實驗結果表明深度語言分析特征可以在更常用的淺層特征上實現顯著的誤差減少.武曉春等[41]依據文體學理論,利用HowNet 知識庫,提出一種基于詞匯語義分析的相似度評估方法,利用功能詞以外的其他詞匯,達到了較好的作者識別效果.Argamon 等[42]基于確定的詞或短語的各種語義功能,提出一種詞匯特征用于文體分類.實驗證明,這些特征對于確定作者身份和國籍的分類任務具有重要作用.Hedegaard和Simonsen[43]使用基于框架語義的分類器研究作者身份歸屬,并測試它們對翻譯文本的適用性.結果表明,對于翻譯文本而言,框架是有用的,并且頻繁詞和框架的組合方法可以勝過僅基于傳統標記的方法.而對于未翻譯文本,頻繁詞和n-gram 則是首選.
本節從特征細分、獲取難易度、應用廣泛度等其他方面來比較不同的文本特征.表1 給出了這些方面的比較.作者識別與文本分類、情感分析、關系抽取等自然語言處理任務均屬于文本理解范疇,而它們所關注的文本知識類型不同.Daelemans 區分了可以從文本中提取的三種知識類型:客觀知識、主觀知識和元知識.客觀知識主要是回答誰、什么、什么地方、什么時候等問題的知識;主觀知識是回答誰對什么有何看法等問題的知識;而元知識是除了內容本身以外,能從文本中提取到的關于作者個人信息或者個人寫作風格等方面的知識[44].按照這個分類標準,文本分類和關系抽取提取的是客觀知識,情感分析提取的是主觀知識,而作者識別提取的是元知識.因此,研究者傾向于選擇與文本內容無關的特征來進行作者識別,而其他自然語言處理任務通常與文本內容相關.具體來說,文本分類需要根據文本內容將文本分配給一個或多個類,因此文本分類的特征通常是文檔中的單詞[45];情感分析需要識別文本中帶有意見和情感的句子,因此情感分析的特征常常是評論性短語或單詞[46];關系抽取是從文本中識別實體并對這些實體進行關系分類的任務,它的特征通常是單詞、字符串以及各種關系短語[47]

表1 文體風格特征對比表Table 1 Comparative table of stylometry
一般情況下,作者識別的過程可以分為兩個步驟,第一個步驟就是提取能夠衡量特定作者寫作風格的文本特征集,第二個步驟就是建立由特征集預測作者歸屬的模型.研究者通常稱第一個步驟為作者風格分析(Authorship style analysis),第二個步驟為作者身份建模(Authorship modeling).有些時候,作者身份建模也指由文本建立預測作者歸屬模型的過程.圖1 展示了一般的作者識別流程:將已知作者的文本經過特征提取器生成特征向量,這些特征向量結合特定的作者分類算法經過訓練得到作者識別模型,該模型可以識別未知作者的文本.將未知作者的文本也通過一個特征提取器得到特征向量,再利用之前生成的作者識別模型分類這些向量,即可得到作者識別結果.在這里,已知文本經過的特征提取器與未知文本經過的特征提取器對應同一個特征集.該流程幾乎涵蓋了絕大多數作者識別研究,可以說通過建立特征集來識別作者的研究都可以用該流程來描述.后面會敘述一些不通過構建特征集實現作者識別的特殊方法,這些方法不能用該流程表述.

圖1 作者識別流程圖Fig.1 Flow diagram of authorship identification
在傳統的作者識別研究中,作者身份建模主要依靠相關專家的經驗.隨著計算機技術的不斷發展與進步,研究者提出了很多建模方法.從大的層面來分,作者身份建模主要分為基于輪廓的建模(Profilebased modeling) 和基于實例的建模(Instancebased modeling).二者都是基于訓練文本構建作者歸屬模型的過程,不同的是在基于輪廓的建模中,每位作者的所有文本會被累計處理,即它們會在一個大文檔中連接,然后提取單個表示作為作者的輪廓;而在基于實例的建模中,每位作者的所有文本將單獨處理,每個文本樣本都有自己的表示[14].通常情況下,基于實例的建模要與機器學習算法相結合,每個類常常需要多個實例.因此,當每個作者有多個文本可用或者可以將長文本拆分成多個樣本時,基于實例的建模會更有效.另一方面,當每個作者僅有較短或有限的文本樣本時,基于輪廓的建模會更有效[48].
除此之外,還可以根據使用的數據是否有標注而把作者識別方法分為無監督的方法(Unsupervised method)和有監督的方法(Supervised method).其中,無監督的方法使用的是無標注的數據,比如聚類、主題建模等;而有監督的方法使用的則是有標注的數據,比如樸素貝葉斯、支持向量機、決策樹、k近鄰方法、神經網絡等.有監督的方法還可以進一步細分為生成方法和判別方法.首先學習聯合概率分布,進而求得條件概率分布的方法是生成方法,對應的模型是生成模型;直接學習條件概率分布或決策函數的方法為判別方法,對應的模型是判別模型[49].樸素貝葉斯屬于生成方法,而支持向量機、決策樹、k近鄰方法、神經網絡等屬于判別方法.本節采用這種分類方式論述作者識別方法.
無監督的方法是從無標注的數據中學習統計規律或內在結構的方法,它的基本思想是對給定數據進行某種 “壓縮”,從而找到數據的潛在結構,假定損失最小的壓縮得到的結果就是最本質的結構[49].無監督的方法不借助先驗的類別知識,機器自己尋找數據中的規律.與有監督的方法相比,無監督的方法通常需要更多的訓練數據才能發現其規律.在作者識別領域,研究者大多基于標記的文本進行研究,因此多選用有監督的方法,無監督的方法很少,本部分主要介紹聚類和主題建模等方法.
2.1.1 聚類方法
聚類是根據樣本的相似程度將其劃分為若干子集的數據分析方法.這些子集被稱為 “類”或 “簇”,它們通常是不相交的.與分類算法不同的是,聚類算法不借助事先定義的類別,而讓機器自己進行劃分,使得每一類或簇中的樣本相似,而不同類或簇中的樣本相異.聚類主要包括k均值聚類、層次聚類、高斯混合聚類等方法.有些研究者利用聚類來研究作者識別.
Jin 和Jiang[50]使用基于標點符號特征的文本聚類方法研究現代作家的身份識別問題.該方法融合了句子節奏特征的信息,同時具有低維的特性.實驗結果表明,Kullback-Leibler 散度優于歐氏距離和余弦距離,Ward 層次聚類優于k均值聚類.基于Kullback-Leibler 散度的Ward 層次聚類可以達到96 %的準確率.Hacohen-Kerner 和Margaliot[51]使用最頻繁詞(含功能詞)、最頻繁過濾詞(不含功能詞)和方差值最高的詞以及k均值聚類和期望最大化算法研究猶太文本的作者識別.實驗結果表明,最頻繁詞(含功能詞)是效果最好的單詞列表,期望最大化算法優于k均值聚類,最佳結果獲得98 %的精度,并且改善率超過40 %.Fifield 等[52]提出一種利用多個聚類組合識別文本作者的方法,并展示了其在具有多種風格的文本上的應用.該方法重復進行m次聚類,每次都使用相對于上次偏移的片段,在群集內重新分配標簽,以使群集盡可能一致,把m個重新標記的聚類的平均值作為結果.所提出的方法在少量作者的情況下表現出較低的一致性,有待后續改進.
Mansoorizadeh 等[53]選擇單詞n-gram、詞性標簽n-gram、句長、標點符號n-gram 等作為特征,組合不同的特征構成特征空間,并將其用于文檔聚類.實驗結果表明,所提出的方法精度較低,問題可能出在群集編號選擇或特征空間上.因此,未來的工作可以使用更復雜的聚類方法以及更優的群集參數選擇方法.Bagnall[54]使用多頭循環神經網絡實現作者身份聚類,該方法使用由多個語言模型共享的循環狀態,以相對熵的形式生成分數,將神經網絡的輸出轉換為聚類決策.實驗結果表明,所提出的方法時間成本較高,在一些困難問題上似乎表現良好,但很難與其他方法進行比較.Agarwal 等[55]將文檔表示為對應于每個單詞的嵌入向量的TF-IDF 加權總和,并使用層次聚類進行作者歸屬.結果表明,所提出的方法在作者聚類和作者身份鏈接排名任務上具有良好的性能,超過PAN 2017 作者聚類任務的最佳結果.
2.1.2 主題建模方法
主題建模(Topic modeling)是通過對語料進行分析,學習、識別和提取文檔主題的過程.在文本信息處理領域,傳統方法是以單詞向量表示文本內容,以單詞向量空間中的度量衡量文本之間的相似度;而主題建模的基本思想是以主題向量表示文本內容,以主題向量空間中的度量更準確地衡量文本之間的相似度[49].本部分主要介紹潛在語義分析(Latent semantic analysis,LSA)和潛在狄利克雷分配(Latent Dirichlet allocation,LDA)等主題建模方法以及它們在作者識別中的應用.
1) LSA
LSA 將文本集合表示為單詞?文本矩陣,通過對其進行奇異值分解,把單詞和文本映射到一個低維的語義空間,從而實現對單詞和文本更本質的表達.有的研究者把LSA 用于作者識別研究.Nakov[56]使用LSA 來研究德國文學作品,并驗證該方法能否區分作者以及自動發現散文和詩歌.結果表明,在一般情況下,使用LSA 可以區分所選的德國作者,但對于某些作者來說似乎很難.同時,實驗結果為自動發現散文和詩歌的假設提供了有力的支持.Satyam 等[57]在基于字符n-gram 的統計模型上應用LSA,以獲得文檔對之間的相似性,并使用文檔相似性的統計分析來確定閾值.該方法運行時間很短,整體性能與大多數其他方法相當,在英文小說文本中達到了最好的效果,而在西班牙文和希臘文中效果欠佳.
2) LDA
LDA 是基于貝葉斯理論的主題模型,它假設每個文檔都可以表示為潛在主題的概率分布,并且所有文檔的主題分布都具有相同的狄利克雷優先級;同時每個潛在主題可以表示為單詞的概率分布,并且主題的單詞分布也具有相同的狄利克雷優先級[58].有的研究者使用LDA 研究作者識別.Seroussi 等[59]利用LDA 對文本和作者進行建模,并使用基于LDA表示形式的文本距離對測試文本進行分類.實驗結果表明,當訓練文本足夠多且存在有效作者時,該方法的準確率超過基準方法,而運行時間大大降低.Savoy[60]利用LDA 把每個文檔建模為主題分布的混合,每個主題指定單詞的分布,根據爭議文本距離確定可能的作者歸屬.實驗結果表明,基于LDA的分類方案優于基于Delta 規則的分類方案,同時,基于LDA 的方案在考慮更多術語時可以提供更好的有效性.Anwar 等[61]使用LDA 與n-gram 結合的方法生成烏爾都語語料庫的降維主題表示,并使用該主題表示與改進的平方根余弦距離度量對測試文檔進行分類.結果表明,所提出的方法具有很高的精度,在由6000 個文檔組成的數據集上達到了92 %的F1 測量值.
有監督的方法是從標注的數據中學習模型預測的方法,其中標注數據表示輸入和輸出的對應關系,預測模型對給定的輸入產生相應的輸出,因此從本質上來說,有監督的方法學習的是輸入到輸出映射的統計規律[49].與無監督的方法相比,有監督的方法可以利用先驗的類別知識,因此準確率通常較高,這使其成為作者識別研究中的主流方法.有監督的方法可以按照模型類型進一步細分,比如可以分為概率模型與非概率模型、線性模型與非線性模型、參數化模型與非參數化模型、生成模型與判別模型等.本小節把有監督的方法分為生成方法和判別方法,并著重介紹一些作者識別中常用的方法.
2.2.1 生成方法
生成方法是先學習聯合概率分布,進而求得條件概率分布的方法,在監督學習中,概率模型是生成模型[49].本部分主要介紹樸素貝葉斯方法.
樸素貝葉斯是基于貝葉斯定理與特征條件獨立假設的分類方法[49].具體來說,它是在類條件概率密度和先驗概率已知的情況下,通過貝葉斯公式比較樣本屬于兩類的后驗概率,將類別歸為后驗概率較大的一類,這樣可以使總體錯誤率最小[62].有些學者利用樸素貝葉斯研究作者身份識別.Zhao 和Zobel[63]選取55 位作者的634 篇文章,采用功能詞和POS 標簽作為特征,使用樸素貝葉斯方法進行作者識別.結果表明,以功能詞為特征的分類效果高于POS 標簽以及二者混合的結果.同時也證實,作者具有可識別的寫作風格,并且簡單的標記就足以識別特定的作者.Boutwell[64]使用樸素貝葉斯分類器,利用基于字符n-gram 的特征構建作者集統計模型識別短信的作者歸屬.研究表明,把推文或者短信息聚在一起容易提取文本特征,更有利于作者識別.在最差的情況下,連接多個文本到一個文檔比起單獨檢測準確率提高了50 %.Altheneyan和Menai[65]使用簡單樸素貝葉斯、多項式樸素貝葉斯、多變量伯努利樸素貝葉斯和多變量泊松樸素貝葉斯等4 種方法研究阿拉伯文本的作者識別.實驗結果表明,多變量伯努利樸素貝葉斯達到了最高的準確率97.43 %,它與多項式樸素貝葉斯適合用來研究作者身份歸屬.Howedi 和Mohd[66]選擇字符ngram 和單詞n-gram 作為文本特征,使用樸素貝葉斯分類器進行阿拉伯文本的作者識別,并與支持向量機進行對比.實驗結果表明,樸素貝葉斯整體優于支持向量機,基于單詞1-gram 的樸素貝葉斯達到了最高的準確率96.67 %.
2.2.2 判別方法
判別方法是直接學習條件概率分布或決策函數的方法,在監督學習中,非概率模型是判別模型[49].本部分主要介紹支持向量機、決策樹、k近鄰方法、神經網絡等判別方法.
1)支持向量機
支持向量機的基本原理是找到一個最優的分類面,使得兩類中距離這個分類面最近的點和分類面之間的距離最大[67].Diederich 等[68]利用支持向量機對德國報紙文本進行作者歸屬,實驗結果表明,支持向量機在識別任務中始終具有良好的性能,不需要特征選擇,并且可以處理文本所有單詞的頻率向量.Schwartz 等[69]利用支持向量機研究微小信息在推特語料上的作者識別.結果表明,微小信息能夠取得好的識別效果,單個推文的作者可以在一系列短文本作者識別任務中被準確識別.Mikros 和Perifanos[70]提取多級n-gram 輪廓,利用多類支持向量分類算法進行分類,并使用10 次交叉驗證和500 條實際推文的外部數據集評估分類性能.結果表明,與單個n-gram 特征組相比,該方法獲得了更好的準確性.Li 等[71]采用支持向量機方法研究了Facebook 的短社交網絡帖子的作者身份驗證問題.測試結果顯示,樣本大小、特征和用戶書寫風格對作者身份驗證有較大影響,帶有線性內核的支持向量機方法可以達到79.6 %的準確率,超過k近鄰方法.Martin-del-Campo-Rodriguez 等[72]結合傳統字符n-gram 引入標點符號n-gram 作為文檔特征表示,從不同文本特征開始對多個SVM 進行訓練,并用所有SVM 結果的平均值作為基準確定作者歸屬.在針對開集跨域作者識別的PAN 2019 競賽中,此方法獲得了0.642 的F1 分數.Soler-Company 和Wanner[73]使用面向表面的、句法依賴的以及包含話語結構特征的188 個特征構建特征集,并利用帶內核的支持向量機進行作者識別.結果表明,句法依賴和話語特征的使用可以使總特征數量減少到小于200 個,而識別結果仍然能達到較高水平.
2)決策樹
決策樹(Decision tree,DT)是機器學習中廣泛研究的方法之一,它是一種以實例為基礎的逼近離散函數的歸納學習方法[74].決策樹本質上是從訓練數據集中歸納出一組分類規則,它的模型是非參數的、無分布的,并且對于異常值和不相關屬性具有魯棒性[75].有些研究者利用決策樹分類方法研究文本作者識別.Frery 等[76]采用基于文本的幾種表示和優化決策樹的機器學習方法進行PAN 2014 作者身份識別任務.該方法綜合性能排名第二,實驗表明,構建有效的屬性會大大提高算法在某些語料庫上的準確性.Digamberrao 和Prasad[77]使用序貫最小優化與基于規則的決策樹相結合,在五位作者撰寫的馬拉地語文章中進行作者識別,并基于不同標準評估了該方法的性能.結果表明,雖然在訓練集減小時精度會降低,但該方法可以適用于英語、馬拉地語、孟加拉語等多種語言.也有的研究者利用隨機森林(Random forest,RF)研究作者身份歸屬問題.隨機森林是包含多棵決策樹的分類器,它通過集成學習把若干棵決策樹的輸出集合起來,綜合評定產生最終輸出.因此,隨機森林在處理缺少變量的不均勻數據集時表現會非常好,它往往比決策樹具有更低的分類誤差和更好的F分數.Maitra 等[78]利用隨機森林分類器根據基于單詞和風格的特征對未知文檔進行分類,得到了較優的結果.
3)k近鄰方法
k近鄰(k-nearest neighbor,KNN)算法的目標是將對象分類為由機器學習創建的樣本組的預定義類之一,具體來說,算法基于某種距離度量找出訓練樣本中與測試樣本最接近的k個樣本,然后再基于這k個訓練樣本進行預測.通常而言,會根據k個樣本中的大多數樣本的類別來預測結果.該算法不需要使用訓練數據來執行分類,可以在測試階段使用訓練數據[79].有些研究者采用k近鄰方法進行作者識別研究.Halvani 等[80]利用基于k近鄰的方法研究PAN 2013 作者識別任務.該方法利用k近鄰分類器計算真實作者的訓練文檔與未知文檔之間的風格偏差分數,根據分數以及給定的閾值確定作者歸屬.該方法具有語言獨立、運行時間短、易于擴展和修改等優點,在PAN 2013 作者識別任務上得到了80 %的總體準確率,在個人數據集上的準確率是77.50 %.Anwar 等[81]利用LDA 模型在文本ngram 上生成文檔的主題表示,然后使用余弦相似度和KNN 分類器進行分類.在不使用任何標簽的情況下,即可在英語和烏爾都語新聞語料中獲得令人滿意的結果.Sarwar 等[82]基于詞匯、句法和結構等特征,使用概率k近鄰分類器研究泰語文檔的作者識別.實驗結果表明,將所有特征類別組合在一起可以提高作者識別過程的準確率.
4)神經網絡
神經網絡(Neural networks,NN)是簡單處理元件、單元或節點的互連系統,其網絡的處理能力體現在通過適應或學習一組訓練模式的過程中獲得的單元間連接強度或權重上[83].針對一些實際情況復雜、背景知識不清楚、規則不明確的問題,神經網絡算法具有很強的處理能力.有些學者利用神經網絡方法研究文本作者識別.Bagnall[84]使用循環神經網絡同時對幾個作者的語言進行建模,每個作者的文本由依賴于共享循環狀態的單獨輸出表示.實驗結果表明,循環神經網絡可以成為作者身份識別中的有用工具.該方法更多地基于信息理論而不是傳統的聚類,并且能夠避免特征選擇和過擬合的泥潭.Ruder 等[85]利用卷積神經網絡進行大規模作者身份歸屬,以處理特征級別信號并進行快速預測.該方法結合了字符和單詞通道,利用了文本風格和主題信息,獲得了較優的結果.Qian 等[86]使用門控循環單元、長短期記憶網絡和孿生網絡等三種深度學習模型識別作者身份,并使用孿生網絡驗證作者身份.結果表明,文檔級別的門控循環單元在作者身份識別方面表現最好,孿生網絡在作者身份驗證上達到很高的準確率.Shrestha 等[87]使用基于字符ngram 的卷積神經網絡對推文進行作者識別,并通過估計輸入文本片段在預測分類中的重要性來提高模型的可解釋性.實驗結果表明,卷積神經網絡在推文的作者識別方面具有很好的性能,使用字符ngram 而不僅僅是字符序列也可以提高作者識別的性能.Jafariakinabad 等[88]引入句法循環神經網絡來編碼層次結構中文檔的句法模式.該模型首先從詞性標簽序列中學習句子的句法表示.隨后,使用循環神經網絡將句子的句法表示聚合成文檔表示.實驗結果表明,句法循環神經網絡在精度方面優于具有相同架構的詞匯模型.
識別方法在自然語言處理任務中具有通用性.換句話說,本節所述的方法可以應用到文本分類、情感分析、關系抽取等其他自然語言處理任務中.本小節對比分析無監督的方法和有監督的方法.其中,表2 給出了無監督方法之間的對比,表3 給出了有監督方法之間的對比[49].

表2 無監督方法對比表Table 2 Comparative table of unsupervised method

表3 有監督方法對比表Table 3 Comparative table of supervised method
從19 世紀后期研究者開始使用統計等數學工具研究作者識別以來,作者識別已經經過一百多年的發展.在漫長的發展過程中,作者識別研究呈現出兩個明顯的趨勢:文本特征豐富化以及方法和思想多元化.文體特征從最初的一元單一特征逐漸發展為多元混合特征,分類方法也從簡單數學公式的應用而逐漸發展出復雜的神經網絡.研究者越來越傾向于多特征組合的研究方式,比如Khomytska 和Teslyuk[89]使用不同音素特征搭配統計模型進行作者識別,Grabchak 等[90]提出基于廣義Simpson 索引的輪廓來判斷兩個樣本是否由同一作者所撰寫.Srinivasan 和Nalini[91]選擇句法、結構和n-gram 作為特征,使用4 種不同的機器學習分類器研究亞馬遜評論的作者識別.針對目前作者識別領域的發展狀況,下面主要從數據規模、跨域研究、特殊方法等三個方面闡述作者識別的多層面研究.
作者識別的研究結果常常受到數據集規模或作者數量的影響.研究者提出的方法在小數據集以及少數幾個作者的情況下表現良好,而一旦擴大數據集規模或者增加作者數量,其執行結果往往不確定.換句話說,利用小數據集以及少數作者驗證方法的研究者可能高估了其方法的準確性,甚至高估了他們所選擇的文本特征的重要程度[92].鑒于此,一些研究者專門研究數據集大小以及作者數量對作者識別實驗結果的影響.
Luyckx 和Daelemans[93]在一個有145 位作者的語料庫上針對特征選擇進行研究,實驗結果表明,當增加作者數量時,系統性能顯著下降.功能詞和句法特征的組合可以使系統性能顯著提高,部分作者高估了他們方法的準確率以及所選特征的重要性.Eder[94]使用基于k近鄰的Delta 方法研究文本尺寸對作者歸屬的影響,以希望找到可以用于作者歸屬的文本樣本的最小尺寸.實驗結果表明,對于現代英語,最小穩定樣本為5000 個單詞,使用2500詞的樣本幾乎不能提供可靠的作者識別結果.Koppel 等[95]使用訓練文本的各種子集進行實驗,以研究大數據集和大作者集上的作者歸屬問題,同時確定樣本尺寸對候選作者數量、每個候選作者的已知文本量以及未知文本長度的影響.結果表明,基于相似性的方法以及多個隨機特征集可以在大數據集和大作者集上實現較高的精度.Luyckx 和Daelemans[96]系統地研究了作者集規模和數據集規模對作者識別性能和特征選擇的影響.實驗結果表明,在小數據集上實現95 %準確率的方法無法在大數據集上達到相同或者類似的性能,并且隨著作者數量的增加,方法的準確率降低到不具有實際意義的程度.在大多數情況下,字符n-gram 的識別結果要優于其他文本特征.
作者識別研究常常關注特定作者在無意識的情況下表現出的寫作風格,這種風格往往與文章的內容無關.然而,一個不可否認的事實是,文章的類型、主題甚至所用的語言會在更高維度上影響作者的表達方式.換句話說,同一位作者在不同類型或者不同主題的文本中可能表現出不同的行文風格.因此,一些研究者在跨主題作者識別方面進行研究,希望發現更一般的規律.Stamatatos[97]研究字符ngram 在跨類型和跨主題條件下的作者識別,并與基于單詞的方法進行比較.結果表明,當訓練和測試語料庫之間存在顯著差異時,字符n-gram 能夠更好地捕獲文本的風格屬性.Markov 等[98]提出一個改進的跨主題作者歸屬算法,以研究字符ngram 在跨主題作者歸屬中的性能.結果表明,通過執行簡單的預處理步驟和適當調整特征數量,可以顯著提高字符n-gram 在跨主題條件下的性能.高頻閾值能夠有效排除與主題特定信息相關聯的最不頻繁的n-gram,進而提高準確率.Rahgouy 等[99]基于文檔不同表示形式的模型組合研究跨領域的作者識別.該方法使用文檔的TF-IDF、Word2Vec 和ngram 表示來訓練三種類型的模型并使用整體進行預測.文中還使用臨時網格搜索對模型和集合參數進行調整,以達到最優效果.實驗結果表明,該方法非常有能力區分不同作者.
以上這幾篇文章是n-gram 特征與文本主題相結合的研究.可以看出,在跨主題的研究中,n-gram特征仍然能夠充分捕捉文本特征,進而獲得較好的識別結果.也有研究者選擇詞匯或者多種混合特征研究跨主題的作者識別.Mikros 和Argiri[100]創建了由兩位作者在兩個不同主題中撰寫的200 篇現代希臘新聞專線文章組成的特殊語料庫,研究了作者身份歸屬中一些廣泛使用的風格變量的主題中性特征,以探討文本主題對作者歸屬的影響.實驗結果表明,大多數變量與文本主題具有很大的相關性,在作者分析中應該謹慎使用.Sari 等[101]對4 個數據集進行分析,以探討不同類型的特征如何通過影響主題或風格影響作者歸屬的準確性.隨后他們將分析得出的結論應用到作者識別方法上,在4 個數據集中的兩個數據集上,得到了更好的結果.有些研究者會借助主題模型進行研究.Seroussi 等[102]對比分析了SVM、LDA、作者感知主題模型以及不連貫的作者文檔主題模型等4 種作者識別模型,發現作者感知主題模型勝過LDA,而該文提出的不連貫的作者文檔主題模型勝過以上3 種方法.Seroussi 等又在另一篇文章[103]中進一步發展并完善了該方法.Yang 等[104]提出了主題漂移模型,用來描述個人作者的興趣和寫作風格的變化.與之前的作者歸屬方法不同的是,該模型對時間信息和單詞順序敏感,因而能從文本中獲取更多的信息.實驗結果表明,與其他模型相比,該方法獲得了更高的準確率.
一些學者研究跨語言下的作者識別.Halvani等[105]提出一種作者驗證方法,該方法為每種語言提供一個通用閾值,用于接受或拒絕所謂的文檔作者身份.在荷蘭語、英語、希臘語、西班牙語和德語等5 種語言16 種類型和混合主題上的28 個語料庫上的實驗獲得了接近75 %的中位數準確率.由于該方法不涉及自然語言處理技術以及機器學習庫,它可以靈活地擴展到新語言或者新類型上.Bacciu 等[106]利用基于字符、單詞、詞干和失真文本的n-gram 作為文本特征,并使用組合的單分類器對不同語種的文檔進行識別.實驗結果表明,所提出的方法在幾乎所有問題中都優于基線模型.使用此模型,在PAN 2019 作者識別競賽中獲得了0.68 的F1 分數.
也有研究者利用文本失真掩蓋主題相關信息的方法進行作者識別.Stamatatos[107]提出一種基于文本失真來壓縮主題相關信息的方法.該方法將輸入文本轉換為適當的形式,并保持與作者個人風格相關的文本結構,同時掩蓋與主題信息相對應的最不頻繁的單詞的出現.實驗結果表明,與其他作者身份歸屬方法相結合時,該方法可以顯著提高其在閉集歸屬和作者身份驗證中跨主題條件下的效果.而在另一篇文章中,Stamatatos[108]再次利用基于文本失真的方法掩蓋與主題相關的信息,通過將輸入文本轉換為更加主題中立的形式,盡量多地保持與作者個人風格相關聯的文本結構.使用包含細粒度主題和類型的受控語料庫將文本失真方法用于跨領域的作者識別任務上.實驗結果表明,在跨主題的作者身份歸屬中,該方法顯著提高了作者識別的性能;而在跨類型的作者身份歸屬中,該方法僅增強了一類方法的性能.在以上二者結合的作者身份歸屬中,結果與跨類型實驗相近,這表明類型是作者身份歸屬中比主題更重要的因素.
作者識別的交叉特點使得其他領域的思想和方法能夠應用到該領域的研究中來,從而產生一些比較特殊的研究方法.一般的作者識別研究會選擇某個或者某些文本特征來刻畫作者的行文風格,本部分介紹兩種特殊的方法——壓縮方法和頻率混沌游戲表示方法,它們不借助文本特征就能實現作者識別.
1)壓縮方法
壓縮方法是作者識別領域中的一種比較特殊的方法.一般情況下,作者識別研究需要根據文本特征確定作者歸屬.而壓縮方法避免了定義特征,甚至在有些情況下僅依賴壓縮算法、相異度度量和閾值就能完成整個識別過程.利用壓縮方法進行作者識別的一般步驟為:使用壓縮算法構建處理文檔的模型或字典,經過多次壓縮產生較高的壓縮率,利用壓縮率衡量訓練文本和新文檔之間的交叉熵,新文檔則被分配給訓練文本中使交叉熵最小的類[109].壓縮方法的思想可以簡述為,如果在一個文檔中可以顯著地壓縮另一個文檔,那么這兩個文檔被認為是接近的.換句話說,如果兩個文檔很相似,則可以用一個文檔來更簡潔地描述另一個文檔.壓縮方法不使用關于數據的任何特征或背景知識,因而其無參數、簡單易用,可以避免由于人為選擇特征而引入的噪聲以及信息丟失等問題[110].
一些學者利用壓縮方法來研究文本的作者識別.Cerra 等[111]使用快速壓縮距離(Fast compression distance,FCD)研究基于壓縮的相似性度量在文本作者分析方面的表現.FCD 能夠捕獲字典中單詞的重復組合,描述文本規則,以及比較任何兩個文檔之間的共享信息.實驗結果表明,該方法具有普適性,可以在英語、意大利語、希臘語、西班牙語和德語文檔中直接使用.相對于傳統的基于壓縮的方法,FCD 計算復雜性低,而準確率更高.Halvani 等[112]提出一種基于壓縮模型的簡單且高效的作者身份驗證方法.實驗結果表明,部分匹配預測勝過所有其他測試壓縮機,基于壓縮的余弦測量產生了最高的結果,在針對所有訓練語料庫測試的5個壓縮機中表現穩定.基于壓縮模型的方法超過基于支持向量機或神經網絡的許多方法,并且可以很容易地應用到其他語言上.
2)頻率混沌游戲表示方法
混沌游戲表示是一種從核苷酸序列創建圖像的方法,它被用來從大量文本文檔中制作圖像.Lichtblau 等用經過特殊處理過的圖像特征代替傳統的文本風格特征進行作者識別.從結果上來看,這種特征可以成為作者識別領域新的分類特征,為后續作者識別研究提供了一種新思路.具體來說,Lichtblau 和Stoean[113]使用頻率混沌游戲表示從文本產生灰度圖像,然后用圖像訓練機器學習分類器,利用所學的模型識別這些灰度圖像,以區分不同文本的作者.實驗結果表明,該方法在英語和葡萄牙語語料庫上獲得了令人信服的結果.聯邦主義文檔和葡萄牙語數據集上的驗證結果與文獻中的最佳結果相當.此外,該方法對少于1000 字符的文本也有較好的識別結果,因此可以用于識別匿名電子郵件或博客文本的作者.而在另一篇文章中,Lichtblau 和Stoean[114]再次利用混沌游戲表示將文本轉換為圖像,再將圖像壓成向量,通過奇異值分解進一步減小尺寸.再用神經網絡學習與每個作者相關的特征,并建立模型對樣本進行分類.實驗結果表明,在3個基準數據集上,所提出的方法明顯優于頻率混沌游戲表示的線性回歸方法.與其他成熟的作者識別方法相比,該方法可以獲得更好或者相似的結果.
隨著互聯網的發展,網絡文本大量增加,作者識別的研究重點逐漸從傳統文學作品轉向人們接觸更多的網絡文本.評測是采用統一數據集和評價標準進行測試和評價的活動.由于數據集和評價標準都是統一的,其結果對衡量算法的真實性能具有很強的說服力.最近幾年,越來越多的研究者開始參與到網絡評測中,進而產生了一些持續多年的、受到學者們廣泛關注的評測.這些評測因其高質量的數據、評價和算法總結而在相關領域的影響較大.本節主要介紹作者身份驗證、作者身份概述、作者身份混淆等與作者識別相關的評測,以期望為作者識別的研究帶來新的方法和思想.
作者身份驗證又簡稱作者驗證,是數字文本取證研究的一個分支,旨在確定兩個文檔是否由同一作者撰寫.評估論壇實驗室大會(Conference and Labs of the Evaluation Forum,CLEF) 在2013~2015、2020 年組織過作者身份驗證評測,本小節主要關注2020 年的評測.在2020 年的評測中,有10 個團隊提交了13 個系統,下面介紹其中性能最優的幾個.
Boenninghoff 等[115]提出一種將神經特征提取與統計建模相結合的方法,該方法采用具有孿生網絡結構的深度學習框架生成特征,然后在概率線性判別分析層執行貝葉斯因子評分,以衡量兩個文檔之間的相似性.評測結果表明,所提出的方法在小型數據集和大型數據集上均取得了優異的總體性能評分.Halvani 等[116]選擇標點符號、功能詞、縮寫詞、過渡短語等與主題無關的項作為文本特征,并使用基于曼哈頓度量的距離函數以及基于相等錯誤率的閾值處理程序作為分類器.結果表明,該方法具有出色的性能,在所有提交的方法中排名第三.Kipnis[117]提出一種無監督的分類方法,該方法利用兩個文檔之間的單詞二項式分配模型逐個計算單詞的p值,并使用較高的批評度將它們組合為一個分數統計.通過評估與文檔對相關的高級批評的經驗分布,將產生的分數轉換為相似性得分.該方法比較簡單,在跨域作者身份驗證中取得了有競爭力的結果.
作者身份概述又簡稱作者概述,是通過對文本的分析來找出其作者盡可能多的個人信息的任務,包括但不限于年齡、性別、母語、教育水平、社會地位等,它在取證、市場營銷和網絡安全方面有著廣泛的應用[118].與作者識別類似,作者概述也需要對作者風格進行分析.因此,作者識別上的風格分析方法可以應用到作者概述上.最近幾年,作者概述發展非常迅速,這得益于作者分析方法的大量提出以及各種網絡評測的開展,特別是CLEF 和信息檢索評估論壇(Forum for Information Retrieval Evaluation,FIRE)組織的評測.CLEF 在2013~2020 年連續8 年組織了作者概述評測,而FIRE 則在2018~ 2019 年組織了相關的評測.由于相關研究眾多,無法一一列舉,本小節只介紹最近4 年評測中排名相對靠前的作者概述方法.
CLEF 在2017 年組織了確定推特作者的性別和語言種類的評測,有3 種方法獲得了整體最佳結果,它們之間沒有顯著的差異[119],分別是Basile 等使用字符和TF-IDFn-gram 組合訓練支持向量機,Martinc 等[120]使用字符、單詞和詞性n-gram 組合訓練邏輯回歸分類器以及Tellez 等[121]使用表情符號、情感、字符流和每個變體的單詞列表訓練支持向量機來完成任務.CLEF 在2018 年組織了根據推特的文本或圖像確定作者性別的評測.3 個最佳結果分別來自:Takahashi 等[122]利用單詞嵌入和循環神經網絡識別文本,同時利用基于ImageNet 的卷積神經網絡識別圖像;Daneshvar 和Inkpen[123]基于單詞和字符n-gram 組合訓練支持向量機;Tellez 等[124]使用不同類型的n-gram 訓練支持向量機,同時結合使用DAISY 特征描述符的視覺詞袋模型進行分類.總體而言,傳統方法仍然保持競爭力,而一些基于深度學習的新方法正在獲得優勢[125].CLEF 在2019 年組織了判斷給定推特的作者是人還是機器(如果是人的話,確定其性別)以及根據名人的推特,確定其主人的年齡、名望、性別和職業的評測.在第一個任務中,性能最高的4 個團隊均使用了單詞和字符n-gram 與支持向量機的組合.評測結果表明,傳統方法比深度學習方法獲得了更高的準確率,深度學習方法首次出現在排名中,具體來說是卷積神經網絡,排在第11 位[126].至于第二個任務,CLEF 在2020 年也組織過.這兩年一共收到研究者提交的10 種方法,其中2019 年的最佳方法和2020 年的最佳方法分別是:Radivchev 等[127]選擇單詞2-gram 作為特征,用TF-IDF 進行向量化,然后使用邏輯回歸和支持向量機進行分類;Hodge和Price[128]選擇POS 標簽、停用詞數、命名實體類型等特征并使用邏輯回歸、隨機森林和支持向量機進行分類.
FIRE 在2018 年組織了識別烏爾都語和英語文本作者的性別和年齡的評測,2019 年組織了確定阿拉伯語推特用戶的年齡、性別和語言種類以及兩種不同類型的阿拉伯語欺騙檢測的評測.這里主要關注阿拉伯語推特的作者概述.Siagian 和Aritsugi[129]選擇單詞n-gram、字符n-gram、二者的組合以及功能詞作為特征,并使用支持向量機進行分類.該方法性能優越,在性別、年齡和語言類別等三個方面的綜合排名中位列第一.Nayel[130]利用基于ngram 的詞袋模型提取文本特征,并使用線性分類器、支持向量機和多層感知器進行分類.結果表明,在絕大多數情況下,線性分類器獲得了最高的準確率.這說明與作者身份相比,其性別、年齡和語言類別等信息通常隱藏在更低維度的文本特征中.Sharmila 等[131]分別使用單詞和字符的n-gram 以及單詞嵌入,經過TF-IDF 加權,再使用支持向量機和fastText 進行分類.該方法具有較好的性能,在欺騙檢測中排名第二,而在作者概述中排名第三.與傳統模型相比,加權嵌入獲得的準確性較低,其原因可能是給定數據集中的某些單詞在預訓練模型中不存在.
作者身份混淆 (Authorship obfuscation)又簡稱作者混淆,是作者識別的對抗性任務,其目的是使基于作者寫作風格的身份識別變得不可能或至少難以進行[132].由于作者識別和作者混淆互為對抗任務,因此對于其中一項任務而言,某種方法的成功與否取決于其對另一項任務中最有效方法的 “免疫力”[133].與作者識別相比,作者混淆很少受到研究者的關注,造成這種情況的原因很可能是作者混淆需要釋義作為子任務,從而給研究者進入該領域帶來很大的障礙[133].從評價標準上來看,作者混淆比作者識別更復雜.作者識別一般通過準確率等指標評估算法的優劣,而作者混淆除了要評估安全性以外,還需要對合理性和完整性進行評估,甚至很多時候需要人工進行審核.2016~ 2018 年,CLEF 連續組織了作者混淆評測任務,產生了7 種混淆方法,促進了該領域的研究進展.本部分主要介紹一些比較成功的方法,以期望能為作者識別提供一些可以借鑒的思路.
Mihaylova 等[134]對文本中可以表明作者身份的不同特征(句長、標點、停用詞、詞性等)進行評估,然后使用多種基于規則和隨機的文本操作,將目標文本的這些特征的度量調整到平均水平,同時保持文本的含義和完整性.此外,他們還嘗試將隨機噪聲添加到文本中.使用該方法的混淆器獲得了當年的最佳性能,在2016~ 2018 提交的7 種混淆器中排名第二,與第一名評分很接近.該方法的成功說明基于簡單特征捕獲作者寫作風格的識別方法容易被混淆器擊敗,要想對抗這種混淆方法,必須考慮不容易改變的、更深層次的文本特征.Mansoorizadeh 等[135]從WordNet 上獲得同義詞來替換原始文本中的200 個最常見單詞.他們通過詞義和語義兩個方面來衡量原始詞和被替換詞的相似度,以便選擇最佳同義詞,每個句子最多替換一個同義詞.從整體上來說,該方法專注于改變文檔的詞頻特征,較少的改動能夠保證很高的文本質量,同時可以使基于詞匯特征的作者識別方法失效.Keswani 等[136]采用基于往返翻譯的方法,將英語譯為中間語言,再將中間語言譯回英語,以此來實現作者混淆.在翻譯的過程中,由于翻譯模型的差異以及翻譯過程中的各種懲罰,詞匯、平均句長以及語言結構都會發生變化.雖然該方法在評測中表現一般,但是仍然具有相當的潛力,結合成熟的商業引擎能夠保證在較高文本質量的前提下達到混淆作者的目的.
Castro-Castro 等[137]提出一種在無監督的情況下執行句子轉換的方法,同時使用字典和語義資源以及句法簡化規則進行句法和語義更改.具體操作是根據字典或更長的版本替換縮略語,使用FreeLing 替換同義詞,并通過省略括號中的部分、語篇標記以及并列成分來縮短句子.該方法獲得了很高的混淆性能,在CLEF 連續組織的評測中排名第一.Kocher 和Savoy[138]的方法基于20 條規則,這些規則將緊縮詞與普通單詞互換、替換了一些形容詞和連詞,還通過重復拼寫來引入錯誤.總體來說,該方法基于搜索和替換,通過改變頻率特征以欺騙識別器,在保證原始文本質量的前提下,可以達到一定的混淆度.Rahgouy 等[139]從作者已知的文檔中學習作者指紋,然后利用相關統計信息有針對性地對原始文本進行定向轉換和變形.該方法主要改變句子長度、緊縮詞和一般單詞的使用,并根據與原始單詞的相似性、單詞出現的可能性以及句子變體的單詞移動距離對可能的替換術語進行評分.對混淆文本進行的自動和手動評估顯示了該方法的有效性.
語料,即語言材料,是若干語言樣本的統稱.在計算語言學中,語料通常指研究者搜集的大規模語言實例.語料經過進一步集合和加工可以形成語料庫,換句話說,語料庫是大量經過整理的、具有既定格式和標準的語料集合.國內的作者識別起步較晚,研究者數量少,研究相對落后.目前,在作者識別領域,尚無公開的漢語數據集.國外的作者識別研究起步較早,最近幾年發展較快,有一些公開的數據集.下面簡單介紹這些公開的數據集.
1) IMDb62 數據集1https://umlt.infotech.monash.edu/?page_id=266
包含互聯網電影資料庫中62 位超級用戶的62000 條電影評論和17550 個留言板帖子,其中每個用戶撰寫了1000 條電影評論以及不同數量的留言板帖子.
2)博客數據集2http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
包含19320 位作者的681288 篇博客文章,總共超過1.4 億個單詞,平均每人35 篇文章和7250個單詞.
3)判決數據集3https://umlt.infotech.monash.edu/?page_id=152
包含Dixon、McTiernan 和Rich 等三名澳大利亞高等法院法官的判決,其中有來自Dixon 的902個文檔,來自McTiernan 的253 個文檔和來自Rich 的187 個文檔.
4)電子郵件數據集4https://www.cs.cmu.edu/~./enron/
包含大約150 個用戶的50 萬封電子郵件,其中大多數用戶都是Enron 的高級管理人員.
5) CCAT10 數據集5https://drive.google.com/drive/folders/1hlIWVSt0dfy8fz8d4w RzZItl-LCo5BH1?usp=sharing
路透社語料庫第1 卷的子集,包含10 位作者的新聞專線報道,其中每位作者有100 篇文檔,總共1000 篇文檔.
6) CCAT50 數據集6https://archive.ics.uci.edu/ml/datasets/Reuter_50_50
路透社語料庫第1 卷的子集,包含50 位作者的新聞專線報道,其中每位作者有100 篇文檔,總共5000 篇文檔.
7) PAN 數據集7https://pan.webis.de
包含各種有關數字文本取證和文體學評測任務的數據集.
評價指標(Evaluation index)是衡量作者識別分類器或作者識別模型性能優劣的評價標準.評價指標在自然語言處理任務中具有通用性.換句話說,用于作者識別的評價指標也可以用于文本分類、情感分析等其他自然語言處理任務.評價指標分為很多種,比如正確率(Accuracy)、查全率(Recall)、查準率(Precision)、F測量值(F-measure)、宏平均(Macro-average)、微平均(Micro-average)、受試者工作特征(Receiver operating characteristic,ROC) 曲線下的面積(Area under ROC curve,AUC)等.下面逐一來介紹這些評價指標.
正確率,也稱為準確率或者精度,是最常用的評價指標,它被定義為測試集中正確預測的樣本數量占整個測試集的百分比.正確率A的公式表示為:

其中TP、FP、TN和FN分別代表真正類(True positive)、假正類(False positive)、真負類(True negative)和假負類(False negative).為了進一步細化分類器在某個特定類別上的分類性能,查全率、查準率等評價指標被應用于作者識別研究中.一般而言,查全率(又稱為召回率)被定義為某一特定類別中預測正確的樣本數量占該類別樣本數量的百分比,而查準率則被定義為某一特定類別中預測正確的樣本數量占實際預測為該類別樣本數量的百分比.查全率R和查準率P的公式表示為:

查全率和查準率是從不同的角度衡量分類器性能的,為了綜合二者的整體效果,學者提出F1 測量值.F1 測量值被定義為查全率和查準率的調和平均值,用公式表示為:

查全率、查準率和F1 測量值在正確率的基礎上進一步細化了評價標準.然而,這3 個評價指標只能針對特定的類別.為了克服這一缺點,學者們提出宏平均和微平均指標.這兩個指標可以給出平均意義下的查全率、查準率或者F1 測量值,能夠反映分類器對不同類別的整體分辨能力.宏平均和微平均的差別在于,宏平均先分別計算不同混淆矩陣的查全率和查準率,然后通過取平均的方式得到宏查全率和宏查準率,再根據宏查全率和宏查準率計算出宏F1 測量值;而微平均先針對所有混淆矩陣求平均,然后再計算微查全率、微查準率和微F1 測量值.
與查全率、查準率和F1 測量值相比,宏平均和微平均在綜合不同類別預測結果的基礎上給出分類器的整體性能評價.由于其計算比較復雜,因此在作者識別研究中應用得并不多.作者識別研究需要根據語料的特點選擇相應的分類算法和評價指標.通常情況下,研究者所選擇的語料,其每個類別的樣本數量相等,或者即便不相等也差別不大.此時,選擇宏平均或者微平均得到的結果差異并不大.但是,有些時候研究者需要利用一些不同類別樣本數量差距較大的語料進行作者識別研究.此時,選擇宏平均還是微平均得到的結果差異較大,用它們就不容易反映分類器的整體性能了.為了克服由于樣本數量差異帶來的影響,研究者提出AUC 指標.ROC 曲線是以假正類率為橫坐標,真正類率為縱坐標的曲線,它反映了不同閾值對分類器泛化性能的影響[67].ROC 曲線下的面積即為AUC,該指標同時考慮了分類器對正類和負類的分類能力,因此在樣本不平衡的情況下,仍然能夠對分類器的性能進行合理的評價.
計算機的出現和廣泛應用使得作者識別在最近幾十年中快速發展.到目前為止,作者識別已經發展成為一個涉及眾多學科的交叉學科.多學科交叉使得作者識別研究能夠借鑒其他學科優秀的方法和思想.與其他自然語言處理任務相比,作者識別缺少一些應用場景,從事作者識別的研究者數量相對較少,相應的研究多基于理論探究.目前的作者識別主要面臨一個寬領域、缺乏應用、小眾研究的局面.在這個大背景下,作者識別研究主要存在以下幾個方面的問題.
1)數據集的差異使得不同研究之間很難橫向比較.在計算語言學領域的研究中,基準數據集和評價指標是評估和分析算法性能的關鍵.然而,在作者識別領域缺乏基準數據集.除了一些競賽會采用統一的數據集外,其他研究很少基于統一數據集,多數研究者會選擇自己感興趣的數據集完成研究.數據集的差異會導致很多問題,常見的是其他的研究者無法重復論文的工作,更無法在原有的基礎上進行改進.很多研究者都強調自己的方法更先進,而由于無法排除數據集差異所帶來的影響,算法的實際改進效果無法確定.
2)實驗結果通常受很多因素的影響,而多數文章未對這些因素進行詳細敘述.作者識別領域的實驗會同時受到多種因素的影響,比如語料的選擇、預處理、特征提取、分類算法的選擇及參數設置等.目前該領域的一種常見情況是,研究者對實驗設計的描述不夠清晰.有的是對新提出的分類算法描述不清,更多的則是缺乏分類算法之外的實驗細節.這樣在不公布代碼的情況下,其他研究者很難了解具體的實驗方案.算法描述不清晰或者其他實驗細節的缺乏會導致已有的工作很難被復現或評價.
3)目前的大多數研究都側重于對結果進行定量評估,而缺乏對文本特征的進一步分析.文體風格是一個很復雜的組合,理論上可能有數千個特征組成.研究特定的作者識別問題意味著只能選擇有限數量的文本特征.對文本特征的分析有利于研究者從龐大的特征組合中選出最有效的特征,進而提高作者識別的正確率.反之,則不利于特征的篩選,正確率的提升可能僅依賴算法的改進.從另一個角度來講,文本特征直接和可解釋性相關,而可解釋性又和法醫學、文體學、心理學上的一些應用相關.只進行結果評估而不詳細討論用于識別作者的文本特征,既不利于作者識別研究的改進,也不利于相關應用的發展.
作者識別研究經歷了由 “文體學知識”到 “規則和統計”再到 “機器學習”的發展過程,其主要的推動力來源于計算機技術的發展.目前,借助計算機強大的算力,研究者可以處理大規模文本,作者識別進入快速發展的時期.從現有狀況來看,作者識別研究主要有以下幾個可能的發展趨勢.
1)作者識別研究體系的建立和完善.作者識別研究雖然已經取得了很多成果,但從整體上來看,該領域內的研究比較分散、缺乏對比、尚未形成體系.主要表現在以下兩個方面:一是該領域缺乏基準數據集,數據集的差異使得不同研究之間很難橫向比較;二是該領域的很多學者不斷嘗試提出新方法,很少有人去檢驗或者規范舊方法,而這個是建立完整學科體系所必不可少的工作.因此,未來首要的工作就是建立并推廣使用基準數據集,進一步完善評測標準,使得同類型的研究能夠放在一起進行比較.然后再逐漸細化研究分支,檢驗并規范已有方法,通過公布成熟算法框架等方式使得該領域的研究進一步規范化和體系化.
2)開發針對網絡文本和大數據的作者識別模型.隨著互聯網的不斷發展和計算機的廣泛應用,數據量呈現爆炸式增長,海量網絡文本給作者識別研究帶來一系列新的挑戰.與傳統的文學作品相比,網絡文本通常具有創作周期短、文本短小、內容隨意性強等特點.這些特點意味著作者在創作文本時往往注重讀寫效率,而忽略語句的準確性甚至語法規則.因此,網絡文本的作者寫作風格更難把握,研究者們必須針對網絡文本的具體特點尋找新的文本特征.
除此之外,文本和潛在作者數量巨大也是需要解決的另一個難題.由于互聯網人數眾多,未知文本所面臨的潛在作者集合巨大,這給作者識別帶來很大難度.現有的作者識別方法大多適用于較小規模的數據集和少數幾個候選作者的情況.如果增大數據集規模或者潛在作者數量,這些方法的準確率會大幅度下降.因此,研究者亟待開發新的作者識別技術,以應對文本集合或作者集合過大等問題.
3)對文本風格進行更深入的分析,拓展跨學科應用.現階段研究者主要依靠機器學習提升模型的性能,而忽視針對文本風格的進一步分析,這一點在上一節也提到過.計算機的發展加速了不同學科之間的交叉融合,很多學科都嘗試利用計算機技術改進本學科的研究模式.在這一大背景下,作者識別研究實際上承擔著連接計算機科學與文體學、認知心理學等學科的橋梁作用.因此,對文本風格進行更深入的分析,或者說對可解釋性進一步探究,有助于發展一些跨學科應用,同時也會為相關領域提供很好的方法和思路.由于可解釋性問題一直都是作者識別中的一個難題,因此該方向會在多學科交叉融合的基礎上面臨更多的挑戰.