關 慧,宗福焱,曲 盼
(1.沈陽化工大學 計算機科學與技術學院,遼寧 沈陽 110142;2.遼寧省化工過程工業智能化技術重點實驗室,遼寧 沈陽 110142)
隨著互聯網時代的到來,智能移動終端和各類電子商務平臺也得到了飛速的發展。微博、通訊信息、用戶評論等以短文本形式呈現的信息正在以飛快的速度增長[1]。各類短文本涵蓋了人們對各種社會現象的立場與觀點,在輿情調查、熱點話題的識別發現、問題反饋、需求挖掘等領域有著重要的應用前景[2-5]。因此,如何在大量且復雜的文本中獲取最有效的信息是信息處理目標之一。短文本分類可以幫助用戶快速定位需求信息和進行信息分流[6],同時分類也是對短文本中大量有價值信息進一步挖掘的重要步驟[7],因此,短文本分類越來越受到人們的關注。
從當前實際來看,西方哲學和馬克思主義哲學早已深入中國人的現實生活和精神系統,是構建當代中國形而上學新形態中不可分割的有機組成部分。雖然上述兩者還未真正實現與中國傳統哲學的融會貫通,但三種思想資源的融合是有著深刻的歷史和現實基礎的。
短文本分類與長文本分類不同。長文本蘊含較為完備的語義信息和規范的表達模式,對長文本進行分類時傳統的自然語言處理技術和分類方法可以達到很好的效果[8]。而短文本分類所面臨的挑戰在于短文本具有本身長度比較短、表達形式不規范、實時性強和海量性等特點[9],使得對短文本進處理時會產生特征異常稀疏、數據噪聲大、上下文信息量少等問題。因此,傳統的自然語言處理中的文本分類方法直接運用到短文本分類時分類效果不佳[10]。
針對上述問題,近年來對短文本分類方法的研究主要分為基于語義和基于規則兩種方法。基于語義的方法一般是借助外部語料庫或搜索引擎來擴充短文本中的語義信息。外部語料庫通常是指維基百科、百度百科或知網等含有大量文本內容及語言素材的大型語料庫。這些外部的語料庫能給予短文本充分的信息補充與信息擴展從而增加文本內容。王海燕等人[11]通過Wikipedia知識庫挖掘出單詞、句子之間的語義關系、語序關系和詞語的同義詞信息進行輔助分類來提高分類效果。康衛等人[12]在綜合考慮文本數據集規模、文檔長度、類別數量分布情況下對樸素貝葉斯算法進行改進,提出了一種基于搜索的NaiveBayes短文本分類方法。丁連紅等人[13]等通過構建知識圖譜來推理短文本信息并將其運用于短文本特征上。彭晨淼等人[14]通過外部信息構建了短文本的領域本體,并結合BTM主題模型進行特征擴展來改善短文本分類。Gu Y等人[15]針對短文本語義缺失對分類性能的制約,利用外部語料庫訓練Word2Vec模型,對傳統關鍵詞提取算法基于外部語義信息提取的關鍵詞進行擴展,研究了基于外部語義信息的短文本關鍵詞根據不同擴展方式進行擴展的可行性。
基于規則的方法一般是分析短文本內容、挖掘短文本潛在的語義關系來構建基于文本的特征集。李昌兵等人[16]基于卡方統計來選取特征詞,改善權重計算方法TF-IWF來提高短文本的分類。黃賢英等人[17]將Word2Vec訓練的詞向量與BTM主題模型訓練的主題向量拼接作為特征向量進行特征擴展,結果表明分類效果有所提高。Lei Shi等人[18]提出一種自聚集的方法將短文本聚合為聚集文檔捕獲短文本的動態變化并解決短文本的稀疏性問題。王云云等人[19]針對短文本中的一詞多義問題,提出了融合詞向量與BTM的Multi-TWE多維詞向量模型進行短文本分類,分類效果有所提高。鄭騰等人[20]針對短文本信息量少、特征稀疏等特點,在短文本的基礎上利用LDA主題模型得到文檔主題分布并將主題詞擴充到原短文本中。
綜上,基于語義的方法對引入外部語料庫質量依賴性較高,在增加語義信息的同時也會引入泛化能力不強的樣本;而基于規則的方法則依賴于文本本身內容和潛在的語義關系來構建特征集,但是在構建這種特征集合的精確度上有一定的局限性。
考慮到以上兩種方面的特點,該文將上述兩種方法相結合,提出了融合詞向量[21]及BTM主題模型[22]并輔以長文本擴充語義的用戶需求分類方法,通過引用長文本作為外部語料庫對短文本信息內容進行擴充,來解決短文本的信息量少和缺少上下文的問題。通過運用BTM主題模型在文本中的主題概率特征,詞向量在LSTM中的編碼特征作為分類的特征擴展,用以解決特征的稀疏問題。
對于用戶評論來說,由于其文本較短,所以其包含的信息量較少、特征稀疏、缺少上下文信息。傳統的LDA主題模型對于長文本具有很好的分類效果,但對于用戶評論這類短文本的分類效果不佳。主要原因是其無法計算出各個詞在主題中的重要性。該文提出了基于BTM和長文本語義增強的用戶評論分類方法,結合LDA模型在長文本中的優勢,用長文本來彌補短文本語義信息缺乏的問題。首先,選取特定的長文本作為外部語料庫進行短文本擴展;然后,運用Word2vec和LSTM(Long Short Term Memory)訓練得到的短文本的編碼特征與BTM主題模型訓練下得到的主題概率特征拼接得到擴展后的短文本特征;最后,使用SVM進行用戶評論短文本的分類檢驗,并與傳統分類及單一模型進行對比。其用戶評論分類流程框架如圖1所示。

圖1 分類流程框架
①長文本主題訓練:外部語料庫得到的與類別相關的長文本預處理后運用LDA主題模型訓練并進行最大主題概率主題下詞項的提取。
工程水土保持監測區劃分為路基工程區、橋涵隧道工程區、取土場與臨時堆土及棄渣場區、沿線附屬設施區和施工場地及便道區。監測的重點區域為取土場、棄渣場、臨時堆土場、大型開挖邊坡及路基邊坡、施工場地及收費管理所等服務設施。
③長文本語義增強:將長文本中提取到的詞項基于匹配規則對預處理后的文本樣本進行短文本擴充,增強短文本的語義信息。
②訓練文本樣本預處理:將用戶評論分為測試集和訓練集后進行人工標注、分詞、去除停止詞、詞性標注等預處理。
④特征擴展與分類預測:基于BTM主題模型選取文本概率特征;基于Word2vec和LSTM提取文本的編碼特征并進行特征組合實現特征擴展,并將其作為分類文本樣本的總體特征。利用支持向量機的方法進行文本樣本分類預測,檢驗該方法的分類效果。
該文研究的中文用戶評論屬于短文本中的一類,其文本長度最長不超過一百個字符。可以通過引入外部語料庫來擴充該類短文本的信息。但引入外部語料庫內容的質量會直接影響短文本擴充的效果,因為引入擴充信息的同時也會引入大量的噪音數據,而且這些引入的外部文本數據缺少與原文所對應的上下文信息,引入之后會造成短文本原文語義內容和含義上的變化。因此,該文引入的外部預料信息與主題模型相結合,將其作為長文本放到主題模型中,長文本中最符合短文本語句內容的詞項作為短文本信息內容的擴展。該文以小米手機的用戶評論為研究案例,將在網絡上爬取的用戶評論分為三大類別,分別是:功能贊揚、功能改進和其他。
(1)功能贊揚:對小米手機內在功能、性能、系統、運行等正面的評價,是用戶對手機各方面高滿意度的認可。
(2)功能改進:對小米手機存在的一些缺陷,需要改善的方面的中性的或是負面的評價。是用戶對手機各方面潛在的需求。
Step 3 Build the mapping form ujto pj,and complete the establishment of the DWWIKPof the manipulator.
首先,引入長文本,運用LDA主題模型挖掘最大概率下主題下的詞匯進行短文本的擴充。對于LDA主題模型來說其主題數是不確定的,該文使用困惑度參數來確定長文本的最佳主題數。困惑度是度量概率分布或概率模型預測結果與樣本的契合程度,即:對于一個文檔D,所訓練出來的模型對于文檔D屬于哪個主題的確定程度。困惑度越小,說明模型的效果越好,困惑度計算公式如下所示:
以上獲取到的這三類用戶評論都是短文本類型。由于短文本本身篇幅較短,導致本身特征偏少、信息量少。經過去除停止詞、特征選擇之后,去掉了一部分特征詞,使得特征詞更少,有些短文本中甚至就只剩下一兩個特征詞。特征詞數量少雖然可以降低計算的復雜度,但是容易在分類中造成特征稀疏的嚴重后果,影響分類效率。為了降低文本特征稀疏對分類帶來的影響,更好的進行分類操作需要在其他語料庫中獲取與之相匹配的長文本,將其放到LDA主題模型中進行訓練。LDA主題模型以單個詞的多項式分布對應主題分布,對短文本進行主題建模的效果不佳,但適合于長文本的主題建模。因此,該文設計了基于匹配規則的短文本擴充方法,既在外部擴充了短文本的文本信息又兼顧了短文本的上下文信息,對后面分類也起到了良好的效果。當分類文本樣本的分詞與長文本LDA模型訓練后得出的最大概率主題下n個詞項的任意一個詞項重合時,將最大概率主題下全部的前n個詞項都分配給分類文本樣本,其基于匹配的短文本擴充方法具體流程如下所示:
輸入:長文本在LDA主題模型下最大主題概率下的詞項C{c1,c2,…,cm},需要擴充的短文本文檔Ti{d1,d2,…,dn}
算法1:
輸出:長文本擴充后的用戶評論短文本
步驟:
常用的磨損顆粒檢測法有鐵譜分析法、磁塞檢測法、紅外光譜法、顆粒消光計數法[6].顆粒消光法利用含有顆粒的介質對激光的反射和吸收特征判斷顆粒的大小和數量[7-10],該方法測量精度高,可同時獲得顆粒的尺寸和數量信息,且實現方法簡單,便于便攜設計,達到“在線”測試目的.
②將Ti中的dj送入詞匯集合C{c1,c2,…,cm}中;
③if短文本dj滿足集合C{c1,c2,…,cm}中某個詞項,則將集合C{c1,c2,…,cm}中的全部詞項添加到Ti{d1,d2,…,dn}中
ifi 令i=i+1,重復②③步驟; else 21世紀,農業的可持續發展和保障糧食安全是全球的主要關注點。2010年,全球饑餓總人數增長到了10億,隨后聯合國、G20和APEC都把農業發展作為了重要討論議題。在國際方面,對農業的國際合作也展開討論,將農業發展作為主要發展目標。農業發展速度較快時,農業合作便成為了當前國家和國家外交的重要主題[1]。 自從易非買了房后,他們的關系就不知不覺地進了一大步,有一天陳留送易非回來,老媽正好在家,他們就這樣見面了,陳留表現得大方得體,母親似乎也很喜歡。再后來,易非過生日,陳留帶了蛋糕和鮮花來,就算是正式見面了。 令j=j+1,i=1,重復②③步驟; else 11月30日,國家統計局服務業調查中心和中國物流與采購聯合會發布了中國采購經理指數,11月份,制造業PMI為50.0%,環比小幅回落0.2個百分點,處于臨界點。對此,國家統計局服務業調查中心高級統計師趙慶河表示,11月中國制造業采購經理指數小幅回落,制造業景氣度雖回落,但結構持續改善。 令j=j+1 ,i=1,重復②③步驟 對測試集、訓練集進行去除停止詞、分詞、詞性標注等預處理,在人工標注的處理下分為三大類:功能贊揚、功能改進和其他。預處理結束前后訓練文本如表1所示。 表1 預處理前后訓練文本 通過計算機課程實踐教學內容、教學方式、教學評價貼近實際,研究增強學生主體意識能力,優化學習方式和策略,養成良好的習慣等,激發學生學習興趣,提高學生的課程實踐素養,促進學生發展計算機實踐技能以及綜合分析、發現和解決問題的能力,讓學生創新精神和實踐能力。 實驗數據包括來自京東APP的小米11型號手機的真實用戶評論和從百度百科、維基百科、小米官網、知乎等平臺獲取的小米11型號手機測評介紹相關的長文本。其中長文本共計11 551個字符。真實用戶評論6 016條,其評論時間在2021年6月到10月之間。將用戶評論分割為句子,進行人工標記(筆者及兩名計算機專業碩士生共同參與用戶評論句子標記)標記完成后總共得到三類用戶評論(功能贊揚,功能改進和其他)用戶評論為4 490條。其各類用戶評論的數量和示例描述如表2所示。 表2 用戶評論數量及示例 問題的分類結果及評價標準在文中采用3項指標來衡量,即:準確率(Precision)、召回率(Recall)及F-measure(F1或F-score),如下所示: (1) (2) (3) 其中,TPi為用戶評論分類模型分類為類別i的用戶評論中實際屬于類別i的用戶評論數;FPi為用戶評論分類模型分類為類別i的用戶評論中實際不屬于類別i的用戶評論數;FNi為用戶評論分類模型沒有分類為i的用戶評論但實際屬于i的用戶評論數。類型i的準確率是指分類得到的類型i的用戶評論中真正屬于類別i的比例;類型i的召回率是指分類得到的真正類型i的用戶評論占數據集中類型i的用戶評論的比例。召回率和準確率兩者是相互制約的。F-measure是評估準確率和召回率的調和平均值,提供了兩者結合的精確度量。 其中,M為文檔集合中文檔的總數目,Nd為第d篇文檔中詞項的數目,p(wd)為第d篇文檔的概率,也即這篇文檔中每個詞項概率的乘積,而對于任意一個單詞w,單詞概率p(w)=∑p(z|d)×p(w|z),z代表主題,p(z|d)為各個主題下該詞所在文檔的概率,p(w|z)為該詞在各個主題下的概率。圖2表示長文本在LDA主題模型中各個主題數下困惑度的折線圖。由圖2可知,在主題數為30時,困惑度最小。因此,選取主題數為30為最佳主題數,并選取其中最大概率主題下的詞項作為短文本的擴充。 (3)其他:不包括前兩方面,一些其他的評價,例如物流、客服、價格等。 ①令i=1,j=1; (4) 2.3.1 長文本主題確定 圖2 長文本在各個主題下的困惑度 2.3.2 長文本語義增強 對預處理后外部語料庫中的長文本運用LDA主題模型進行文檔-主題概率,主題-詞矩陣的共現。首先,選取所有主題中概率最大的主題;之后,選取最大主題下概率最大的詞項,選取的最大概率主題下的前30個詞項按概率排序依次為“支持,屏幕,視頻,電影,提升,拍照,性能,模式,素皮,鏡頭,高清,像素,藍牙,功能,采用,玻璃,智能,曲面,機身,旗艦,全新,切換,影像,系統,無線,夜景,搭載,美顏,專業,充電”。分別選取不同數量的主題詞基于匹配規則進行短文本的擴充,其擴充示例如表3所示(選取最大概率主題下的前5個詞項擴充)。擴充后的短文本語義信息與上下文關系更加完備,于是將其作為下一步特征擴展和分類的文本數據集。至此完成了分類流程中的第三部分。 顧實《漢書藝文志講疏》云:“此《屈原賦》之屬,蓋主抒情者也。”〔4〕179“此《陸賈賦》之屬,蓋主說辭者也。”〔4〕183“此《荀卿賦》之屬,蓋主效物者也。”〔4〕188 表3 詞項擴充示例 2.3.3 特征擴展與分類 將長文本中獲取的詞項擴充到用戶評論中,使短文本獲得了較為完備的語義信息,下一步是進行分類流程中的第四部分:即短文本特征擴展。首先,將詞項擴充后的短文本作為本文的分類樣本數據集。運用BTM主題模型進行訓練得到文本樣本的概率特征數據集,如圖3所示,其中行數代表需要進行分類的文本樣本數據數量,列數代表BTM主題模型提取的主題數量;運用Word2vec進行訓練構建文本樣本的詞向量編碼特征數據集,如圖4所示,其中行數代表需要進行分類的文本樣本數據數量,列數代表詞嵌入矩陣的維度;運用LSTM長短時神經網絡其特征是進入模型后的中間編碼特征數據集,如圖5所示,其中行數代表需要進行分類的文本樣本數據數量,列數代表中間編碼特征的維度。將上述得到的三類特征結合作為文本特征,完成了對短文本特征擴展。最后放到SVM分類器中進行分類訓練,檢驗文中方法的分類效果。 圖3 BTM主題概率特征集(部分) 圖4 詞向量編碼特征集(部分) 圖5 LSTM神經網絡編碼特征集(部分) 2.4.1 實驗對比 在Anaconda的tensorflow虛擬環境下,使用Pycharm作為開發平臺進行文本預處理、LDA主題模型進行主題概率的訓練和預測(alpha=50/T,beta=0.005,獲取前30個主題的概率特征,迭代300次)、BTM主題模型進行主題概率的訓練和預測(alpha=50/T,beta=0.005,獲取前100個主題的概率特征,迭代500次)、構建LSTM神經網絡。為測試文中方法在用戶評論短文本分類上的效果,選擇基于向量空間模型的分類方法,基于詞向量和LSTM模型分類方法,基于LDA主題概率、詞向量和LSTM模型分類方法,基于BTM主題概率、詞向量和LSTM模型分類方法與文中方法進行對比實驗。其具體內容和實驗結果如表4所示。 自2011年3月任職黑龍江省食品藥品檢驗檢測所所長以來,短短5年時間,安宏就先后獲得省科技進步二等獎兩次,三等獎兩次;省科技發明三等獎一次;省醫藥行業科技進步一等獎一次,二等獎一次;省高校科技二等獎一次。同時,他還擔任著省科學技術獎勵委員會“醫藥制藥與生物醫學工程”行業評審組評審委員,省科學技術獎“醫藥行業”評審組評審委員,省科技經濟顧問委員會“食品藥品”專家組副組長。2012年,他獲得全國醫藥衛生系統爭先創優先進個人稱號;2014年被評為省直機關“十佳公仆”;2015年被評為全省“優秀公仆”。 表4 對比實驗的方法和數據 表4中,方法一采用的是傳統的VSM向量空間模型,引入TF-IDF表示文本特征,雖然可以完成短文本分類但是由于短文本蘊含的信息量少、語句短小,因此這類傳統方法會造成特征矩陣的稀疏性,從而導致分類效果不佳;方法二引入了詞向量和深度學習模型,雖然可以解決方法一中特征矩陣稀疏造成的分類效果不佳的問題,但是僅僅引入了詞向量一個特征維度并沒有與主題模型相結合;方法三在方法二的基礎上引入了LDA主題模型的文本主題概率特征的維度,對分類效果有一定的提升。但是LDA主題模型主要針對的是長文本文檔下各個主題概率的共現,對短文本訓練效果不佳;方法四是針對短文本的特征使用基于詞對共現的BTM主題概率特征,雖然提高了分類效果,但是并沒有與長文本結合解決短文本語義缺失的本質。文中所提出的結合長文本的分類方法在準確率、召回率、F-measure上明顯好于前四種分類方法,既引入了結合LDA主題模型的長文本最大概率主題的主題詞,對用戶評論進行語義增強解決了短文本信息缺乏、上下文語義不足的問題,又引入了詞向量、神經網絡編碼特征和BTM主題概率特征,解決了特征稀疏的問題,增強了分類效果。 2.4.2 長文本主題詞數對短文本分類效果的影響 2.2.3 對鐵磁性材質類植入物,或說明書未標明材質性質并且未說明若行MRI檢查的條件或注意事項的植入物,歸于MRI禁忌類。 一是加大涉農案件執行力度,加強失信聯合懲戒,強化執行強制措施,切實維護鄉村當事人的勝訴權益。二是積極開展國家司法救助,對權利受到侵害但無法獲得有效賠償的涉農案件當事人,給予適當經濟資助,幫助他們擺脫困境。三是對經濟確有困難的當事人,依法緩減免交訴訟費,確保困難鄉村群眾能夠打得起官司。四是大力開展巡回審判,讓法官多跑路、讓群眾少跑腿,降低群眾訴訟成本,減少群眾訴累,讓鄉村群眾切實享受到便捷高效優質的訴訟服務。 表5表示文中方法結合長文本不同主題詞數下對分類效果的影響。由表5分析得出,當引入長文本最大概率主題下的詞數為30、25時,F-measure分別為0.930 6和0.942 2;引入詞數為10、5和0時,F-measure分別為0.937 6、0.936 4和0.892 9;當引入的長文本最大概率主題下的詞數為20和15時,F-measure分別為0.944 8和0.957 2;引入15個主題詞時的分類效果最好,F-measure能達到0.957 2。這說明當引入長文本主題詞的數量太多或太少都會影響分類效果。這是因為當引入的主題詞數較多時會將泛化能力不強的噪聲詞擴充到短文本中,使得分類的噪聲增多降低分類的效果;而引入的主題詞數較少時,并不能擴充足夠與樣本相關的文本信息,造成上下文信息缺乏同樣影響分類的結果。引入適當數量的主題詞是提高分類效果的關鍵。 表5 文中方法結合長文本不同主題詞數下的分類效果 該文提出了基于BTM主題模型和長文本語義增強的用戶評論分類方法。從基于語義的層面上提出運用相關長文本在LDA主題模型上對短文本進行擴充,解決了短文本信息量少、缺乏上下文信息的問題;從基于規則的層面上提出用BTM文本主題概率和詞向量作為特征進行特征擴展,解決了特征稀疏的問題。從京東APP獲取的小米手機真實的用戶評論和從百度百科、維基百科、小米官網、知乎等平臺獲取的小米11型號手機相關的長文本進行實驗研究,利用支持向量機的分類方法多次與其他方法進行對比實驗,結果表明提出的方法在選取適合數量的長文本主題詞時其預測準確率、召回率、F-measure均有良好的表現。但是,該方法仍然有一定的不足,例如對用戶評論進行人工標注時具有一定的主觀性,會造成標注誤差;在運用主題模型進行概率特征預測時最佳參數的選取等。在下一階段的研究中可以挖掘更具有代表性的特征進行特征擴展來解決特征稀疏的問題;進一步嘗試不同主題概率特征的數量對分類效果的影響;進一步驗證該方法在不同數據集上的分類效果。這些是未來需要研究和解決的問題。1.3 訓練集、測試集預處理及人工標注

1.4 短文本BTM主題訓練、詞向量訓練及SVM分類

2 實驗及結果分析
2.1 實驗數據

2.2 評價標準
2.3 實驗過程





2.4 文中方法及對比方法結果分析


3 結束語