張揚武 李國和 王立梅 宗 恒 趙晶明
1(中國石油大學(北京)地球物理與信息工程學院 北京 102200)2(中國政法大學法治信息管理學院 北京 102200)3(中國石油大學(北京)石油數據挖掘北京市重點實驗室 北京 102200)
隨著互聯網的快速發展,網絡數據量快速增長,數據共享越來越豐富。截至到2017年3月,全世界網民數量達到37億[1]。過去的幾年中,網絡為人們創造了各種便利條件。進入大數據時代,信息傳播從單一類型逐漸過渡到復合類型,不僅是難以控制,而且也很難確定和捕捉到。一些機構開始為公司提供信息跟蹤服務,關注特別領域的話題跟蹤的主要工作就是對評價文本進行分類,分類方法有基于規則的和基于統計的。基于規則的方法是按照已有的語法規則來學習一些情感詞,在已知情感詞的極性基礎上加入句法分析,提取情感詞所描述的屬性[2]。基于規則的分類方法在理解能力、先驗知識和遷移能力這些方面不具備優勢,理解能力并不是依賴語法就能完成的,同一個詞在不同領域中的含義也是不一樣的,遷移能力明顯達不到人類的水平[3]。近年來,逐漸采用機器學習方法來進行文本分類,這是一類基于統計的方法。機器學習通過從數據中學習模型和經驗,讓用戶獲得一個更接近事實和客觀的洞察力和解釋結果[4]。用于學習的文檔集稱為語料集,通常分成訓練集和測試集兩部分。訓練集包括那些已經標記好類別的文檔,而測試集是為了驗證模型性能,包括那些未標記的文檔。通過機器學習模型,將標記好的文本輸入到模型進行訓練,獲得穩定的分類器。然后在訓練好的機器學習模型上,為未標記的文本準確地確定一個類別。文本自動分類技術是在給定的分類體系下,對未知類別的文本根據其特征自動判定其類別歸屬的過程。因此,在自然語言處理、信息檢索、郵件分類、話題跟蹤和數字圖書館等方面有著廣泛的應用前景[5]。隨著大數據時代的到來,特征降維在文本分類領域中具有非常重要的意義,也是主要挑戰之一。
文本分類包括三個過程:特征選擇、特征抽取和文本分類[6]。特征選擇后的特征是原來特征的一個子集,而特征抽取后的新特征是原來特征的一個映射。文本數據經常包含一些非常頻繁出現的詞語,以及一些很少出現的術語[7]。最為廣泛使用的文本模型是詞袋模型(BoW),完全忽略了文檔中詞語的順序,只考慮單詞是否出現以及出現的次數。向量空間模型(Vector Space Model, VSM) 把文本表示成高維特征空間中的一個行向量,向量中的每一維度表示在詞典中的對應詞的權重,即特征詞的詞頻(tf)[5]。高維的文本用權重的形式來表示,文本向量空間采用這種方法將文本集變成詞典中相應的詞的權重矩陣[8]。最初,特征詞的權重用詞頻來表示,后來綜合使用詞頻和逆向文檔頻率(Inverse Document Frequency, IDF)來表示特征詞權值,即TF-IDF[9-10]。向量空間模型將文本內容處理轉換為向量空間中的向量計算,用向量空間的相似度來表示文本的語義相似度,簡單直觀,易于理解[11]。在文本預處理中,可以發現文本向量空間具有特征維度高和矩陣稀疏特點。這不僅帶來分類的時間開銷過大,還會導致維數災難問題。因此,對特征進行降維顯得十分重要[12-13]。提供給分類器的輸入特征應該是與類別相關的,以減少執行時間并提高準確性[14-15]。目前存在特征選擇和特征抽取兩種方法對特征進行降維[16]。特征選擇的目標是為分類器提供沒有不相關和冗余特征的數據,許多特征選擇算法通過使用特征排名度量作為主要或輔助機制來選擇特征。信息增益(IG)是廣泛使用的度量,用于確定機器學習領域中的分類任務的特征熵[17],而信息增益率是在同樣特征均勻度下的信息增益,避免特征取值過于分散而帶來的無效信息增益,這是一種特征選擇方法。它通過包含或刪除特征詞來估計文檔類別而決定特征所含的分類信息[18]。主成分分析(PCA)是一種建立在統計技術基礎上的降維方法,旨在最小化原始數據中的方差損失。作為一種特征抽取方法,PCA通過最大化離差將高維向量空間中的數據投影到低維向量空間中去[19],可以被視為用于特征抽取的有效技術,適用于各種各樣的數據。
信息增益率采用熵度量原理[20]。用E(L)表示樣本集L被分為2個類別的不確定性,類別有正類和負類。E(L)值越大,表示將某個樣本劃分為正類或負類的不確定性越高:
(1)
式中:pc取值有p1和p2,以及其他。p1為樣本集L中屬于類別1的概率,p2為樣本集L中屬于類別2的概率。|L|為樣本集L的樣本個數,也就是m。L1為類別1上的樣本子集,L2為類別2上的樣本子集,即|L1|+|L2|+…+|LC|=m。樣本集按照屬性進行劃分,E(L,vi)表示按屬性vi劃分樣本集L導致的期望熵:
浸米階段完成后,需進行沖洗,防止米漿水夾在米粒間,蒸煮時容易成糊狀。蒸煮時傳統設備有蒸飯甑,可利用的機械設備有絞龍、立式蒸飯機、瀝水裝置等。
(2)
式中:Values(vi)為屬性vi上的所有取值的集合,Lvr為L中按照屬性vi取值為r的樣本構成的子集,|Lvr|為樣本子集Lvr的樣本個數。SplitInfo(L,vi)表示按屬性vi劃分樣本集的廣度和均勻度:
(3)
信息增益用Gain(L,vi)表示,用以衡量樣本集L按照屬性vi劃分樣本空間后的信息熵的下降:
要想解決碳會計信息披露中存在的問題,就要規范披露內容,建立完善的披露體系,推動其朝著實用性、科學性和客觀性方向發展,也需要全體社會成員共同努力。針對目前披露中存在的問題,提出以下幾點建議。
Gain(L,vi)=E(L)-E(L,vi)
(4)
信息增益率用GainRatio(L,vi)來表示,用以反映信息增益Gain(L,vi)和屬性vi的均勻度的比值:
由于σm+1=0,σm+2=0,…,σn=0,根據式(32)推導出:
用VT右乘式(24)兩邊,得到:
(5)
PCA是一種通過正交變換將存在相關性的高維度向量轉換成一組線性無關的低維度向量的數學方法[17]。PCA在代數上表現為將原隨機向量的協方差陣變換成對角矩陣。用xi表示原始向量空間中的第i個樣本的文本向量,原始特征空間維度為n,xij為詞典中對應詞j的特征值。

(6)
對數據集進行標準化轉換,先求均值和方差:
(7)
(8)

(9)
PCA尋求最大方差的投影方向,設最大方差的投影方向為v的單位列向量,目標函數為:
(10)
vT為v的轉置矩陣,滿足下列約束條件:
vTv=1
(11)
如果特征初選子集TFIDF的行數大于列數,即m>n,Z投影到V上:
后面房里傳來她奶奶的叫喚,臘枝回了啊?狼剩兒找到冇?我的淚水應聲漫出,簌簌往下掉,滴在大女兒的臉上。我把她放回搖籃,起身到婆婆房里。我說,媽您莫著急,我們還要找的,一定給您找到!婆婆說,我不著急。我等著你們把狼剩兒找回呢!我還要看到他成房立戶,生兒抱子!

(12)
其中:
(13)
求偏導數得出:
|Cov-λI|=0
(14)
由式(13)和式(14)式可以看出,最大投影方向是協方差矩陣的最大特征值所對應的特征向量。協方差矩陣Cov為n×m的方陣, 如果m 點撥:本題難點在于需要把用含m代數式表示P,F點的縱坐標,進一步表示線段PF的長,將四邊形PEDF成為平行四邊形轉化為PF=DE。由于設置了3個小練,做例2時只需將小練三個問題拼接在一起即可完成。 Rank(Cov)=m (15) 其特征向量數量為m,特征值數量為m,且滿足: λ1≥λ2≥…≥λm≥0 (16) Vm=[v1v2…vm] (17) 顯然,將樣本投影到λ1對應的特征向量方向v1后的方差最大,投影到v2方向后方差次之,依次減小。從分類間隔角度來看,在向量空間中進行樣本劃分依據同類間樣本間隔小而異類間樣本間隔大。因此,投影到第一主成分(特征值最大的特征向量)方向上的方差最大,反映了經過主成分特征抽取后信息量損失最小[21]。 實際上,用于文本分類的詞語非常多,并且在文本向量空間上構造的原始特征空間具有相對較高的維度,可以高達數萬個維度。 因此,減少文本分類的數據維度是必不可少的[22]。根據信息增益率和主成分分析方法,分為3個步驟進行降維。第一步:進行數據預處理,在分詞后統計詞頻,去掉停止詞,將文本表示成文本向量。第二步:計算每個詞語(即每列)的信息增益率,按降序排序,選擇那些大于閾值的特征詞用來構造特征初選子集。第三步:采用主成分分析對特征初選子集進行數學轉換,將其映射到低維空間,構造特征再選子集。 《政府會計制度》將《高等學校會計制度》中“存貨”科目分解為“在途物品”“庫存物品”“加工物品”三個科目,“長期投資”科目分解為“長期股權投資”和“長期債券投資”兩個科目,“應繳稅費”科目分解為“應交增值稅”“其他應交稅費”兩個科目。 數據預處理的任務是采用TF方法將文本表示成文本向量,包括消除標點符號、去除停止詞和統計詞頻。TF的基本思想是詞語的重要性與它在文檔中出現的次數成正比,與詞語出現的次序無關。在python語言的工具中有一些函數可以用來進行文本語料的預處理,例如tokenize函數可以進行去掉標點符號進行分詞,stemmed可以去掉停止詞,counter可以統計詞頻。經過預處理之后,TF的文本向量矩陣表示成: (18) 式中:v是詞典中詞語總數,m是語料集中的文本總數,wij是第i篇文檔中第j詞的統計詞頻。文本類別標簽是Y: (19) 第二,制定了完善的法律法規體系。西方發達國家十分注重契約精神,而契約精神的基礎必須有完善的法律作為保障。PPP模式成功運作的前提條件就是有完善的法律作支撐,這僅保障了合作雙方的權益,也避免了各種政策變化帶來的風險,使PPP模式能夠得到健康運行。 根據式(1)-式(5),依次計算W中每一列的信息增益率。每個詞語對應的信息增益率如下: [rig1,rig2,…,rigi,…,rigv] (20) 式中:rigi是第i個詞語(即第i列)的信息增益率,信息增益率越低說明該詞語在分類作用上越低。設置閾值,將低于閾值的列從矩陣中刪除,剩余的列構成特征初選子集Wf,并按照信息增益率大小降序排列: (21) 特征初選子集中的值wfij是詞頻統計值,沒有考慮該詞在第i篇文檔之外出現的情況。假設一種極端情況,如果該詞在每一篇文檔中都出現,它的分類作用應該等于無。因此,考慮到逆向文檔頻率對文本向量值的影響。TF-IDF的基本思想是詞語的重要性與它在文檔中出現的次數成正比,與此同時,還與其在語料庫其他文檔中出現的頻率成反比。在python語言的工具包中,內建函數TfidfVectorizer可以用來將文本表示成TF-IDF值的文本向量: (22) 原始文本特征空間v是詞典中單詞總數,經過第一次降維的特征出現子集的維數是n,減少的維度是v-n。 特征初選子集TFIDF是一個m×n的樣本空間,依據式(7)-式(9),將矩陣TFIDF進行z標準化操作,即Z=zscore(TFIDF),對數據進行修正以滿足均值和標準差要求。 定義1Cov是具有n階的對稱協方差矩陣,并且存在n個單位列向量的正交矩陣V,即: (23) 正交矩陣V由對應于主對角線上的特征值的特征向量組成。三角矩陣用Λ表示,并且在等式的兩邊左乘V,根據式(13),得到如下等式: (24) 為了能夠保證高中化學分層教學能夠發揮出應有的作用,不斷地提升高中化學教學水平以及學生的化學綜合能力,相關的教職人員在實際教學的過程當中必須要對教學目標進行準確的分層處理。只有在明確的教學目標下,相關的高中化學教職人員才能夠順利的開展分層教學,進而實現既定教學目標。 (25) 定義2存在m×m的正交矩陣U能夠滿足: UT·U=I (26) 式中:I是單位矩陣。三角矩陣Λ的對角元素是非負實數,因此,可以分解為: (27) 同時,三角矩陣Λ的秩為m,且λm+1=0,λm+2=0,…,λn=0,因此,根據式(27),S可以擴展為n×n的矩陣: (28) 根據式(25)-式(27),可以推導出: (29) 將式(25)的左邊代入式(29),得到: Z=U·S·VT (30) 構造拉格朗日乘子式: 如果特征初選子集TFIDF的行數小于列數,即m Z·V=U·S (31) 當前,田園綜合體的建設是解決城鄉二元矛盾,推動鄉村振興戰略的重要創新和具體實踐。充分利用現有的農業資源,借助“農業+互聯網”,統籌兼顧,實現多元化、全面性協調發展。充分調動農民的參與積極性,以解決“三農”為主要目標,堅持以科技創新為核心,不斷優化升級產業結構,大力推動田園綜合體的發展,實現產品及產業的更好發展,進一步帶動鄉村經濟的增長,讓生活環境優美,農民增收致富,建設一個要素齊全、功能多樣、穩健可持續的田園綜合體。 ZT·U=(U·S·VT)T·U=V·ST=V·S (32) 因此,TFIDF既可以在列向量方向取得降維也可以通過行向量方向,這取決于特征數量和樣本數量的大小關系。換言之,第二次降維的幅度為|m-n|。 根據式(23)中的三角矩陣的特征值降序排列,特征值λ1對應特征向量v1,特征值λ2對應特征向量v2,…,特征值λn對應特征向量vn。由這些特征向量構成正交投影矩陣V: (3)提高業務水平。要想快速實現以上兩點的管理機制,就必須加強學校資產管理人員和各部門資產管理人員的日常培訓工作,使其提升互聯網意識及信息化管理技術水平,從而使管理工作高效進行。 V=[v1v2…vmvm+1…vn] (33) 根據式(28),假設m (34) 我把眼光移到楊校長身后的墻上。墻上掛著世界地圖和中國地圖。我知道楊校長是胸懷世界的,可眼前的世界真是太小了,五大洲四大洋加在一起,也不過就那么兩尺來寬。 在獨立學院設立商務英語專業是可行的,并且有非常美好的前景,但是,專業的建設任重而道遠,必須做好長遠規劃。首先,必須重視師資隊伍建設,提高教師待遇,鼓勵教師從事商務英語教學等相關領域的研究。其次,要在實踐中發現問題和解決問題,通過優化課程設置和教學方法等手段不斷提高教學水平和人才培養質量,逐步創建一套適合自己的理論體系來指導和推動商務英語專業的建設。最后,作為近幾年剛剛誕生的新專業,還需要政府部門政策和財力的支持,各高校之間也應該增進交流,總結和推廣成功的辦學經驗,不斷提高商務英語專業的建設水平,為商務英語專業取得更大發展打下堅實基礎。 V·S=[σ1v1,σ2v2,…,σmvm]=Z·Vm (35) 定義3主成分矩陣是TFIDF的標準化矩陣Z在特征向量V上的投影,稱為矩陣PC: 油管修復工藝及質量現狀研究………………………………………………………………………………于愛云,王玉鵬(1.11) 式中:yi是類別1,2,…,|C|之一。 PC=Z·Vm=[pc1,pc2,…,pcm] (36) 一般情況下,詞典中的詞語數量數萬以上,語料庫中的文本數量也是成千上萬,將特征初選子集TFIDF投影到Vm上構成特征再選子集,這種映射實現了降維。 混合特征選擇模型包括三個部分。首先是預處理模塊,其次是特征初選模塊(PFS),然后是特征再選模塊(SFS)。模型結構如圖1所示。 圖1 混合特征選擇模型 Preprocessing模塊的輸入是語料庫,對文本進行分詞和去掉停止詞之后,統計詞頻,該模塊輸出為矩陣W。PFS模塊是特征初選模塊,對詞頻矩陣W的每列計算信息增益率,選擇那些信息增益率大于閾值的列來構成特征初選子集,然后根據TF-IDF思想計算特征初選子集的賦值,該模塊輸出為矩陣TFIDF。SFS模塊是特征再選模塊,將輸入的TFIDF映射為在主成分向量上的投影矩陣,即Z(TFIDE)·Vm。 m個主成分[pc1,pc2,…,pcm]構成特征再選矩陣,其中,第一主成分pc1的離差最大,第二主成分pc2的離差次之,依此類推。特征再選矩陣PC被輸入到分類器進行訓練。 20 NewsGroup語料庫是機器學習中的標準數據集,涵蓋來自20個不同新聞組的18 828個文檔。 為了具有普遍性和可重復性,實驗選擇20 NewsGroup作為文本集[23]。將近20 000篇文檔被平均分為20個不同組,有些新聞組具有相似的共同的大主題,例如,rec.autos和rec.autos都具有運動類主題。 很顯然,訓練集中的文本大主題是否具有相關性對模型的分類結果具有很大影響,因此,實驗設計兩組文本集:DatasetCats1和DatasetCats2,如表1所示。DatasetCats1都具有與體育有關的主題內容,經過python自然語言工具包預處理后,共有30 466個詞語和3 979篇文檔,2 389篇文檔用于訓練,1 590篇文檔用于測試驗證。DatasetCats2具有不同的主題內容,經過python自然語言工具包預處理后,共有36 712個詞語和3 936篇文檔,2 363篇文檔用于訓練,1 573篇文檔用于測試驗證。 根據Chemeor中的數學模型,結合室內實驗結果,得到模擬用的化學驅參數,主要包括聚合物粘度參數、聚合物及表面活性劑吸附參數和注入體系相對滲透率參數。 表1 DatasetCats1和DatasetCats1 效果評估函數根據混淆矩陣計算分類器的準確率、召回率和F1度量。其中,準確率衡量標記為正類的樣本中實際為正類的百分比,反映了當一個樣本被判定為正類時,實際為正類的概率。召回率反映了正確識別的正類數量在實際正類數量中的比例。F1度量是一種準確率和召回率調和均值,它賦予準確率和召回率相等的權重。 一般常用的文本分類器有支持向量機(Support Vector Machine, SVM)和樸素貝葉斯。(Naive Bayes, NB)支持向量機通過尋求最大分類間隔,實現結構化風險最小來提高分類模型學習和泛化能力[24]。樸素貝葉斯分類器是一系列簡單的概率分類器,根據貝葉斯概率原理,基于在特征之間具有很強的獨立性假設之上,其模型包括多項式模型和伯努利模型[25-26],多項式樸素貝葉斯通過后驗概率進行文本分類,容易實現,運行速度快。實驗選擇支持向量機和多項式樸素貝葉斯作為分類器用以比較分類性能。 實驗分為兩步: 第一步,將數據集DatasetCats1和DatasetCats2直接輸入給分類器進行訓練,在數據集DatasetCats1上的分類性能如表2所示,在數據集DatasetCats2上的分類性能如表3所示。 表2 DatasetCats1直接輸入分類器的分類性能(相似主題) 表3 DatasetCats2直接輸入分類器的分類性能(不同主題) 從表2和表3的平均分類性能數值中可以看出,在DatasetCats1(相似主題)數據集上,兩個分類器的分類性能相當,在DatasetCats2(不同主題)數據集上,SVM分類器好于NB分類器。 第二步,在數據集DatasetCats1和DatasetCats2經過混合特征選擇后,再輸入給分類器進行訓練。將數據集DatasetCats1分為DatasetCats1_train訓練集和DatasetCats1_test測試集。DatasetCats1_train訓練集的文本向量矩陣為2 389×30 466,維數為30 466,在特征初選模塊PFS中,計算它們的信息增益率,選擇其中的6 702列,重新按照TF-IDF計算文本向量,構造特征初選子集DatasetCats1_train_PFS,該矩陣為2 389×6 702。根據式(33)和式(36),將DatasetCats1_train_PFS矩陣投影到主成分空間[v1v2…v2 389],構造特征再選子集DatasetCats1_train_SFS,該矩陣為2 389×2 389。然后將其輸入到NB分類器和SVM分類器進行訓練。DatasetCats1_test測試集為1 590×30 466,選擇上述索引的6702列,構造DatasetCats1_test_PFS,該矩陣為1 590×6 702。將DatasetCats1_ test _PFS矩陣投影到主成分空間[v1v2…v2 389],構造DatasetCats1_test_SFS,該矩陣為1 590×2 389,用訓練好的分類器預測測試文本向量,分類結果如表4。通過兩次降維,維度減少了92%。 表4 DatasetCats1混合特征選擇后的分類性能(相似主題) 將數據集DatasetCats2分為DatasetCats2_train訓練集和DatasetCats2_test測試集。DatasetCats2_train訓練集的文本向量矩陣為2 363×36 712,維數為36 712,在特征初選模塊PFS中,選擇其中的6 903列,構造特征初選子集DatasetCats2_train_PFS,該矩陣為2 363×6 903。將DatasetCats2_train_PFS矩陣投影到主成分空間[v1v2…v2 363],構造特征再選子集DatasetCats2_train_SFS,該矩陣為2 363×2 363。然后將其輸入到NB分類器和SVM分類器進行訓練。DatasetCats2_test測試集為1 573×36 712,選擇上述索引的6 903列,構造DatasetCats2_test_PFS,該矩陣為1 573×6 903。將DatasetCats2_ test _PFS矩陣投影到主成分空間[v1v2…v2 363],構造DatasetCats2_test_SFS,該矩陣為1 573×2 363,用訓練好的分類器預測測試文本向量,分類結果如表5所示。通過兩次降維,維度減少了94%。 表5 DatasetCats2混合特征選擇后的分類性能(不同主題) 對比表2和表4,在相似主題的數據集上,對于直接輸入文本向量和經過混合特征選擇,NB分類器的平均準確率都為0.96;SVM分類器的平均準確率,前者為0.96,后者為0.97。兩個分類器的平均準確率提升大約0.5%。 對比表3和表5,在不同主題的數據集上,對于直接輸入文本向量和經過混合特征選擇, NB分類器的平均準確率,前者為0.93,后者為0.94; SVM分類器的平均準確率,前者為0.96,后者為0.97。兩個分類器的平均準確率提升大約1%。混合特征選擇方法在兩個數據集上的分類性能如圖2所示。 圖2 平均準確率 為了有效降低特征空間維度,基于PCA的混合特征選擇方法將信息增益率和主成分分析方法結合起來,通過將特征初選子集映射到主成分空間,實現二次降維。實驗結果表明,在相似主題數據集上采用該方法的降維效果達到92%,平均準確率提升大約0.5%;而在不同主題數據集上的降維效果達到94%,平均準確率提升大約1%。在大數據時代,對于高維與稀疏的文本集,混合特征選擇方法不但滿足了特征降維需求,大大減少了計算開銷,而且也提高了分類性能。此外,實驗選擇的文本數據集存在一定的主題相關度,實驗結果也表明主題分布對特征降維與分類性能有影響,這將是下一步開展的研究方向。3 混合特征選擇模型
3.1 數據預處理
3.2 特征初選子集
3.3 特征再選子集


3.4 混合選擇模型

4 實驗分析
4.1 語料集

4.2 實驗結果





5 結 語