999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向監理工程的文本分類技術研究

2017-11-04 03:45:12楊春玉
重慶理工大學學報(自然科學) 2017年10期
關鍵詞:監理分類特征

陳 莊,楊春玉

(重慶理工大學 計算機科學與工程學院, 重慶 400054)

面向監理工程的文本分類技術研究

陳 莊,楊春玉

(重慶理工大學 計算機科學與工程學院, 重慶 400054)

針對監理工程中文本文檔在管理過程中存在的一些困難,提出一種適用于監理工程的文本分類方法,旨在提高管理效率,簡化工作方式。該方法在進行中文分詞處理時,使用通用詞典與手動構造的監理工程專業詞典相結合的方式。對于特征提取,在使用TFIDF的基礎上,結合一定的規則來調整特征權重,并采用樸素貝葉斯分類算法來構造分類器。實驗結果表明:該方法在對監理通知單分類問題上能滿足實質性的應用需求。

監理工程;問題分類;TFIDF;特征二次加權;樸素貝葉斯

隨著監理工程行業信息化程度的提高,監理工程行業相關的文本大量積累。針對該情況,如何對雜亂無章的文本進行分類以便快速查找和管理是一個具有實際意義的研究課題。相對于傳統的企業,監理公司的數據分析對項目的順利進行有著極其重要的作用。監理單位的數據分析工作是對包括監理公司的內部管理活動及日常監理資料、公司與外部主體交往的記錄內容的內、外兩大類數據綜合起來進行分析[2]。為進一步開展分析工作,對監理工程文本資料采用文本挖掘中的相關技術進行處理。本文主要采用文本分類技術對監理通知單進行分類,對監理問題按照質量、進度、施工、其他問題進行分類。如果采用傳統人工分類方法進行分類工作,不僅耗費大量的時間與人力,而且效率低,引入自動分類機制將大大提升工作效率。

監理工程的主要工作是“三控、兩管、一協調”,其中質量控制是人們首要的關注重點,而質量控制中最有價值的文檔就是監理通知單。對監理通知單出現問題的原因進行分類統計就可以了解整個工程中出現最多的問題類別,有助于對該類問題加強管理。同時,分類統計結果可以反映施工單位的企業素質和管理水平,對今后的招投標工作和公司經營活動有一定的指導作用,對推動監理信息化進程,以及提升公司處理大量非結構化數據的能力具有一定的實際意義。本文提出了一種面向監理工程的文本分類技術,改善了質量控制問題分類的效果。

1 監理通知單文本分類

1.1 分類流程

文本分類是文本挖掘中的重要子領域,它將文本文檔分配到一個或多個預定義的類或類別中[9]。文本分類過程主要分為2個階段:訓練和測試,具體主要包括中文分詞、去除停用詞、特征選擇、構造特征向量空間模型、模型訓練與評價。其中,特征選擇是分類過程中最為關鍵和重要的一步,它的好壞直接影響分類效果。分類過程如圖1所示。

圖1 文本分類過程

1.2 中文分詞和去除停用詞

領域專業文本包含較多的專業詞匯,僅使用通用詞典進行分詞的準確率不高,而專業領域詞典的制定確保了其權威性與完整性[7]。因此,應采用專業詞典和通用詞典相結合的方式進行詞切分。本文采用的監理工程專業詞典主要來源于手工錄入。使用的監理工程專業詞典部分詞匯包括熱軋板帶、吊車梁、板坯庫、塑鋼門窗、啃軌、加熱爐、腳螺栓孔、攪拌站等。

停用詞的處理就是對分詞后的詞集合與停用詞表進行匹配,匹配成功的詞則刪除,這些詞是一些對分類無意義的虛詞。

1.3 特征向量構建

文本分類算法不能直接在原始文本形式上處理。因此,需要在預處理階段將文本轉化為計算機能識別的信息,即對文本進行標識。目前,文本表示模型主要有布爾模型(boolean model)、概率模型(probabilistic model)、向量空間模型(vector space model)[3]。

本文采用最為廣泛使用的向量空間模型(VSM),其基本思想是將文本表示成向量空間中的向量,1個文本對應1個向量,文本間的相似性度量用向量之間的夾角余弦表示。文本用特征項集表示為:

d={t1,t2,…,tn}

其中:ti為特征項,1≤i≤n。根據各個特征項ti在文本中的重要程度為其賦予一定權重wk,這時文本表示為

d={t1,w1,t2,w2,…,tn,wn}

1.4 特征選擇

特征選擇通俗來說就是選取一些最能代表一篇文檔的詞或短語,它是文本分類中最為重要的一步。目前,較為常用的特征選擇算法有文檔頻率(DF)、TFIDF、互信息(MI)、卡方檢驗(CHI)、信息增益(IG)等[1]。其中,TFIDF算法是權重計算中經典的算法之一[8],本文采用TFIDF來計算特征權值。TFIDF的基本思想是假設一個詞或短語在一篇文檔中出現的頻率高,而在其他文檔中很少出現,則認為該詞或短語具有很好的類別區分能力,適用于分類。

常用的TFIDF計算公式如下:

其中:wdt是所計算的特征項的權值;fdt代表詞t在文檔d中出現的頻率,即詞頻TF;N表示所有的文檔數,nt表示出現詞t的文檔數,log(N/nt)表示逆文檔頻率IDF。

1.5 特征二次加權

從實際應用出發,將文本分類系統應用于監理工程的文本描述之中。通過查看訓練文本集,發現個別詞匯在文本分類過程中所起的作用較大,個別術語含義比較貼切,能反映此通知單所代表的問題所在。主要表現在以下2個方面:

① 特定位置。詞匯表現文本內容的強弱與詞匯在監理通知單中的位置有一定聯系。例如,出現在“事由”后面部分的文字,通常具有代表此通知單具體是哪類問題的表象。

② 特定關鍵詞代表問題類別比較明顯。對于監理通知單文本,由于數據集的樣本數量有限,有些詞匯集中出現在某一類別的文本中。根據相關經驗,這些詞匯很可能與某類別相關度較大,有益于文本分類,例如,“質量”“施工”“進度”等。

本文在使用TFIDF來計算特征權值后,對于集合中包含的這些特定關鍵詞加大權值,從而增大不同類別問題文本的區分度?;诖私⒁粋€關鍵詞表KeyTable,對在特征項集合中出現過的關鍵詞增加權重w′。通過實驗發現,當w′=0.5時,實驗能取得較好的結果。

關鍵詞表KeyTable中的關鍵詞有“質量”“施工”“進度”“整改”“安裝”“措施”等。

2 分類器的構造

從數學角度來說,分類問題可以形式地表示如下:

已知集合:c={y1,y2,y3,…,yn}和I={x1,x2,x3,…,xn},確定映射規則y=f(x),使得任意xi有且僅有一個yi∈c,使得yi=f(xi)成立。

其中,c稱為類別集合,類別集合中的每一個元素是一個類別;I稱為項集合,項集合中的每一個元素是一個待分類項,f為分類器。

本文采用樸素貝葉斯[4](naive Bayesian)分類算法。與其他算法相比,樸素貝葉斯分類算法較為簡單,且分類速度快,分類結果的準確率高。該方法的基本思想是:對于給出的待分類項,求解在此項出現的條件下各個類別出現的概率,條件概率最大的,就認為待分類項屬于這個類別。

計算步驟如下:

① 假設x={t1,t2,t3,…,tn}為待分類項,其中ti為特征項;

② 有類別集合c={y1,y2,y3,…,yn};

③ 計算條件概率P(y1|x),P(y2|x),P(y3|x),…,P(yn|x);

④ 如果P(yk|x)=MAX{P(y1|x),P(y2|x),…,P(yn|x)},則x屬于yk類。

其中,最為關鍵的一步是計算各個條件概率,計算過程可分解為以下步驟:

① 統計得到在各類別下各個特征項的條件概率估計值,即

② 假設各個特征項是條件獨立的,則根據貝葉斯定理有:

又因為各個特征項是條件獨立的,所以有:

P(x|yi)P(yi)=P(t1|yi)P(t2|yi)…

3 實驗

3.1 實驗數據

本文采用的實驗數據由重慶某監理咨詢公司提供,包括5個工程項目中的監理通知單,共計 1 579個文本。監理問題分為4大類,質量問題占35.6%,施工問題占40.3%,進度問題占14.9%,其他問題占9.2%。問題分布情況如表1所示。

表1 問題分布情況

3.2 算法流程

輸入:待分類文本X,類別集合c={y1,y2,y3,…,yn},監理通知單訓練集T。

輸出:待分類文本X的類別向量d(x)。

初始化:① 經過文本預處理階段得到特征項集合x={t1,t2,t3,…,tn};

② 由式(1)計算特征項集合x中每個特征項ti的權值wi,得到d={t1,w1,t2,w2,…,tn,wn};

③ 根據特征項二次加權方法,為出現在KeyTable中的特征項ti的權值wi加上w′;

④ 由步驟③得到新的文本向量d′;

⑤ 將訓練集T中所有的文本表示成向量;

⑥ 計算文本x與類別yi的相關度,即采用樸素貝葉斯分類方法計算條件概率P(y1|x),P(y2|x),P(y3|x),…,P(yn|x)

⑦ 比較條件概率的大小P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)},則得到x的類別yk。

3.3 評價指標

實驗采用常用的查全率(recall)、查準率(precision)及F值來驗證分類器的性能[5]。查全率r=分類器在cj上分類正確的文本數/cj真正包含的文本數;查準率p=分類器在cj上分類正確的文本數/分類器識別為cj類的文本數;F值=2×查全率×查準率/(查準率+查全率)[1]。

3.4 結果分析

為了驗證改進后的方法在監理通知單分類上的實用性和有效性,分別進行下面2組實驗。

實驗一:實用性

一般提取方法(即直接采用TFIDF算法加權)與特征二次加權方法進行對比分析。為保公正性,2種方法都采用同種分詞方法,即通用詞典結合專業詞典的分詞方法,分類算法也都采用樸素貝葉斯分類方法。對實驗所用的數據按照7∶3的比例劃分,分別為測試集和訓練集[6]。

采用一般提取方法的實驗結果如表2所示,特征二次加權后的實驗結果如表3所示。

表2 一般提取方法 %

表3 特征二次加權方法 %

通過表2、3的對比可以得知:特征二次加權方法與直接使用TFIDF方法的分類結果在查全率和查準率上均有提高,都達到了預期的結果,有一定的實用價值。其中,質量問題與施工問題這兩個類別的改善情況比較樂觀,而另外兩個類別的效果不是很明顯。另外,施工問題的樣本數量本身較多,再加上可以羅列的關鍵詞也較多,因此它的準確率提高得相對明顯。

實驗二:有效性

由實驗一可知:改進后的方法對監理通知單文本分類的結果有一定影響,為了降低偶然性,使用改變訓練樣本與測試樣本的比例的方法進行多次實驗,從而驗證其有效性。用F值作為對比數據。圖2為采用不同樣本比例所得到的對比結果。

圖2 不同訓練樣本比例2種方法的F值對比

從圖2可以看出:改進后的算法F值隨訓練樣本容量的增加呈上升趨勢,取值范圍為71.5%~84%??傮w而言,改進算法相對于未改進前提升了性能,表明改進后的算法是有效的。

以上實驗結果說明:結合使用專業詞典和特征二次加權的方法在監理通知單文本分類的具體應用方面具有一定的提升作用。但是實驗二顯示:F值均小于85%,表明該算法仍存在一定的提升空間。

4 結束語

本文在原有文本分類方法上結合監理工程自身的一些特點,提出了一種適用于監理工程的文本分類方法,主要包括2點:① 針對中文分詞詞典存在未登錄詞匯,采用通用詞典與專業詞典相結合的方式,提高了分詞的準確性;② 在特征提取的過程中,基于使用TFIDF計算特征權重進行了特征二次加權,增大了類別區分度,使分類結果更準確。經過實驗驗證,表明改進后的方法在實用性和有效性方面都有所提高,能滿足實際需求。

[1] 宋阿羚,劉海峰,劉守生.基于位置及詞頻信息的優化CHI文本特征選擇方法[J].計算機科學與應用,2015,5(9):322-330.

[2] 胡毅.通過數據分析強化監理信息的管理工作[J].邏輯學研究,2005,25(4):271-274.

[3] 徐濤,于洪志,加羊吉.基于改進卡方統計量的藏文文本表示方法[J].計算機工程,2014,40(6):185-189.

[4] 張亞萍,陳得寶,侯俊欽,等.樸素貝葉斯分類算法的改進及應用[J].計算機工程與應用,2011,47(15):134-137.

[5] 樊存佳,汪友生,邊航.一種改進的KNN文本分類算法[J].國外電子測量技術,2015,34(12):39-43.

[6] 伍洋,鐘鳴,姜艷,等.面向審計領域的短文本分類技術研究[J].微電子學與計算機,2015,32(1):5-10.

[7] 董麗麗,魏勝輝.一種面向機械領域文本分類器的設計[J].微電子學與計算機,2012,29(4):142-145.

[8] 施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計算機應用,2009,29(b06):167-170.

[10] ZHANG H,ZHONG g G.Improving short text classification by learning vector representations of both words and hidden topics[J].Knowledge-Based Systems,2016,102:76-86.

(責任編輯楊黎麗)

StudyonTextCategorizationTechnologyforSupervisionEngineering

CHEN Zhuang, YANG Chunyu

(College of Computer Science and Engineering,Chongqing University of Technology, Chongqing 400054, China)

In order to solve the problems of management, such as query, statistics and confusion, a text categorization method is proposed to improve the management efficiency and simplify the working mode. Firstly, in Chinese word processing, supervision of professional dictionary uses generic dictionary with manually constructed combination; and then for feature extraction based on the use of TFIDF, according to certain rules to adjust the weights of features, finally we construct the classifier using Naive Bayesian classification algorithm. The experimental results show that this method can meet the practical application requirements in the classification of supervision notice.

supervision engineering; problem categorization; TFIDF; twice weighting for feature; Naive Bayesian

2017-06-22

重慶市研究生科研創新項目(CYS16222);重慶理工大學研究生創新基金資助項目(YCX2016229)

陳莊(1964—),男,博士,教授,主要從事企業信息化管理、網絡與信息安全研究,E-mail:cz@cqut.edu.cn。

陳莊,楊春玉.面向監理工程的文本分類技術研究[J].重慶理工大學學報(自然科學),2017(10):187-191.

formatCHEN Zhuang, YANG Chunyu.Study on Text Categorization Technology for Supervision Engineering[J].Journal of Chongqing University of Technology(Natural Science),2017(10):187-191.

10.3969/j.issn.1674-8425(z).2017.10.030

TP391

A

1674-8425(2017)10-0187-05

猜你喜歡
監理分類特征
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
關于建設工程監理發展趨勢的探討
消費導刊(2017年24期)2018-01-31 01:28:30
教你一招:數的分類
抓住特征巧觀察
工程監理管理模式創新探索
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲人成影院午夜网站| 成人年鲁鲁在线观看视频| 亚洲欧美日韩色图| 欧美精品一区在线看| 国产精品视频公开费视频| 国产又粗又猛又爽视频| 国产自在线拍| 久久无码av三级| 国产精品区网红主播在线观看| 亚洲第一综合天堂另类专| 久久99热这里只有精品免费看| 欧洲日本亚洲中文字幕| 欧美曰批视频免费播放免费| 香蕉eeww99国产精选播放| 丁香亚洲综合五月天婷婷| 欧洲亚洲欧美国产日本高清| 激情视频综合网| 亚洲成人一区二区| 日本不卡视频在线| 久久久久人妻精品一区三寸蜜桃| 91www在线观看| 国产婬乱a一级毛片多女| 狠狠躁天天躁夜夜躁婷婷| 欧美午夜视频在线| 亚洲精品va| 97久久超碰极品视觉盛宴| 欧美精品伊人久久| 蜜臀AVWWW国产天堂| 日本AⅤ精品一区二区三区日| 一级毛片在线播放| 九九视频在线免费观看| 全部无卡免费的毛片在线看| 美女黄网十八禁免费看| 毛片免费高清免费| 中文国产成人久久精品小说| 国产在线欧美| 伊人久久综在合线亚洲2019| 国产成人综合久久精品尤物| 国产中文一区a级毛片视频| 九九九精品成人免费视频7| 亚洲经典在线中文字幕| 免费高清毛片| 欧美日韩资源| 亚洲日本中文字幕乱码中文| 亚洲成人黄色在线| 99久久精品无码专区免费| 亚洲国产AV无码综合原创| 日韩在线观看网站| 欧美亚洲国产精品久久蜜芽| 无码有码中文字幕| 国产成人1024精品| 国产精品亚洲精品爽爽| 国产精品任我爽爆在线播放6080| 亚洲男人天堂网址| 狠狠v日韩v欧美v| 国产日本欧美亚洲精品视| 亚洲欧洲日韩国产综合在线二区| 国产亚洲精品91| 天堂在线视频精品| 亚洲天堂视频在线播放| 日本免费福利视频| 国产精品不卡永久免费| 伊大人香蕉久久网欧美| 亚洲成人动漫在线观看 | 精品久久久久久中文字幕女| 51国产偷自视频区视频手机观看| 精品三级网站| 免费一级成人毛片| 男人天堂伊人网| 18禁高潮出水呻吟娇喘蜜芽| 亚洲一区二区视频在线观看| 亚洲性影院| 中文字幕调教一区二区视频| 欧类av怡春院| 青草视频在线观看国产| www亚洲天堂| 国产一区二区三区免费观看| 亚洲一欧洲中文字幕在线| 91视频青青草| 成人自拍视频在线观看| 国产一区二区三区在线观看视频| 亚洲五月激情网|