俸世洲
(重慶師范大學涉外商貿學院,401520)
基于自編碼神經網絡的文本表示應用研究
俸世洲
(重慶師范大學涉外商貿學院,401520)
本文主要研究高校招生領域Web短文本的表示方法及處理步驟。基于自編碼神經網絡對輸入數據的要求,研究文本預處理的主要技術:中文分詞、停用詞處理、降維處理,文本向量化表示等技術,并分析了文本表示的處理流程。
高校招生自編碼;中文分詞;文本表示
隨著互聯網的發展,留言板、QQ、微信等媒體在招生工作中的應用越來越頻繁,積累了越來越多的電子文本數據,如何有效地利用這些大數據資源已經成為招生領域急需解決的問題。為從這些數據資源中挖掘有利于改進招生工作的信息,嘗試利用當下最熱門的深度學習算法來挖掘文本數據,基于此算法必須找出一個適應其輸入的文本表示方法,本文分別從中文分詞、停用詞處理、降維處理、文本向量化表示等技術入手,分析文本表示的處理流程。
分詞處理具體包括了若干步驟,如圖1所示:

圖1 中文分詞處理流程
(1)從留言板后臺獲取數據庫,數據庫為MDB格式,只保留留言主題、留言問題及問題回復三個字段,把其余字段去除,這三個字段包含的信息量最大,其中包含了考生咨詢的主題、具體細節以及回復人員的解答。通過數據庫工具把這三個字段導出到文本編輯工具當中。
(2)利用文本編輯工具如記事本、word或excel,去除HTML代碼及多余的符號。由后臺數據庫導出的數據當中存在很多HTML代碼,如:<font color="#cc0000">回復內容</font>,需要手動去除掉,保留純文本的部份。
(3)目前應用比較廣泛的中文分詞工具有NLPIR/ICTCLAS分詞系統和教育部語言文字應用研究所的分詞和詞性標注程序。本文選用后者用于試驗,此系統可以對文件進行批量處理,并同時標注詞性,利于下一步去除停用詞等工作。如圖2所示:
(4)分詞和詞性標注完成后,得到分詞及標注后的文本文件,從中可區分出名詞、動詞、停用詞、嘆詞等詞性。去除停用詞等不需要的詞,這也是對文本進行降維的方式。
通過以上幾步的處理,輸出純文本文件,準備下一步的文本向量化表示。

圖2 分詞和詞性標注程序
文本文檔是字符的集合,是非結構化信息,神經網絡不能識別,必須將其轉換成統一的結構化形式,才能夠進行進一步的分析和處理。1975年,Salton提出的向量空間模型(Vector Space Model)是文本分類中應用最廣泛的一種文本表示模型。在該模型中,所有出現在文本中的特征項被作為向量空間中的一維,n個特征項就構成一個n維的特征向量空間。每一篇文檔都表示成一組特征詞組成的特征向量,其中表示特征詞k在特征向量中的權重。權值的取值范圍為[0,1]。
向量空間中,主要有以下幾種權重計算方式:布爾加權法,詞頻加權法,加權法。假設為特征項在文檔,出現的頻率,n為文檔集中文檔總數,為在文檔集中出現文檔特征項的文檔數量。
(1)布爾加權法
布爾權重也叫二值權重或二元權重,是最簡單的權重計算方法。如公式1所示,當特征項出現在文檔中時,權重為1,否則為0。
即,公式1
(2)詞頻加權法
用特征頻度作為權重。即。
(3)加權法
加權法是使用比較廣泛的權重計算方法。特征在文本中出現次數越多,越重要;特征在越多的文本中出現,越不重要。即,。
基于自編碼神經網絡對輸入數據的要求,并且留言板文本屬于Web短文本,用布爾加權法來表示更加適用。本文選擇布爾加權法表示文本向量。詞頻統計工具我們采用教育部語言文字應用研究所的字詞頻率統計工具,如圖3所示:
統計過后,去除出現頻率過高或過低的詞,并構建特征詞表。最后通過程序構造出布爾編碼向量,形成自編碼神經網絡的輸入數據。

圖3 字詞頻率統計工具
本文通過一個文本預處理實例分析了中文分詞、停用詞處理、降維處理、文本向量化表示等技術的實施步驟,并為后期的文本分類等工作做好數據準備。
[1] SONGF,LIUS,YANGJ.Acomparative study on text representations chemes intext categorization[J].Pattern Analysis & Applications, 2005, 8(1): 199-209.
[2] 楊杰明. 文本分類中文本表示模型和特征選擇算法研究[D].長春:吉林大學,2013
1981年9月出生;工作單位:重慶師范大學涉外商貿學院;重慶大學計算機系統結構專業碩士,助理研究員職稱,研究方向:數據挖掘,人工智能,人工神經網絡
Research indicates neural network based on self-encoding text
Feng Shizhou
(Chongqing Normal University Foreign Trade And Business College,401520)
This paper studies the field of representation College Enrollment Web and short text processing steps.Based on self-encoding neural network input data requirements,the main technical pretreatment study text:Chinese word,stop word processing,reduce the dimension text representation techniques to quantify and analyze the process flow text representation.
College Admissions self-encoding;Chinese word;text representation
項目支持:重慶市教委科學技術研究項目KJ1501703重慶師范大學涉外商貿學院科研項目KY2015004