999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自編碼神經網絡的文本表示應用研究

2016-11-10 10:39:30俸世洲
電子測試 2016年19期
關鍵詞:特征文本

俸世洲

(重慶師范大學涉外商貿學院,401520)

基于自編碼神經網絡的文本表示應用研究

俸世洲

(重慶師范大學涉外商貿學院,401520)

本文主要研究高校招生領域Web短文本的表示方法及處理步驟。基于自編碼神經網絡對輸入數據的要求,研究文本預處理的主要技術:中文分詞、停用詞處理、降維處理,文本向量化表示等技術,并分析了文本表示的處理流程。

高校招生自編碼;中文分詞;文本表示

0 引言

隨著互聯網的發展,留言板、QQ、微信等媒體在招生工作中的應用越來越頻繁,積累了越來越多的電子文本數據,如何有效地利用這些大數據資源已經成為招生領域急需解決的問題。為從這些數據資源中挖掘有利于改進招生工作的信息,嘗試利用當下最熱門的深度學習算法來挖掘文本數據,基于此算法必須找出一個適應其輸入的文本表示方法,本文分別從中文分詞、停用詞處理、降維處理、文本向量化表示等技術入手,分析文本表示的處理流程。

1 分詞處理

分詞處理具體包括了若干步驟,如圖1所示:

圖1 中文分詞處理流程

(1)從留言板后臺獲取數據庫,數據庫為MDB格式,只保留留言主題、留言問題及問題回復三個字段,把其余字段去除,這三個字段包含的信息量最大,其中包含了考生咨詢的主題、具體細節以及回復人員的解答。通過數據庫工具把這三個字段導出到文本編輯工具當中。

(2)利用文本編輯工具如記事本、word或excel,去除HTML代碼及多余的符號。由后臺數據庫導出的數據當中存在很多HTML代碼,如:<font color="#cc0000">回復內容</font>,需要手動去除掉,保留純文本的部份。

(3)目前應用比較廣泛的中文分詞工具有NLPIR/ICTCLAS分詞系統和教育部語言文字應用研究所的分詞和詞性標注程序。本文選用后者用于試驗,此系統可以對文件進行批量處理,并同時標注詞性,利于下一步去除停用詞等工作。如圖2所示:

(4)分詞和詞性標注完成后,得到分詞及標注后的文本文件,從中可區分出名詞、動詞、停用詞、嘆詞等詞性。去除停用詞等不需要的詞,這也是對文本進行降維的方式。

通過以上幾步的處理,輸出純文本文件,準備下一步的文本向量化表示。

圖2 分詞和詞性標注程序

2 文本向量化表示

文本文檔是字符的集合,是非結構化信息,神經網絡不能識別,必須將其轉換成統一的結構化形式,才能夠進行進一步的分析和處理。1975年,Salton提出的向量空間模型(Vector Space Model)是文本分類中應用最廣泛的一種文本表示模型。在該模型中,所有出現在文本中的特征項被作為向量空間中的一維,n個特征項就構成一個n維的特征向量空間。每一篇文檔都表示成一組特征詞組成的特征向量,其中表示特征詞k在特征向量中的權重。權值的取值范圍為[0,1]。

向量空間中,主要有以下幾種權重計算方式:布爾加權法,詞頻加權法,加權法。假設為特征項在文檔,出現的頻率,n為文檔集中文檔總數,為在文檔集中出現文檔特征項的文檔數量。

(1)布爾加權法

布爾權重也叫二值權重或二元權重,是最簡單的權重計算方法。如公式1所示,當特征項出現在文檔中時,權重為1,否則為0。

即,公式1

(2)詞頻加權法

用特征頻度作為權重。即。

(3)加權法

加權法是使用比較廣泛的權重計算方法。特征在文本中出現次數越多,越重要;特征在越多的文本中出現,越不重要。即,。

基于自編碼神經網絡對輸入數據的要求,并且留言板文本屬于Web短文本,用布爾加權法來表示更加適用。本文選擇布爾加權法表示文本向量。詞頻統計工具我們采用教育部語言文字應用研究所的字詞頻率統計工具,如圖3所示:

統計過后,去除出現頻率過高或過低的詞,并構建特征詞表。最后通過程序構造出布爾編碼向量,形成自編碼神經網絡的輸入數據。

圖3 字詞頻率統計工具

4 結語

本文通過一個文本預處理實例分析了中文分詞、停用詞處理、降維處理、文本向量化表示等技術的實施步驟,并為后期的文本分類等工作做好數據準備。

[1] SONGF,LIUS,YANGJ.Acomparative study on text representations chemes intext categorization[J].Pattern Analysis & Applications, 2005, 8(1): 199-209.

[2] 楊杰明. 文本分類中文本表示模型和特征選擇算法研究[D].長春:吉林大學,2013

1981年9月出生;工作單位:重慶師范大學涉外商貿學院;重慶大學計算機系統結構專業碩士,助理研究員職稱,研究方向:數據挖掘,人工智能,人工神經網絡

Research indicates neural network based on self-encoding text

Feng Shizhou
(Chongqing Normal University Foreign Trade And Business College,401520)

This paper studies the field of representation College Enrollment Web and short text processing steps.Based on self-encoding neural network input data requirements,the main technical pretreatment study text:Chinese word,stop word processing,reduce the dimension text representation techniques to quantify and analyze the process flow text representation.

College Admissions self-encoding;Chinese word;text representation

項目支持:重慶市教委科學技術研究項目KJ1501703重慶師范大學涉外商貿學院科研項目KY2015004

猜你喜歡
特征文本
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 制服丝袜一区| 国产亚洲精品无码专| 国产欧美日韩在线在线不卡视频| 国产男女XX00免费观看| 国内精自线i品一区202| 好久久免费视频高清| 欧美一级在线看| 色哟哟色院91精品网站| 不卡的在线视频免费观看| 亚洲性影院| 国产精品欧美亚洲韩国日本不卡| 免费观看成人久久网免费观看| 国产精品美人久久久久久AV| 成年看免费观看视频拍拍| 青草精品视频| 日韩欧美中文字幕一本| 午夜国产小视频| 国产成人久久777777| 婷婷午夜天| 久久精品国产精品青草app| 国产后式a一视频| 亚洲69视频| 久久久受www免费人成| 一本色道久久88| 亚洲成人黄色在线| 免费一级α片在线观看| 日韩中文精品亚洲第三区| 日韩小视频在线观看| 欧美色香蕉| 国产美女91呻吟求| 国产综合另类小说色区色噜噜| 日韩欧美国产另类| 亚洲天堂视频在线观看| 久久久亚洲国产美女国产盗摄| 婷婷色中文网| 国产精品女人呻吟在线观看| 欧美A级V片在线观看| 九色视频一区| 亚洲欧美成人| 国产一级毛片网站| 91精品国产丝袜| 亚洲综合色吧| 国产精品无码AV片在线观看播放| 99手机在线视频| 成人午夜视频免费看欧美| 四虎成人在线视频| 亚洲自拍另类| 亚洲香蕉伊综合在人在线| 91福利免费视频| 99精品一区二区免费视频| 精品少妇人妻一区二区| 亚洲视频二| 少妇极品熟妇人妻专区视频| 久久永久视频| 狠狠色丁香婷婷综合| 国产麻豆aⅴ精品无码| 亚洲国产日韩欧美在线| 欧美日韩在线成人| 狠狠五月天中文字幕| 小说 亚洲 无码 精品| 五月婷婷中文字幕| 波多野结衣一区二区三区四区视频| 欧洲精品视频在线观看| 青青网在线国产| 综合天天色| av在线手机播放| 国产欧美综合在线观看第七页| 一级看片免费视频| 999精品在线视频| 日本免费精品| 亚洲天堂免费| AV熟女乱| 国产一在线| 99中文字幕亚洲一区二区| 欧美亚洲国产日韩电影在线| h视频在线观看网站| 亚洲 欧美 偷自乱 图片| 国产成人AV综合久久| 久久大香香蕉国产免费网站| 手机永久AV在线播放| 乱人伦99久久| 亚洲欧美精品一中文字幕|