999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自編碼神經網絡的文本表示應用研究

2016-11-10 10:39:30俸世洲
電子測試 2016年19期
關鍵詞:特征文本

俸世洲

(重慶師范大學涉外商貿學院,401520)

基于自編碼神經網絡的文本表示應用研究

俸世洲

(重慶師范大學涉外商貿學院,401520)

本文主要研究高校招生領域Web短文本的表示方法及處理步驟。基于自編碼神經網絡對輸入數據的要求,研究文本預處理的主要技術:中文分詞、停用詞處理、降維處理,文本向量化表示等技術,并分析了文本表示的處理流程。

高校招生自編碼;中文分詞;文本表示

0 引言

隨著互聯網的發展,留言板、QQ、微信等媒體在招生工作中的應用越來越頻繁,積累了越來越多的電子文本數據,如何有效地利用這些大數據資源已經成為招生領域急需解決的問題。為從這些數據資源中挖掘有利于改進招生工作的信息,嘗試利用當下最熱門的深度學習算法來挖掘文本數據,基于此算法必須找出一個適應其輸入的文本表示方法,本文分別從中文分詞、停用詞處理、降維處理、文本向量化表示等技術入手,分析文本表示的處理流程。

1 分詞處理

分詞處理具體包括了若干步驟,如圖1所示:

圖1 中文分詞處理流程

(1)從留言板后臺獲取數據庫,數據庫為MDB格式,只保留留言主題、留言問題及問題回復三個字段,把其余字段去除,這三個字段包含的信息量最大,其中包含了考生咨詢的主題、具體細節以及回復人員的解答。通過數據庫工具把這三個字段導出到文本編輯工具當中。

(2)利用文本編輯工具如記事本、word或excel,去除HTML代碼及多余的符號。由后臺數據庫導出的數據當中存在很多HTML代碼,如:<font color="#cc0000">回復內容</font>,需要手動去除掉,保留純文本的部份。

(3)目前應用比較廣泛的中文分詞工具有NLPIR/ICTCLAS分詞系統和教育部語言文字應用研究所的分詞和詞性標注程序。本文選用后者用于試驗,此系統可以對文件進行批量處理,并同時標注詞性,利于下一步去除停用詞等工作。如圖2所示:

(4)分詞和詞性標注完成后,得到分詞及標注后的文本文件,從中可區分出名詞、動詞、停用詞、嘆詞等詞性。去除停用詞等不需要的詞,這也是對文本進行降維的方式。

通過以上幾步的處理,輸出純文本文件,準備下一步的文本向量化表示。

圖2 分詞和詞性標注程序

2 文本向量化表示

文本文檔是字符的集合,是非結構化信息,神經網絡不能識別,必須將其轉換成統一的結構化形式,才能夠進行進一步的分析和處理。1975年,Salton提出的向量空間模型(Vector Space Model)是文本分類中應用最廣泛的一種文本表示模型。在該模型中,所有出現在文本中的特征項被作為向量空間中的一維,n個特征項就構成一個n維的特征向量空間。每一篇文檔都表示成一組特征詞組成的特征向量,其中表示特征詞k在特征向量中的權重。權值的取值范圍為[0,1]。

向量空間中,主要有以下幾種權重計算方式:布爾加權法,詞頻加權法,加權法。假設為特征項在文檔,出現的頻率,n為文檔集中文檔總數,為在文檔集中出現文檔特征項的文檔數量。

(1)布爾加權法

布爾權重也叫二值權重或二元權重,是最簡單的權重計算方法。如公式1所示,當特征項出現在文檔中時,權重為1,否則為0。

即,公式1

(2)詞頻加權法

用特征頻度作為權重。即。

(3)加權法

加權法是使用比較廣泛的權重計算方法。特征在文本中出現次數越多,越重要;特征在越多的文本中出現,越不重要。即,。

基于自編碼神經網絡對輸入數據的要求,并且留言板文本屬于Web短文本,用布爾加權法來表示更加適用。本文選擇布爾加權法表示文本向量。詞頻統計工具我們采用教育部語言文字應用研究所的字詞頻率統計工具,如圖3所示:

統計過后,去除出現頻率過高或過低的詞,并構建特征詞表。最后通過程序構造出布爾編碼向量,形成自編碼神經網絡的輸入數據。

圖3 字詞頻率統計工具

4 結語

本文通過一個文本預處理實例分析了中文分詞、停用詞處理、降維處理、文本向量化表示等技術的實施步驟,并為后期的文本分類等工作做好數據準備。

[1] SONGF,LIUS,YANGJ.Acomparative study on text representations chemes intext categorization[J].Pattern Analysis & Applications, 2005, 8(1): 199-209.

[2] 楊杰明. 文本分類中文本表示模型和特征選擇算法研究[D].長春:吉林大學,2013

1981年9月出生;工作單位:重慶師范大學涉外商貿學院;重慶大學計算機系統結構專業碩士,助理研究員職稱,研究方向:數據挖掘,人工智能,人工神經網絡

Research indicates neural network based on self-encoding text

Feng Shizhou
(Chongqing Normal University Foreign Trade And Business College,401520)

This paper studies the field of representation College Enrollment Web and short text processing steps.Based on self-encoding neural network input data requirements,the main technical pretreatment study text:Chinese word,stop word processing,reduce the dimension text representation techniques to quantify and analyze the process flow text representation.

College Admissions self-encoding;Chinese word;text representation

項目支持:重慶市教委科學技術研究項目KJ1501703重慶師范大學涉外商貿學院科研項目KY2015004

猜你喜歡
特征文本
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 亚洲精品制服丝袜二区| 欧美97色| 日韩在线播放中文字幕| 国产超薄肉色丝袜网站| 久久毛片免费基地| 欧美成人综合在线| 国产人人射| 2021精品国产自在现线看| 国产一区二区免费播放| 欧美日韩一区二区三区在线视频| 制服丝袜亚洲| 亚洲综合专区| 欧美翘臀一区二区三区| 国产精品香蕉在线观看不卡| 茄子视频毛片免费观看| 国产精品毛片一区| 五月天福利视频| 国产精品自拍合集| 亚洲中文精品人人永久免费| 国国产a国产片免费麻豆| 中文字幕在线永久在线视频2020| 国产小视频免费| 国产高颜值露脸在线观看| yy6080理论大片一级久久| 无码高潮喷水在线观看| 在线观看欧美国产| 国模视频一区二区| 国产91丝袜在线观看| 精品国产免费观看| 国产一区二区福利| 日本手机在线视频| 一边摸一边做爽的视频17国产| 欧美亚洲第一页| 亚洲—日韩aV在线| 国产99视频免费精品是看6| 国产a网站| 国产粉嫩粉嫩的18在线播放91| 国产黄网永久免费| 日韩在线成年视频人网站观看| 狠狠做深爱婷婷久久一区| 午夜国产精品视频黄 | 喷潮白浆直流在线播放| 亚洲天堂免费观看| 无码国产偷倩在线播放老年人 | 国产网友愉拍精品| 丁香五月激情图片| 蜜臀av性久久久久蜜臀aⅴ麻豆| 欧美国产在线一区| 中文字幕 欧美日韩| 狠狠色综合网| 五月激情婷婷综合| 亚洲色图综合在线| 伊人久综合| 91福利在线观看视频| 巨熟乳波霸若妻中文观看免费| 国产黑丝一区| 色香蕉影院| 欧美日韩在线亚洲国产人| 重口调教一区二区视频| 亚洲日本中文综合在线| 成人无码一区二区三区视频在线观看 | 精品视频福利| 在线欧美一区| 日本成人不卡视频| 亚洲男人天堂久久| 国产成人久久综合一区| 亚洲精品免费网站| 欧美一级片在线| 91精品国产一区自在线拍| 四虎亚洲国产成人久久精品| 嫩草国产在线| 亚洲第一视频免费在线| 久久狠狠色噜噜狠狠狠狠97视色 | 人妻精品全国免费视频| 一级福利视频| 亚洲乱码视频| 色婷婷在线影院| 色国产视频| 精品偷拍一区二区| 国产白浆视频| 久久亚洲美女精品国产精品| 亚洲精品片911|