999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語言風格的郵件分析問題

2018-08-22 19:35:16張敬巍
科學與財富 2018年20期
關鍵詞:分類特征文本

張敬巍

摘要:作者識別是一個應用廣泛的研究領域,可以應用于中外文學作品的作者考證領域,也可以應用于版權保護、惡意郵件識別等信息安全領域【1】。本文主要研究如何通過電子郵件的語言特征來識別作者的問題。在眾多郵件當中,根據語言風格的分析,確定作者。“風格”是指由于作者的生活經歷、藝術素養等造成的不同的創作特色,而語言風格是作家通過作品表現出來的創作語言特有的格調。我們將要進行的作者識別過程其實是一個文本分類的過程。文本分類是對文本集按照一定的分類體系或標準進行自動分類標記,屬于一種基于分類體系的自動分類。已有的文本分類算法有:決策樹、神經網絡、k近鄰、樸素貝葉斯、遺傳算法和支持向量機等。文本的分類通過分析電子郵件的語言特征實現,作者的語言特征是長期形成的行文習慣在寫作活動中的體現。我們通過統計的方法用某些數量特征表現作者的行文風格,從例如詞長、句長、詞頻,以及修辭、句法等不同角度綜合體現。我們運用支持向量機結合語言風格學的方法分析郵件的作者歸屬問題。

關鍵詞:作者識別支持向量機語言特征

1.問題分析

問題要求基于電子郵件的語言特征來識別作者。每位作者在書寫時會體現出不同的行文風格,我們選取一些不同的角度對每位作者的郵件文本進行分析。分析過程包括:文本預處理、詞頻統計、文本特征的抽取、分類器的訓練。

2.假設

1.假設郵件的主要內容主要集中在后半部分。

2.假設文本中詞與詞之間的關系是相互獨立的。

3.1文本預處理

文本預處理是我們進行詞頻統計和文本預處理的第一步,只有對文本進行預處理,才能對郵件的詞頻進行統計,對訓練集進行有效的訓練。首先進行詞干化,詞干化是將所有形式的衍生詞脫離各種各樣的詞性和語法變化,提取出共同的主干,變為統一的詞根,降低文本特征的維數,便于接下來的處理。如:effective→effect等。

過濾停用詞和稀有詞:通常意義上,停用詞大致分為兩類。一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實際含義,比如'the'、'is'、'at'、'which'、'on'等。

3.2特征選擇

3.3文本表示模型

對于計算機而言,如果要進行文本分類,那么需要將文本表示成計算機能夠處理的形式,我們選擇的表示模型為向量空間模型,這也是最常用的一個模型。向量空間模型(VSM)是指將每篇文檔表示成一個向量,各個特征詞的詞頻作為向量中的一個元素,語料庫中所有的文檔構成一個矩陣。

3.4特征權重表示

在將文檔用向量空間模型表示后,還需要給每個特征詞賦予一定的權重,以矩陣的形式交給計算機去處理。布爾權重是常用的文本特征權重表示方法。布爾權重基于簡單的二元判定標準,定義十分直觀。

3.5分類方法統計

K-近鄰法:K-近鄰法(KNN)因算法簡單、易于實現、不需要估計參數、分類精度高等優勢,已成為模式識別和統計學領域最著名的算法之一,也是機器學習中最早應用于自動文本分類的非參數算法之一。

樸素貝葉斯法:樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設的分類方法。最為廣泛的兩種分類模型是決策樹模型和樸素貝葉斯模型。和決策樹模型相比,樸素貝葉斯分類器(Naive Bayes Classifier,或NBC)發源于古典數學理論,有著堅實的數學基礎,以及穩定的分類效率。同時,NBC模型所需估計的參數很少,對缺失數據不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。

3.6分類器訓練

為了準確的預測郵件的作者,我們首先對分類器進行訓練。我們選取樣本的75%作為訓練集使訓練器更具有準確性,剩下的25%作為測試集,檢驗分類器的正確性。

參考文獻:

[1]萬晶.中文作者識別方法研究[D].湖南大學,2012.

[2]劉明勇.基于寫作風格學的作者識別技術研究[D].浙江大學,2013.

[3]吳寅雪.歐美科普作品的詞法特征及其翻譯[J].校園英語(中旬),2015,(7):237-238.

[4][期刊論文] 蘇佩娟,劉赪,牟建波,王麗梅,SU Peijuan,LIU Cheng,MU Jianbo,WANGLimei- 《西華大學學報(自然科學版)》2017年4期

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 精品国产成人三级在线观看| 国产精品私拍99pans大尺度 | 国产真实乱子伦视频播放| 国产一二三区视频| 久久精品国产精品国产一区| 久久午夜夜伦鲁鲁片无码免费| 免费一级大毛片a一观看不卡| 亚洲久悠悠色悠在线播放| 精久久久久无码区中文字幕| 无码精品福利一区二区三区| 成人免费视频一区二区三区| 日韩专区欧美| 成人av专区精品无码国产| 国产xx在线观看| 日韩高清成人| 国产国产人成免费视频77777| 日韩午夜片| 欧美日韩中文国产va另类| 欧美综合一区二区三区| 国产全黄a一级毛片| 欧美亚洲国产精品久久蜜芽| 91在线视频福利| 欧美日韩中文国产| 男女性午夜福利网站| 亚洲无码高清免费视频亚洲| 亚洲无码在线午夜电影| 天天视频在线91频| 亚洲午夜福利精品无码| 麻豆AV网站免费进入| 日本成人福利视频| 亚洲伦理一区二区| 久久精品这里只有国产中文精品| 亚洲有无码中文网| 制服丝袜国产精品| 69视频国产| 亚洲欧洲自拍拍偷午夜色| 91探花在线观看国产最新| 在线网站18禁| 无码国产伊人| 在线播放精品一区二区啪视频| 久久不卡精品| 一本久道久综合久久鬼色| 99re精彩视频| 国产无码性爱一区二区三区| 极品性荡少妇一区二区色欲| 中文字幕乱码中文乱码51精品| 蜜臀av性久久久久蜜臀aⅴ麻豆| 日韩免费毛片| 性69交片免费看| 国产精品污污在线观看网站| 成人午夜视频免费看欧美| 国产一区二区三区夜色| 国产流白浆视频| 亚洲第一区在线| 亚洲国产日韩一区| 四虎在线观看视频高清无码| 日韩小视频在线观看| 91啪在线| 在线观看无码av免费不卡网站 | 奇米影视狠狠精品7777| 中文天堂在线视频| 亚洲欧美色中文字幕| 欧美激情福利| 中文无码精品a∨在线观看| 日韩第一页在线| 国产精品片在线观看手机版| 国产无人区一区二区三区| 天堂在线视频精品| 免费看美女毛片| 久久77777| 国产一区成人| 精品一区国产精品| 成人午夜视频网站| 国产喷水视频| 在线无码av一区二区三区| 香蕉在线视频网站| 欧美一区福利| 草逼视频国产| 国产色网站| 亚洲视频在线青青| 国产精品久久久久久搜索 | 波多野一区|