999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

學術相關通知類郵件處理系統設計

2018-11-08 10:05:30徐傲雪張凌張晶
中國教育網絡 2018年10期
關鍵詞:規則分類文本

文/徐傲雪 張凌 張晶

引言

研究背景

在互聯網高速發展的時代,網絡通訊手段愈加豐富,對比眾多網絡通信手段,由于電子郵件擁有全球統一公開的通用通信協議,具有長期保存、書面性等特性,因此電子郵件作為互聯網應用最廣的服務依然保持著其不可替代性。根據電子郵件的辦公特性,針對電子郵件開發的郵件服務類工具被廣泛應用在企業、高校或機構中,此類工具除了滿足基本的通訊需求,更加應該提供給用戶優質的事務處理服務,為用戶篩選出重要的待處理郵件,并且提供管理郵件資源的方案。

在電子郵件的主要應用場景之一高校、研究機構環境下,學術相關通知類郵件是備受重視的,學術相關通知類郵件主要包含期刊征文通知、相關領域的學術會議召開通知、學術競賽及論壇講座類的學術活動的舉辦通知,此類郵件是高校師生、研究人員會經常收到并且需要及時處理的。然而在現實中存在一些常見的問題,一方面現在網絡上垃圾郵件、訂閱郵件、廣告郵件泛濫,在處理郵件時需要耗費相當多的時間精力去篩選學術相關的通知類郵件;另一方面高校人員會收到大量的征文,會議邀請的郵件,其中大部分并不符合他們的研究領域;另外此類通知郵件中往往有一些不重要的部分,在處理郵件時需要花費時間去定位有效信息。

為解決上面提出的問題,本文提出了一個針對學術相關通知類郵件的處理系統AREP(Academic Related Email Processor),AREP構建了郵件收發的組件,應用基于關鍵詞的方法篩選出學術相關通知類郵件,使用基于SVM的分類方法對學術相關通知類郵件進行領域分類,開發基于規則的后處理模塊進行郵件資源的管理。本文提出系統有助于提高科研人員處理郵件的效率,從而激發學術熱情,促進學術研究工作。

背景知識及相關工作

重要郵件處理:相較于比較成熟的垃圾郵件過濾技術,對于在非垃圾郵件中區分重要郵件的研究則不那么充分,然而重要郵件的劃分能夠很好地提高用戶的處理效率,具有實用意義。在進行重要郵件分類的研究時,可以采取的方法有個性化的郵件優先級分類,以優先級來劃分比起劃分重要非重要更加細致[1]。S.Yoo等在2009年提出通過社交網絡個人數據挖掘提取特征使用半監督學習方法來實現郵件重要性排序[2],G.Tang等在2013年提出實現多分類和半監督的學習方法來實現郵件分類[3],國內外各個郵件服務器廠商大多提供重要郵件標記的功能,由用戶手動標記重要郵件,如Outlook的重要收件箱,網易郵箱的紅旗郵件等,這樣的標記方法實用性并不強并且發生在用戶處理郵件后。Gmail 的重要郵件分類的排序算法為線性邏輯回歸算法,主要利用社會,內容,線程,標簽四個特征,自動為重要郵件標記[4]。本文主要解決學術相關通知類郵件的劃分問題,根據觀察,學術相關通知類郵件具有明顯區別于普通郵件的關鍵詞特征,因此本文設計了一個學術相關通知類文件的關鍵詞生成方案,通過基于關鍵詞的方法實現學術相關通知類郵件的篩選。

文本分類:文本分類是解決學術相關通知類郵件領域分類問題的一個關鍵技術,文本分類中的主要研究內容主要有文本表示、分類方法等,文本分類方法自20世紀90年代從傳統的知識工程和專家系統逐漸發展出基于機器學習的文本分類方法,逐漸發展成熟,近年來基于深度學習的文本分類方法也為文本分類領域帶來了新的活力。文本表示是文本分類方法中一個關鍵技術,目前最常用的文本表示方法有VSM、基于主題概率模型和詞向量模型[5],詞向量模型于2003年被首次提出,在2013年Google團隊開源的word2vec工具[6]后被推上了研究的高潮,Vintan等在2017年提出了一種使用word embedding擴展VSM 的文本表示方法,通過在傳統的VSM 模型中添加詞嵌入的信息,雖然實驗結果并不理想,但是提出了一種新的突破[7];傳統的機器學習算法在文本分類的應用已經研究得非常成熟,許多的分類算法都能在不同的軟件直接應用,最常用的算法包括SVM,NB,KNN,IDT等,近年來關于集成學習以及深度學習在文本分類上的應用越發引起重視[8],Lai等提出一種遞歸卷積神經網絡模型用以文本分類,并且分析了遞歸神經網絡,卷積神經網絡,循環神經網絡等模型在文本分類的應用,并分別在中英文文檔上進行實驗[9];Zhang等提出字符級卷積神經網絡的文本分類方案,對比了詞袋模型、n-gram模型等文本表示方法,以及基于詞語的CNN模型以及遞歸神經網絡模型[10]。本文提出的AREP采用結合TF-IDF及詞向量的文本表示方法,選用SVM作為分類方法解決學術相關通知類郵件的領域分類問題。

系統概述

系統配置

系統在網絡環境的設置: AREP實現多郵箱的聚合,支持多種郵件服務器的后處理,實現方法如圖1所示 使用DNS服務器配置郵件域的MX記錄,將對應的MX指向系統所在服務器的IP地址,使得發往指定郵件域的郵件都會經過本系統。

預訓練的離線組件:如圖1所示AREP 包含以下一些離線預處理的組件:(1)學術相關通知類消息采集工具:利用網頁采集技術從一些公開的會議、期刊網站收集學術相關通知類網頁,提取網頁的主要內容轉換為純文本的數據,混合從個人郵件中收集的學術相關通知類郵件,構建學術相關通知類文本數據集。(2)關鍵詞規則生成工具:關鍵詞規則生成工具從學術相關通知類文本數據集中生成一組形如(關鍵詞 權值)關鍵詞規則,為AREP中的學術相關通知類郵件篩選模塊提供支持。(3)公開的預訓練詞向量集(4)預訓練的SVM分類器:在學術相關通知類文本數據集上訓練得到的SVM分類器,為AREP中的學術相關通知類郵件領域分類模塊提供支持。

系統設計

本節主要討論AREP系統在設計時的目標和實現的核心方法。

穩定的郵件服務:AREP 設置在郵件服務器的前方,必須保證在提供穩定的郵件收發服務的基礎上執行學術相關通知類郵件的處理,為了不影響郵件的正常傳輸,,系統設計時采用模塊化的設計,并獨立各個模塊的進程組,通過序列化的數據流及本地消息隊列連接各個模塊。例如不能允許處理模塊的處理時間影響了收取郵件的響應時間,另外分發組件易受到網絡故障的影響并且實時性要求不強,因此在完成處理后先將郵件正常發送出去同時通過本地的消息隊列通知分發組件所在的進程組有待處理的學術相關通知類郵件。

圖1 AREP系統框架

用戶個性化設置:AREP 是為了減輕人工處理重要郵件的負擔而設計的,需要為不同用戶提供個性化的設置,本系統提供基于RESTful架構的接口設計,提供用戶交互瀏覽器端的實現,用戶使用瀏覽器的管理端可監控系統的郵件處理記錄,配置郵件處理規則,例如將經系統處理判斷為計算機科學領域的學術相關通知類郵件轉發到指定郵箱或者歸檔到個人云盤。

系統組件及工作流程

郵件處理組件:如圖1所示AREP 包含以下一些必要的郵件處理組件:(1)郵件接收組件:基于SMTP協議實現郵件接收功能,基于異步事件驅動實現高并發地處理到達郵件,進行頻率控制、并發控制,保證本系統具有一定抵御網絡攻擊的能力。(2)郵件解析組件:解析郵件原件,實現接收的郵件的元數據如發件人、接件人、發送時間等的結構化,實現郵件內容拆分,如分成郵件頭、郵件正文、郵件附件。(3)郵件發送組件:基于SMTP協議實現郵件的發送,通過對郵件原件的分析,定位主題,正文,未顯示部分等在郵件原件的位置,在指定位置添加系統處理后的標簽。

學術相關通知類文本處理組件:如圖1所示AREP的核心處理組件主要包含兩個部分(1)篩選組件: 使用預訓練得到的關鍵詞規則,計算一封郵件的正文中所有命中的關鍵詞規則的分數總和,設置一個分數閾值作為標準,標記普通郵件和學術相關通知類郵件(2)分類組件:使用預訓練得到的SVM分類器對郵件正文進行分析實現領域分類,并標記分類。

分發組件:如圖1所示AREP的分發組件實現基于規則的后處理,根據用戶在管理端配置的規則以及系統學術相關通知類文本處理組件對郵件處理后的標簽結果分發郵件,每一條規則形如(規則,操作),規則包括郵件類別的判定,學術相關通知類郵件領域分類等,操作包括丟棄、轉發、歸檔等。

系統的完整處理流程:一封到達系統服務器的郵件通過郵件接收組件接收后通過文件系統遞交給郵件解析組件,將解析得到的各部分源文件暫存,將郵件正文內容傳輸給篩選組件,根據篩選結果,普通郵件直接遞交給郵件發送組件發送,將學術相關通知類郵件傳輸到分類組件,進行領域劃分后,標記分類結果,同時通知郵件發送組件和分發組件進行發送和后處理,分發組件檢查用戶規則庫,對每一條命中規則執行對應操作。

具體方案

本節討論了AEPR 中核心組件的關鍵實現:基于關鍵詞的篩選組件中關鍵詞規則的生成方法以及基于SVM的分類組件的完整分類方案。

關鍵詞規則生成方法

基于關鍵詞的學術相關通知類郵件篩選組件需要解決的核心問題是如何設計合適的關鍵詞規則,本文參考應用最廣泛的垃圾郵件開源解決方案之一SpamAssassin中為關鍵詞規則賦分值的感知器算法[11],設計了一種基于單層感知器的關鍵詞生成方法。本文使用的關鍵詞生成方法主要包括以下幾個步驟:

(1)選取學術相關通知類郵件中詞頻最高的N個詞,統計這N個詞中每個詞Wi在學術相關通知類郵件中出現的次數ARi和在非學術相關通知類郵件中出現的次數NARi,篩選滿足公式1的詞作為特征候選詞,其中N和T的取值通過實驗選取較優數值。

(2)使用上述特征候選詞對郵件數據集中的所有郵件進行過濾,得到每條特征候選詞規則在學術相關通知類郵件和非學術相關通知類郵件的觸發情況,結構化觸發情況數據,每封郵件的觸發情況為一個n維的數組,n為特征候選詞的個數,郵件中包含此特征候選詞則數組對應位置值為1否則為0。

(3)將上述觸發情況作為輸入,使用包含一個轉換函數和一個激活函數的單層感知機算法進行訓練得到關鍵詞規則的權值,轉換函數形如公式2,隨機設置初始權值,指該規則在指定郵件中的觸發情況。

激活函數形如公式3。

感知器算法使用的誤差函數為公式4。

每一次迭代的權值更新函數為公式5。

num_sample_hit 表示當前樣本觸發的規則數量,rate表示權值更新的學習率,通過實驗確定表現較優的迭代次數和學習率,訓練完成后保存關鍵詞規則權值W,偏差b。

基于SVM的學術相關通知類郵件領域分類

學術相關通知類郵件的領域分類問題,等同于一個文本的多分類問題,在常見的文本分類方法中主要包括如何進行預處理,如何選擇特征選擇方法,如何選擇文本表示方法,如何選擇分類方法四個關鍵的待研究問題。

AREP使用的文本預處理流程包括分詞,數據清洗,去停用詞,詞干提取。

AREP在文本表示方法上,參考唐明等提出的一種基于word2vec的文本表示方法[12],AREP使用結合TF-IDF及在大型語料庫上進行預訓練的詞向量來進行文本表示,文檔向量可表示為公式6。

公式6中Di表示第i篇文檔,K(t,Di)表示詞t在中的TF-IDF值, WVt表示詞t的詞向量。

在選取分類算法的時候,分類效果是最重要的一個衡量標準,另外還需要考慮系統的計算能力、存儲空間限制、響應時延等,雖然基于深度神經網絡的分類方法是近年的研究熱點,但是考慮到深度神經網絡高度的復雜性,不適用于實時性要求較高的郵件處理系統中,而SVM算法在一定程度上可以代表傳統機器學習單分類器方法在文本分類上的發展水平,SVM方法的其中一個優點是它在處理高維數據時較為健壯,學習過程幾乎獨立于特征空間的維度[13],文本數據具有高維稀疏分布和特征不相關的特性,因此本文系統選用SVM作為分類方法。

實驗評估

基于關鍵詞規則的篩選效果評估

關鍵詞規則生成所使用的訓練數據集為個人真實郵件,經人工篩選標記為學術相關通知類郵件及普通郵件,出于隱私保護,郵件文本內容僅選取郵件體正文部分,不考慮郵件頭內容,此郵件數據集共包含學術相關通知類郵件1709封,普通郵件1500封。

文本預處理的過程執行數據清洗:去除標點符號,數字,中文,大小寫轉換;分詞;去停用詞:使用nltk語料庫的英文停用詞表;詞干提取。

特征候選詞選取過程中相關的設置如下:統計學術相關通知類郵件中總詞頻最高的500個詞,篩選符合的詞作為關鍵詞候選詞,共獲取有效候選詞436個,部分候選詞如表1所示:

表1 部分關鍵詞候選詞展示

關鍵詞候選詞權值生成過程中相關設置如 下:(1) 為 了 降 低普通郵件的誤過濾率,首先對郵件數據集中的普通郵件進行冗余復制,設置每封普通郵件復制的數量為:num_sample_hit/2+1,num_sample_hit 表示當前樣本觸發的規則數量,由郵件數據集中的1500封普通郵件生成7576封普通郵件(2)神經網絡權值更新過程中的學習率可以控制權值更新速度,學習速率過高會造成訓練過程不穩定,一般學習率的設置為[0,1],本次實驗設置學習率rate=0.05,將訓練結果以每5次迭代為單位記錄下來,如圖2所示:觀察得到算法在迭代次數250次時基本收斂,因此設置迭代次數為300次。

圖2

將郵件數據集分成70%訓練集和30%的測試集,訓練過程中,每5次迭代,使用測試集對得到的關鍵詞候選詞規則進行評估,評估標準包括:

(1)accuracy=correct_classified_mail/num_of_mail *100%即正確分類的郵件占總郵件的比例。

(2)arm%=mis_classified_ar/num_of_ar_mail *100%即被誤分類的學術相關通知類郵件占所有學術相關通知類郵件的比例。

(3)narm%=mis_classified_nar/num_of_nar_mail *100%即 被 誤分類的普通郵件占所有普通郵件的比例。

評估標準中使用的變量定義為:correct_ classified _mail 表示被正確分類的郵件數量,num _ of_mail 表示所有郵件數量,mis_ classified _ar 表示被誤分類為普通郵件的學術相關通知類郵件數量,mis_ classified _nar 表示被誤分類為學術相關通知類郵件的普通郵件數量,num _ of_ ar_mail 表示學術相關通知類郵件的數量,num _ of _ nar_mail 表示普通郵件的數量。

算法迭代300次后,最終評估結果如表2所示:

表2 關鍵詞規則最終評估結果

根據實驗得到的評估效果,基于關鍵詞規則實現學術相關通知類郵件篩選的精確度達到99.75%,并且非學術相關通知類郵件的誤分類率為0,證明了學術相關通知類郵件具有區別度很高的關鍵詞特征,因此在AREP中使用基于關鍵詞規則的方法實現篩選功能是可行的。

學術相關通知類郵件領域分類性能評估

訓練學術相關通知類郵件領域分類器所用的數據集來自網站world conference calendar[14]公開的會議舉辦信息,共收集該網站上10個類別38361個會議通知,采集會議通知正文部分的文本內容,詳細的領域類別信息如表3所示:

表3 會議通知數據集組成情況詳細信息

表4 基于SVM的學術相關通知類郵件領域分類器性能評估結果

本文系統使用的文本表示方法為結合TF-IDF及預訓練詞向量的方法,文本表示過程中的相關設置如下:(1)計算詞的TF-IDF值,經過預處理后的文檔構建的詞典共包含110543個詞,共有38361個文檔,統計每個文檔中每個詞的TF-IDF值,需要生成一個38361*110543大小的數組來存放,超出了一般計算機的內存限制,考慮到詞的TF-IDF值是作為領域分類的特征,因此TF-IDF值的統計基于類別文檔,將某一類的文檔聚合為一個文檔(2) 使用的預訓練的詞向量來自Stanford 公開的在一些大型公開語料庫上通過GloVe方法訓練得到的詞向量集,本文實驗選用在Wikipedia 2014 + Gigaword 5語料庫訓練得到的詞向量glove.6B,共有50d, 100d, 200d, 300d四種維度[15]。

使用one-against-one的方法實現SVM的多分類,使用交叉驗證的評估方法,以精確度為評估標準,最終得到的評估結果如表4所示,根據表4的評估結果,可以看出選用詞向量維度為50時,模型訓練與模型預測的耗時最短,分類表現也最優。詞向量維度的選擇主要受數據集規模影響,高維的詞向量雖然能夠保留更多信息,但是在規模較小的數據集上容易存在過擬合現象,根據實驗結果本文系統使用的詞向量為50維。

系統使用情況評估

圖3 系統記錄的2018年07年01日的處理情況

圖4 系統運行3個月以來月統計記錄

本文設計實現的系統已投入實際使用,并且穩定運行3個月,本節主要介紹系統運行情況,通過將郵件記錄可視化管理,可以掌握系統運行的情況,圖3為系統記錄的2018年07年01日的處理情況,圖4為系統運行3個月以來月統計記錄,根據處理記錄能夠證明系統能夠較穩定的運行。

考慮到郵件在科研環境的廣泛應用,面向科研人員的郵件處理需求,本文提出了一個針對學術相關通知類郵件的處理系統AREP(Academic Related Email Processor),AREP在保證郵件傳輸要求的基礎上,實現了學術相關通知類郵件的核心處理組件:首先通過基于關鍵詞規則的方法篩選出學術相關通知類郵件,其中關鍵詞規則的生成方案包括基于詞頻、文檔頻率的特征詞選取方法和基于感知器算法的權值計算方法;對于篩選結果為學術相關通知類的郵件應用基于SVM的分類方法進行領域分類,其中文檔的表示方法結合TF-IDF和詞向量;通過實驗證明了郵件篩選方法和領域分類方法具有良好表現,足夠應對現實環境的學術相關通知類郵件處理。另外設計了根據處理組件處理的結果進行個性化的后處理的分發組件,提供給用戶設置郵件后處理規則的服務,協助用戶進行郵件資源的管理,真正減輕人為處理的負擔。本文提出的系統已投入實際應用環境,穩定運行3個月以上,具實用意義。

猜你喜歡
規則分類文本
撐竿跳規則的制定
數獨的規則和演變
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
教你一招:數的分類
TPP反腐敗規則對我國的啟示
主站蜘蛛池模板: 免费国产不卡午夜福在线观看| 国产真实乱人视频| 五月激激激综合网色播免费| 在线观看国产黄色| AV天堂资源福利在线观看| 成人无码一区二区三区视频在线观看| 欧美日韩v| 一级一级一片免费| 精品人妻一区无码视频| 亚洲欧美日韩久久精品| 人妻丰满熟妇αv无码| 高清不卡毛片| 欧美啪啪一区| 小13箩利洗澡无码视频免费网站| 2019国产在线| 欧美A级V片在线观看| 在线观看视频一区二区| 免费 国产 无码久久久| 国产亚洲精品97在线观看 | 中国国产A一级毛片| 天天躁夜夜躁狠狠躁图片| 91久久夜色精品国产网站| 欧美中文字幕一区| 99精品视频九九精品| 在线不卡免费视频| 亚洲 欧美 日韩综合一区| 国产成人综合亚洲欧洲色就色| 日韩a在线观看免费观看| 日韩av资源在线| 天天视频在线91频| 国产美女在线免费观看| 不卡视频国产| 国产极品美女在线观看| 亚洲AV无码不卡无码| 国产欧美精品一区二区| 国产农村1级毛片| 亚洲精品在线影院| 久久久久青草大香线综合精品| 超级碰免费视频91| 91精品日韩人妻无码久久| 欧美三级不卡在线观看视频| 亚洲成人www| 国产在线啪| 71pao成人国产永久免费视频| 欧美国产日韩在线| 久久精品欧美一区二区| 四虎精品黑人视频| 福利视频久久| 色综合久久综合网| 欧美高清国产| 成人在线综合| 亚洲最大在线观看| 国产综合亚洲欧洲区精品无码| 国产十八禁在线观看免费| 欧美成人看片一区二区三区| 亚洲中字无码AV电影在线观看| 婷婷伊人久久| 99视频在线看| 波多野结衣视频网站| 国产精品熟女亚洲AV麻豆| 国产自在线播放| 日本午夜三级| 久热中文字幕在线| 久爱午夜精品免费视频| 亚洲欧美日韩色图| 成人欧美日韩| 国产va在线观看| 看你懂的巨臀中文字幕一区二区 | 日韩精品专区免费无码aⅴ| 国产成人高清精品免费软件| 一本视频精品中文字幕| 特级欧美视频aaaaaa| 精品91自产拍在线| 亚洲国产成人精品一二区| 国产免费福利网站| 欧美福利在线| 日韩在线2020专区| 亚洲国产欧美目韩成人综合| 久久婷婷五月综合色一区二区| 92午夜福利影院一区二区三区| 女人18毛片久久| 制服丝袜一区二区三区在线|