999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

移動(dòng)數(shù)據(jù)交互平臺(tái)中的信息分類關(guān)鍵技術(shù)研究

2015-10-22 16:50:46劉勝娃李衛(wèi)王敏高翔
現(xiàn)代電子技術(shù) 2015年19期
關(guān)鍵詞:分類信息方法

劉勝娃 李衛(wèi) 王敏 高翔

摘 要: 基于智能手機(jī)的移動(dòng)數(shù)據(jù)交互平臺(tái)作為衛(wèi)星網(wǎng)絡(luò)通信的重要補(bǔ)充手段,近期在各鉆井隊(duì)普及起來。該系統(tǒng)的核心功能之一是對(duì)接收到的短信進(jìn)行是否為垃圾短信的判別和分類。介紹了該核心功能的設(shè)計(jì)與實(shí)現(xiàn),在參考現(xiàn)有成熟算法的基礎(chǔ)上,進(jìn)行了優(yōu)化和集成。實(shí)際應(yīng)用結(jié)果表明,該實(shí)現(xiàn)方法取得了令人滿意的效果。

關(guān)鍵詞: 移動(dòng)數(shù)據(jù); 垃圾短信; 短信分類; 關(guān)鍵詞提取

中圖分類號(hào): TN929.53?34; TP309 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)19?0054?03

Abstract: Since mobile data interaction platform based on smart phone is an important supplement means of satellite network communication, which is widely used in many drilling teams. One of the core function of this system is to identify and classify if the received SMS is the spam SMS. The design and implementation of this core function is introduced. On the basis of the existing mature algorithms, the system was integrated and optimized. The practical application results show that this method can achieve satisfactory effect.

Keywords: mobile data; spam SMS; SMS classification; keyword extraction

0 引 言

長慶鉆井公司覆蓋的地域面積十分遼闊,鉆井隊(duì)的分布也很分散,信息化的水平亦參差不齊,難以保證每個(gè)鉆井隊(duì)的現(xiàn)場都有良好的衛(wèi)星上網(wǎng)環(huán)境,順暢的上傳和下載數(shù)據(jù)。因此,開發(fā)了鉆井生產(chǎn)現(xiàn)場移動(dòng)數(shù)據(jù)交互系統(tǒng),該系統(tǒng)的投入使用使一線井隊(duì)的信息員在沒有衛(wèi)星上網(wǎng)環(huán)境的條件下,仍然可以通過智能手機(jī)發(fā)送短信和彩信的方式提交現(xiàn)場工況數(shù)據(jù),匯報(bào)突發(fā)情況,傳送現(xiàn)場照片。該系統(tǒng)作為衛(wèi)星上網(wǎng)手段的有力補(bǔ)充,為井隊(duì)的信息員提供了新型的信息交互手段,與衛(wèi)星上網(wǎng)相比,該方法不受天氣影響和場地限制,并且智能手機(jī)大量普及,因而無需組織專門的培訓(xùn)即可迅速上手使用。

在鉆井生產(chǎn)現(xiàn)場移動(dòng)數(shù)據(jù)交互系統(tǒng)中,通過在服務(wù)器上外接短信貓來實(shí)現(xiàn)接收短信收發(fā)功能,其中一個(gè)核心功能就是對(duì)所有接收到的短信進(jìn)行分類,區(qū)分出垃圾短信并加以屏蔽;對(duì)有效短信則根據(jù)其內(nèi)容進(jìn)行智能分類,然后存放到對(duì)應(yīng)的數(shù)據(jù)庫表中,并推送給對(duì)口的領(lǐng)導(dǎo)。

1 信息處理流程

如圖1所示,短信貓從偵聽端口中接收短信,并將其存儲(chǔ)到臨時(shí)信息庫中待處理,服務(wù)器中的監(jiān)測程序捕獲到信息入庫的事件后就對(duì)新入庫的短信條目啟動(dòng)預(yù)處理程序。首先根據(jù)設(shè)定好的垃圾短信特征進(jìn)行模式匹配,當(dāng)符合度超過給定閾值即標(biāo)志為垃圾短信,主動(dòng)丟棄該短信數(shù)據(jù),將其從臨時(shí)信息庫中刪除,移入到回收站庫表里,5天后自動(dòng)清空。同時(shí)把發(fā)送垃圾短信的手機(jī)號(hào)拉入黑名單庫表中,以后自動(dòng)拒收該手機(jī)發(fā)送的任何信息。

對(duì)于通過檢測認(rèn)定為非垃圾短信的數(shù)據(jù)則進(jìn)行下一步處理——關(guān)鍵詞提取,即通過對(duì)整篇文字的掃描找出高頻詞,用高頻詞標(biāo)識(shí)原有的短信息,為智能分類提供依據(jù)。

經(jīng)過高頻詞篩選的步驟后,即采用改進(jìn)的KNN算法對(duì)新增的信息進(jìn)行分類操作,將其劃分到最接近的類別中,由于單純的人工智能不可避免的會(huì)出現(xiàn)誤判,因此在系統(tǒng)運(yùn)行初期,還需要人為的介入來對(duì)分類結(jié)果進(jìn)行審核,企業(yè)中專門為此設(shè)置了一個(gè)信息專員的崗位,用于手動(dòng)修改錯(cuò)誤的分類,分類的結(jié)果將指導(dǎo)KNN算法重新計(jì)算并更新分類中心。隨著訓(xùn)練數(shù)據(jù)的不斷積累,該系統(tǒng)將完成分類中心的計(jì)算并趨于一個(gè)穩(wěn)定值的向量作為該分類的中心。

2 功能模塊的設(shè)計(jì)實(shí)現(xiàn)

2.1 垃圾短信的判別

系統(tǒng)中設(shè)計(jì)了白名單與黑名單兩個(gè)庫表,對(duì)新接收的短信首先提取出發(fā)送號(hào)碼,分別與黑名單和白名單中的號(hào)碼進(jìn)行比對(duì),如果發(fā)送號(hào)碼在黑名單中,則該短信丟棄,從臨時(shí)信息表中移入到回收站表中;如果發(fā)送號(hào)碼在白名單中,則直接進(jìn)入到關(guān)鍵詞提取模塊中進(jìn)行處理;如果在白名單和黑名單中都找不到發(fā)送方的號(hào)碼,則采用垃圾短信判別方法對(duì)其進(jìn)行鑒別。

當(dāng)前有很多比較成熟的垃圾郵件判定算法,例如Spam Assassin和Brignmail算法都是基于規(guī)則的,這些規(guī)則可以是郵件發(fā)送方、關(guān)鍵詞、特定的詞匯或特殊的文本格式。相較于垃圾郵件的檢測,垃圾短信的檢測更簡單一些,主要原因是:

(1) 短信通常只有發(fā)送者的手機(jī)號(hào)碼和比較簡單的文字,很少像Email那樣具有大量的文字和豐富的信息,例如在附件中添加的文檔、圖片等。這可以大大減少所需的規(guī)則數(shù)量。

(2) 短消息的長度相對(duì)Email要短得多,一般限制為70 個(gè)中文字符。短信文本提供的可用文字信息更少,需要結(jié)合短信中的其他可用特征實(shí)現(xiàn)判定。

(3) 垃圾短信的處理方法有兩種:一種是由SMSC(短信服務(wù)中心)完成處理;另一種方法是在服務(wù)器上編制過濾檢測程序來實(shí)現(xiàn)。第一種方法,在短信中心過濾可能導(dǎo)致被誤判錯(cuò)誤分類的信息無法到達(dá)入庫分類并推送給用戶,因此采取第二種方法解決這個(gè)問題。此外,過濾檢測程序要有較好的實(shí)時(shí)性,能夠在短時(shí)間處理及時(shí)完成檢測,否則將影響信息的后繼處理,降低了系統(tǒng)的實(shí)時(shí)性。endprint

垃圾短信與正常短信具有一些明顯的差異,垃圾短信中常常包含“中獎(jiǎng)”,“贈(zèng)送”,銀行賬號(hào)等信息,或者包含反動(dòng)言論的敏感詞匯。這些特征都可以作為篩選的依據(jù),通過與用戶設(shè)定好的敏感詞匯庫進(jìn)行比對(duì),得出該短信的可疑程度,當(dāng)超過給定閾值時(shí),就對(duì)其進(jìn)行標(biāo)識(shí),并提交給信息專員進(jìn)行判定,人工確定后即放棄該信息。未超過給定可疑閾值的則進(jìn)行下一步分類處理。

2.2 關(guān)鍵詞提取

為了對(duì)收集到的短信進(jìn)行準(zhǔn)確分類,就必須解決短信中的高頻關(guān)鍵詞的提取問題。與傳統(tǒng)的垂直引擎提取關(guān)鍵詞的算法不同,本文中以半結(jié)構(gòu)化和非結(jié)構(gòu)化的短信為主,寫作比較隨意,使用傳統(tǒng)的分詞方法很難準(zhǔn)確劃分出常用詞,影響了關(guān)鍵詞提取的質(zhì)量。這就需要在使用垂直引擎之前還要加入結(jié)構(gòu)化和除噪的預(yù)處理過程。針對(duì)這個(gè)問題,在短信的預(yù)處理階段需要通過文檔規(guī)范化來解決非結(jié)構(gòu)化和半結(jié)構(gòu)化短信的去噪問題,利用客戶提供的領(lǐng)域?qū)I(yè)詞匯庫進(jìn)行分詞。這需要解決兩個(gè)關(guān)鍵問題:如何從短信中提取詞語構(gòu)建關(guān)鍵詞的候選集;在候選集中選取哪些詞語作為標(biāo)識(shí)該短信的關(guān)鍵詞標(biāo)簽。

關(guān)鍵詞候選集的構(gòu)建采用的是基于特征選擇的方法,通過給不同的高頻詞賦予不同的權(quán)值來計(jì)算其是否為合適的關(guān)鍵詞。在本系統(tǒng)中采用了當(dāng)下比較成熟且較通用的統(tǒng)計(jì)方法實(shí)現(xiàn),該方法主要通過統(tǒng)計(jì)詞語出現(xiàn)的頻度和集成學(xué)習(xí)算法(如Bagging 算法)篩選出表示短信的特征項(xiàng)。

統(tǒng)計(jì)算法選用的是TF?IDF算法,該算法的復(fù)雜度僅為[O(n),]實(shí)現(xiàn)便捷,不需要任何先驗(yàn)知識(shí),不考慮句式、語法、段落、詞性和出現(xiàn)位置,僅僅掃描一遍即可獲得短信中的所有高頻詞匯,并給出具體頻度,還可以自動(dòng)剔除短信中出現(xiàn)的感嘆詞、副詞、動(dòng)詞、連接詞等,只保留名詞。該方法實(shí)現(xiàn)簡單,但是精度卻難以滿足要求,因此需要結(jié)合其他方法改進(jìn)效果。

除了統(tǒng)計(jì)算法外,還集成了賦詞的方法提取特征,這種方法的效果主要取決于領(lǐng)域?qū)<覙?gòu)建的敘詞詞庫、本體和知識(shí)庫的質(zhì)量。該方法準(zhǔn)確率高、專業(yè)性好,還能為用戶的語義搜索提供條件。但是專業(yè)的敘詞詞典僅憑鉆井公司的信息專員難以構(gòu)建完整,因此采用了中國知網(wǎng)的專業(yè)詞庫作為基礎(chǔ),自行添加和維護(hù)該專業(yè)詞庫。在進(jìn)行詞語比對(duì)時(shí),按照就長不就短的方法,盡可能提取出長的關(guān)鍵詞達(dá)到更好的分類效果。例如,在短信中有一個(gè)詞語為“鉆井安全生產(chǎn)”,這既可以是一個(gè)詞,也可以分為“鉆井”和“安全生產(chǎn)”兩個(gè)詞,此時(shí)選用一個(gè)詞來代表關(guān)鍵詞,因?yàn)殚L的詞語往往能更精確的表達(dá)短信內(nèi)容的含義。

2.3 短信分類

短信分類就是在給定分類的條件下,根據(jù)短信內(nèi)容,將其自動(dòng)地、智能地劃分到其應(yīng)屬的類別中。當(dāng)前常見的分類方法有KNN(K?近鄰算法),Naive Bayes,SVM(支持向量機(jī))算法。經(jīng)過比較KNN,NB,SVM三種算法后,發(fā)現(xiàn)就精度而言,SVM算法效果最好,KNN算法次之,NB效果最差。但就運(yùn)行時(shí)間而言,則NB算法效率最高,KNN次之,SVM運(yùn)行時(shí)間最長,而且SVM算法需要較多的訓(xùn)練數(shù)據(jù)才能達(dá)到較好的效果。因此選擇KNN算法,并根據(jù)項(xiàng)目的需求對(duì)其進(jìn)行了局部改進(jìn),取得了較好的效果。

KNN算法的思想是:將早期的訓(xùn)練樣本對(duì)應(yīng)于[n]維空間中的點(diǎn),對(duì)于一篇待分類短信,系統(tǒng)在所有已分類數(shù)據(jù)中查找到[K]個(gè)與其距離最近的鄰居,將這[K]個(gè)近鄰所屬的類別作為該短信的候選類別。傳統(tǒng)的KNN算法實(shí)現(xiàn)簡單有效,但是隨著數(shù)據(jù)的增多,比對(duì)數(shù)據(jù)點(diǎn)距離的計(jì)算量急劇增加,會(huì)大大影響運(yùn)行速度,因此需要找出一種折衷的方式,在準(zhǔn)確率損失不大的情況下,減少運(yùn)算量。因此,對(duì)傳統(tǒng)方法進(jìn)行了改進(jìn):

(1) 采用向量空間模型VSM來表示數(shù)據(jù)庫中所有的短信數(shù)據(jù),即所有短信都表示成特征向量的形式;

(2) 采用基于知網(wǎng)的語義相似度向量距離計(jì)算結(jié)果來比較新增短信向量和不同分類的中心短信特征向量間的距離;

(3) 將新增短信的特征向量加入到距離最近的分類中心所在的類別中,并利用權(quán)重對(duì)該分類中心的特征向量進(jìn)行更新計(jì)算。

通過這樣的改進(jìn)使原本計(jì)算開銷較大的KNN算法的運(yùn)行時(shí)間明顯縮短,而且準(zhǔn)確率并未受到太大影響,加之采用了知網(wǎng)的語義相似度計(jì)算方法,取得了比較理想的分類效果。

3 結(jié) 語

本文介紹了長慶鉆井公司研發(fā)的鉆井生產(chǎn)現(xiàn)場移動(dòng)數(shù)據(jù)交互系統(tǒng)中的核心模塊——短信分類算法的設(shè)計(jì)與實(shí)現(xiàn),該方法在借鑒現(xiàn)有成熟方法的基礎(chǔ)上,進(jìn)行了優(yōu)化組合和改進(jìn),在保證較高的準(zhǔn)確率的同時(shí)還具有較高的執(zhí)行效率,在實(shí)際應(yīng)用中取得了令人滿意的效果,受到了用戶的好評(píng)。

參考文獻(xiàn)

[1] 劉勝娃,陳思錦,李衛(wèi),等.企業(yè)私有云平臺(tái)安全技術(shù)研究[J].現(xiàn)代電子技術(shù),2014,37(2):88?90.

[2] 劉勝娃,高翔,王敏.基于貝葉斯網(wǎng)絡(luò)的攻擊圖方法在網(wǎng)絡(luò)安全評(píng)估中的應(yīng)用[J].現(xiàn)代電子技術(shù),2013,36(9):84?87.

[3] 劉勝娃,陳思錦,李衛(wèi),等.面向企業(yè)私有云計(jì)算平臺(tái)的安全構(gòu)架研究[J].現(xiàn)代電子技術(shù),2014,37(4):34?36.

[4] 馬紀(jì)穎,朱力軍,張顏.Web信息檢索中信息分類技術(shù)研究[J].現(xiàn)代電子技術(shù),2008,31(10):76?78.

[5] 包曉安,鐘樂海.基于ID3算法的快速分類方法研究[J].現(xiàn)代電子技術(shù),2004,27(7):84?85.

[6] 馬曉昊.基于云計(jì)算的安全數(shù)據(jù)存儲(chǔ)服務(wù)的研究與實(shí)現(xiàn)[D].上海:同濟(jì)大學(xué),2008.

[7] 張凱.基于移動(dòng)數(shù)據(jù)城域網(wǎng)的建設(shè)規(guī)劃[J].現(xiàn)代電子技術(shù),2014,37(21):27?30.

[8] 丁曉偉,金世俊.基于BP網(wǎng)絡(luò)的設(shè)備狀態(tài)分類器的設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2003,26(17):27?28.endprint

猜你喜歡
分類信息方法
分類算一算
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會(huì)信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产永久在线观看| 天天爽免费视频| 国产在线精品网址你懂的| 久草美女视频| 一级毛片免费观看久| 国产免费怡红院视频| 亚洲无码熟妇人妻AV在线| 好紧好深好大乳无码中文字幕| 波多野结衣一区二区三区四区视频 | 99re这里只有国产中文精品国产精品| 久久亚洲国产一区二区| 国产综合亚洲欧洲区精品无码| 日本在线视频免费| 亚洲国产天堂久久综合| 全裸无码专区| 午夜精品久久久久久久99热下载| 国内精品小视频在线| 亚洲成人动漫在线观看 | 国产成人高精品免费视频| 国产欧美日韩视频怡春院| 在线色国产| 精品国产成人a在线观看| 亚洲av片在线免费观看| 亚洲中文字幕日产无码2021| 中文字幕人妻av一区二区| 91午夜福利在线观看精品| 国产精品99一区不卡| 在线观看91香蕉国产免费| 婷婷在线网站| 久久香蕉国产线看观| 91系列在线观看| 五月激情婷婷综合| 精品91自产拍在线| 久久精品无码一区二区日韩免费| 欧美黄网在线| 亚洲综合中文字幕国产精品欧美 | 亚洲国产清纯| 国产网站免费观看| 91免费国产在线观看尤物| 欧美啪啪网| av天堂最新版在线| 久久永久视频| 91成人免费观看| 久久综合九九亚洲一区| 国产丝袜第一页| 国产真实乱子伦视频播放| 免费欧美一级| 波多野结衣在线se| 激情五月婷婷综合网| 精品国产污污免费网站| 国产主播福利在线观看| 国产 在线视频无码| 久久免费观看视频| 久久精品中文字幕免费| 久久亚洲精少妇毛片午夜无码| 四虎成人精品| 女人18毛片一级毛片在线| 国产成人综合在线观看| 欧美69视频在线| 国产v精品成人免费视频71pao | 国产免费a级片| 亚洲天堂2014| 91po国产在线精品免费观看| 国产成人精品亚洲日本对白优播| 国产网友愉拍精品视频| 99热最新网址| 91视频精品| 播五月综合| 亚洲欧洲自拍拍偷午夜色| 国产人免费人成免费视频| yjizz国产在线视频网| 欧美www在线观看| 欧美一级夜夜爽| 久久伊人色| 国产jizz| 久久精品中文字幕少妇| 女人18毛片水真多国产| 国产三级国产精品国产普男人 | 波多野结衣的av一区二区三区| 国产网友愉拍精品| 伊人久热这里只有精品视频99| 亚洲综合中文字幕国产精品欧美|