999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

微信息大數據粗糙集的近似約簡*

2016-07-08 09:45:12
沈陽工業大學學報 2016年3期
關鍵詞:語義信息

任 艷

(新疆財經大學 計算機科學與工程學院, 烏魯木齊 830012)

微信息大數據粗糙集的近似約簡*

任艷

(新疆財經大學 計算機科學與工程學院, 烏魯木齊 830012)

為了應對微信息輿情數據的格式復雜、價值稀疏和收集困難等大數據處理技術難題,基于隱含語義分析和粗糙集近似約簡理論,設計微信息的數據區間值集和近似匹配分類算法.在不影響數據主要關聯關系的原則下,提煉核心屬性、消減次要屬性,實現一種微信息異常主題傾向的發現方法.結果表明,該近似約簡算法能在完成微信息興趣傾向主題分類的前提下,將數據集屬性大幅度縮減,提高微信息的信息挖掘效率,為微信息大數據輿情處理工作提供了新的思路和案例.

大數據; 微信息; 近似約簡; 粗糙集; 隱含語義分析; 主題發現; 區間值; 近似集

隨著智能手機等移動通信設備的迅猛發展,SNS(社會性網絡服務)規模空前巨大,大數據處理面臨許多難題.交互方式與信息格式復雜紛繁,處理分析越來越困難,如何降低數據復雜度,估算微信息興趣傾向成為微信息處理的難點.

1 微信息語義傾向與高維問題

1.1興趣傾向識別

微信息文字形式自由,語法不規范、不嚴格,諧音詞、派生詞及詼諧語多發,內容也經常不完整,相同“圈子”內的用戶也不一定有相近的興趣傾向.用戶興趣傾向難以歸類和識別,所面臨的大數據環境也成為微信息主題分析的重要障礙[1].通過擴展計算機網絡服務的處理器和存儲陣列,在一定程度上已經緩解了數據量大所帶來的困難,但數據格式多樣、辨識難度大和信息稀疏等困難沒有較好的解決辦法[2].大數據的整體信息價值蘊含量巨大,而單元信息價值密度極低,價值不規律分布和有效價值隱藏極深,所以信息集必須在更高的聚類、檢索層面進行有效價值挖掘[3-4].微信息用戶興趣傾向的發現必須結合關聯性,忽略部分精準性,建立一種可靠的屬性降維機制以應對現實需要.

1.2聚類匹配的高維問題

傳統的文本匹配法無一不受困于數據稀疏性嚴重、NP完全陷阱等缺陷,顯示出明顯的高維屬性局限性[5-7].應用機器學習算法實現分類,其屬性特征集的選擇對分類結果有極大影響,直接關系到分類準確率和效率[8].按文句的重要性進行全域性文摘,建立語義相似性關系和上下文句語境的關系,歸納分析效果突出[9],但是文本屬性空間(維性)越來越龐大,NP完全局限性成為致命難題.文本匹配計算的主要內容:將微文本中的熱詞分開,再將分開的熱詞與詞庫進行比對,進行同類匯聚[10-11],按照數據屬性特征進行歸類分隔,使同一類集內的數據關系“密切凝聚”,而不同類集間的數據“關系松散”.

1.3分布式索引中的高維問題

梳理索引技術可以發現數據降維的必要性.大數據按照“row-key”的關系表順序形成全局性分布式索引,能夠應用MapReduce架構來實現大數據處理的并行化[12-13],但當數據維性非常大的時候,由于事務性要求比較高,實效性將無法滿足實際的需求.分布式服務器端的維護代價較高,多維性的關聯操作需要消耗大量的資源去緩存內部節點,降維是必然的結果[14-15].

大數據降維也稱為離群挖掘,即將整個目標數據集投影到包含個別屬性的子空間上[16].研究微信息降維問題,就是選擇和投影有意義的子空間的過程,以適應微信息快速分類和分析的需要.

2 微信息興趣傾向發現

微信息基于各種強弱關系的交流圈,具有高頻度和裂變傳播特征,易于采用近似匹配法來進行興趣傾向識別工作.近似模糊匹配可以容忍數據過濾中存在一定噪聲和錯誤,在微信息交互分析和輿情網絡分析應用中,作用越來越重要[17-19].

2.1PLSA分析

Hofmann提出了一種基于概率模型的隱含語義分析法(PLSA),使用概率模型可以將微信文本和敏感詞映射到同一個語義空間中[20].通過計算信息文本、關鍵詞與語義(興趣傾向)空間上的夾角來實現近似匹配的量化工作.本文結合微信息交流的特點,將PLSA隱含語義分析法進行了改造,假設隱含語義(主題傾向)序列為D={d1,d2,…,dk},相應的微信息文本屬性空間表示為C={c1,c2,…,cm},先驗性的敏感詞空間表示為W={w1,w2,…,wn}.首先觀察(C,W)變量的聯合概率與隱含語義D的關系,文本和敏感詞的聯合概率表示為

(1)

(2)

于是有

(3)

假設敏感詞與語義傾向之間的映射關系保持不變,即p(wj,dl)不變,則有

(4)

(5)

因為敏感詞wj與文本屬性ci之間相互獨立,則有

(6)

故隱含語義dl相對于給定觀察對象(C,W)的條件概率分布為

(7)

2.2微信息數據集

本文了建立兩個數據集:微信息興趣傾向數據集和敏感分詞數據集,從而為傾向性判斷的可靠性提供依據.

2.3粗糙集約簡

RS粗糙集(Rough set,RS)理論通過集合模糊運算,構造出上下近似集來標定有效數據的邊界,解決了含糊環境下的邏輯推理問題[23-24].保持住數據集主要維性、忽略次要屬性是數據集化簡的基本手段.

(8)

(9)

4) 多屬性依賴.基于區間值條件下屬性集合依賴度計算方法為

(10)

3 數據實驗

本實驗收集了2014年10月—2014年12月新浪微博貼吧、手機短信、微信和QQ空間數據作為樣本來測試算法,具體步驟如下:

1) 原數據預處理.設置預制的主題傾向類集D={d1,d2,…,dl},依次對應著“恐怖”、“低俗”、“污蔑”、“造謠”、“反動”、“斗毆”、“欺騙”等預定傾向類.每一種傾向類下仍有許多具體的主題傾向,例如:低俗d2類下可能具體到發布黃色圖片、觀看黃色圖片和黃色表演等.文本長度超過500字的部分自動舍棄;圖片、視頻部分取文件名,非文本部分自動舍棄.

2) 針對每種傾向主題建立敏感分詞子集.首先應用漢語詞法分析軟件ICTCLAS進行中文分詞、詞性標注和詞識別等操作,刪除平庸中性詞后,選取出現頻率最高的分詞,然后將每個傾向主題對應到多個敏感分詞,預制數量在10~50之間,最后針對每一種敏感分詞,按出現的次數分別定義不同的屬性維度以區分敏感強度.具體規則為:以第i個敏感詞為例,設置屬性wi1(初級)敏感分詞出現1~2次;wi2(中級)敏感分詞出現4~6次;wi3(高級)敏感分詞出現7~14次;wi4(極高)敏感分詞出現15次及以上,每個敏感分詞將產生4列區間屬性值.

3) 構建用戶微信息交互行為數據集.面對同類傾向涉嫌的帖子,收集微信息交互行為(ci),依然將用戶的行為強度定義為四個等級:{初級,中級,高級,極高},使每一種交互行為也有四列區間屬性值,即ci={ci1,ci2,ci3,ci4}.基于用戶行為數據,搜集典型用戶行為,由程序自動按行為強度形成用戶行為數據集.

圖1 屬性約簡效果

圖2 用戶行為、敏感類型與傾向主題對比

4 結 論

微文數據具有價值稀疏、體量大、內容不完整和碎片化等特點,本文基于粗糙集的近似模糊約簡法將微信息屬性集、敏感詞庫數據集、隱含語義信息數據集構建成“區間表”,通過構建上下近似約簡集進行相關屬性重要性計算,保留重要性屬性,消除冗余屬性.在微博、微信、短信和QQ空間等微信息數據分析中,實現主題歸納和用戶興趣捕捉工作.從實驗結果可知,約簡算法是有效的,為微信息的大數據屬性約簡和語義分析方法提供了新思路.

[1]吳純青,任沛閣,王小峰.基于語義的網絡大數據組織與搜索 [J].計算機學報,2015,38(1):1-7.

(WU Chun-qing,REN Pei-ge,WANG Xiao-feng.Survey on semantic-based organization and search technologies for network bid data [J].Chinese Journal of Computers,2015,38(1):1-7.)

[2]程學旗,靳小龍.大數據系統和分析技術綜述 [J].軟件學報,2014,25(9):1240-1252.

(CHENG Xue-qi,JIN Xiao-long.Survey on big data system and analytic technology [J].Journal of Software,2014,25(9):1240-1252.)

[3]何非,何克清.大數據及其科學問題與方法的探討 [J].武漢大學學報(理學版),2014,60(1):1-12.

(HE Fei,HE Ke-qing.The scientific problems and methodology of bid data [J].Journal of Wuhan Uni-versity (Natural Science Edition),2014,60(1):1-12.)

[4]孟小峰,慈祥.大數據管理:概念、技術與挑戰 [J].計算機研究與發展,2013,50(1):146-169.

(MENG Xiao-feng,CI Xiang.Bid data management:concepts,techniques and challenges [J].Journal of Computer Research and Development,2013,50(1):146-169.)

[5]李揚,苗奪謙,張志飛.情感不確定詞句的分類方法比較研究 [J].計算機科學,2015,42(1):210-214.

(LI Yang,MIAO Duo-qian,ZHANG Zhi-fei.Sentiment analysis of words and sentences with uncertainty [J].Computer Science,2015,42(1):210-214.)

[6]姜芳,李國和,岳翔.基于語義的文檔關鍵詞提取方法 [J].計算機應用研究,2015,32(1):142-146.

(JIANG Fang,LI Guo-he,YUE Xiang.Semantic-based keyword extraction method for document [J].Application Research of Computers,2015,32(1):142-146.)

[7]索勃,李戰懷,陳群,等.基于信息流動分析的動態社區發現方法 [J].軟件學報,2014,25(3):547-559.

(SUO Bo,LI Zhan-huai,CHEN Qun,et al.Dynamic community detection based on information flow analysis [J].Journal of Software,2014,25(3):547-559.)

[8]張福勇,趙鐵柱.采用路徑IRP的Windows惡意進程檢測方法 [J].沈陽工業大學學報,2015,37(4):434-439.

(ZHANG Fu-yong,ZHAO Tie-zhu.Windows malicious process detection method with path IRP [J].Journal of Shenyang University of Technology,2015,37(4):434-439.)

[9]劉德喜,萬常選.社會化短文本自動摘要研究綜述 [J].小型微型計算機系統,2013,34(12):2764-2771.

(LIU De-xi,WAN Chang-xuan.Survey on automatic summarization of socialized short text [J].Journal of Chinese Computer Systems,2013,34(12):2764-2771.)

[10]Liu X L,Liao J X,Zhu X M.Lexical analysis based on combining senses in ontology matching [J].ACTA Electronica Sinica,2012,40(8):1024-1029.

[11]Rabl T,Sadoghi M,Jacobsen H A.Solving big data challenges for enterprise application performance mana-gement [J].Process of the VLDB Endowment,2012,12(5):1724-1735.

[12]王東.大數據技術在精準化營銷中的應用 [J].中國流通經濟,2014(7):90-93.

(WANG Dong.The application of big data technology to precision marketing [J].China Business and Market,2014(7):90-93.)

[13]馬友忠,孟小峰.云數據管理索引技術研究綜述 [J].軟件學報,2014,25(8):1557-1578.

(MA You-zhong,MENG Xiao-feng.Research on indexing for cloud data management [J].Journal of Software,2014,25(8):1557-1578.)

[14]Mou Y C,Su H C,Cheng X.An adaptive secondary index for data management in cloud computing environment [J].Journal of Computer Research and Development,2013,24(8):1836-1851.

[15]劉義,景寧,陳犖,等.MapReduce框架下基于R-樹的k-近鄰連接算法 [J].軟件學報,2013,24(8):1836-1851.

(LIU Yi,JING Ning,CHEN Luo,et al.Algorithm for processingk-nearest join based on R-tree in MapReduce [J].Journal of Software,2013,24(8):1836-1851.)

[16]張繼福,李永紅.基于MapReduce與相關子空間的局部離群數據挖掘算法 [J].軟件學報,2015,26(5):1079-1095.

(ZHANG Ji-fu,LI Yong-hong.Related-subspace-based local outlier detection algorithm using MapReduce [J].Journal of Software,2015,26(5):1079-1095.)

[17]于靜.劉燕兵,張宇,等.大規模圖數據匹配技術綜述 [J].計算機研究與發展,2015,52(2):391-409.

(YU Jing,LIU Yan-bing,ZHANG Yu,et al.Survey on lame-scale graph pattern matching [J].Journal of Computer Research and Development,2015,52(2):391-409.)

[18]李偉平,王武生,莫同,等.情境計算研究綜述 [J].計算機研究與發展,2015,52(2):542-552.

(LI Wei-ping,WANG Wu-sheng,MO Tong,et al.Survey of contextual computing [J].Journal of Computer Research and Development,2015,52(2):542-552.)

[19]夏琳琳,潘旭影,王丹,等.基于類高斯隸屬函數的模糊萬能逼近器性能分析 [J].沈陽工業大學學報,2014,36(3):316-321.

(XIA Lin-lin,PAN Xu-ying,WANG Dan,et al.Performance analysis of fuzzy universal approximator based on Gauss-type membership function [J].Journal of Shenyang University of Technology,2014,36(3):316-321.)

[20]王云英.基于PLSA模型的Web頁面語義標注算法研究 [J].情報雜志,2013,32(1):141-144.

(WANG Yun-ying.Research on Web page semantic annotation algorithm based on PLSA model [J].Journal of Intelligence,2013,32(1):141-144.)

[21]徐恪,張賽,陳昊,等.在線社會網絡的測量與分析 [J].計算機學報,2014,37(1):165-173.

(XU Ke,ZHANG Sai,CHEN Hao,et al.Measurement and analysis of online social networks [J].Chinese Journal of Computers,2014,37(1):165-173.)

[22]于洪,楊顯.微博中節點影響力度量與傳播路徑模式研究 [J].通信學報,2012,33(增刊1):96-102.

(YU Hong,YANG Xian.Studying on the node’s influence and propagation path modes in microblogging [J].Journal on Communications,2012,33(Sup1):96-102.)

[23]李小林,張力娜.基于直覺模糊理論的混合多屬性Web服務選擇 [J].沈陽工業大學學報,2014,36(6):676-680.

(LI Xiao-lin,ZHANG Li-na.Hybrid multi-attribute Web service selection based on intuitionistic fuzzy theo-ry [J].Journal of Shenyang University of Technology,2014,36(6):676-680.)

[24]徐菲菲,雷景生.大數據環境下多決策表的區間值全局近似約簡 [J].軟件學報,2014,25(9):2119-2125.

(XU Fei-fei,LEI Jing-sheng.Approaches to approximate reduction with interval-valued multidecision tables in big data [J].Journal of Software,2014,25(9):2119-2125.)

[25]江峰,王莎莎,杜軍威,等.基于近似決策熵的屬性約簡 [J].控制與決策,2015,30(1):66-70.

(JIANG Feng,WANG Sha-sha,DU Jun-wei,et al.Attribute reduction based on approximation decision entropy [J].Control and Decision,2015,30(1):66-70.)

(責任編輯:景勇英文審校:尹淑英)

Approximate reduction of micro-message big data rough set

REN Yan

(School of Computer Science and Engineering, Xinjiang University of Finance &Economy, Urumqi 830012, China)

In order to deal with such technological problems in big data processing as complex format, sparse value and difficult collection of micro-message public opinion data, based on the latent semantic analysis (LSA) and rough set approximate reduction theory, the data interval value set and approximate matching classification algorithm of micro-message were designed. Under the principle of not affecting the main association relationship of data, the core attributes were extracted, the secondary attributes were reduced, and a method of discovering the micro-message abnormal theme tendency was realized. The results show that under the premise of completing the classification of micro-message interest tendency themes, the proposed approximate reduction algorithm can greatly reduce the data set properties, improve the information mining efficiency of micro-message, and provide a new thought and case for the processing work of public opinion of micro-message big data.

big data; micro-message; approximate reduction; rough set; latent semantic analysis; theme discovery; interval value; approximation set

2015-12-04.

教育部規劃課題資助項目(14YJA860017).

任艷(1979-),女,新疆烏魯木齊人,講師,主要從事計算機信息技術與應用等方面的研究.

10.7688/j.issn.1000-1646.2016.03.13

TP 393.1

A

1000-1646(2016)03-0309-05

*本文已于2016-03-02 16∶48在中國知網優先數字出版. 網絡出版地址: http:∥www.cnki.net/kcms/detail/21.1189.T.20160302.1648.048.html

猜你喜歡
語義信息
語言與語義
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
修辭的基礎——語義和諧律
當代修辭學(2010年1期)2010-01-23 06:35:10
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 综合色区亚洲熟妇在线| 青青久视频| 在线欧美日韩国产| 国外欧美一区另类中文字幕| 五月婷婷亚洲综合| 国产亚洲精| 日韩不卡高清视频| 国产熟睡乱子伦视频网站| 91精品视频播放| 在线永久免费观看的毛片| 五月天久久婷婷| 国产成熟女人性满足视频| 亚洲无码高清免费视频亚洲 | 免费国产小视频在线观看| 久久亚洲欧美综合| 国产视频欧美| 成人在线亚洲| 亚洲精品天堂在线观看| 国产丝袜第一页| 欧美日韩精品综合在线一区| 亚洲视频免费在线看| 国产欧美精品午夜在线播放| 国产丝袜91| 91在线免费公开视频| 毛片网站免费在线观看| 国产又大又粗又猛又爽的视频| 欧美精品v欧洲精品| 国产成人精品一区二区三区| 91蝌蚪视频在线观看| 青青草原偷拍视频| 国产精品亚洲欧美日韩久久| 一级毛片免费观看不卡视频| 凹凸精品免费精品视频| 日本黄网在线观看| 亚洲成a人片77777在线播放| 伊人成人在线| 在线观看国产精美视频| 日韩欧美视频第一区在线观看| 99爱在线| 国产视频a| 无码免费视频| 久久这里只有精品66| 国产女人在线观看| 亚洲国产欧美目韩成人综合| 国产综合亚洲欧洲区精品无码| 精品国产免费观看| 亚洲无码A视频在线| 亚洲精品成人7777在线观看| 欧美不卡视频一区发布| 亚洲欧美日韩综合二区三区| 91麻豆精品视频| 91在线日韩在线播放| 亚洲欧美天堂网| 国产精品第| 亚洲视频影院| 51国产偷自视频区视频手机观看| 美女被狂躁www在线观看| 99er这里只有精品| 日韩高清中文字幕| 亚洲乱码在线视频| 国产精品浪潮Av| 午夜精品区| 四虎成人精品在永久免费| 亚洲av无码久久无遮挡| 国产青榴视频| 免费人成视网站在线不卡| 亚洲国产精品美女| 亚洲最黄视频| 欧美成人免费| 色综合中文| 婷婷在线网站| a级毛片免费播放| 五月激情婷婷综合| 日本三级欧美三级| 欧美日韩中文字幕二区三区| www.日韩三级| 国产精品视频久| 美女高潮全身流白浆福利区| 国产成人精品男人的天堂下载| 国产在线小视频| 国产成人精品2021欧美日韩| 亚洲制服丝袜第一页|