999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)設(shè)計

2018-01-20 18:46:01趙逸智張云峰
現(xiàn)代電子技術(shù) 2018年1期
關(guān)鍵詞:數(shù)據(jù)挖掘文本環(huán)境

趙逸智+張云峰

摘 要: 傳統(tǒng)文本信息挖掘技術(shù)系統(tǒng)能夠?qū)ξ谋拘畔⑦M行系統(tǒng)的信息挖掘,但是在大數(shù)據(jù)環(huán)境下容易產(chǎn)生系統(tǒng)的數(shù)據(jù)識別亂碼以及數(shù)據(jù)干擾。針對上述問題,提出一種大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)設(shè)計方案,在系統(tǒng)的硬件設(shè)備上增加數(shù)據(jù)簡化器,通過數(shù)據(jù)簡化器能夠?qū)?shù)據(jù)進行一定的過濾篩選,保證數(shù)據(jù)進入識別階段的準確率,同時促進了數(shù)據(jù)挖掘過程的效率,對文本信息挖掘的過程使用質(zhì)數(shù)矩陣模型,通過建立的質(zhì)數(shù)矩陣模型能夠有效地對文本信息進行深層次的挖掘。同時優(yōu)化了Aprioirt計算方法,保證了對文本信息的優(yōu)先識別度,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。為了驗證設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的有效性,設(shè)計了對比仿真實驗,通過實驗數(shù)據(jù)的分析,有效地證明了設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的有效性,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。

關(guān)鍵詞: 大數(shù)據(jù)環(huán)境; 文本信息; 關(guān)聯(lián)密度; Aprioirt計算方法; 挖掘系統(tǒng)

中圖分類號: TN911.1?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2018)01?0125?04

Abstract: The traditional text information mining technology system can carry out the systematic information mining for text information, but is easy to generate the data identification messy code of the system and data interference in the big data environment. Aiming at these problems, a design scheme of text information mining system in big data environment is put forward. The data reducer is added on the hardware device of the system, which can filter the data, ensure the accuracy of data entered into the recognition stage, and improve the efficiency of data mining. The prime number matrix model is used in the process of information mining to mine the text information deeply. The Aprioirt computing method is optimized to ensure the priority recognition of text information, avoid the data chaos and data interference of the traditional method. In order to verify the effectiveness of text information mining system in large data environment, the contrast simulation experiment was designed. The experimental data verifies that the text information mining system in large data environment is effective, and can avoid the data chaos and data interference of the traditional methods.

Keywords: big data environment; text information; correlation density; Aprioirt computing method; mining system

0 引 言

伴隨互聯(lián)網(wǎng)時代的快速崛起,互聯(lián)網(wǎng)的數(shù)據(jù)信息已經(jīng)用海量來比擬[1?2]。隨著信息儲量的不斷增加,對信息進行系統(tǒng)挖掘能夠發(fā)現(xiàn)數(shù)據(jù)信息中的隱藏數(shù)據(jù)和潛在有價值的數(shù)據(jù)[3?4]。這樣可以最大程度上的使用數(shù)據(jù)信息[5?6]。互聯(lián)網(wǎng)環(huán)境下的數(shù)據(jù)傳輸方式都是以壓縮的形式進行傳遞,在大數(shù)據(jù)的環(huán)境下,文本信息是傳輸?shù)闹黧w,能夠占據(jù)大數(shù)據(jù)信息的[13]以上[7?8]。對文本信息的挖掘技術(shù)關(guān)系到文本數(shù)據(jù)的使用率和利用率[9]。傳統(tǒng)的文本信息挖掘技術(shù),對文本數(shù)據(jù)的挖掘面較窄,同時挖掘深度有限,無法挖掘出文本信息中潛在的有價值的信息內(nèi)容[10]。最主要的問題是在大數(shù)據(jù)的環(huán)境下進行文本數(shù)據(jù)的挖掘,對數(shù)據(jù)信息的識別能力是一種嚴格的考驗,特別是在數(shù)據(jù)類型比較混亂、復雜的情況下,能夠有效的進行數(shù)據(jù)識別是關(guān)鍵。

針對上述問題,本文設(shè)計了一款大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)。在系統(tǒng)的硬件設(shè)備上增加了數(shù)據(jù)簡化器,保證了數(shù)據(jù)進入識別階段的準確率,同時促進了數(shù)據(jù)挖掘過程的效率,對文本信息挖掘的過程使用的是質(zhì)數(shù)矩陣模型,通過建立的質(zhì)數(shù)矩陣模型能夠有效地對文本信息進行深層次的挖掘。同時優(yōu)化了Aprioirt計算方法,保證對文本信息的優(yōu)先識別度,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。

本文設(shè)計了對比仿真實驗,把傳統(tǒng)的文本信息挖掘系統(tǒng)與本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)相比較,無論是在魯棒性還是在挖掘深度上都比傳統(tǒng)的文本挖掘系統(tǒng)強很多。因此,有效地證明了本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)能夠進行準確的文本挖掘。endprint

1 文本信息挖掘系統(tǒng)設(shè)計方案

本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)在硬件上進行了一定的優(yōu)化,增加了數(shù)據(jù)簡化器,能夠保證在大數(shù)據(jù)的環(huán)境下,本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)能夠有效地對數(shù)據(jù)進行系統(tǒng)識別,由于傳統(tǒng)的文本數(shù)據(jù)挖掘系統(tǒng)容易出現(xiàn)數(shù)據(jù)混亂以及數(shù)據(jù)干擾,因此,本文使用質(zhì)數(shù)矩陣數(shù)據(jù)模型對文本信息進行深層的數(shù)據(jù)挖掘,同時還優(yōu)化了Aprioirt計算方法,避免出現(xiàn)數(shù)據(jù)混亂以及數(shù)據(jù)干擾的問題,有效地保證了文本信息挖掘過程的準確性。文本信息挖掘的流程圖如圖1所示。

2 硬件設(shè)計

本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)是在大數(shù)據(jù)的環(huán)境下進行使用的,因此本文給系統(tǒng)增加了數(shù)據(jù)簡化器,方便在大數(shù)據(jù)環(huán)境下進行文本信息挖掘。本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)主要包括:數(shù)據(jù)引擎、數(shù)據(jù)簡化器、數(shù)據(jù)篩選器、內(nèi)核運算器、顯示模塊、控制電路、預備電源等。本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)硬件結(jié)構(gòu)圖,如圖2所示。

3 軟件設(shè)計

3.1 挖掘模型的建立

本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)使用質(zhì)數(shù)矩陣模型進行文本信息有效挖掘,為了保證質(zhì)數(shù)矩陣模型能夠在數(shù)據(jù)關(guān)聯(lián)過程的準確性,需要進行關(guān)聯(lián)回歸關(guān)系檢測,可表示為:

[STx=UminKTx+UminUminG2max+nΔt=UminUminG2max+ndG2max] (1)

式中:[STx]表示文本信息的回歸關(guān)系熵值;[Umin]表示質(zhì)數(shù)關(guān)聯(lián)度的使用系數(shù);[KTx]表示回歸關(guān)聯(lián)方程的預設(shè)參數(shù),能夠反映模型所需的參數(shù)量;[G2max]表示最大數(shù)據(jù)環(huán)境下的關(guān)聯(lián)密度參數(shù);[Δt]表示變化預測數(shù)據(jù)的使用值。確定關(guān)聯(lián)性以后需要進行聚類內(nèi)核的控制計算,公式為:

[Hij=-O2iTij+LiLjBijcos?ij-Mijsin?ij] (2)

式中:[Hij]表示文本內(nèi)核聚類比擬參數(shù);[-O2i]表示大數(shù)據(jù)的文本參照系數(shù);[Li,][Lj]分別表示內(nèi)置文本數(shù)據(jù)的標注碼、內(nèi)置文本數(shù)據(jù)的識別參數(shù);[Bij]表示參照的質(zhì)數(shù)的分量比值;[?ij]表示大數(shù)據(jù)中文本數(shù)據(jù)的包含量;[Mij]表示文本數(shù)據(jù)的屬性辨別參數(shù)。這樣便可以進行質(zhì)數(shù)矩陣模型的建立,公式如下:

[E=cnabKTx-KTjd?ij+cnabQ±L2j-G2max2PdG2max] (3)

質(zhì)數(shù)矩陣模型不能夠進行直接的使用,需要進行使用條件的限定。限定條件[fabcn]用公式表示為:

[fabcn=L2ijG-LiLjBijcos?ij-G2maxsin?ij-P2ij] (4)

經(jīng)過上述的條件限定完成了質(zhì)數(shù)矩陣模型的建立。

3.2 優(yōu)化Aprioirt計算方法

本文對Aprioirt計算方法進行優(yōu)化,主要目的是在文本信息挖掘過程中避免數(shù)據(jù)的干擾以及數(shù)據(jù)的混亂,完成數(shù)據(jù)挖掘。本文優(yōu)化的Aprioirt計算方法能夠在大數(shù)據(jù)的環(huán)境下進行數(shù)據(jù)信道分類,改變傳統(tǒng)運算方式,這樣能夠更好地在大數(shù)據(jù)環(huán)境下進行識別分類,根據(jù)優(yōu)化后的Aprioirt計算方法,首先需要進行信道優(yōu)化,公式為:

[minE1=a1+a2+a3=KG] (5)

式中:[a1,][a2,][a3]分別表示分區(qū)信道過程中的有效屬性值、有效系統(tǒng)參量、挖掘模型的識別邊距;[KG]表示大數(shù)據(jù)環(huán)境下的信道編輯程度。由于本文設(shè)計的挖掘模型使用的是質(zhì)數(shù)排列,因此需要對數(shù)列編輯進行重新組序,用公式表示為:

[ZJ=?2N?u?v=i=1neScos2.75?ijeι2i2] (6)

式中: [ZJ]表示質(zhì)數(shù)數(shù)列的邏輯有效值;[?ij]表示數(shù)列抗偶集的參量值;[?2N]表示預計能夠發(fā)生數(shù)列畸變的參數(shù)轉(zhuǎn)換系數(shù);[eι2i2]表示隨機本文數(shù)據(jù)的屬性有效值;[?u?v]表示設(shè)計的挖掘模型的閾代關(guān)聯(lián)系數(shù)。經(jīng)過上述計算便可以進行Aprioirt計算,其計算過程為:

[AE=m2aa+b+m2a?c2m2a+a+ba+b+m2a?aa+b] (7)

式中:[AE]表示進行Aprioirt計算過程中使用的參數(shù),一般是在[100,240]值域范圍內(nèi);[c2]表示文本信息數(shù)據(jù)的屬性穩(wěn)定性,不同類型的數(shù)據(jù)具有不同的穩(wěn)定性,針對屬性進行篩選能夠提高對文本信息挖掘的能力; [m2a]表示文本信息數(shù)據(jù)蘊含的信息量。

4 仿真實驗分析

4.1 參數(shù)設(shè)定

為保證設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的有效性,對參數(shù)進行設(shè)置,[STx]文本信息的回歸關(guān)系熵值在[78.65,85.2]值域范圍之內(nèi);設(shè)置回歸關(guān)聯(lián)方程的預設(shè)參數(shù)[KTx]為9.6;為了保證大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)能夠更準確地對文本數(shù)據(jù)進行挖掘,設(shè)置[E2ab,][?2N,][eι2i2,][a1]分別為90.25,550,50.69,100。

設(shè)置實驗參數(shù)如表1所示。

評價挖掘系統(tǒng)的指標主要有系統(tǒng)穩(wěn)定性、結(jié)構(gòu)數(shù)據(jù)辨識量差兩種。

系統(tǒng)穩(wěn)定性:

[P=MNan,m?a1n,mMNfn,m2?MNa1n,mb2] (8)

數(shù)據(jù)辨識量差:

[?=H-Dm-V2>0] (9)

根據(jù)上述仿真設(shè)定的參數(shù)進行實驗,結(jié)果如下。

4.2 結(jié)果分析

在實驗過程中,對傳統(tǒng)挖掘系統(tǒng)與本文設(shè)計的挖掘系統(tǒng)的實驗結(jié)果進行記錄,如表2,圖3,圖4所示。

分析表2結(jié)果得知,本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng),其系統(tǒng)穩(wěn)定性比傳統(tǒng)的挖掘系統(tǒng)高出1.86,說明本文設(shè)計的挖掘系統(tǒng)穩(wěn)定性更好,數(shù)據(jù)辨識量差是衡量挖掘系統(tǒng)有效性的指標,本文設(shè)計的挖掘系統(tǒng)比傳統(tǒng)的挖掘系統(tǒng)高出5.5%,說明本文設(shè)計的挖掘系統(tǒng)更加有效。endprint

分析圖3結(jié)果得知,本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的挖掘準確率明顯高于傳統(tǒng)的挖掘系統(tǒng),同時可以有效避免數(shù)據(jù)干擾以及數(shù)據(jù)擾亂現(xiàn)象。

分析圖4結(jié)果得知,本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)對文本信息進行挖掘的時間明顯小于傳統(tǒng)的挖掘系統(tǒng)。

5 結(jié) 語

本文提出大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)設(shè)計方案,在系統(tǒng)的硬件設(shè)備上增加了數(shù)據(jù)簡化器,通過數(shù)據(jù)簡化器能夠?qū)?shù)據(jù)進行一定的過濾篩選,保證數(shù)據(jù)進入識別階段的準確率,同時促進了數(shù)據(jù)挖掘過程的效率,對文本信息挖掘的過程使用質(zhì)數(shù)矩陣模型,通過建立的質(zhì)數(shù)矩陣模型能夠有效地對文本信息進行深層次的挖掘。同時優(yōu)化了Aprioirt計算方法,保證了對文本信息的優(yōu)先識別度,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。通過本文的研究希望能夠促進文本信息挖掘系統(tǒng)的發(fā)展。

參考文獻

[1] 郜凱英,楊宜勇.中國互聯(lián)網(wǎng)+社會保障信息系統(tǒng)構(gòu)建:基于大數(shù)據(jù)挖掘視角[J].經(jīng)濟與管理研究,2016,37(5):83?89.

GAO Kaiying, YANG Yiyong. Building of an Internet+social security informatization system in china?from perspective of big data mining [J]. Research on economics and management, 2016, 37(5): 83?89.

[2] 李寧,羅文娟,莊福振,等.基于MapReduce的并行PLSA算法及在文本挖掘中的應用[J].中文信息學報,2015,29(2):79?86.

LI Ning, LUO Wenjuan, ZHUANG Fuzhen, et al. MapReduce based parallel probabilistic latent semantic analysis for text mining [J]. Journal of Chinese Information Processing, 2015, 29(2): 79?86.

[3] 葛巖,趙海,秦裕林,等.國家、地區(qū)媒體形象的數(shù)據(jù)挖掘:基于認知心理學與計算機自然語言處理技術(shù)的視角[J].學術(shù)月刊,2015(7):163?170.

GE Yan, ZHAO Hai, QIN Yulin, et al. Data mining of national and regional media images: from the perspective of cognitive psychology and computer natural language processing technology [J]. Academic monthly, 2015(7): 163?170.

[4] 周勇.大數(shù)據(jù)驅(qū)動下的視頻內(nèi)容生產(chǎn)模式探索:解析騰訊《事實說》節(jié)目的創(chuàng)新實踐[J].新聞與寫作,2015(5):14?17.

ZHOU Yong. Exploration of video content production model driven by big data: analysis of the innovation practice of Tencent′s Fact program [J]. News and writing, 2015(5): 14?17.

[5] 江波,王鄂生,孫巍.面向大數(shù)據(jù)知識服務的數(shù)字資源聚合與行業(yè)數(shù)字內(nèi)容運營平臺建設(shè)路徑分析[J].科技與出版,2016(12):80?83.

JIANG Bo, WANG Esheng, SUN Wei. Analysis of digital resource aggregation and industry digital content operation platform construction for big data knowledge service [J]. Science?technology & publication, 2016(12): 80?83.

[6] 楊張博,高山行.基于文本挖掘和語義網(wǎng)絡(luò)方法的戰(zhàn)略導向交互現(xiàn)象研究:以生物技術(shù)企業(yè)為例[J].科學學與科學技術(shù)管理,2015,36(1):139?150.

YANG Zhangbo, GAO Shanxing. Study on interactive pattern of strategic orientations based on text mining and semantic networks: case study of biotechnology firms [J]. Science of science and management of S. & T., 2015, 36(1): 139?150.

[7] 王末,王卷樂,赫運濤.地學數(shù)據(jù)共享網(wǎng)用戶Web行為預測及數(shù)據(jù)推薦方法[J].地球信息科學學報,2017,19(5):595?604.

WANG Mo, WANG Juanle, HE Yuntao. An approach for prediction of Web user behavior and data recommendation for geoscience data sharing portals [J]. Journal of geo?information science, 2017, 19(5): 595?604.

[8] 鄭祥江,殷明均.大數(shù)據(jù)視域下高校教學管理信息系統(tǒng)建設(shè)研究:以西南科技大學教學管理信息化建設(shè)為例[J].黑龍江高教研究,2015(1):50?52.

ZHENG Xiangjiang, YIN Mingjun. The research on the tea?ching activities management system (TAMS) of higher education institutions under "big data": based on the TAM of Southwest University of Science and Technology [J]. Heilongjiang researches on higher education, 2015(1): 50?52.

[9] 李慧娟.大數(shù)據(jù)食物鏈、信息聚類系統(tǒng)、定制解決方案:湯森路透商業(yè)模式比較分析[J].編輯之友,2015(2):79?84.

LI Huijuan. Big data chain, information cluster system and customized solutions: a comparative analysis on the business model of Thomson Reuters [J]. Editors′ friend, 2015(2): 79?84.

[10] 徐迭石,劉勝輝,馬超,等.大數(shù)據(jù)環(huán)境下MES作業(yè)計劃與調(diào)度能力云服務化研究[J].計算機工程與科學,2016,38(4):624?633.

XU Dieshi, LIU Shenghui, MA Chao, et al. A cloud servitization method for job shop scheduling capability of MES in big data environment [J]. Computer engineering and science, 2016, 38(4): 624?633.endprint

猜你喜歡
數(shù)據(jù)挖掘文本環(huán)境
長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
一種用于自主學習的虛擬仿真環(huán)境
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
孕期遠離容易致畸的環(huán)境
在808DA上文本顯示的改善
環(huán)境
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
主站蜘蛛池模板: 日韩a级片视频| 日本成人不卡视频| 色香蕉网站| 亚洲精品图区| 香蕉久久国产超碰青草| 永久免费av网站可以直接看的 | 男女猛烈无遮挡午夜视频| 亚洲中文字幕久久精品无码一区| 亚洲A∨无码精品午夜在线观看| 国产v欧美v日韩v综合精品| 凹凸精品免费精品视频| 成年人视频一区二区| 99精品伊人久久久大香线蕉| 中文国产成人精品久久一| 国产成人1024精品下载| 青青草国产一区二区三区| 奇米影视狠狠精品7777| 中国毛片网| 亚洲欧美综合精品久久成人网| 亚洲美女视频一区| 国产欧美网站| 国产精欧美一区二区三区| 老司国产精品视频91| 五月婷婷导航| 精品国产免费观看一区| 91成人在线观看视频| 国产日韩精品欧美一区喷| 97se亚洲综合在线韩国专区福利| 亚洲色偷偷偷鲁综合| 国产精品嫩草影院av| 成年免费在线观看| 岛国精品一区免费视频在线观看 | 无码免费试看| 国产香蕉一区二区在线网站| 精品自拍视频在线观看| 国产成人久视频免费| 激情综合网址| 幺女国产一级毛片| 成人福利一区二区视频在线| 国产精品美女网站| 亚洲91精品视频| 2020国产精品视频| 欧美特黄一免在线观看| 国产女人水多毛片18| 激情爆乳一区二区| 久久精品波多野结衣| 一级片免费网站| 国产精品女人呻吟在线观看| 欧美专区在线观看| 欧美日韩国产在线观看一区二区三区 | 亚洲三级网站| 另类重口100页在线播放| 久久综合色播五月男人的天堂| 丁香婷婷久久| 国产另类乱子伦精品免费女| 日韩欧美成人高清在线观看| 国产情侣一区二区三区| 激情六月丁香婷婷四房播| 成年人视频一区二区| 5388国产亚洲欧美在线观看| 国产精品福利在线观看无码卡| 香蕉久久国产精品免| 成人无码一区二区三区视频在线观看 | 强奷白丝美女在线观看| 97超级碰碰碰碰精品| 久久夜夜视频| 欧美专区日韩专区| 婷婷综合在线观看丁香| 欧美精品二区| 欧美亚洲欧美| 无码人中文字幕| 色哟哟精品无码网站在线播放视频| 国产激情第一页| 国产微拍一区| 黄色a一级视频| 久久99这里精品8国产| 国产成人综合久久| 亚洲国产理论片在线播放| 久久亚洲国产视频| 日韩A∨精品日韩精品无码| 欧美视频在线观看第一页| 在线日韩一区二区|