999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Web的數(shù)據(jù)挖掘模型研究

2021-12-24 04:30:56蒲道北
中國新通信 2021年19期
關(guān)鍵詞:數(shù)據(jù)挖掘模型

蒲道北

【摘要】? ? 從海量、復(fù)雜的Web數(shù)據(jù)中獲取有價值的信息一直以來都是互聯(lián)網(wǎng)研究的熱點,本文在基于Web數(shù)據(jù)挖掘的研究中,優(yōu)化出一種新的面向Web的數(shù)據(jù)挖掘模型,該模型利用Robot程序采集到的Web數(shù)據(jù)與特征信息進(jìn)行匹配規(guī)范,然后在數(shù)據(jù)層中進(jìn)行容差處理,調(diào)整差值數(shù)據(jù),最終通過模式分析得到有用信息。實驗結(jié)果表明,利用提出的模型對Web數(shù)據(jù)的挖掘結(jié)果質(zhì)量上有了明顯的改善和提升。

【關(guān)鍵詞】? ? Web數(shù)據(jù)? ? 數(shù)據(jù)挖掘? ? 模型? ? 數(shù)據(jù)智能

引言:

Web有著分布廣泛的、全球性的信息,成為人們獲取信息的主要渠道。然而如何在Web上搜索找到適合它使用者興趣的信息呢?目前,人們主要通過3中主要方式查找:1.使用基于關(guān)鍵字或主路徑瀏覽的搜索引擎,如百度或Google,它們通過使用關(guān)鍵字索引或人工建立路徑來查找文檔;2.查詢深度Web資源。如amazon.com的書籍?dāng)?shù)據(jù)和realtor.com的固定資產(chǎn)數(shù)據(jù);3.隨機訪問,通過網(wǎng)頁鏈接一頁一頁瀏覽[1-2]。盡管基于關(guān)鍵字、IP地址和主題的搜索引擎支持Web信息搜索,但還存在著返回結(jié)果太多、查詢質(zhì)量低、查詢覆蓋面小、缺乏多維分析和數(shù)據(jù)挖掘支持等缺點。為了克服以上缺點,業(yè)界提出將數(shù)據(jù)挖掘技術(shù)應(yīng)用在Web數(shù)據(jù)上,并形成一個新的研究方向,本文就現(xiàn)有的web數(shù)據(jù)挖掘技術(shù)基礎(chǔ)上優(yōu)化出一種新的Web數(shù)據(jù)挖掘的模型,該模型充分利用了XML的優(yōu)點,采用Robot程序采集Web中的有用數(shù)據(jù),并將得到的數(shù)據(jù)與特征信息進(jìn)行匹配,匹配成功后在數(shù)據(jù)層中進(jìn)行數(shù)據(jù)容差處理,調(diào)整差值數(shù)據(jù),得到數(shù)據(jù)模式,通過模式分析最終得到有用數(shù)據(jù)。

一、Web數(shù)據(jù)挖掘技術(shù)

Web數(shù)據(jù)挖掘是指將數(shù)據(jù)挖掘方法運用到 Web信息挖掘上,針對web頁面的內(nèi)容、頁面之間的關(guān)系和結(jié)構(gòu)、使用者所需要訪問的信息、電子商務(wù)資料等各類Web數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘手段和方法去分析并發(fā)現(xiàn)其所蘊含的、不可預(yù)測的、具有潛在價值的模型等過程。

1.1 Web數(shù)據(jù)挖掘的任務(wù)

為了更好地獲得Web上的信息,通過Web進(jìn)行商業(yè)決策,在Web上有效應(yīng)用數(shù)據(jù)挖掘技術(shù),必須完成以下任務(wù)和解決研究中的問題:

1.分析Web搜索引擎得到的數(shù)據(jù);

2.分析Web的鏈接結(jié)構(gòu);

3.Web文檔自動分類;

4.挖掘Web頁面語義結(jié)構(gòu)和內(nèi)容;

5.挖掘Web動態(tài)特征;

6.建立多層和多維Web信息庫。

1.2常用Web數(shù)據(jù)挖掘技術(shù)

1.路徑分析技術(shù):主要采用圖進(jìn)行分析,將網(wǎng)站上的頁面定義成節(jié)點,頁面之間的超鏈接定義成圖中的邊,從圖中確定最頻繁的路徑訪問模式或最大參引訪問序列[1]。

2.關(guān)聯(lián)規(guī)則挖掘技術(shù):挖掘出用戶在一個訪問期間從服務(wù)器上訪問的頁面/文件之間的聯(lián)系,這些頁面之間可能并不存在直接的參引關(guān)系。

3.序列模式挖掘技術(shù):要挖掘出頁面上交易集之間的有時間序列的模式[2]。例如,有70%的用戶訪問了頁面A 之后在一定的時間內(nèi)又訪問了頁面B,也就是70%以上的用戶對頁面A和頁面B都敢興趣。

4.聚類分類技術(shù):按照某個特定標(biāo)準(zhǔn)把一個數(shù)據(jù)集分割成不同的類或簇,使得同一個簇內(nèi)的數(shù)據(jù)對象的相似性,從而以挖掘出某些共同的特性。

二、Web數(shù)據(jù)智能挖掘模型和實現(xiàn)分析

為了更好的對Web信息進(jìn)行挖掘和運用,本文對現(xiàn)有Web數(shù)據(jù)挖掘模型進(jìn)行了優(yōu)化,優(yōu)化后的模型可以向用戶提供個性化的深層次服務(wù),不僅能提供原始的Web資料,還可以根據(jù)用戶的需求對內(nèi)容和結(jié)構(gòu)進(jìn)行充分的挖掘,包括數(shù)據(jù)采集層、數(shù)據(jù)層、數(shù)據(jù)分析層等。

2.1 數(shù)據(jù)采集層

整個過程主要分六個步驟[4-6]來完成:

1.用戶接口:根據(jù)用戶提供的目標(biāo)信息,將信息與系統(tǒng)相連。

2. 提取特征信息:根據(jù)目標(biāo)信息中的信息,提取相應(yīng)的特征向量,并根據(jù)特征向量計算出對應(yīng)的權(quán)值;

3.Web信息獲取:即先用搜索引擎選擇待采集Web站點,再利用Robot程序采集靜態(tài)Web頁面文檔,利用XML結(jié)構(gòu)信息作為搜索條件,通過對其標(biāo)記的匹配率進(jìn)行文檔過濾。

4.信息特征匹配:即提取“文檔暫存庫”中的信息特征向量,將符合閥值條件的信息送入下一步。

5.數(shù)據(jù)規(guī)范:采用XML結(jié)構(gòu)存儲規(guī)范。例如中國電信業(yè)務(wù)可采用“電信業(yè)務(wù)cnXML”作為規(guī)范。

6.文檔知識庫:按照數(shù)據(jù)規(guī)范將規(guī)范好的數(shù)據(jù)存入數(shù)據(jù)庫中,建立一個電子數(shù)據(jù)交換規(guī)范庫,并階段性地更新數(shù)據(jù)庫中的信息。

2.2 數(shù)據(jù)層

采用XML形式存儲數(shù)據(jù),并檢查、糾正數(shù)據(jù)中可能存在的錯誤信息,再采用矢量空間模型法(VSM)進(jìn)行元數(shù)據(jù)處理,最后,將提取的元數(shù)據(jù)發(fā)送到數(shù)據(jù)分析層[7]。

2.3 數(shù)據(jù)分析層

在數(shù)據(jù)分析層中,首先是把查詢結(jié)果按照優(yōu)先級進(jìn)行排序,再進(jìn)行模式提取,得到有用的模式。在此分析的方法很多,有回歸分析、遺傳算法、聚類分析等數(shù)十種,在實際分析時,應(yīng)針對其目標(biāo)采用適當(dāng)?shù)姆治龇椒?。最后還需要將結(jié)果通過友好的界面提供給用戶。

三、仿真實例及其分析

根據(jù)模型的思路開發(fā)出一個仿真系統(tǒng),并在該系統(tǒng)上主要進(jìn)行了計算機編程軟件的搜索實驗。并將得到數(shù)據(jù)進(jìn)行分析和處理,最終得到預(yù)期的結(jié)果。

實驗如下:

第一步:在仿真系統(tǒng)上查詢java核心編程、Windows核心編程兩個主題得到如下數(shù)據(jù):

第二步:選擇前100項搜索結(jié)果進(jìn)行篩選,得到有用如下數(shù)據(jù)的比例:

第三步:將得到的數(shù)據(jù)建立文檔知識庫,采用聚類算法對采集到的數(shù)據(jù)進(jìn)行有效的分析。

通過仿真實驗的結(jié)果可以看出,該模型能夠成功地在網(wǎng)上進(jìn)行資源查找,并建立文檔知識庫,通過數(shù)據(jù)挖掘算法對文檔知識庫中的內(nèi)容進(jìn)行有效地挖掘,得到有利于數(shù)據(jù)決策地信息。達(dá)到了預(yù)期的效果。

四、結(jié)束語

由于Web信息大多數(shù)是異質(zhì)、異構(gòu)的半結(jié)構(gòu)化或非結(jié)構(gòu)化信息[8],因而Web數(shù)據(jù)挖掘一直以來都是業(yè)界研究的熱點,本文在基于Web數(shù)據(jù)挖掘的研究中,優(yōu)化出一種新的面向Web的數(shù)據(jù)挖掘模型,可以提高對Web數(shù)據(jù)的采集和分析性能,可為業(yè)界Web數(shù)據(jù)挖掘提供參考。

參? 考? 文? 獻(xiàn)

[1]方傳霞, 閆仁武. 基于Web挖掘的電子商務(wù)推薦系統(tǒng)研究[J]. 電子設(shè)計工程, 2015, 000(011):30-32,35.

[2]王玉珍. 基于電子商務(wù)的Web挖掘技術(shù)研究[J]. 北京電子科技學(xué)院學(xué)報(4):22-25.

[3]王劍鋒, 喬冬, 麻麗娜,等. 基于潛在語義分析的網(wǎng)頁文本分類研究[J]. 應(yīng)用能源技術(shù), 2009, 000(011):41-44.

[4]王劍霞, 邢晶晶. 基于WEB數(shù)據(jù)挖掘的網(wǎng)絡(luò)輿情分析研究[J]. 數(shù)字化用戶, 2014, 000(005):126-127,129.

[5]張麗霞. 基于Web的數(shù)據(jù)挖掘模型[J]. 菏澤學(xué)院學(xué)報, 2007, 29(2):44-46.

[6]魏和平. Web內(nèi)容大數(shù)據(jù)挖掘的特征匹配法探究[J]. 信息技術(shù)與信息化, 2020, No.242(05):70-71.

[7]王琦超, 李廣輝. 云計算在Web數(shù)據(jù)挖掘技術(shù)中的應(yīng)用[J]. 九江學(xué)院學(xué)報:自然科學(xué)版, 2020(1):74-76.

[8]劉愛琴, 趙慧敏, 尚珊. Web環(huán)境下語義挖掘模型的構(gòu)建[J]. 圖書館理論與實踐, 2018, 228(10):61-65.

猜你喜歡
數(shù)據(jù)挖掘模型
一半模型
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
3D打印中的模型分割與打包
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 青青国产视频| 亚洲欧美日韩动漫| 妇女自拍偷自拍亚洲精品| 亚洲免费福利视频| 亚洲视频免费在线看| 色婷婷啪啪| 四虎永久在线| 热99精品视频| 国产精品一线天| 88国产经典欧美一区二区三区| 国产素人在线| 亚洲AV无码精品无码久久蜜桃| 久久久久久高潮白浆| 国产精品流白浆在线观看| 欧美一区二区三区不卡免费| 在线欧美日韩国产| 亚洲色图欧美激情| 99精品免费在线| 午夜福利在线观看入口| 乱人伦中文视频在线观看免费| 日韩av无码精品专区| 中文字幕无码av专区久久| 日本不卡在线| 女人天堂av免费| 亚洲第一极品精品无码| 亚洲无码日韩一区| 福利在线一区| 久久国产精品77777| 性欧美久久| 国内自拍久第一页| 国产乱人伦AV在线A| 亚洲男人天堂2018| 国产精品亚洲欧美日韩久久| 国产尹人香蕉综合在线电影 | 国产理论一区| 亚洲视频免费播放| 国产微拍一区二区三区四区| 99久久精品免费观看国产| 欧美区国产区| 久久久久久尹人网香蕉 | 日韩一二三区视频精品| 毛片网站观看| 亚洲色图欧美激情| 性喷潮久久久久久久久| 日韩视频福利| 国产精品中文免费福利| 日韩国产综合精选| 国产日韩欧美在线视频免费观看| 露脸一二三区国语对白| 国产精品一区二区久久精品无码| 无码精品国产VA在线观看DVD| AV不卡国产在线观看| 欧美日韩午夜| 亚洲欧美日韩天堂| 久久综合伊人77777| 国产精品视频导航| 日韩国产精品无码一区二区三区| 国产99视频精品免费视频7| 操操操综合网| 国产丝袜无码精品| 一本久道久综合久久鬼色| 亚洲中文在线看视频一区| 日韩欧美中文字幕在线韩免费| 一本大道视频精品人妻 | 免费一级毛片在线观看| 91精品啪在线观看国产91| 狠狠色丁婷婷综合久久| 朝桐光一区二区| 亚洲A∨无码精品午夜在线观看| 国产99久久亚洲综合精品西瓜tv| 91探花国产综合在线精品| 国产日韩精品欧美一区灰| 欧美三级视频在线播放| 99国产精品一区二区| 亚洲国产精品一区二区第一页免| 一级不卡毛片| 欧美亚洲一二三区| 无码精品国产dvd在线观看9久 | 国产丝袜无码精品| 国产91无码福利在线 | 一级黄色欧美| 久久毛片网|