999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

鏈接分析技術中Web聚類算法及歸類的應用研究

2018-09-10 03:22:34許曉燕
河南科技 2018年14期

許曉燕

摘 要:鏈接分析技術是優化信息搜索速度與利用價值的網絡結構優化發展途徑,在以往更加傾向于關鍵內容的數據信息特征歸類,而對于Web信息內容的特征屬性要求較低,因此會產生搜索主題不鮮明、搜索內容針對性差等問題。基于此,本文針對鏈接分析技術提出了聚類算法的應用模式,以便為Web信息內容的歸類推薦提供理論參考。

關鍵詞:鏈接分析技術;Web;聚類算法;歸類應用;子集特征

中圖分類號:TP393.07 文獻標識碼:A 文章編號:1003-5168(2018)14-0024-03

Application of Web Clustering Algorithm and Classification in

Link Analysis Technology

XU Xiaoyan

(Sanmenxia Polytechnic,Sanmenxia Henan 472000)

Abstract: The link analysis technology is the optimal way to optimize the network structure of information search speed and use. In the past, the characteristics of the data information which were more inclined to the key content were classified, and the characteristics of the Web information content were low, so the problem of the search theme was not distinct and the content of the search was poor. Based on this, this paper put forward the application mode of clustering algorithm for link analysis technology, so as to provide a theoretical reference for the classification and recommendation of Web information content.

Keywords: link analysis technology;Web;clustering algorithm;categorization application;subset feature

1 鏈接分析技術概述

1.1 鏈接分析技術簡介

鏈接分析是源于對Web結構中超鏈接的多維分析。其分析目標是強調網絡信息檢索、數據挖掘、網絡統計、Web結構建模等方面的技術優化方案。長期以來,擁有高質量的外部鏈接都是搜索引擎必要的技術支撐[1]。在此方面,鏈接分析技術Google、百度、雅虎和搜狗等搜索引擎平臺提供了關鍵詞索引的技術方案。當反向鏈接或導入鏈接對關鍵詞匯的采集頻次較高,且達到了全網搜尋的效果之后,并不代表其中的索引信息都能呈現在Web頁面中,而是需要積極調取其中的特征屬性,繼而通過聚類分析算法明確具體的排名,才能將關聯度更高的信息、網址、域名進行歸類和排列。因此,鏈接分析技術所呈現的鏈接構建開辟了網絡終端收集信息的便捷性,而網站被搜尋到的概率也會相對更高且更為合理。因此,鏈接分析技術是關鍵詞查詢后影響搜索信息排名的關鍵因素,也決定了搜索引擎的常規應用效率與性能。

1.2 鏈接分析的基本原理

搜索引擎對網頁關聯度的排序,是基于鏈接分析技術支持完成的具體搜索操作。這一流程,既需要對關鍵詞本身的出現密度加以衡量,同時需要對比鏈接本身的流行度。當該網頁被瀏覽的頻次較高,其鏈接分析技術則會將該頁面推送到排名靠前的位置,相反,排名則較為靠后。通過鏈接分析,能讓搜索內容更為精準。一個Web頁面的反向鏈接越高,其可應用價值也會越大,基于這種原理支持其鏈接靠前便是鏈接分析技術的基本運行原理。因此,鏈接分析技術不僅提供了關于搜索信息的普遍解答[2],而且優化了信息價值定位后所呈現出關聯度更高、應用價值更高及使用頻次更高的Web頁面,是最大限度優化搜索信息權威性的技術支持。

2 應用鏈接分析技術的優勢

鏈接分析技術在Web頁面的數據挖掘過程中具有極為廣泛的應用價值,分別為提升信息檢索質量、擴大網絡主題空間。

2.1 提升信息檢索質量

鏈接分析技術對于改善網絡信息檢索的速度及時效性具有重要作用。以Web頁面信息的檢索為對象,在采用了鏈接分析技術之后,其核心算法可以借助聚類分析模式彌補網絡信息關聯度不足的弊端,進而剔除線性存儲的局限性,并為終端用戶擴大搜索范圍,集中檢索空間。此外,在搜索引擎中的網絡瀏覽速度也會隨之加速,節省用戶的網絡瀏覽時間。在搜索引擎檢索到的信息中建立評價等級,從排序優化條件中開發超鏈分析的推薦選項,進而加強信息檢索的排序效果。

2.2 擴大網絡主題空間

網絡主題是設置Web頁面信息時所融入的基礎元素,這一元素并不會由關鍵詞直接顯現。當關鍵詞不同時,部分Web頁面信息仍然傳遞出類似的結論、結果或研究內容,實質上也是對網絡信息的轉載或解釋。這種并不具備檢索要求的信息,反而有助于用戶逐步明確搜索方向,是認知網絡主題空間的引導。借助鏈接分析技術檢索Web頁面中的隱含信息,提供更加權威的質量評價,有助于邏輯性更強、權威性更高、主題更為鮮明的Web頁面被快速發掘。由此,數據發掘的價值得以保障,是擴大網絡主題空間檢索范圍的技術支持[3]。

3 鏈接分析技術中Web聚類算法及歸類的應用

3.1 鏈接分析技術中的歸類模式

在搜索Web頁面信息時,多數關聯主題并不鮮明,存在模糊查詢的現象。運用鏈接分析技術,實質上也是逐步消解模糊狀態的方式,需要將關聯度較高的信息進行歸類,進而推送應用價值更高的Web頁面信息。此時,傳統的關鍵詞索引模式并不足以分析用戶的實質需求,因此關聯數據并未被快速發掘。例如,當關鍵詞為“蛟龍”時,其作為古代神話中的神獸并非用戶搜索意圖,而由我國自主研發的“蛟龍號載人潛水器”反而可能是用戶所需查詢的主題。如果搜索引擎無法滿足所有用戶對關聯主題的信息需求,實質上所呈現出的Web頁面應用價值也會相對較低。因此,搜索引擎首先需要加強關聯主題的歸類統計,然后將歸類內容分別呈現給用戶,才能達到預期的搜索與查詢效果。利用鏈接分析技術歸類其中的關聯主題,通過劃分Web頁面的歸類,從中計算出網絡信息的比例權重,這樣才能進一步提升查詢結果的針對性。

3.2 聚類算法的分析流程

首先,需要定義搜索范圍的有向圖[G=V,E],其中[V]代表了文檔集合,E為關系集合。假設P與Q的關聯主題均符合從P鏈接到Q,或從Q鏈接到P的條件。那么,G集合則涵蓋了[P,Q]無限趨向于E的特征表現。其節點[Iv]和 [Ov]也在不斷接近于節點集合。因此,在每個節點中都會明確具體的出度和入度,并保持相對的穩定性。在G中存在n個節點,在得到[R0a,b=0]或1的情況下,[Rk+1a,b=RkIia,Ijb],[Limk→∞],則代表[Rka,b=Ra,b],那么[Ra,b]的鏈接相似度也會滿足用戶需求,并得到支持Web信息歸類的最終數據集合。

3.3 構建網頁集合

聚類分析的特點是將Web關聯信息中較為抽象的內容劃分為統一的屬性集合,在分組之后才涉及歸類應用。這種近似為智能行為的算法為鏈接分析提供了基礎條件,因此能依據描述信息的逐步清晰最終明確數據源分類。這一分類也是加強網頁集合構造的基礎條件,將突出關聯主題的鮮明度。在構建網頁集合的過程中,首先需要確定如下條件:網絡信息的出現頻次、集合信息的整體權威性、搜索范圍的明確度。當相關參數構筑了網頁信息的集成效果后,根集合R的Web信息集合條件也更為清晰,是諸多子集合滿足搜索條件的重要表現,也是快速發掘用戶搜索需求規律的內容歸類[4]。

3.4 Web頁面信息歸類

當用戶所需的搜索范圍被界定,其中的字符串內容也會集中于網頁集合內,并表示出具體的鏈接強度關系。真正的鏈接強度是Web聚類算法得以支持予以分析結果明確的主要條件,是為了更為精準地調取網頁子集信息而設定的搜索條件。因此,網頁歸類的Web聚類算法也能快速建立頁面集合的特征,為用戶提供更為精準的搜索服務。通過分析頁面內容信息的關聯度,劃分集合屬性,使其達到歸類需求。一方面,需要生成初始類,并在網頁信息中隨機設定一個相似度較高的類,計算其中的相似度。將相似度最小的Web頁面信息作為第二個類,計算其余Web頁面信息與兩個網絡集合的關聯性,取二者之和中最小的參考值作為第三個類。以此類推,便產生了K個類,且每個類的特征屬性都并不相同,查詢其中的信息對比,或者關鍵詞內容,終端用戶便可以優化網頁信息的主題特征鮮明度,令用戶了解每一類集合的主題特征。另一方面,需要針對網絡信息的迭代過程加以描述,參考網頁信息的隸屬度和關聯度,取其平均值作為聚類算法的終止條件,并將網頁信息聚集,呈現出不同意圖或特征的Web頁面信息以供用戶參考。

3.5 信息權重計算

在得到分類網頁特征數據之后,用戶可以在自己所需的主題中選擇子集合,并在歸類內容中查找契合度最高的信息內容。因此,聚類結果在用戶選擇的子集合中具有再利用價值,是鏈接分析技術得以實現的根本。在此基礎上,完成對網頁子集權重的設定,是進一步優化排列效果的支持條件。聚類算法之所以能加強信息關聯度,是因為在相關信息中提取可量化的標準之后,優化子集信息的特重度。例如,“百度快照”中將關聯詞通過不同顏色呈現給用戶,便是逐一顯現文檔內容信息的應用價值排列。這樣的內容推薦效果可以讓終端用戶快速識別關鍵信息的價值取向,從而明確所選主題內容的適應度。其計算信息權重主要為5個步驟。第一,需要設定所選內容信息的子集合鄰接圖為N,并以H[n]代表關聯度,以A[n]代表權威度。第二,需要初始化關聯度與全維度子集合的相關信息,設定其閾值為1。第三,需要在向量H和A并未收斂時進入計算流程,否則需要退出。第四,需要對N集合的所有節點閾值,得到[A=n,n,nHn,×auth_wtn,,n]。第五,需要對集合中的節點進行再次閾值,得到[H=n,n,nAn,×hub_wtn,,n],進而最終得到H與A的規范化結構,為Web頁面信息的搜索依據權重比例進行排序。相關研究表明,這種以聚類算法為核心的鏈接分析技術能滿足模糊主題的相關信息搜索需求,進而為用戶提供興趣度更高的Web頁面內容,是進一步優化Web信息內容聚類條件和歸類應用的發展結果,能支持終端用戶在最短時限內完成對模糊信息的搜索,優化搜索內容的精準度與時效性,并達到加快搜索速度的應用效果。

4 結語

Web頁面信息在利用了聚類分析算法之后,能將諸多特征子集充分提取和調集,并最終歸類為不同的主題內容以便為終端用戶提供數據信息的對比與參考。借助鏈接分析技術,能優化Web頁面信息的歸類應用條件,從而提高快速查詢搜索結果的精準度,擴大適用范圍。基于此,可以利用聚類算法優化鏈接分析技術的應用效果,并在歸類屬性中達到預期的搜索精度,為優化Web頁面的信息整合度提供技術支持。

參考文獻:

[1]趙蓉英,魏緒秋.時空維度下的我國鏈接分析研究現狀分析[J].情報科學,2017(4):3-8.

[2]高翔,吳萬琴.異質信息網絡中基于聚類及鏈接分析的多樣性挖掘技術[J].工業儀表與自動化裝置,2014(6):11-14,46.

[3]屈玉閣.基于譜聚類與改進WEB鏈接分析HITS算法的多屬性群決策方法[J].統計與決策,2014(19):13-17.

[4]孫建軍.鏈接分析:知識基礎、研究主體、研究熱點與前沿綜述——基于科學知識圖譜的途徑[J].情報學報,2014(6):659-672.

主站蜘蛛池模板: 亚洲三级成人| 在线观看亚洲国产| 欧美亚洲中文精品三区| 日本欧美成人免费| 超碰免费91| 国产精品片在线观看手机版| jizz国产在线| 青青操国产视频| 国产精品污视频| 51国产偷自视频区视频手机观看| 国产正在播放| 萌白酱国产一区二区| 亚洲精品中文字幕无乱码| 国产在线视频自拍| 中文字幕 91| 很黄的网站在线观看| 久久天天躁狠狠躁夜夜2020一| 亚洲国产成人久久77| 色精品视频| 波多野结衣第一页| Jizz国产色系免费| 国产精品妖精视频| 欧美精品成人| 国产玖玖视频| 人妻精品久久无码区| 久久亚洲日本不卡一区二区| 最新加勒比隔壁人妻| 精品欧美视频| 一本大道香蕉中文日本不卡高清二区| 国产精品国产三级国产专业不 | 九色综合视频网| 国产精品久久自在自线观看| 国产激情第一页| 亚洲人成网7777777国产| 欧美成人第一页| www.亚洲一区二区三区| 波多野结衣久久高清免费| av在线5g无码天天| 国产人在线成免费视频| 久久精品国产电影| 大陆国产精品视频| 91毛片网| 影音先锋丝袜制服| 国产精品色婷婷在线观看| 中文字幕乱妇无码AV在线| 免费国产高清视频| 亚洲成a人片77777在线播放| 欧美中文一区| 亚洲欧美精品在线| 欧美精品亚洲精品日韩专区va| 制服丝袜一区| 男女精品视频| 亚洲第一色视频| 国产尤物视频在线| a级毛片一区二区免费视频| 国产在线拍偷自揄观看视频网站| 美女无遮挡免费网站| 激情综合五月网| 欧美精品亚洲日韩a| 欧美一级在线看| 91成人在线观看| 99在线视频免费| 久久永久视频| 五月激情综合网| 亚洲成年人片| 久久免费看片| 亚洲免费成人网| 久久无码免费束人妻| 黄色三级网站免费| 国产一区免费在线观看| 国产成人精品一区二区| 一级全免费视频播放| 激情综合激情| 青青草原偷拍视频| 国产精品林美惠子在线观看| 亚洲网综合| 婷婷亚洲天堂| 精品人妻一区二区三区蜜桃AⅤ| 国产亚洲高清在线精品99| 青青热久麻豆精品视频在线观看| 日韩在线观看网站| 伊在人亞洲香蕉精品區|