999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云計算平臺的知識庫構(gòu)建方案

2016-12-06 12:54:33劉利
電腦與電信 2016年8期
關(guān)鍵詞:頁面用戶信息

劉利

(瀘州職業(yè)技術(shù)學(xué)院信息工程系,四川 瀘州 646005)

基于云計算平臺的知識庫構(gòu)建方案

劉利

(瀘州職業(yè)技術(shù)學(xué)院信息工程系,四川 瀘州 646005)

當(dāng)今互聯(lián)網(wǎng)已成為一個巨大的開放式知識庫,其中包含著許多有價值的信息。互聯(lián)網(wǎng)信息呈現(xiàn)形式多樣性的特點,如何初步篩選出有價值的網(wǎng)頁,是信息抽取的第一要務(wù),也是構(gòu)建知識庫的基礎(chǔ)。本文在建立互聯(lián)網(wǎng)模型基礎(chǔ)上,利用Hadoop平臺下的Pagerank算法,旨在研究如何在節(jié)省時間和空間基礎(chǔ)上篩選出有價值的網(wǎng)頁,為從互聯(lián)網(wǎng)抽取有價值信息構(gòu)建知識庫提供解決方案。

Hadoop;Pagerank;知識庫;信息抽取

1 引言

互聯(lián)網(wǎng)像是一個巨大的知識庫,具有信息規(guī)模龐大、信息資源多樣、信息分散等特點。網(wǎng)頁被視為知識庫中的單位信息,但這些信息有很強的獨立性和自治性。搜索引擎好比是在這個知識庫中建立索引,方便用戶搜索。用戶用主流的搜索引擎比如google和百度搜索某個關(guān)鍵字時,會反饋許多已排序好的網(wǎng)址,排序過程是根據(jù)復(fù)雜的文本匹配算法和鏈接分析算法相結(jié)合的技術(shù)實現(xiàn)的。在用戶搜索之前,網(wǎng)頁間的等級劃分就已通過鏈接分析算法初步確定,鏈接分析算法成為評判網(wǎng)頁等級和重要性的標(biāo)準(zhǔn)之一。

2 鏈接分析算法

由互聯(lián)網(wǎng)信息所具有的特征可知,在擴展網(wǎng)頁和超鏈接規(guī)模時,需判斷它們的重要性,選取質(zhì)量和信譽度好的網(wǎng)頁。本文采用鏈接分析方法作為網(wǎng)頁重要性的評判標(biāo)準(zhǔn)。

影響搜索引擎的鏈接排名的一個很重要的因素是鏈接分析算法。常見的鏈接分析算法主要有PageRank、HITS、 SALSA、Hilltop等等,這些算法的核心是PageRank[1]和HITS[2],而后面的其他算法都是以它們?yōu)榛A(chǔ)延伸的。

HITS算法對待排序的網(wǎng)頁數(shù)量規(guī)模要求較小,網(wǎng)頁數(shù)量規(guī)模要求一般為1000至5000個,但由于需要從文本的搜索引擎中獲得中心類網(wǎng)頁集并以此擴充權(quán)威類網(wǎng)頁集,這個過程消耗時間較長,而PageRank算法處理的數(shù)據(jù)數(shù)量規(guī)模上遠遠超過了HITS算法。據(jù)Google官方介紹[3],目前已經(jīng)收錄了1萬億以上的網(wǎng)頁并且規(guī)模還在不斷擴大,而且PageR-ank算法是在用戶查詢前就已經(jīng)在服務(wù)器端獨立完成的,不會占用用戶查詢時間,因此從用戶體驗時間來說其遠比HITS要短。

3 PageRank算法

PageRank算法有單機模式和并行運算模式。單機模式運算規(guī)模較小,對內(nèi)存空間要求較大,而本文面向的是上億的URL鏈接,鑒于此,選擇并行運算模式。通過PageRank算法算出每個網(wǎng)頁的等級,等級越高說明網(wǎng)頁質(zhì)量和可信度就越高。決定網(wǎng)頁等級的主要因素有:鏈入數(shù)量、鏈入網(wǎng)頁的等級、鏈出數(shù)量。

計算網(wǎng)頁的等級就等價于計算網(wǎng)頁的PR值。網(wǎng)頁的PR值定義為:鏈入網(wǎng)頁(比如A網(wǎng)頁)的所有頁面的PR值除以各自頁面里面鏈出數(shù)量之和。算法如公式1所示:

其中,PR(A)表示A頁面的等級,PR(Ti)表示Ti頁面的等級,Ti頁面指向A頁面(即Ti鏈出到A),C(Ti)表示Ti頁面的鏈出總數(shù),d是0到1間的常數(shù),稱為阻尼系數(shù)。根據(jù)Lawrence Page等人給出的值,應(yīng)用中一般設(shè)置為0.85。PR(Ti)/C(Ti)表示頁面Ti鏈到A頁面的概率,隨著i值的變化,即可算出模型中達到A頁面的總概率。根據(jù)上述公式進行迭代計算,當(dāng)算出相鄰兩次頁面的PR值收斂時計算結(jié)束,得到的PR值為每個頁面最終的PR值。

本文以網(wǎng)頁質(zhì)量好、可信度高為原則對網(wǎng)頁為基礎(chǔ),采用網(wǎng)絡(luò)爬蟲的思想,最終收集并整理8億多的URL,這對整個互聯(lián)網(wǎng)來說是很小的,若利用現(xiàn)有的方式計算各個URL對

應(yīng)網(wǎng)頁的PR值將導(dǎo)致兩級分化,究其原因在于計算過程中,有的網(wǎng)頁只有鏈接入沒有鏈出,這將導(dǎo)致有的PR值將特別大,而有的PR值將特別小,也會導(dǎo)致計算結(jié)果的不準(zhǔn)確,這有悖于互聯(lián)網(wǎng)閉環(huán)的特點。因此,在計算之前建立互聯(lián)網(wǎng)模型很有必要,將沒有鏈出的網(wǎng)頁,讓它的鏈出指向包括自身在內(nèi)的每一個網(wǎng)頁。

PageRank迭代計算并致收斂后,有些網(wǎng)頁的PR值大于1,就可認為該網(wǎng)頁等級比平均網(wǎng)頁等級高,可視為質(zhì)量好的網(wǎng)頁。

4 實驗過程和結(jié)果分析

4.1 相關(guān)準(zhǔn)備

以戴爾PowerEdge R8201的硬件服務(wù)器搭建的Hadoop平臺,1臺master和2臺slave。軟件安裝:JDK版本為jdk-6u31-linux-i586.bin[5];Hadoop版本是hadoop-1.2.1.tar.gz[6]。集群信息如表1所示。

表1 集群信息

4.2 Hadoop配置和運行步驟

(1)將每個服務(wù)器都安裝JDK、解壓Hadoop,并保存和安裝在各服務(wù)器上的路徑相同;

(2)配置各服務(wù)器的緩存大小、接口、通信等,需要設(shè)置各個服務(wù)器上的四個配置文件:core-site.xml、hadoop-env.sh、hdfs-site.xml和mapred-site.xml;

(3)用命令啟動Hadoop平臺,配置成功后,HDFS的存儲能力達到460多個G。

(4)編寫Hadoop要求的程序并提交。

4.3 網(wǎng)頁和超鏈的收集整理

為減少在計算時所要求的空間性能,在計算之前先將URL轉(zhuǎn)化為對應(yīng)的checksum編碼[7]。轉(zhuǎn)化URL的保存格式是:URL##checksum,如圖1所示。

圖1 URL和checksum存儲格式

在計算網(wǎng)頁PageRank時,輸出格式是:checksum PR1 PR2,如圖2所示:

圖2 PageRank計算結(jié)果

在PageRank收斂后,選取PR值大于1的網(wǎng)頁,最終整理出網(wǎng)頁5000多萬的URL,并以此為基礎(chǔ)下載網(wǎng)頁數(shù)據(jù)構(gòu)建知識庫。

5 結(jié)語

本文描述了一種以互聯(lián)網(wǎng)為基礎(chǔ)的構(gòu)建知識庫的方案,在大規(guī)模URL基礎(chǔ)上建立互聯(lián)網(wǎng)模型,通過Hadoop平臺的Pagerank算法篩選出有價值的URL,并下載對應(yīng)網(wǎng)頁,方便后續(xù)構(gòu)建知識庫的研究提供解決方案。

[1]Page L,Brin S,Motwani R,Windograd T.The Pagerank citation ranking:Bring order to the web.1998.

[2]Kleinberg J.Authoritative sources in a hyperlinked environment.Proceedings of the 9th ACM-SIAM symposium on Discrete Algorithms.New Orleans:ACM Press,1997:668-677.

[3]google官方微博[EB/OL].http://readwrite.com/2008/07/25/ google_hits_one_trillion_pages.

[4]周傲英,曾大聃.Hadoop權(quán)威指南(中文版)[M].北京:清華大學(xué)出版社.2010.

[5]jdk下載[EB/OL].http://www.oracle.com/technetwork/java/ javase/index.html.

[6]hadoop下載及配置[EB/OL].http://www.a(chǎn)pache.org/dist/hadoop/core/.

[7]checksum編碼講解[EB/OL].http://baike.baidu.com/view/ 93743.htm.Knowledge Base Constructing Scheme Based on Cloud Computing Platform

Liu Li
(Luzhou Vocational and Technical College,Luzhou 646005,Sichuan)

The network has become the biggest knowledge base and contains a lot of valuable information.The presentation form of Internet information is diversified.How to discover valuable page is top priority of information extraction and the foundation of building knowledge base.Based on the Internet model,this article researches how to discover valuable pages using Pagerank algorithm in Hadoop platform saving time and space,to provide solutions for knowledge base construction.

Hadoop;Pagerank;knowledge base;information extraction

TP391.1

A

1008-6609(2016)08-0077-02

劉利,男,四川瀘州人,碩士,講師,研究方向:人工智能、數(shù)據(jù)挖掘。

猜你喜歡
頁面用戶信息
大狗熊在睡覺
刷新生活的頁面
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導(dǎo)航技術(shù)
主站蜘蛛池模板: 亚洲天堂网在线视频| 国产精品3p视频| 这里只有精品免费视频| 天天躁日日躁狠狠躁中文字幕| 国产专区综合另类日韩一区| 麻豆精品国产自产在线| 91啦中文字幕| 天堂网国产| 国产swag在线观看| 国产免费怡红院视频| 日韩精品毛片人妻AV不卡| 久久香蕉国产线看观看精品蕉| 国产一级毛片在线| 思思热在线视频精品| 成年人久久黄色网站| 国产第四页| 欧美不卡在线视频| 国产91色在线| 亚洲av无码专区久久蜜芽| 夜夜操狠狠操| 香蕉伊思人视频| 综合色天天| 成人国产三级在线播放| 国产亚洲男人的天堂在线观看| 久久久久夜色精品波多野结衣| 91精品视频播放| 高清久久精品亚洲日韩Av| 浮力影院国产第一页| 国产成人免费视频精品一区二区| 欧美在线导航| 国产精品深爱在线| a欧美在线| 国产黄在线观看| 亚洲男人的天堂网| 自慰网址在线观看| 精品亚洲欧美中文字幕在线看| 午夜精品久久久久久久无码软件| 国产女人18水真多毛片18精品 | 中文国产成人久久精品小说| 91无码人妻精品一区| 国产在线98福利播放视频免费| 亚洲AV无码乱码在线观看代蜜桃| 波多野结衣中文字幕一区二区| 久久美女精品| 欧美一区二区三区欧美日韩亚洲| 国产中文一区a级毛片视频| 99视频精品全国免费品| 国产高潮流白浆视频| 国产人成乱码视频免费观看| 国产免费高清无需播放器| 在线观看国产精美视频| 天天色综网| 亚洲首页在线观看| 亚洲IV视频免费在线光看| 无码精品一区二区久久久| 久久精品无码一区二区国产区| 国产一区在线视频观看| 国产无码在线调教| 老司机久久99久久精品播放| 国产中文一区二区苍井空| 亚洲国产精品人久久电影| 国产丝袜无码一区二区视频| 青青操国产| 高清色本在线www| 四虎永久免费地址| 啊嗯不日本网站| 欧美国产精品拍自| 麻豆精品久久久久久久99蜜桃| 欧美一区日韩一区中文字幕页| 中文字幕有乳无码| 久久一级电影| 欧美激情视频在线观看一区| 日本亚洲国产一区二区三区| 亚洲天堂网视频| 国产特一级毛片| 谁有在线观看日韩亚洲最新视频 | 国产精品亚洲一区二区三区z| 就去吻亚洲精品国产欧美| 欧美a在线| 国产精品美女免费视频大全| 国产精品入口麻豆| 国产三级国产精品国产普男人|