999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web挖掘在電子商務信息搜索中的應用

2009-04-29 00:00:00熊志文
計算機時代 2009年1期

摘要:隨著電子商務的深入發展,互聯網已成為電子商務的基礎。電子商務環境下,如何從互聯網中挖掘和利用數據是企業非常關心的問題。文章結合當前的電子商務環境,對重要信息的搜索問題進行了分析,提出了采用Web挖掘在互聯網中搜索重要信息的方法,給出了該方法的一個實現技術。實驗結果表明該方法可以在互聯網中高效準確地搜索重要信息。

關鍵詞:Web挖掘;電子商務;檢索;元搜索引擎

0 引言

隨著全球信息化的發展,電子商務在企業經營中的應用日益廣泛,它將打破時空界限,改變貿易形態,改善物流、資金流、信息流的環境,有效地降低企業生產成本,加速整個社會的商品流通。電子商務環境下的企業與外界聯系增多,企業為了提高自身競爭力,必須擺脫傳統相對狹隘的經營模式,不斷提升對潛在競爭對手、產品、客戶、供應商以及關鍵的價值來源等重要信息的獲取能力。但當前在互聯網中要獲取有用的商務信息并不容易,因為在擴大搜索范圍時,難以保證所有搜索結果都是相關和有效的。

針對上述問題,本文引入了基于Web挖掘的電子商務信息檢索方法。Web挖掘是數據挖掘技術在Web環境下的應用,它從大量的Web文檔集合和在各站點瀏覽的相關數據中發現潛在的、有價值的信息,是提高電子商務企業運作效率的工具。根據挖掘對象的不同,Web挖掘一般可以分為三種:Web內容挖掘、Web結構挖掘和Web使用挖掘。Web內容挖掘是從頁面摘要及其文檔內容中獲取有用知識的過程,一般包括文本文件和多媒體文檔的挖掘;由于有用知識除了在Web頁面內容中,也包含在頁面結構中,所以Web結構挖掘是從萬維網的組織結構和網頁的相互鏈接中進行挖掘,發現頁面間的關系,改進搜索引擎的性能;而Web使用挖掘則是通過挖掘相應站點的日志文件和相關數據發現站點瀏覽者的行為模式,識別用戶的喜好、滿意度,發現潛在用戶,增強站點的服務競爭力。

本文中的信息檢索方法使用通用的搜索引擎工具在互聯網上搜索相關頁面信息,再采用Web挖掘對相關頁面信息進行分析篩選,從中提取輔助商業決策的重要信息,為企業贏得更多潛在利潤。

1 搜索方法的框架

傳統企業經營模式中,信息收集的渠道往往具有壟斷性,企業的經營受到地域的限制,相關的供應商和客戶也比較固定,企業競爭壓力小。而在電子商務環境下,市場和業務范圍通過互聯網大大擴展,供應商和企業終端用戶行為發生根本性變革,企業面對相鄰和傳統上不相關的價值鏈上的競爭者,使得企業競爭壓力增大。對競爭對手、產品、客戶、供應商以及關鍵的價值來源進行調查和評價,然后根據自己的競爭優勢設計各種戰略顯得至關重要。

為了適應電子商務環境下大范圍、高強度的競爭,企業需要充分利用電子商務的有利條件,挖掘潛在競爭對手、客戶、供應商以及關鍵的價值來源等信息。這些信息在本文中稱為重要信息。重要信息是從相關頁面信息中篩選分析得到的。

本文的搜索方法(其實現框架如圖1所示),利用通用搜索引擎和Web挖掘技術對互聯網上的信息進行搜索、分析篩選,主要功能包括4個方面:

(1)生成搜索關鍵字集合。根據用戶的查詢請求,生成相對應的搜索關鍵字集合。

(2)收集相關頁面信息。根據搜索關鍵字集合在互聯網上收集相關的頁面信息。

(3)獲取重要信息。對收集的頁面進行分析篩選獲取重要信息。

(4)用戶交互。將重要信息以用戶需要的方式顯示。

其中功能(2)和(3)的實現質量非常重要,將直接影響獲取的重要信息的質量。

2 搜索方法的實現

搜索方法實現的核心思想是利用通用搜索引擎和Web挖掘技術對互聯網上的信息進行搜索、分析篩選得到重要信息。首先由用戶發出查詢請求,然后根據用戶的查詢請求生成適當的搜索關鍵字集合,利用搜索關鍵字集合進行重要信息的獲取并將結果返回。

2.1 生成搜索關鍵字集合

在互聯網中要獲取有價值的商務信息不容易,因為目前網絡信息的搜索大多是精確匹配,返回的結果不但有較大冗余,還包含許多不相關的信息。根據用戶查詢請求生成恰當的搜索關鍵字集合可以提高搜索的準確性。本文中搜索關鍵字集合生成的方法是基于語義網的,先要進行電子商務信息領域的領域概念詞分析,建立相關的領域概念詞詞典。

搜索關鍵字集合生成過程如圖2所示。首先從用戶輸入的查詢請求中抽取有效檢索詞,然后將檢索詞在概念詞詞典中進行語義分析和匹配,獲取搜索關鍵字集合。其中抽取有效檢索詞的過程主要由6部分組成,如圖3所示。

2.2 收集相關頁面信息

收集相關頁面信息,就是利用搜索引擎在互聯網上收集與搜索關鍵字集合相關的頁面信息。搜索引擎(Search Engines)是指對互聯網上的信息資源進行搜索整理,然后供人們查詢的系統,目前商業化的通用搜索引擎數量較多,如Excite、Google、百度、雅虎、搜狐等。雖然通用搜索引擎可以從互聯網上搜索需要的信息,但是存在著不足:

(1)每個搜索引擎覆蓋互聯網的范圍是有限的,不同公司開發的搜索引擎有不同的地域和語言傾向;

(2)搜索結果中有已經失效的頁面信息;

(3)搜索結果中有不相關的頁面信息。

因此,為了更高質高效地收集相關頁面信息,本文采用了元搜索引擎技術。元搜索引擎是指在搜索引擎之后或之上的搜索引擎,是在通用搜索引擎的基礎之上建立起來的可以同時或分時查詢多個通用搜索引擎的網絡信息查詢系統。元搜索引擎實際上是借助傳統的Internet搜索引擎提供信息查詢服務的。檢索時,元搜索引擎根據用戶提交的檢索請求,調用通用搜索引擎進行搜索,再對搜索結果進行匯集、整理、排列等優化處理后,以統一格式反饋。元搜索引擎主要由用戶接口界面、查詢調度機制、搜索引擎代理和結果處理機制四部分組成。文中的元搜索引擎結構如圖4所示,主要分為6個功能模塊:

(1)用戶接口模塊負責和用戶交互,用戶可以通過此模塊下達查詢請求、設置系統的參數和獲取搜索得到的相關頁面信息;

(2)引擎代理模塊根據用戶的查詢請求生成搜索關鍵字集合,然后根據設置調用通用搜索引擎在互聯網上搜索相關的頁面信息,通用搜索引擎再將搜索結果返回給引擎代理模塊;

(3)分析驗證模塊對搜索結果進行解析并對網絡鏈接的有效性進行驗證;

(4)信息處理模塊對分析驗證后的結果進行整理、歸納和分類,得到與查詢請求相關的頁面信息;

(5)信息存儲模塊負責把整理得到的相關頁面信息存儲在數據庫中;

(6)查詢處理模塊把用戶需要的頁面信息以用戶需要的格式進行反饋。

2.3 獲取重要信息

利用搜索關鍵字集合在互聯網上可以獲得許多相關的頁面信息,但其中的一部分與用戶的需求不相關,因此需要對從互聯網上獲得的頁面信息進行分析篩選,從中找出重要信息。分析篩選的功能如下:

(1)從有效頁面的摘要中提取描述詞匯;

(2)分析頁面描述詞匯和特定領域詞的相關性進而得出頁面信息和用戶需求的關聯性;

(3)根據頁面信息和用戶需求的關聯性來分類處理搜索結果;

(4)根據事先設定的閾值,篩除關聯性小于閾值的頁面信息;

(5)分析關聯}生大于閾值的頁面信息從中獲取重要信息;

(6)將重要信息進行存儲以備用戶使用。

本文判斷搜索結果與用戶需求的關聯性采用了向量模型。假設有s個頁面信息和N個特定領域詞,搜索頁面j和特定領域詞的相關性如公式1如示。

其中Pj是N維向量,由第i個特定領域詞相對搜索結果頁面j的權重Wij組成。T也是一個N維向量,由第i個特定領域詞在特定領域的權重Wij組成。i=1,2,3,…,N,j=1,2,3,…,s。

Wij和Wij的計算公式分別如公式2和公式3所示。Fij是特定領域詞i出現在搜索頁面j中的次數,ni是搜索結果中出現特定領域詞i的頁面的個數。

利用通用搜索引擎可以在互聯網上大范圍搜索相關頁面信息,使重要信息的獲取源頭滲入到網絡的方方面面,保證了信息獲取源頭的廣覆蓋性,經過有效的分析篩選,最終獲取的重要信息在廣覆蓋的前提下被準確的提取出來,這些保證了最終獲取的重要信息兼有準確性和廣覆蓋性。

2.4 用戶交互

用戶交互是以用戶為中心的,查詢請求由用戶下達,重要信息也必須以用戶需要的方式顯示。用戶可能會希望在更大的范圍搜索重要信息,而交互時只顯示最關心的一部分重要信息,這就使得用戶提交的查詢請求和瀏覽請求往往是不同的。

如果把系統從互聯網上收集重要信息看成是第一次信息過濾,那么用戶提交瀏覽請求就可以看成是對信息的第二次過濾。用戶的瀏覽請求以范式的形式表示。若用戶在瀏覽請求中提交了4個查詢詞q1,q2,q3,q4構成表達式ql^(、q2V q3)^q4,那么系統將根據這個表達式所對應的范式從搜集到的重要信息中抽取用戶最關心的顯示給用戶。

3 實驗結果和分析

實驗的目的是通過實例驗證搜索的效果。本文中以搜索義烏的小商品為例,搜索對象包括戒指、項鏈等,并且把直接用通用搜索引擎搜索得到的有效頁面和全部頁面的數量比稱為通用搜索查準率,把使用本文搜索方法搜索得到的有效頁面和全部頁面數量比稱為Web搜索查準率。用不同查詢請求對義烏戒指進行搜索查詢的結果如表1所示。

表1說明直接用通用搜索引擎搜索查詢重要信息,其查準率比用本文中的方法進行查詢的查準率要低。當查詢請求逐漸復雜的時候,通用搜索查準率下降的速度明顯快于Web搜索查準率。由此可見,本文中的方法能夠更有效地在互聯網上搜索重要信息。

4 結束語

本文針對電子商務環境下重要信息的搜索問題,引入了Web挖掘技術,提出了一種在互聯網搜索重要信息的實現方法。這種方法采用通用搜索引擎收集頁面信息,具有范圍廣的特點,同是對收集到的相關頁面信息進行分析篩選,保證了提交給用戶的重要信息有更高的準確性。總之,本文中提出的信息搜索方法對電子商務環境下進行大范圍信息搜索有很好的應用價值。

主站蜘蛛池模板: 久草性视频| 国产在线啪| 久久福利网| 国产一级妓女av网站| 大学生久久香蕉国产线观看| 色天天综合| 中文字幕av一区二区三区欲色| 黄色国产在线| 国外欧美一区另类中文字幕| 国产精品综合久久久| 尤物国产在线| 成人在线综合| 国产精品蜜臀| 国产真实自在自线免费精品| 欧美日韩精品一区二区在线线| 亚洲中字无码AV电影在线观看| 91热爆在线| 9966国产精品视频| 成人综合网址| 欧美五月婷婷| 国产精品3p视频| 亚洲天堂色色人体| 好吊色国产欧美日韩免费观看| 国产青榴视频| 欧美成人h精品网站| 国产午夜无码片在线观看网站 | 最新国产麻豆aⅴ精品无| 狠狠亚洲五月天| 午夜视频在线观看免费网站| 91九色国产porny| 97se综合| 国产中文在线亚洲精品官网| 国产精品hd在线播放| 国产91线观看| 亚洲国产综合第一精品小说| 色九九视频| 中文字幕日韩欧美| 免费A级毛片无码免费视频| 天堂av综合网| 日韩一区二区三免费高清| 欧美久久网| 成人av手机在线观看| 中文精品久久久久国产网址| 不卡网亚洲无码| 国产综合网站| 亚洲国产精品一区二区第一页免| 国产日韩精品一区在线不卡 | 久久伊人操| 4虎影视国产在线观看精品| 欧美激情视频二区| 极品国产一区二区三区| 草逼视频国产| 国产精品不卡片视频免费观看| www.国产福利| 男人天堂伊人网| 54pao国产成人免费视频| 一级毛片a女人刺激视频免费| 亚洲精品无码久久毛片波多野吉| 99re精彩视频| 欧美黑人欧美精品刺激| 免费AV在线播放观看18禁强制| AV无码一区二区三区四区| 又粗又大又爽又紧免费视频| 在线五月婷婷| 久久天天躁狠狠躁夜夜2020一| 国产成人精品优优av| 2020精品极品国产色在线观看| 国产96在线 | 欧美日韩导航| 综合色区亚洲熟妇在线| 亚洲综合香蕉| 成人欧美在线观看| 国产精品尹人在线观看| 国产精品太粉嫩高中在线观看 | 精品国产自在在线在线观看| 国产高清不卡视频| 青青草原国产av福利网站| 四虎在线观看视频高清无码| 欧美一区中文字幕| 乱人伦中文视频在线观看免费| 亚洲日本中文综合在线| 少妇极品熟妇人妻专区视频|