[摘要] 及時、準確、全面地掌握商情是在現代商業競爭中把握主動權的重要前提,互聯網的快速發展使其成為獲得商情的重要來源。傳統搜索引擎不能滿足現代商情采集的需求,開發專業商情采集系統的需求日益迫切。根據“經銷商”的經營特點,詳細討論Web商情采集系統的需求;對網上商情來源網站進行了分類,討論了各類網站的信息特點;提出一種Web商情采集系統結構;討論了系統的關鍵技術、知識產權問題和系統擴展方向。
[關鍵詞] Web 商情 經銷商 主題爬蟲
現代商業競爭日益激烈,及時、準確、全面地掌握商業情報(商情)是在競爭中把握主動權的重要前提。隨著互聯網的快速發展,越來越多的公司企業、政府機關和個人把信息發布到網上以展示自己、聯系客戶、實施供銷等,網絡已成為獲得商業情報的重要途徑。使用傳統的搜索引擎在輸入關鍵字后,要靠人工去點擊一個個網頁,查閱信息,靠復制粘貼等操作來整理保存結果,效率很低。現代搜索引擎越來越向專業和實用方向發展,目前最典型和成功應用的專業搜索引擎是旅游搜索,網上商業、經濟信息搜索正在引起重視。Web商情采集系統是能實時搜集網上商情、進行跟蹤監測、將信息進行分類整理等功能的系統。目前已有一些類似的通用系統被開發出來,如:創鴻商業信息采集系統商情版、通科供求情報通等。Web商情采集系統是應需求產生的,不同公司企業和個人的目標不同,需求也不同,加上網絡的廣泛性和虛擬性,通用系統很難滿足個性需求。本文以經銷商為例,詳細分析了用戶的需求,分析了網絡各類資源的特性,提出了一種系統設計模型,并討論了其關鍵技術和發展問題。
一、Web商情采集系統需求
現代社會是商品社會,幾乎每個企業、政府部門、學校、個人都要了解商情,但由于身份和目的不同,需求的具體內容、細節和程度有所不同。本文所謂的“經銷商”泛指各級代理商、分銷商、批發商、零售商等,“商”可以是企業或個人。
商業情報是一種情報,采集商情要遵循情報采集規律。先規劃和定向,確定需求,再根據需求去采集才能做到有的放矢,才會采集到有意義的信息,支持自身的決策。經銷商經銷的產品一般都在一個或幾個行業或專業領域內,其興趣主要在其經營專業范圍內的信息。作為商家,他們主要關心行業中的主要生產企業信息、行業內其他經銷商信息、專業產品的供求信息、價格水平、折扣信息等。因此,Web商情采集系統至少應具有如下功能:
1.搜集和跟蹤行業中主要企業的發展狀況情報。包括企業的產品生產和銷售信息、新產品信息、廣告投入信息、財務狀況信息、管理狀況信息等。
2.搜集和跟蹤行業內其他經銷商的商業信息。包括他們的地域、規模、客戶群、經銷狀況、財務和管理狀況等。
3.搜集和跟蹤專業產品供求信息、價格信息等。
4.自動功能和手工操作相結合。系統應根據已知種子網站自動搜索其他相關網站,并根據網站的更新頻率自動調整采集周期,對采集結果自動分類整理等。同時由于系統信息的復雜性及網絡的虛擬性,系統要根據一定策略計算各網站的可信度,接受人工設置的單項檢索,允許手工調整、確認各網站的可信度等。
5.軟件系統應具備的其他管理功能,如用戶管理、備份、清理、日志功能等。
二、Web商情來源網站的分類及特點
互聯網上的網站多種多樣,其信息規模是海量的,是虛擬的。覆蓋所有網站的采集是不可能的,對專業需求也是不必要的,同時,對采集的信息需要以一定策略計算其可信度。對商情采集系統來說,要采集的對象主要是幾類網站,各類網站的重要性、可信度也不同,下面簡要敘述。
1.生產企業的網站是采集企業信息的主要源頭。企業一般會把本企業重要新聞、行業重要新聞、本企業產品、管理機構、主要代理商情況發布到自己的網站,這些是了解一個企業的重要信息。另外,企業很少會在自己網站發布虛假消息,這類網站可信度很高。
2.規模較大的經銷商會建立自己的網站以發布產品供應信息和聯系客戶。其上的信息除包含經銷商自己的營銷信息,還會有與之相關的其他經銷商的信息及行業信息,這類網站可信度也很高。
3.各類電子商務網站當然是商業情報的主要來源。從中可以采集到各類商品的規格、零售價格、批發價格、折扣價格、銷售情況等。電子商務網站種類很多,信息更新頻繁,其可信度主要是根據網站的管理體制來確定,具體的信息可靠性由發布人的信譽來確定。然而發布人的信譽信息很難獲得,網上的可信度評價只能作為參考。
4.各類商情網站是了解供需情況的重要網站,個人和企業均可把自己的供需信息在其上發布。但是,在這類網站發布商情具有隨意性,其中信息的可信度沒有保證,也主要由網站的機制和發布人的信譽來估計。
5.各級政府網站的行業新聞、財務報告是較可靠的商情來源,其信息更新不頻繁,更新周期有規律,但信息相對較少。
6.一些市場研究機構和情報公司提供收費的商情報告,如中國漁業貿易有限公司提供的《中國漁業貿易商情快遞》。如果向他們訂閱,可以定期收到報告。這些報告可信度較高,綜合性較強,可以作為系統信息保存。
7.除了前述的五類網站,其他網站上也會可能會有重要的信息要關注,如:一些企業、學校、政府網站的招標公告等。對這類信息主要應根據用戶的設置有針對性的采集信息,大海撈針可能沒效率,搜索結果用戶也不一定感興趣。
三、Web商情采集系統結構模型
根據前述的需求和信息來源分析,我們提出一種Web商情采集系統結構,如圖所示。
Web商情采集系統結構圖
整個系統由數據存儲、數據管理、業務邏輯、用戶界面四層構成。在數據存儲層,系統中要存放URL種子,最初的URL種子是由用戶指定的一些網址,系統運行中會不斷選擇有一定可信度的網站添加到其中,逐步得到較穩定的URL種子集;各類目錄是支持系統信息表示的目錄,同時存放相關的屬性信息,如企業目錄、經銷商目錄、地域目錄、可信度目錄等,這些目錄也是隨系統運行動態維護的;商情信息是系統的主體數據,存放分類的商情。
數據管理模塊是管理數據的類,它的功能是根據上層的數據查詢修改命令,完成對數據的操作。
主要業務邏輯層包括了系統的主要功能模塊。每次開始采集,系統根據現存URL種子集生成一個URL隊列;頁面信息采集模塊根據URL隊列信息進行采集,提取頁面主要信息存放到臨時文件中,同時提取頁面鏈接加入URL種子隊列;臨時文件中數據經判斷、分類、整理,將信息存入商情信息文件中;直到URL種子集中的網址搜索完成,這個過程是爬行搜索網頁、提取、整理信息的過程。
用戶界面是系統的用戶接口,接收用戶的設置、要求,將結果反饋給用戶。
四、系統討論及結束語
1.Web信息采集系統是一種主題爬蟲。其關鍵有二:一是采用合適的搜索算法,實現一定的查全率,并防止它跟隨鏈接無目的漫游及產生循環采集;二是運用人工智能技術進行主題識別和預測及提取主題信息。
2.新的知識產權法規定網絡出版物同其他任何出版物一樣都受到知識產權的保護,在網上采集信息有侵犯知識產權的可能。由于系統能搜集到的信息都是網上公開的信息,并且,系統對網頁上的文本,是提取出其中的信息保存下來,一般不會保存原文,所以不會構成侵權。
3.本系統只是設置了采集、整理功能,隨著信息的積累,系統可以擴展數據挖掘、知識發現等功能,并可與企業自身的ERP系統有效整合,使其成為集成的決策支持系統。
Web采集系統是應互聯網的發展和用戶的需求而產生的,目前已有的系統均不成熟,運行效率和結果都不能滿足用戶要求,所以對其系統需求、結構、關鍵技術的深入研究有較深遠的意義。
參考文獻:
[1]楊麗萍馬繼濤張虹霞:網絡搜索引擎分類與發展[J].情報學報, 2006,25(10):421~424
[2]侯福麗:網上經濟信息資源檢索方略[J].商場現代化,2007,4(下旬刊):379~380
[3]創鴻商業信息采集系統商情版.htpp://www.hztl.com.cn/suite/webcollecting.htm,瀏覽日期:2007,5
[4]通科供求情報通.http://www.wanglue.net/,瀏覽日期:2007,5
[5]《中國漁業貿易商情快遞》介紹.http://www.sohu.net/supply/coms122/supply3668965.html, 瀏覽日期:2007,5
[6]鐘常青楊道玲:Web 資源保存中的法律問題探討.情報理論與實踐,2006,29(3):281~284
[7]胡愛華盧蕓楊郁池:電子商務中數據挖掘方法的應用[J].商場現代化,2007,4(上旬刊):103~104
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。