〔摘 要〕介紹了Web環境下競爭情報自動采集的關鍵技術,構造了一種基于自動采集的CI模型,該模型能夠對Web信息源進行自動采集、文本分析、分類聚類,并根據特定主題對信息源實施監控,生成競爭情報報告提交給企業決策層,從而提高企業決策的及時性、科學性。
〔關鍵詞〕Web;競爭情報;自動采集
〔中圖分類號〕G35 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)03-0023-03
1 Web環境下的競爭情報及競爭情報工作
簡單的說,競爭情報就是利用公開的信息源,獲取有關競爭、競爭對手和市場環境的信息的過程。這個過程包括如下幾個環節:(1)識別需要獲取什么信息;(2)識別可以獲取所需信息的信息源;(3)收集所需信息;(4)分析、整合所收集的信息;(5)把分析的結果和得到的結論提供給相關人員,為其提供決策支持。隨著競爭的加劇,競爭情報工作越來越受重視。
早期,競爭情報從業者多是通過一些商情數據庫、公開的出版物、會議、展覽以及其他一些公共信息源人工采集競爭情報。近些年,隨著Internet的快速發展,Web給競爭情報從業者提供了更廣闊的信息獲取空間。這表現在,許多商情數據庫可以通過Internet使用;許多行業協會建立了自己的網站,在Web上發布大量的行業信息;絕大多數政府的法律、法規、相關政策等在Web上都可以檢索到;多數企業、組織都建立了自己的網站,發布大量的諸如公司歷史、產品一覽、金融數據、統計信息、銷售記錄、年度報告、人事變動、招聘廣告之類的信息。可以說,Web不但為競爭情報從業者提供大量的免費信息,而且絕大多數信息比較及時,且能夠通過一些工具獲取,比起手工方式效率提高較明顯。然而,由于缺乏有效的自動采集工具,Internet在給競爭情報從業者提供大量信息的同時,也給他們帶來了巨大的時間消耗。有調查表明,收集信息所耗費的時間往往會占據整個競爭情報工作流程的30%[1]。競爭情報從業者迫切需要有效的信息自動采集工具來減少他們收集信息的時間,從而使他們把更多的精力放到信息的分析和整合上。
2 Web環境下的競爭情報自動采集技術
2.1 搜索引擎技術
搜索引擎技術是競爭情報從業者在Web環境下使用最為廣泛的一種信息自動采集技術。搜索引擎通常由如下模塊構成:(1)信息采集模塊,主要負責從Web上獲取網頁內容和鏈接信息。通常通過Robot軟件信息的自動采集。Robot是一種能夠根據文檔內的超鏈遞歸訪問新文檔的軟件程序。在自動加載方式下,Robot從一個事先制定好的URL列表出發,根據http協議自動訪問WWW網頁,當網頁被提取后,分析提取網頁中超文本的URL,將其加入URL列表,同時以此超鏈接作為新的起點,進一步訪問其他網頁,不斷循環下去;(2)索引模塊,主要負責對Robot收集的信息進行索引,并按照一定的方式存貯在索引數據庫中;(3)檢索和排序模塊,主要是確定檢索機制以及檢索結果的呈獻順序。利用搜索引擎進行競爭情報的自動采集,通常需要確定待采集信息的主題,從而使Robot自動跟蹤這些主題,實現采集的自動化和長期化,通過監控一個主題的變化情況分析競爭對手的行為。這些主題包括企業名稱、產品名稱、競爭者網站的URL等。
除了一般的搜索引擎之外,元搜索引擎技術也開始應用于競爭情報的自動采集。元搜索引擎可以調用多個搜索引擎,集成多個搜索引擎的結果,因而,所采集的信息更為全面。
但是,目前應用的傳統搜索引擎技術,往往只能采集部分信息,如GOOGLE、百度只是采集了網上信息的10%,而對隱藏在網絡深處的一些結構化和非結構信息難以處理[2],如企業內部信息數據庫、企業的研發報告、文獻資料等。這些信息都無法被傳統的搜索引擎采集,即使采集到,也只能作為全文處理,不能區分信息的詳細屬性。但是,web數據庫、企業內部非結構化信息中蘊涵了大量高質量的權威信息,必須對其給予重視。對于這些信息的采集,需要應用新的搜索引擎技術。有學者提出把P2P技術應用到網頁檢索中,能夠大大改善信息采集的深度和寬度,拓展信息的采集面。
2.2 文本分析與聚類技術
通過Robot收集的信息數量很大,對這些信息的長期跟蹤必須建立在對這些信息的分析和分類、歸類的基礎上,這就需要用到文本分析和聚類技術。
文本分析是通過對文檔的結構和內容的分析來獲取文檔的關鍵信息,包括文檔標志、文檔空間矢量、文檔中的詞頻分布、文檔中重要關鍵詞的關聯、詞的權重、文檔的語義等,消除文檔的模糊性。根據這些信息,判斷文檔的主題內容和文檔集的語義,有利于文檔內容的確定和文檔的歸類、聚類。詞的分析、文本特征抽取、自動去重、自動標引、自動索引、自動摘要、自然語言處理等都是常用的文本分析技術。
聚類是采用一定的算法,自動的將文檔集合分成若干群,要求同一群內的文檔內容的相似度要盡可能的大,而不同群內的文檔內容之間的相似度要盡可能的小,每一個群都有一個相應的主題。聚類沒有事先定義好的主題,通常是根據一定的算法通過關聯分析進行。目前文本聚類的方法大致可以分為層次凝聚法和平面劃分法2種[3]。
2009年3月第29卷第3期現?代?情?報Journal of Modern InformationMar.2009Vol.29 No.32009年3月第29卷第3期Web環境下競爭情報自動采集初探Mar.2009Vol.29 No.32.3 數據挖掘技術
數據挖掘是一種新的信息處理技術,它從大量數據中提取輔助決策的關鍵性知識,這些知識可以是隱含的、未知的、非平凡的及潛在有用的信息或模式,從而提高市場決策能力、偏差檢測、風險預警,在經驗模型基礎上預測未來趨勢,跟蹤正在出現的連續性和非連續性變化,以及分析現有和潛在競爭對手的能力和動向,幫助企業贏得競爭優勢[4]。
企業競爭情報獲取的信息形式多樣,可以是來自競爭對手網站、行業網站、政府網站的Web文檔;還有以企業的MIS、ERP等信息系統為中心,企業日常業務積累的數據信息形成的關系型數據庫、文檔數據庫等。數據挖掘技術的應用包括數據庫挖掘和文本挖掘。數據庫挖掘對大容量數據庫中的結構化信息進行關聯分析、時序演變分析、聚類、分類、預測等從而建立隱含的模型;文本挖掘的對象是非結構化的數據,它綜合了文本處理技術和知識發現技術,主要通過對搜索到的文本頁面進行文本特征提取、主題析取、文本分類、文本聚類、相關度分析等來獲取有用的、潛在的關系、規則、趨勢等知識。
少數國內企業目前已開始或計劃采用數據庫挖掘技術,從企業內部結構化數據源中通過聯機分析處理和數據挖掘技術進行深層情報的提取。文本挖掘方法可以幫助企業從海量的內外部文本信息源中提取有用的情報。目前這種方式在所調查的國外企業中已被廣泛采用,而國內企業基本上還未將其作為一種正式的競爭情報采集手段[5]。
2.4 信息過濾技術
信息過濾是根據用戶的興趣或偏好,自動地采集與之相關的信息并把其推送給用戶的過程。常見的信息過濾技術主要有基于內容的過濾和協作過濾,目前在競爭情報系統中常用的是前者。
基于內容的過濾主要是在信息的內容與用戶興趣之間建立聯系,根據資源與用戶興趣的相似性來過濾信息。通常是根據用戶模型(profile),從信息源中匹配與之相關的內容,把其中符合特定標準的部分篩選出來呈送給用戶,主要采用基于關鍵詞的匹配,用關鍵詞匹配技術實現。這種技術應用于信息采集存在一定的缺陷:比如,由于過濾的結果只取決于用戶信息需求模型與信息源的匹配程度,那么關鍵詞匹配過濾的結果與用戶呈送的關鍵詞密切相關,如果用戶呈送的關鍵詞不能準確表示其需求,則過濾的結果很難滿足用戶的需要;此外,關鍵詞匹配過濾不能區分信息資源質量的好壞,且不能動態地為用戶推薦其可能感興趣的信息。
信息過濾技術可以幫助企業實現特定主題信息的定制采集。這種技術與搜索引擎方式的區別是,它可以借助相關軟件系統進行特定主題的自動搜索。目前有少數企業單純使用這樣方式開展競爭情報采集工作。如中國國際科學技術合作協會就利用信息過濾和推送技術,組織人員對互聯網上的信息進行基于用戶興趣模型的定制采集,并將信息采集的結果推送給客戶[5]。
2.5 智能Agent技術
智能Agent具有感知能力、問題求解能力、與外界進行通信能力,它使用戶通過代理通信協議進行交換,以實現問題自動解決。智能Agent能在沒有明確具體要求的情況下,以用戶需求為先導進行信息搜集和信息加工,代替用戶進行信息查詢、篩選、管理等工作,并能推測用戶意圖,自動制定、調整和執行工作計劃,是用戶獲取資源的“自動助手”。
在信息采集中智能Agent主要完成資源導航、信息發現和信息過濾功能。資源導航是指智能Agent能夠根據用戶提供的初始URL或相關Web頁面作為訓練樣本,自動搜集、發掘用戶所需的信息,提供資源導航服務。智能Agent具有推理能力和從經驗中學習能力,在用戶查詢請求不明確時,能夠根據知識庫中的事實和推理規則發現用戶的潛在信息需求。過濾功能指智能Agent根據預定的主題和需求偏好過濾信息,并以不同級別(全文、摘要、標題)呈現給用戶。
智能Agent的智能性、代理性、協作性、主動性使它成為滿足網絡信息檢索、個性化信息需求的重要技術,越來越受到廣大用戶的青睞。Intelliseek公司的BrandPulse就利用了智能代理技術,它能夠從各種各樣的信息源中收集與特定品牌或主題相關的信息[6]。CA公司推出的Neugent是一種基于神經網絡的智能代理技術,它能夠在不斷變化的商業環境中跟蹤客戶行為,從龐大的海量數據中以不同角度分析各種復雜的模式,并在統計的基礎上做出預測,為商業用戶提供極具價值的商業信息[7]。
3 一個基于自動采集的CI模型
3.1 模型的基本思想
通過調查發現,目前大多數企業都或多或少采用了一定的智能化手段輔助競爭情報采集,基本上都實現了信息的自動采集,大部分還實現了自動去重和自動標引,少數企業還實現了基于自動摘要的競爭情報采集。而如何實現自動分類則是目前企業最受關注的一類智能化競爭情報采集方式。基于此,筆者提出了一個基于自動采集的CI模型,如圖1所示,希望能夠建立一個自動采集和跟蹤給定主題信息的CI系統,解決Web環境下的動態競爭情報的采集問題。
3.2 模型的基本架構
模型主要由采集模塊、分析模塊、監控模塊和呈送模塊構成,各部分模塊功能如下:
3.2.1 采集模塊
根據企業確立的情報需求,通過Robot程序對web信息源進行自動采集,從給定的主題或URL出發,通過超文本傳輸協議(http)獲取web文檔,并將超鏈接的相關文檔地
址列入URL列表中,進行遍歷搜索,最后形成一個有關企業競爭情報的文本集合。采集模塊主要實現技術有搜索引擎技術和智能Agent技術。智能Agent技術對用戶信息需求、偏好進行甄別、歸納,自動代理用戶查找其感興趣的信息;結合搜索引擎技術“面向主題”的檢索模式,在密切關注用戶信息需求的基礎上,提高信息采集的覆蓋面,以彌補智能Agent信息搜索范圍有限的缺陷。

3.2.2 分析模塊
分析階段是競爭情報系統的核心,主要借助于系統提供的各種分析模型以及數據挖掘工具對采集模塊采集的信息進行綜合分析、深層挖掘,從而得到企業所需的信息。分析模塊的關鍵技術有文本分析、文本聚類以及數據挖掘技術等,通過文本分析與聚類技術對web頁進行自動分類、自動摘要、自動聚類等智能化分析處理,充分挖掘信息中隱藏的價值;數據挖掘技術是企業實現數據深層次挖掘的核心技術,可以在大量信息中發現未知的關系、模式,從而實現關聯分析、時序演變分析、偏差檢測等。Web環境下,對文本資源的挖掘顯得尤為重要,基于文本內容的文本分類、自動摘要、文本聚類等技術的成熟,為企業競爭情報系統提供了有力的支持。
3.2.3 監控模塊
監控模塊主要對特定主題和對象進行多方位連續追蹤,對于異常情況能夠及時發現并提出預警,以使企業迅速采取相關措施。實施監控的項目包括市場需求動態監測、突發事件監控、競爭對手跟蹤、易失客戶分析、潛在客戶調查以及客服記錄統計等[8]。監控模塊主要利用智能Agent技術和數據挖掘技術,通過監控一個主題的變化情況,利用基于偏差的異常數據監測方法設置預警指標,分析各種變化量及變化幅度,對可能出現的機遇或風險提供早期預警,幫助企業及時掌握市場動態,發現問題并找到原因。對競爭對手進行監控和技術跟蹤,分析競爭對手行為,對行業趨勢和競爭環境進行檢測分析,為企業決策者提供準確、及時的競爭情報,使企業在瞬息萬變的市場競爭中處于主動地位。
3.2.4 呈送模塊
呈送模塊通過對分析挖掘的結果進行評價,生成競爭情報報告,提交給用戶,為企業決策提供依據。呈送模塊為整個競爭情報系統提供了一個信息交流和共享的平臺,該模塊應具有情報知識樹分類導航、多途徑檢索、報告自動生成等功能。呈送模塊主要利用信息過濾、信息推送以及可視化技術,消除無關的、多余的信息,過濾出支持企業決策的關鍵信息,將分析結果以適當方式及時反饋給適當的部門和人員。
參考文獻
[1]Hsinchun Chen,Michael Chau,Daniel Zeng.CI Spider:a tool for competitive intelligence on the web[J].Decision Support System,2002,(34):1-17.
[2]喬佃剛.利用結構化數據采集技術,挖掘深層網絡信息[EB/OL].http:∥blog.csdn.net/qiaodg/archive/2006/05/18/744407.aspx,2008-03-01.
[3]陳萍麗.web挖掘在競爭情報系統中的應用[J].中國信息導報,2003,(3):58.
[4]Amir M.Hormozi,Stacy Giles.Data mining:A Competitive Weapon for Banking and Retail Industries[J].Information Systems Management,2004:62-71.
[5]吳偉.國外競爭情報軟件研究[J].情報理論與實踐,2004,(1):103-106.
[6]Neugent智能代理介紹[EB/OL].http:∥news.chinabyte.com/429/103429.shtml,2008-07-10.
[7]張念萍,盧偉.市場動態競爭情報系統及其運用[J].經濟與社會發展,2004,(5):32-34.