〔摘 要〕目前,隨著企業全球化的競爭日益加劇,那些參與國外競爭的企業不僅要知道自己企業本身的情況,也要了解國外競爭對手的情況,這需要有效的收集企業情報。本文分析了企業競爭情報的特點以及情報收集存在的問題,并且將跨語言信息檢索引入到企業競爭情報收集。本文構建了基于跨語言信息檢索的企業競爭情報收集系統的模型,并對其進行了具體分析。
〔關鍵詞〕競爭情報;情報收集;跨語言信息檢索;模型
DOI:10.3969/j.issn.1008-0821.2010.11.003
〔中圖分類號〕G35 〔文獻標識碼〕A 〔文章編號〕1008-0821(2010)11-0012-04
Research of the Model of Enterprise Competitive Intelligence Collection
System Based on Cross-language Information RetrievalSun Yao He Mingxiang
(College of Information Science and Engineering,Shandong University of Science and Technology,
Qingdao 266510,China)
〔Abstract〕Now with the competition of the enterprise globalization gradually,so enterprise which want to participating competition,not only know their own circumstance about the enterprise themselves,but also know the circumstance about the rival.This need collection of the enterprise intelligence efficiently.This paper analyzed the features of the enterprise Competitive Intelligence and the problem of the intelligence collection,and the CLIR was introduced into the enterprise competitive intelligence collection.An enterprise competitive intelligence collection system model was established in this paper,which is based on CLIR,and detailed analysis was carried out.
〔Keywords〕competitve intelligence;collection of intelligence;cross language information retrieval;model
根據美國知名互聯網流量監測機構comScore統計報告顯示,2008年12月期間,全球網民總量已突破10億大關,其中中國網民數量以1.797億居首。comScore所統計全球各地區網民數量及比率為:亞太地區:4.16億(在全球網民中所占比率為41.3%,下同)、歐洲地區:2.83億(28%)、北美地區:1.85億(18.4%)、拉丁美洲地區:7 500萬(7.4%)、中東和非洲地區:4 900萬(4.8%) 。非英語網民的人數迅速增長,但是以英語顯示的網頁卻占70%左右[1]。語言的多樣性影響了網絡信息價值的充分發揮。于是,人們提出了跨語言信息檢索技術,即允許用戶使用其熟悉的一種語言(如母語)構造查詢檢索式,檢索出以另外一種或幾種語言表達的信息,以滿足非英語母語的人群對信息資源的需求。
隨著信息化社會的高速發展,信息資源競爭成為現在企業競爭的重要元素。目前,國際化競爭程度不斷深入,尤其是加入WTO后,我國企業面臨著更加嚴峻的挑戰與機遇,這直接導致了競爭情報活動的逐漸國際化。這要求情報人員需要收集和分析來自不同語言的情報資源,因此,構建基于CLIR(跨語言信息檢索)的企業競爭情報收集系統具有重要的現實意義。
1 企業競爭情報系統
競爭情報系統(Competitive Intelligence System,簡稱CIS)是競爭情報工作的組織保障和物質基礎,是以人的智能為主導、信息網絡為手段、增強企業競爭力為目標的人機結合的競爭戰略決策支持和咨詢系統[2]。一般來說,企業競爭情報系統主要包括競爭情報收集子系統、競爭情報分析子系統和競爭情報傳播子系統三部分。情報收集子系統是企業競爭情報系統的基礎,是企業情報系統的重要組成部分,主要功能是按照用戶的情報需求收集相關的競爭情報,是整個系統信息流的輸入系統。競爭情報分析子系統是企業競爭情報系統的核心,主要功能是將競爭情報收集子系統所收集的信息進行深加工,將信息轉化為情報。競爭情報服務子系統是企業競爭情報系統的輸出系統,它的主要功能是面向企業各級決策層和各類用戶提供情報產品和情報服務。傳統的競爭情報系統將數據的分析作為核心,忽略了信息收集環節和信息質量,特別是情報資源的檢索問題。
企業競爭情報收集系統的主要任務是根據競爭情報項目的目標,將來自不同渠道的信息資源通過數據采集單元加以合并、過濾、提取、自動分類,并將處理過的競爭情報信息存入情報數據庫中,形成情報數據。具體的說,競爭情報的收集是由兩個緊密相連的過程組成的:一是競爭情報的檢索,二是競爭情報的存儲。從本質上說,情報來源于信息,所以企業競爭情報的檢索本質上是一種信息檢索工作[3]。
對于以信息為資源進行分析加工的計算機系統來說,數據源的質量是非常重要的。正所謂輸入的是垃圾,輸出的也必將是垃圾。現有的競爭情報收集系統大多得到的是一些用戶并不感興趣的信息,并不能滿足企業競爭的需求,因此給情報分析和服務帶來了困難。怎樣從信息海洋中收集真正有價值的情報,對于企業競爭情報收集系統來說是一個巨大的挑戰。當前,全球化的時代已經到來,我國企業與國外的交流與合作變得日益重要和頻繁。但是由于語言之間的差異,這給信息檢索帶來了不小的困難,如果能夠消除這種差異并幫助人們理解這些信息,這對于知識的交流與共享來說具有重大的意義。
用戶用一種語言(比如中文)表示的檢索條件,檢索由同種語言(中文)組成的文檔集,檢索結果用該種語言(中文)表示。這種傳統意義上的信息檢索被稱為單語言信息檢索。用戶用某種語言(比如中文)表示的檢索條件,檢索由多種語言(比如中文、英文、德文、日文等)組成的文檔集,檢索結果用描述檢索條件的語言(比如中文)表示,這里稱為跨語言信息檢索(Cross Language Information Retrieval,CLIR)[4]。也就是說。CLIR就是用戶想用自己熟悉的語言來查詢另一種語言的文檔集,例如,輸入中文,信息檢索系統將返回其他語言(比如英文)的相關信息。
CLIR一般可以分為3個步驟:(1)多語種信息的搜集以及多語種信息數據庫的建立;(2)應用語言自動處理技術實現提問語種(是用戶查詢提問式所屬語種)和信息語種(是被檢索對象信息所使用的語種)的統一;(3)應用單語種信息檢索技術實現提問式與數據庫信息的匹配。其中,步驟(2)是實現CLIR的關鍵。實現CLIR主要可以使用以下5種方法:提問式翻譯、文獻翻譯、提問式——文獻翻譯、中間語種翻譯和非翻譯[5]。目前,絕大多數的跨語言信息檢索系統都是應用提問式翻譯,它是把用戶提問轉化成被檢索對象信息所使用的語種,然后對不同語種的文獻信息集進行查詢。例如,我們用中文查詢英文信息,系統會首先將中文提問翻譯成英文然后再進行檢索。提問式翻譯的優點是比較容易實現并且檢索效率比較高,而且可能是最有效的方法。一個現實中的單語言信息檢索系統可以比較容易地轉換成一個跨語言信息檢索系統,通過在提問處理模塊上增加一個提問翻譯程序。本文也是針對提問檢索式進行翻譯處理來構建跨語言信息檢索模型的。
目前,隨著信息化的全球發展,CLIR已經成為當前信息檢索的重要研究課題,它能夠有效地消除語言隔閡。例如,網絡70%以上的信息都是英語信息,而使用英文的網絡用戶僅占約40%,這給非英語國家用戶利用網絡信息帶來了極大的不便。不僅在互聯網中,在所有同時存在多語種的信息系統(如數字圖書館)中,這種語言障礙都限制了人們對信息的有效獲取,影響了多語種信息價值的充分發揮。如果能夠有效的利用CLIR,我們可以獲得更多我們想要的、有價值的信息。信息收集的國際化等于情報資源的國際化,我們將CLIR引入到企業競爭情報收集,可以在一定程度上解決情報收集過程中的語言障礙問題。
3 跨語言信息檢索在企業競爭情報收集系統中的應用3.1 跨語言信息檢索的模型研究
本文以跨中英文信息檢索為例構建了一個基于CLIR的企業競爭情報收集系統模型,它可以幫助用戶迅速收集到所需要的外文情報信息。因此我們首先要構建中英文跨語言信息檢索的模型,圖1為中英文跨語言信息檢索的模型圖。
該模型的工作流程如下:
(1)用戶輸入查詢信息;
(2)對用戶的提問進行處理,如果用戶提問語言為英文則轉向第(4)步,若為中文則繼續執行;
(3)將處理過的中文提問翻譯成英文;
(4)執行傳統的單語言信息檢索;
(5)將檢索結果返回給用戶。
圖1 中英文跨語言信息檢索模型
中英文跨語言信息檢索模型主要包括4個模塊:用戶提問處理模塊,提問式翻譯模塊,消歧模塊,檢索模塊。
3.1.1 用戶提問處理模塊
本模塊用來規范提問式,以便于翻譯和檢索。主要有以下兩種功能:一是用戶提問式可能是用中文也可能是用英文,首先識別出用戶提問所用語種,如果是源語言,則無需翻譯,直接檢索。目前用于語種識別的重要技術有馮沖等提出的基于字符層馬爾科夫模型的多語種識別[6],以及陳剛等提出的基于獨立分量分析的語種識別方法[7]。二是如果提問式是英文,檢索中文信息時,只需對其逐詞翻譯。但若是中文提問式,處理則比較復雜容,首先要對其進行詞切分處理,把提問式切分成單個有實際意義的詞,然后進行翻譯處理。本模型使用了正向最大匹配方法,其原理是:假設自動分詞詞典(或詞庫)中的最長詞條是m個字,則取被處理字串前m個字作為匹配字段,查找詞典,若詞典中存在這樣的一個m字詞,則匹配成功,匹配字段被作為一個詞切分出來;如果在詞典中找不到這樣一個m字詞,則匹配失敗,匹配字段去掉最后一個字,剩下的字段重新進行匹配,如此進行下去,直到匹配成功,也就是完成一輪匹配,切分出一個詞為止。最后直到被處理字串全部切分完成。
3.1.2 翻譯模塊
翻譯模塊主要應用在提問式翻譯上,提問式翻譯方法是在信息檢索之前,將提問式的語種轉化翻譯成所要檢索信息的信息語種。這種轉化方式是目前實現CLIR的主流思想,與文獻翻譯相比,提問式翻譯工作量較小,可以很容易地與傳統單語種信息檢索技術緊密結合,但是檢索返回的結果是用目標語言描述的,這將增加用戶利用信息的難度。到目前為止,提問式翻譯可以通過以下技術來加以實現:機器翻譯系統(machine translation system,MTS)、基于字典/詞典方法(dictionary-based methods)、基于語料庫方法(corpus-based methods)、字典——語料庫混合方法(hybrid methods)、提問式構造方法(query structuring methods)、提問詞再賦權方法(query term reweighting methods)、潛在語義標引法(Latent Semantic Indexing—LSI)、基于關鍵詞翻譯技術(keywords-basedtranslation)、檢索反饋技術(retrieval feedbacktechniques)等。本文將使用字典——語料庫混合方法,這種方法結合了基于字典和基于語料庫方法各自的優點。首先使用字典對提問式進行翻譯,在翻譯過程中可能會出現多個結果或翻譯含糊不清的情況,此時,利用專業語料庫中相關術語的對應關系來凈化翻譯結果。字典翻譯的方便性和語料庫翻譯的專業性、準確性在這種方法中得到了最充分的體現[8]。
3.1.3 消歧模塊
跨語言信息檢索翻譯歧義性問題就是對于信息語種來說,提問語種具有不用的含義,這樣在匹配詞語時會帶許多歧義,例如一個漢語詞可以被翻譯成為多個英語單詞,而一個英語單詞本身也不是只有一個漢語意思。因此,在翻譯過程中會出現一些提問式的翻譯和原始的提問意義有所不同。而在應用這些具有歧義性的提問翻譯進行信息檢索時,系統會給出不相關的檢索結果,這是CLIR中性能惡化的一個主要原因。因此,處理翻譯的歧義性是比較重要的,從而給出每個提問式正確的翻譯。本模型中消歧模塊使用的是查詢擴展消歧方法。微軟亞洲研究院在研究中英文信息檢索時,就提出了一種兩步假相關性反饋的提問式擴展方法:首先,使用翻譯后的提問式檢索出一系列文獻信息,并對其進行相關性排序(共現技術);然后,從結果文獻信息排序前n篇文檔中選取m個最高頻率的詞,來擴展最初的查詢提問式[9]。
3.1.4 檢索模塊
檢索模塊是針對提問式翻譯結束后,利用提問式翻譯檢索文件數據庫中文件的過程,在此過程中,提問式語言和文件語言屬于同種語言,進行同一語言之間的信息檢索。目前,單語言信息檢索技術發展已經相當成熟,在本文中不再闡述。
3.2 基于跨語言信息檢索的企業競爭情報收集系統的模型本文結合競爭情報收集系統的體系結構和基于提問式翻譯的CLIR的工作流程,初步設計了基于CLIR的企業競爭情報收集系統模型的大體框架。圖2為基于CLIR的企業競爭情報收集系統的模型圖。
圖2 基于CLIR的企業競爭情報收集系統的模型
上述模型共分為4個模塊:情報需求提交模塊、CLIR模塊、搜索結果評價模塊、數據加工模塊,以及兩個數據庫:信息資源庫和情報知識庫。
3.2.1 情報需求提交模塊
用戶通過情報需求提交模塊向系統提交情報需求及情報格式要求等信息,實現人機交互。然后將所需要搜集的情報需求提交給CLIR系統。
3.2.2 CLIR模塊
CLIR系統接受用戶的需求之后按照上小節所述進行工作。
3.2.3 搜索結果評價模塊
信息檢索的核心問題是相關文檔的預測,以及根據相關性對文檔進行排序。一般來說,最上面的文檔被認為是最相關的。因此相關性的計算以及排序算法成為信息檢索的主要問題。在搜索結果中,怎樣排序不同語言的文檔,怎樣計算不同語言文檔的相關性,同樣成為情報收集的核心問題。在搜索結果評價模塊,我們使用PageRank算法。PageRank算法是由Google創始人斯坦福大學的博士研究生Sergey Brin和Lawrence Page提出了網絡鏈接分析的一個新算法:該算法是建立在隨機沖浪者模型上的。具體來說,假設沖浪者跟隨鏈接進行了若干步的瀏覽后轉向一個隨機的起點網頁又重新跟隨鏈接瀏覽,那么一個網頁的價值程度值就由該網頁被這個隨機沖浪者所訪問的頻率所決定。
PageRank算法簡單描述如下:u是一個網頁,F(u)是頁面u指向的網頁集合,B(u)是指向u的網頁集合,N(u)=F(u)是u指向外的鏈接數,c是規范化因子(一般取0.85)。
那么網頁u的PageRank值可以利用下面的公式計算:
R(u)=c∑vB(u)R(v)/N(v)
該算法的矩陣描述形式為:
設A為一個方陣,行和列對應網頁集的網頁。如果網頁u有指向網頁v的一個鏈接,則Au,v=1Nu,否則Au,v=0。設R是對應網頁集的PageRank值向量,則有R=cAR,可見R為A的特征根為c的特征向量。實際上,只需要求出最大特征根的特征向量,就是網頁集對應的最終PageRank值[10]。網頁的重要性是由PageRank算法計算得來的。最終,搜索引擎根據網頁的PageRank值對搜索結果排序,得出具有高PageRank值的重要頁面。
3.2.4 數據加工模塊
數據加工模塊主要是將搜集來的數據按照一定的標準進行規范,提高數據的可操作性,并按照競爭情報分類目錄的要求,進行分類歸檔,以方便對其進行快速檢索及合理存儲,然后將數據按情報數據庫的要求和數據存儲格式對數據進行整合。最終存儲在競爭情報數據庫中,并提供給用戶所需情報,以幫助用戶進一步分析情報和提供情報服務。
信息資源庫主要包括企業Web站點、Internet資源、聯機數據庫等。情報知識庫主要是將經過加工過的數據進行分類存儲的數據庫。
4 總結與展望
目前存在的企業競爭情報收集模型大多是基于單語言信息檢索,這對于許多跨國公司檢索外文信息來說會造成信息檢索精度和召回率低下。根據文獻[11],目前國內外CIS軟件基本上不具有跨語種信息檢索與翻譯功能,本文將跨語言信息檢索引入到企業競爭情報收集并構建了基于跨語言信息檢索的企業競爭情報收集系統的模型,這將有效地幫助企業從信息海洋中獲得更加準確的情報信息,更好的幫助決策者做出準確的決策,從而在激烈的市場競爭中贏得更多的機會,并因此立于不敗之地。
參考文獻
[1]http:∥www.byywee.com/page/M0/S24/24128.html[EB].
[2]包昌火,張燕,黃英.競爭情報的崛起和發展[M].北京:國防工業出版社,2003:310-374.
[3]喬林.基于多關鍵詞檢索的企業競爭情報搜集方法研究[D].中國科學技術大學,2006.4.
[4]吳芳.基于本體的跨語言全文檢索模型的研究[D].北京郵電大學,2005.5.
[5]郭華庚,趙英.跨語言信息檢索研究與應用[J].現代情報,2008,(9):142-145.
[6]馮沖,黃河燕,陳肇雄,等.基于字符層馬爾科夫模型的多語種識別[J].計算機科學,2006,(10):226-228.
[7]陳剛,陳莘萌.基于獨立分量分析的語種識別方法[J].計算機工程,2006,(12):17-19.
[8]王昊.基于跨語言信息檢索的數字圖書館系統模型[J].情報科學,2005,(10):1573-1578.
[9]張素芳.國外跨語言信息檢索中的翻譯歧義性問題研究綜述[J].圖書館學研究,2006,(6):72-75.
[10]黃德才,戚華春.PageRank算法研究[J].計算機工程,2006,(2):145-146.
[11]金學惠,劉細文.國內外典型競爭情報系統軟件功能的差異性分析[J].情報雜志,2009,(9):102-106.