王 玻,彭 偉
(廣西大學商學院,廣西南寧 530004)
隨現代化企業的發展,服務行業已成為我國的重要支柱產業,但服務業的發展大而不強,廣而不精,重而不輕[1],存在眾多不足之處,單指服務行業問題就層出不窮,如:各類物流、電商、生產、質檢等不良事件的出現,顯示出服務行業的管理及運營與其發展速度不匹配。服務經濟時代的到來,各類問題層出不窮給企業管理者帶來挑戰,同時也給大量從事診斷和咨詢的從業人員帶來機遇和挑戰。由于服務行業及部分制造業服務化的趨勢加快,在專家在進行財務、戰略、人力等方面的診斷過程中,由于信息來源的多樣性、數據結構的復雜性等原因,更難提取有效信息。
由于診斷專家更擅長的是對企業面臨的狀況進行分析,而對于數據收集及處理顯得優勢相對不足。另外,服務行業的大量數據未得到充分的利用,未為服務企業管理者提供決策依據,導致大量數據浪費,并且增加了數據存儲成本。那么如何針對海量的數據信息進行深層次的獲取和分析,并有效地為診斷專家和管理人員提供有價值的信息?王嵩[2]認為數據挖掘是一種從海量數據中獲取有用信息的技術。因此,專家在企業診斷的過程中借助數據挖掘工具處理海量數據,達到為企業診斷專家提供診斷依據的目的。
本文借助數據挖掘技術來采集和分析數據,并構建出服務企業診斷情報智能采集模型并介紹模型中各部件功能、實現途徑及主要方法。
服務企業不同于服務業,王燕[3]從在服務中以提供服務并盈利為目的的企業及制造行業中具備服務性質的企業兩個角度來定義服務型企業。汪飛燕等[4]認為服務企業指提供服務性產品的企業,并以提供服務為主營業務。張玨[5]、王麗霞[6]認為服務企業指從事現行營業稅“服務業”科目規定的經營活動的企業。此外,曾大林等[7]認為制造企業向服務企業轉型已然成為一種趨勢。目前隨著制造型企業的轉型,服務企業的規模也在逐漸擴大。
綜上,從狹義角度來講,服務企業主要指從事服務行業的企業,通常所說的第三產業便包含其中;從廣義的角度來講,在上述基礎上還包括第一第二產業中提供服務性質的企業。本文研究中的服務企業主要指后者。
企業診斷源于中醫治病救人“望”“聞”“問”“切”的基本理念,后來研究學者將其引用至企業的經營管理過程中,對企業的故障進行診斷,由此形成企業診斷。企業診斷依然遵循著治病開藥方的理念,只是研究主體由人轉變為企業,對企業管理者的診斷只是成為其中一部分。
企業診斷的發展歷程較短,最早源于日本,發展壯大于美國。目前比較廣泛的企業診斷基本流程如圖1所示,其中核心環節主要有四個,即企業調研、診斷分析、診斷方案生成及方案實施階段。診斷專家在接受企業的診斷請求之后對企業進行調研,進而收集診斷數據,根據施診需求及數據基礎后確立施診點進行診斷分析,形成診斷方案,然后與受診企業管理者進行交互,對診斷策略進行商榷、修正和實施。
目前企業診斷主要是基于專家知識系統的診斷,并且將診斷的重點集中于診斷技法及施診點的研究。同時,診斷主題主要集中于戰略診斷[8]、組織及人力資源診斷[9]、財務診斷[10]、經營策略及成果診斷、文化診斷[11]、技術設備診斷等多方面。
服務型企業的診斷情報(Diagnostic Information,簡稱DI)是指企業在診斷過程中,從企業的信息流動過程中獲取、評估與辨識、深入獲取、分析與加工等一系列過程中獲取有用并且應用于企業診斷的信息。而服務企業診斷情報的獲取更加注重服務企業的數據特征,即具有存儲結構化數據的基礎條件。
關于服務企業的診斷情報數據主要類型主要包括企業數據庫中的經營數據、財務數據報表、績效考核報銷以及企業的薪酬數據等結構性數據以及調研數據、行業數據、訪談數據、歷史診斷數據、服務補救數據等半結構化數據。在診斷信息識別的過程中,主要依據診斷主題在企業數據庫中提取,根據診斷主題的關鍵屬性字段進行檢索提取,同時提取存儲在計算機內的半結構化數據等。
相對而言,很多專家在一定程度上忽視企業診斷的信息收集,并且信息收集主要以調研、訪談及企業內部的資料為依據,缺乏智能性特點。雖然企業診斷主要以專家知識為核心基礎,但是針對具體的企業進行診斷時,其核心基礎還應包括準確、快速、全面、智能化地信息收集。目前的企業診斷情報的采集方面,通過企業信息管理系統這些較有力的信息收集工具來自動或輔助企業診斷專家來收集相關的診斷情報,同時根據診斷要求,對收集的情報信息進行簡單的篩選和分析處理。然而,現有的軟件系統尚且不能完全滿足企業診斷的分析需求,通過建立完善和新型的企業診斷情報采集的理論和軟件是十分重要的。因此,通過比較來了解企業診斷主題現狀及診斷情報收集模式,詳見表1。

圖1 企業診斷基本流程

表1 企業診斷現狀及診斷情報收集模式比較分析
綜上,各診斷主題的診斷方法具有很強的針對性,在診斷情報的獲取層面也有較強的針對性,其情報獲取方式以企業的內部數據為主。雖然在診斷方法及診斷情報的獲取已較為成熟,但總體上,整個企業診斷過程中的情報采集模式未做到智能化收集,所以目前企業診斷的情報獲取模式整體上存在一些不足,總結分析如下。
1.3.1 缺乏通過技術手段全面整合診斷情報資源
對具體的診斷主題的診斷信息收集渠道及資源獲取平臺的整合程度較低。對于具體的診斷領域,信息源是多樣化的,如何最大限度地整合各種信息源、提高信息的查全率,對獲取全面的情報至關重要[12]。另外,專家在收集情報時,由于專家診斷的施診點及獲取情報的渠道來源不同,其收集情報的導向性不同;此外,借助不同信息搜集軟件,軟件所支持的情報源有所不同,主要體現在數據的結構及其語義等的不同。由于專家的診斷施診點、施診導向、情報獲取渠道的區別,總體上體現對診斷情報的整合力度不足。
1.3.2 重點強調企業診斷技法及施診點的研究,忽視企業診斷信息收集
目前診斷專家主要將研究重點放置于受診企業施診點的確定并判斷其是否發生動態轉移,以及施診點轉移后如何進行診斷的問題研究。并且在研究過程中逐漸注重將定性分析法與定量分析法結合起來形成一種半定量的診斷方法。在半定量的診斷技法中,關于數據收集方面,也主要以專家的施診點為導向,借助訪談及問卷調查的數據進行。雖然使用了一定的信息情報搜集工具,但缺乏智能性和自動化收集;另外,通過使用半定量診斷技法時,尤其在使用專家打分的數據進行分析時,專家的打分存在主觀偏好性,并不能完全保證打分的客觀性,最終導致診斷評價存在主觀偏好性。
1.3.3 診斷信息收集結果質量較差以及診斷實施效果與預期較差
主要表現在診斷情報的收集層面,信息收集上存在表層化、間斷性及重復性。現階段服務企業的診斷情報主要通過借助專家開發的測量量表、專家打分表、企業內部資源平臺提供的基礎數據、借助搜索引擎等檢索工具檢索網絡上的信息等方式來獲取,雖然在信息收集階段做到基本的自動化收集和分析,但是其數據分析很多是進行簡單的分析。此外,由于檢索搜索結果存在重復、間斷、漸層次分析、存在主觀偏好甚至虛假信息等特征,故最終會導致施診效果較預期差。
1.3.4 診斷情報采集過程缺乏協同性以及數據結構缺乏一致性
一方面,企業診斷情報獲取過程中缺乏協同性主要表現在診斷情報的收集與數據分析兩環節的分離,通常是專家收集后,規定診斷主題的診斷指標,而后進行情報數據分析,其中尤其缺乏數據的自動化分析過程。另一方面,診斷的數據結構缺乏一致性主要表現在用于診斷的數據來源于訪/約談數據、專家打分數據、問卷調查數據及搜索引擎自動收集的數據等多個渠道,尤其是搜索引擎自動獲取的數據信息量大且結構多維,與訪談數據及專家打分數據有明顯的結構差別。此外,通過搜索引擎獲取的數據缺乏專一性,最終導致數據信息質量較差。故為后續的診斷情報分析帶來了非常大的困難,造成情報的收集與分析斷裂。
1.3.5 診斷情報的收集缺乏智能性
在信息處理方面,部分服務企業的資源平臺僅僅將收集到的信息簡單整理后,交予診斷專家進行人工分析和經驗判斷,存在較多不確定因素,導致診斷的結果隨機性較大。王偉[13]認為部分信息資源平臺雖可以利用統計分析方法進行處理,但卻是較淺層次分析,并未將其轉化為情報,更無法獲取潛在的情報。宋新平等[14]、何艷寧[15]認為服務企業數據資源平臺雖可以對結構化數據實現自動篩選和去重,但對半結構化、非結構化、異構分布式數據還不能進行有效的加工,種種因素將最終導致診斷情報信息處理的困難,影響診斷分析的準確性。
1.3.6 對服務型企業的大數據基礎資源利用不足
目前服務企業對互聯網的使用力度逐漸增加,由于事務性大數據主要是在顧客在消費的過程中產生的[16],在服務企業中服務的重要性越來越凸顯以及企業提供的交易平臺日益增多,由此導致企業的事務性大數據劇增。大數據的發展為企業帶來絕大的挑戰和前所未有的機遇[17]。一方面,由于大數據的3V特征(Volume、Velocity、Variety)[18],為數據特征分析提出很大挑戰;另一方面,由于數據的2V特性(Veracity、Value)為企業做出更好的商業決策提供潛在價值[19]。學者對大數據所具有的特性進行整合,提出大數據的容量、多樣、準確、迅速等屬性特征[20-21],但缺乏對大數據的價值開發,由于學者將數據分為結構化和非結構化兩大類,而進行企業診斷時對大數據資源的利用能力有限,導致診斷專家忽視對大數據的挖掘利用。
數據挖掘是數據庫知識發現(Knowledge Discovery in Databases,KDD)中的一個重要步驟[22-23],主要借助分類、聚類、回歸、關聯、序列、神經網絡等技術來挖掘隱藏于數據庫及網頁中有用信息的過程[24]。
數據挖掘主要是將來自統計、數據庫、機器學習及可視化等不同領域的方法和技術結合起來進行挖掘有用信息的整體過程,并通過統計、聯機分析處理、機器學習、專家系統和模式識別等方法實現上述目標[25]。唐濤等[12]認為數據挖掘是從大量的、不完整的、模糊、隨機的數據中挖掘有用信息的過程。因此,數據挖掘包含了多種技術,主要有信息管理、數據倉庫、人工智能等技術。
根據服務型企業診斷的情報收集流程,現結合實際情況構建服務企業診斷情報智能采集模型,模型主要包括外部情報資源、內部情報資源兩個核心部分。其中內部情報資源模塊主要包括情報數據來源、情報的收集、數據的預處理、情報數據的智能采集、形成內部情報資源數據庫等五部分;外部情報資源模塊主要包括互聯網、診斷策略管理模塊、網絡抓取模塊、模式識別模塊、特征識別模塊及形成的企業外部資源情報數據庫等6個模塊。最終由外部資源情報數據庫與內部資源情報數據庫共同構成企業診斷情報數據庫,如圖2所示。
2.3.1 企業內部資源情報數據庫
(1)內部信息來源。企業內部數據來源主要從財務數據庫、人事數據庫、歷史診斷資料、客戶信息數據庫、服務補救數據庫等數據,這些數據主要用來分析和診斷企業自身的戰略及其發展情況。
(2)診斷信息收集。用于企業診斷的信息的收集來源包括3個部分,即數據庫檢索、網絡檢索及文本檢索。對數據庫檢索主要通過數據庫查詢語言自動收集相關數據;網絡檢索及文本檢索分別指通過借助網絡搜索引擎進行檢索,以及利用文本檢索工具進行主題檢索或內容檢索。
(3)數據預處理。孔欽等[26]認為從數據庫等渠道檢索而來的數據中很大一部分是“臟數據”,包括一些重復、缺失、噪聲、不一致數據等。在網頁和文本中檢索的數據很大程度上存在重復、過期及主題不相關等缺陷,均需要進行數據預處理。此外,獲取的數據有時會存在敏感因素,則需進行數據脫敏處理,促使其達到數據挖掘的基礎條件。數據預處理的方法有數據清洗、集成、聚類等。
(4)數據智能采集。智能采集是將數據化信息轉化為有用的情報知識的重要步驟之一,胡勁松等[27]認為對于支持多數據源及多知識模式的診斷數據智能采集模型,對不同的數據源采用不同的數據挖掘引擎進行有針對性地挖掘數據。本文診斷數據智能采集模型主要利用數據庫和數據倉庫挖掘引擎、Web挖掘引擎、OLAP引擎、語義分析引擎來實現深度信息采集。對數據的智能采集形成的挖掘模式進行評估,最終構成服務企業的診斷情報知識庫,企業直接從構建的知識庫中獲取利于企業決策和診斷的數據。根據智能采集的方式將數據歸集,為企業故障診斷提供分析和決策依據。

圖2 服務企業診斷情報智能采集模型
2.3.2 企業外部資源情報數據庫
在構建外部診斷情報數據庫之前,構建診斷策略管理模塊。該模塊主要對診斷主題及診斷策略進行限定,以便更準確地從互聯網中進行爬取數據,使獲取數據更有針對性和準確性。
(1)互聯網。服務企業外部情報資源主要來自互聯網以及市場的研究機構,但對絕大多數的服務性企業來說,主要通過挖掘互聯網渠道來獲得,其中主要包括行業組織網站、競爭對手網站、互聯網網頁、企業供應商等渠道。
(2)網絡抓取模塊。借助網絡爬蟲工具網頁中進行爬取數據。借助Scrapy抓取框架快速高層次的跨屏幕抓取網絡上數據,同時從頁面中抓取結構化數據[28-29]。此外,李遠龍[30]認為也可將Scrapy用于數據挖掘和監測并提供Web爬蟲的支持,利用Scrapy框架在網頁中進行數據抓取。在整個診斷情報智能采集的系統中構建Scrapy的接口,利用其高層次的跨屏幕抓取Web數據資源的特性,利用基于Python的Scrapy技術框架實現在網站中進行數據抓取,然后根據診斷主題的需要,通過數據挖掘對抓取的數據進行關聯算法分析。在構建網絡爬取接口的過程中,接口不局限于Scrapy網絡爬取工具,根據實際需要增加和改進。
(3)模式識別模塊。在模式識別的過程中,信息爬取是基礎,在信息網絡爬取的基礎上,根據診斷策略管理模塊的模式配置要求,對爬取互聯網數據的結構及模式進行識別,按照信息閾提取出有效的信息,并將各種數據及現象轉化為計算機能夠識別和計算的符號,同時存儲到計算機系統中。其中,在將信息轉化為計算機可識別的符號時,鍋艷玲等[31]認為這個轉化過程將不可避免地受到外界噪聲的影響,導致信息變形或失真。此時,需要對數據信息進行預處理,鍋艷玲等[31]、蔣盛益等[32]認為通過濾波技術、數據清洗等手段可有效去除外界干擾和噪聲,加強有用信息,使存入的信息更清晰,從而提取和選擇特征,并通知特征識別模塊進行信息處理。經典的模式識別系統如圖3所示。

圖3 經典的模式識別系統[33]
在整個模式識別系統中,重點是對特征的提取和選擇,由于模式識別的目的主要是對爬取數據進行降維處理,同時獲取與診斷主題有關的情報信息,主要通過算法來實現。本文中主要采取聚類的方法進行特征選擇[34-37],其主要步驟如下:
對爬取的數據轉化成計算機可識別和運算的數據集,將數據集定義為D,假設數據集D具有m個屬性(mC為分類,mN為連續數值特征),其中D第i個屬性特征。為了方便數據處理,將分類屬性放在連續數值特征之前,同時對各個數值屬性特征進行標準化定義:
1)對于一個集群C和一個特征屬性值a∈Di,a在集群C中的頻率定義為:
SupC|Di(a)=|{object|object∈C,object,Di=a}|
2)集群C的摘要信息CSI(Cluster Summary Information)定義為CSI={kind,n,Summary},其中kind為集群的類型,值為“normal”或“attack”,n是集群的大小(n=|C|),Summary由分類屬性特征中不同取值的頻率信息和數值屬性的質心給出,并且滿足
Summary={
3)對于數據集D的子數據集群C,使p={pi|i∈[1,m]},q={qi|i∈[1,m]},滿足:
①對象p和q在Di上的距離(差)定義為dif(pi,qi),其中對于分類特征而言滿足下列公式:


②對象p與q之間的距離定義為:
③p與集群C之間的距離定義為:

④在簇C1與C2之間的距離定義:


上述定義描述不同特征在不同類別之間的分別計算模式,通過聚類的方式來進行特征選擇,通過網絡爬取所構成的集群簇進行分類,然后根據各類別簇之間的差異性來度量特征的重要性,進而進行特征選擇,根據上述的定義,實現算法的基本步驟如下:
①聚類:隨機選擇聚類的閾值,使用聚類算法對數據集D進行聚類,在進行聚類之前通過隨機算法進行確定每個簇的類別,得到帶類別的聚類,即C={C1,C2,…,Ck};
②計算每個特征Di上任何一個簇到其他簇之間的區分度;
③分類匯總上步驟中得到的每個特征Di在不同類別之間的區分度的平均值;
④計算每個特征Di在不同類別之間的區分度的總的平均值Meani,進一步計算每個特征上不同類別之間平均區分度的最大值Maxi、最小值Mini;
⑤計算每個特征Di在不同類別上的區分度;



(4)特征識別模塊。由于網絡爬取的數據信息數量巨大,而這些數據對于反映同一信息并不都是同等重要的。需按照診斷策略管理模塊的管理配置要求,對模式識別模塊處理后信息按照信息閾進行篩選和過濾,去除非情報信息和與診斷主題無關的情報信息,保留診斷主題相關的信息。為有效地進行診斷情報的模式識別,必須提取出最能反應情報本質的特征,即特征的提取和選擇。特征識別主要是指所選擇的測量指標,其對于一般變形和失真可以保持不變,并且很少包含冗余信息,鍋艷玲[31]認為這些信息可以用一系列特征來表示,在輸入的每條信息由一組特征表示之后,根據已建立的原理和方法組織這些特征集以形成特征集。
特征識別是在模式識別的基礎上進行的,因此進行特征識別和提取后,通過設置算法及關鍵性指標的方法來提取與診斷主題契合的特征,形成一組特征。同時借助算法,將該特征與形成的特征集進行匹配運算,最終,按相關度由高到低輸出,即形成上述的文檔T,實現較為完整的情報挖掘,并構成企業診斷外部情報數據庫,供企業決策者及診斷專家使用。
(5)診斷策略管理模塊。根據企業診斷訴求,結合診斷主題對進行數據挖掘時是爬取策略、模式設置及情報特征配置等進行整體把控和系統化管理。其中數據挖掘模塊主要根據互聯網提供的信息資源進行抓取,逐步進行模式識別與特征識別。
在診斷策略管理模塊中對診斷主題進行設定,即設置診斷主題為M,主題所涉及到的關鍵詞為Ki(i=1,2,3,4,…,n),關鍵詞Ki的字符長度為li(i=1,2,3,…,n)。關鍵詞Ki在特征集合所構成的文檔T中出現的頻率為fi(i=1,2,3,…,n),文檔T的字符數位L。同時規定關鍵詞Ki的權重為wi,并滿足公式(1),同時定義文檔T與所述診斷主題M的相關度為公式(2)。
(1)
(2)
通過診斷策略管理模塊的進一步限定,對模式識別和特征識別的內容進一步使其更有針對性,并找到與診斷主題高度契合的情報信息,促進服務企業外部診斷情報信息的利用率。
(6)企業外部資源情報數據庫。通過網絡爬蟲工具從互聯網中獲取數據,在診斷主題/管理策略的限定下進行數據的模式識別與特征識別,通過數據挖掘處理后,共同形成企業外部資源情報數據庫。在構建的情報數據庫中提供檢索的接口,主要包括:自動摘要模塊、自動分類模塊及搜索引擎模塊三部分。在整個外部情報數據庫中對情報主題摘要、種類分類及搜索引擎模塊對數據進行精細化管理,同時還提供瀏覽檢索的接口供診斷專家進行篩選、查詢和下載功能。
綜上,由企業內部資源情報數據庫與外部資源情報數據庫共同構成企業診斷情報數據資源庫,為診斷專家提供企業診斷的數據支持。
智能采集方法主要分為兩部分,在外部情報資源獲取方面的智能采集方法主要由網絡爬蟲工具、模式識別算法、特征識別算法及簡單的搜索引擎工具等構成;而企業內部情報資源獲取的智能采集方法較為復雜,主要借助數據倉庫技術、聯機事務處理、聚類分析算法及關聯規則等方法等.
2.4.1 數據倉庫技術
向海華[38]認為數據庫技術主要研究數據的存儲和管理。常用的數據庫技術以事務處理為核心,在目前的業務操作平臺中,無法提供數據的分析、組合等功能。由于其具備數據存儲和管理的功能,在數據開發和提取的過程必須遵循一定的關聯規則。數據倉庫是一種數據存儲和組織技術,用于更好地利用數據庫數據并提高分析決策的效率和有效性,它是為構建新的分析處理環境而生成的。在新的分析處理環境中,將分析型處理數據與操作型處理數據分離,并且從事務處理環境中提取分析數據,并根據決策支持系統處理的需要重新組織。數據倉庫技術是一個系統概念,主要包括數據挖掘和基于數據庫的知識提取。趙瑛[39]認為數據倉庫不是一種現成的軟件或硬件產品, 而應該稱之為一種解決方案。在數據庫技術基礎上,以串通的關系數據庫和并行分布處理技術為基礎,進行數據的提取和分析,其目的主要是對企業中存在的原始數據進行處理和轉換,從而達到有效利用數據的目的,通過分析這些信息做出策略性的決策。
服務企業診斷情報智能采集系統的構建中,數據收集和分析是核心環節,通過數據倉庫技術進行處理信息,有利于提高數據的利用效率,達到提升診斷效果。
2.4.2 聯機分析處理
由于在實際診斷的過程中,以企業內部的數據資源為主,并結合市場的行業數據,而企業內部的數據從企業的信息管理系統及數據庫中獲取,因此,智能采集的數據主要以結構化數據為主,并結合半結構化數據來綜合診斷。基于此,系統模型采用聯機分析處理技術來處理數據庫中的結構化數據。
E.F.Codd等[40]認為聯機分析處理(On-line Analytical Processing,OLAP)是將多維數據庫和多維分析相結合,用于共享多維數據,針對特定問題快速在線訪問數據及可視化的軟件技術。作為一種多維數據分析的軟件技術,目前在企業領域和數據庫研究領域內得到深入研究和廣泛應用。聯機分析處理技術處理數據時,數據以關系表的形式為用戶提供資源共享,通過資源共享滿足在多維數據環境下特定的查詢和報表需求。每個維度所涉及的元素與考察的度量指標所構成的多維數據組便是OLAP分析的基礎。
聯機分析處理技術的核心是“多維”的概念,多維分析通過多維形式進行鉆孔、切片、切割和旋轉數據等各種操作,以便分析數據,使用戶可以從多個角度和多個側面進行觀察,從而深刻理解數據中包含的信息[41]。鉆取是改變維度的級別,轉換分析粒度,包括向上和向下兩個方向進行鉆取。向上鉆取是將低層次數據匯總到特定維度的高級摘要數據,或者減少維度數量;而向下鉆取則相反,它從摘要數據到詳細數據,以觀察或添加新維度。 在選擇維度子集上的值之后,切片和切塊涉及度量數據在剩余維度上的分布。如果只剩下兩個維度,則需要切片處理;如果在降維過程后還剩下3個或更多,則需要進行切塊處理。旋轉或轉置處理則是對維的方向進行轉變,即在表格中重新安排維的放置。
OLAP有多種實現方法。根據數據存儲方式,可分為關聯聯機分析處理(Relational OLAP,ROLAP),多維聯機分析處理(Multidimensional OLAP,MOLAP)和混合聯機分析處理(Hybrid OLAP,HOLAP)。ROLAP基于關系數據庫,通過關系結構表示、存儲和分析多維結構數據。多維聯機分析處理主要以多維數據結構模式為核心,利用多維數組存儲數據,在存儲中形成“立方體”結構模式,多維在線分析處理其存儲結構的旋轉、切割和切片的核心技術。混合聯機分析處理表示基于混合數據組織的OLAP實現,例如低級關系和高級多維矩陣結構[31]。
通過OLAP將多維數據降維,將其轉化為報表形式或可在數據庫中進行查詢,達到準確分析和使用多維數據的目的,最終利用數據作為診斷依據或幫助企業家做出合理決策。
數據挖掘是一種高度智能化和自動化的信息分析與知識發現的方法與技術。研究通過闡述當前服務企業的診斷現狀及診斷情報收集模式,由此歸納出企業診斷情報收集的弊端,基于此,構建一個企業診斷情報智能采集的模型,診斷情報智能采集模型將數據挖掘、數據倉庫、OLAP等技術應用于智能采集的全過程,模式識別與特征識別主要應用在網絡數據的爬取與挖掘過程中。充分借助數據挖掘工具從海量信息中獲取有用信息的優勢,來實現企業診斷情報的智能化采集,促進企業診斷過程中的情報收集與診斷分析的一體化與協同化。通過將數據挖掘技術、數據倉庫技術、模式識別與特征識別應用在企業診斷的信息采集方面,將是企業診斷的智能性的有效途徑,也將是企業診斷智能化與人機一體化診斷的重要發展方向。
未來關于企業診斷情報的智能化采集研究可以從診斷情報采集模型和算法兩個角度進行,根據實際研究和診斷需要,診斷情報智能采集的模型及系統構建過程中還可以融入更多的實際要求或約束,建立起滿足實際診斷需要的綜合型的診斷情報智能采集新模型。在算法方面,需要進一步進行大量的理論分析、算法優化和實踐驗證,可通過計算機模擬與仿真來進行驗證算法的有效性和魯棒性等綜合性能。通過多種算法的結合,構建二階段算法甚至多階段算法,綜合考慮各種因素進行優化組合,做到準確地對數據模式和特征進行識別,挖掘出有助于企業診斷的情報信息,同時對于算法的融合及有關參數設置需要進行深入研究。因此,企業診斷的智能化發展還有需要進一步深化研究。