文本挖掘技術(shù)：夢(mèng)想照進(jìn)現(xiàn)實(shí)

2008-01-01 00:00:00陳飔

軟件工程 2008年3期

對(duì)于企業(yè)競(jìng)爭(zhēng)情報(bào)工作而言，有幾個(gè)我們并不愿意接受，但卻基本正確的判斷：信息如潮水般涌來(lái)，相關(guān)信息的監(jiān)測(cè)和搜集都已超出了人的手工操作能力，更不要說(shuō)分析抽取有價(jià)值的情報(bào)了；信息并不是情報(bào)，信息、數(shù)據(jù)只是能夠從中提取情報(bào)的原料，或者叫礦石。

在這個(gè)信息泛濫的時(shí)代，這些情報(bào)礦石的品位并不很高，我們擁有的提煉技術(shù)還很初級(jí)；情報(bào)是信息、數(shù)據(jù)背后的含義，獲得情報(bào)的關(guān)鍵是理解和判斷能力。在這一點(diǎn)上來(lái)看。我們現(xiàn)在擁有的強(qiáng)大的技術(shù)能力卻顯得有些無(wú)能為力；數(shù)據(jù)表明，一個(gè)企業(yè)或組織80％的信息是以文本的形式存放的，包括WEB頁(yè)面、技術(shù)文檔、電子郵件等。

由于信息技術(shù)還沒有賦予對(duì)文本的閱讀和分析能力，而由于文本數(shù)量的飛速增長(zhǎng)和經(jīng)常改變，人們已經(jīng)沒有足夠的時(shí)間和精力處理數(shù)量巨大的文本，而這又是組織存在和運(yùn)轉(zhuǎn)所必需的。

競(jìng)爭(zhēng)情報(bào)存在于事實(shí)、事件、關(guān)系、變化之中，競(jìng)爭(zhēng)情報(bào)工作就是需要監(jiān)測(cè)和采集這些事實(shí)、事件、關(guān)系、變化的信息，并分析它們自身以及對(duì)于所關(guān)心事物的意義。這就意味著我們需要監(jiān)測(cè)和搜集的信息可能會(huì)非常廣泛，就如同美國(guó)在國(guó)家競(jìng)爭(zhēng)中投入巨資監(jiān)聽全球所有國(guó)家?guī)缀跻磺型ㄓ嵅ǘ我粯印Ｗ鳛橐粋€(gè)企業(yè)和組織不可能有這樣的能力對(duì)競(jìng)爭(zhēng)環(huán)境和競(jìng)爭(zhēng)對(duì)手進(jìn)行全面的信息監(jiān)測(cè)和搜集。作為一種現(xiàn)實(shí)可行的替代方案，企業(yè)或組織可以進(jìn)行媒體和文獻(xiàn)文檔信息的監(jiān)測(cè)和搜集。

面對(duì)浩如煙海的文本信息，如何幫助人們有效地收集和選擇所感興趣的信息，如何幫助用戶在日益增多的信息中自動(dòng)發(fā)現(xiàn)新的概念，并自動(dòng)分析它們之間的關(guān)系，使之能夠真正做到信息處理的自動(dòng)化，這已經(jīng)成為信息技術(shù)領(lǐng)域的熱點(diǎn)問(wèn)題。我們已經(jīng)可以對(duì)結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行很好的分析和處理，真正的困難在于非結(jié)構(gòu)化的信息，也就是我們通常說(shuō)的文本信息。人們迫切需要能夠從大量文本文檔中快速、有效地發(fā)現(xiàn)有用資源和知識(shí)的方法和工具。在這種強(qiáng)烈需求的驅(qū)動(dòng)之下。文本挖掘技術(shù)被催生了。

在討論文本挖掘技術(shù)之前，我們先要討論一下結(jié)構(gòu)化信息的挖掘問(wèn)題。結(jié)構(gòu)化數(shù)據(jù)我們已經(jīng)建立了有效的分析和處理方法，計(jì)算機(jī)可以很好地進(jìn)行處理。為什么呢?因?yàn)槲覀兛梢愿嬖V計(jì)算機(jī)這些數(shù)據(jù)之間的邏輯關(guān)系和尋找各種關(guān)系的模型。而對(duì)于非結(jié)構(gòu)化的數(shù)據(jù)——自然語(yǔ)言文本，我們還不能做到這一點(diǎn)。這是因?yàn)槲覀儗?duì)于結(jié)構(gòu)化數(shù)據(jù)已經(jīng)可以“操作性”地描述它們的關(guān)系和模式。比如加、減、比例、對(duì)數(shù)、微分等等。

文本挖掘技術(shù)的發(fā)展

文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知識(shí)，并且利用這些知識(shí)更好地組織信息的過(guò)程。文本挖掘是信息挖掘的一個(gè)應(yīng)用研究分支。用于基于文本信息的知識(shí)發(fā)現(xiàn)。

文本挖掘利用智能算法，如神經(jīng)網(wǎng)絡(luò)、基于案例的推理、可能性推理等，并結(jié)合文字處理技術(shù)，分析大量的非結(jié)構(gòu)化文本源(如文檔、電子表格、客戶電子郵件、問(wèn)題查詢、網(wǎng)頁(yè)等)，抽取或標(biāo)記關(guān)鍵字概念、文字間的關(guān)系，并按照內(nèi)容對(duì)文檔進(jìn)行分類，獲取有用的知識(shí)和信息。文本挖掘技術(shù)涉及多種科學(xué)學(xué)科，涵蓋了多種技術(shù)。包括數(shù)據(jù)挖掘技術(shù)、信息抽取、信息檢索、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算語(yǔ)言學(xué)、統(tǒng)計(jì)數(shù)據(jù)分析、線性幾何、概率理論甚至還有圖論。

文本挖掘?qū)嶋H上就是利用計(jì)算機(jī)的高速度和海量處理能力，來(lái)幫助人們處理文本信息。怎樣幫助人來(lái)處理文本信息呢?這還要從人如何利用文本信息談起。

我們知道，人們需要信息是要理解信息所代表的含義。在這一點(diǎn)上計(jì)算機(jī)理解自然語(yǔ)言的能力還非常有限，幾乎幫不了人的什么忙。只有人“規(guī)定”一個(gè)符號(hào)序列等同于什么，并且用什么樣的形式去表達(dá)(如數(shù)字、文字、圖像、音頻序列)。除此之外，計(jì)算機(jī)什么也不“想”，也不會(huì)“想”。說(shuō)穿了，在弄清楚人的思維的奧秘之前，我們恐怕還沒有辦法讓計(jì)算機(jī)具有思維能力，哪怕是很初級(jí)的。

因此。計(jì)算機(jī)目前能夠解決的還是符號(hào)序列和符號(hào)序列之間的關(guān)系，比如發(fā)現(xiàn)兩個(gè)文本文件中出現(xiàn)了相同的符號(hào)序列，一篇文獻(xiàn)中同一個(gè)符號(hào)序列出現(xiàn)了多少次等。可以說(shuō)，目前文本挖掘的本質(zhì)還是統(tǒng)計(jì)的和結(jié)構(gòu)的分析技術(shù)，遠(yuǎn)遠(yuǎn)還沒有達(dá)到語(yǔ)義的層次。即便是基于樣本的學(xué)習(xí)訓(xùn)練方法和神經(jīng)網(wǎng)絡(luò)等人工智能方法，都是如此。從目前文本挖掘技術(shù)的研究和應(yīng)用狀況來(lái)看，從語(yǔ)義的角度來(lái)實(shí)現(xiàn)文本挖掘的還沒有看到，目前研究和應(yīng)用最多的幾種文本挖掘技術(shù)包括文檔聚類、文檔分類和摘要抽取。

文檔聚類、分類和文摘

文檔聚類就是通過(guò)對(duì)文檔的字詞和結(jié)構(gòu)特征進(jìn)行分析，用來(lái)發(fā)現(xiàn)與某種文檔相似的一批文檔，幫助知識(shí)工作者發(fā)現(xiàn)相關(guān)知識(shí)。聚類方法通常有：層次聚類法、平面劃分法、簡(jiǎn)單貝葉斯聚類法、K-最近鄰參照聚類法、分級(jí)聚類法、基于概念的文本聚類等。

文檔聚類常常用于將一批文檔聚類成若干個(gè)類，提供一種文檔分析方法和組織文檔庫(kù)的方法。聚類分析可以用來(lái)發(fā)現(xiàn)文檔特征生成文檔分類器，以對(duì)文檔進(jìn)行分類。

文本挖掘中的聚類分析可用于提供大規(guī)模文檔庫(kù)內(nèi)容的總括，判斷文檔之間的相似程度。在搜索引擎服務(wù)中，用來(lái)減輕瀏覽相關(guān)、相似信息。文檔分類和聚類是不同的，區(qū)別在于分類是基于已有的分類體系表的，分類表是通常由人工指定，是進(jìn)行了語(yǔ)義處理的。一般比較準(zhǔn)確、科學(xué)地反映了某一個(gè)領(lǐng)域的劃分情況，所以在信息系統(tǒng)中使用分類的方法，能夠讓用戶手工遍歷一個(gè)等級(jí)分類體系來(lái)找到自己需要的信息，達(dá)到發(fā)現(xiàn)知識(shí)的目的，這對(duì)于用戶剛開始接觸一個(gè)領(lǐng)域想了解其中的情況，或者用戶不能夠準(zhǔn)確地表達(dá)自己的信息需求時(shí)特別有用。

而聚類分析則沒有這樣的分類表，只是基于文檔之間的相似度。并且僅僅在聚類分析的前提下生成的分類還需要人工賦予語(yǔ)義解釋。也就是說(shuō)，機(jī)器聚類篩選出來(lái)的特征可能是人無(wú)法理解的。

文檔自動(dòng)分類一般采用統(tǒng)計(jì)方法或機(jī)器學(xué)習(xí)來(lái)實(shí)現(xiàn)。常用的方法有：簡(jiǎn)單貝葉斯分類法、矩陣變換法、K-最近鄰參照分類算法以及支持向量分類機(jī)等。自動(dòng)文摘是由于互聯(lián)網(wǎng)上的文本信息、機(jī)構(gòu)內(nèi)部的文檔及數(shù)據(jù)庫(kù)的內(nèi)容都在成指數(shù)級(jí)的速度增長(zhǎng)，用戶在檢索信息的時(shí)候，可以得到成千上萬(wàn)篇的返回結(jié)果，其中許多是與其信息需求無(wú)關(guān)或關(guān)系不大的，如果要剔除這些文檔，則必須閱讀完全文，這要求用戶付出很多勞動(dòng)，而且效果不好。

自動(dòng)文摘能夠生成簡(jiǎn)短的關(guān)于文檔內(nèi)容的指示性信息。將文檔的主要內(nèi)容呈現(xiàn)給用戶，以決定是否要閱讀文檔的原文，這樣能夠節(jié)省大量的瀏覽時(shí)間。自動(dòng)文摘就是利用計(jì)算機(jī)自動(dòng)地從原始文檔中提取全面準(zhǔn)確地反映該文檔中心內(nèi)容的簡(jiǎn)單連貫的短文。

最簡(jiǎn)單的自動(dòng)文摘方法就是截取文章頭部有限數(shù)量的文字，生成文檔的文摘。一般來(lái)說(shuō)要求自動(dòng)文摘應(yīng)能將原文的主題思想或中心內(nèi)容自動(dòng)提取出來(lái)，文摘文字應(yīng)具有概況性、客觀性、可理解性和可讀性。

按照生成文摘的句子來(lái)源，自動(dòng)文摘方法可以分成兩類，一類是完全使用原文中的句子來(lái)生成文摘；另一類是可以自動(dòng)生成句子來(lái)表達(dá)文檔的內(nèi)容。后者的功能更強(qiáng)大，但在實(shí)現(xiàn)的時(shí)候，自動(dòng)生成句子是一個(gè)比較復(fù)雜的問(wèn)題，經(jīng)常出現(xiàn)產(chǎn)生的新句子不能被理解的情況，因此目前大多用的是抽取生成法。

文本挖掘現(xiàn)實(shí)與應(yīng)用前景

從文檔挖掘的現(xiàn)實(shí)來(lái)看，雖然距離語(yǔ)義層次的理解和知識(shí)挖掘的理想還很遙遠(yuǎn)。但是已經(jīng)在文本搜索、剔出重復(fù)、文檔聚類分析、自動(dòng)分類和文摘方面取得了實(shí)用的效果。其實(shí)，我們每天使用的搜索引擎技術(shù)中就已廣泛地應(yīng)用到了文本挖掘技術(shù)。

信息化的社會(huì)、商業(yè)環(huán)境和組織內(nèi)部每天都在產(chǎn)生海量的文檔信息，而人們已經(jīng)沒有足夠的精力和時(shí)間去處理這些文本信息，因此，文檔信息的自動(dòng)化處理已經(jīng)是刻不容緩的商業(yè)需求。文本挖掘技術(shù)及其相關(guān)的文檔自動(dòng)化處理技術(shù)具有非常廣泛的應(yīng)用前景和商業(yè)價(jià)值。

如果從情報(bào)搜集和分析的角度來(lái)看，文本挖掘技術(shù)已經(jīng)在為我們的情報(bào)搜集活動(dòng)提供支持，特別是網(wǎng)絡(luò)情報(bào)收集方面。可以預(yù)期，隨著網(wǎng)絡(luò)文獻(xiàn)量的海量增長(zhǎng)，搜索、相似性判別、剔除重復(fù)、聚類和分類、文摘和管理，各類文本處理和信息挖掘技術(shù)將被更加廣泛地應(yīng)用到情報(bào)搜集和管理之中。

很多文本挖掘技術(shù)的應(yīng)用是一般用戶幾乎感覺不到的。從情報(bào)分析的角度看，核心工作還是要靠人來(lái)進(jìn)行，但是大量的預(yù)處理、整序和信息統(tǒng)計(jì)特征分析則可以由文本挖掘及其相關(guān)技術(shù)來(lái)進(jìn)行。隨著語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展和大規(guī)模語(yǔ)料語(yǔ)義研究的進(jìn)展，文本挖掘技術(shù)可能會(huì)給我們的情報(bào)分析和判斷帶來(lái)巨大的便利，甚至?xí)霈F(xiàn)一些基于語(yǔ)料的文本分析工具，這些工具可能會(huì)處理文檔中語(yǔ)詞之間的關(guān)系。

關(guān)于文本挖掘技術(shù)的現(xiàn)實(shí)應(yīng)用和期望，有兩點(diǎn)需要特別指出：首先，不要企望短時(shí)間內(nèi)對(duì)文本挖掘技術(shù)在語(yǔ)義層面有很大的突破，因而不要對(duì)其理解力和智能化有過(guò)高的奢望。特別是在短時(shí)間內(nèi)，理解、想象和含義判斷依然是人類的專利和專長(zhǎng)。其次，文本挖掘技術(shù)已經(jīng)在為我們帶來(lái)便利和效率——如搜索引擎中的剔除重復(fù)和自動(dòng)文摘。不要奢望文本挖掘很快越過(guò)語(yǔ)義鴻溝，也不要因?yàn)檎Z(yǔ)義鴻溝的存在而看不到其重要的應(yīng)用意義和巨大的商業(yè)價(jià)值。

軟件工程2008年3期

軟件工程的其它文章: 會(huì)議記錄; 系統(tǒng)集成行業(yè)的藍(lán)海戰(zhàn)略（下）; 新創(chuàng)企業(yè)的危機(jī)管理（上）; ＩＴ企業(yè)的危機(jī)公關(guān); 構(gòu)建生命化網(wǎng)絡(luò)社會(huì)的新任務(wù); 我的咖啡情結(jié)