999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本挖掘技術(shù):夢(mèng)想照進(jìn)現(xiàn)實(shí)

2008-01-01 00:00:00
軟件工程 2008年3期

對(duì)于企業(yè)競(jìng)爭(zhēng)情報(bào)工作而言,有幾個(gè)我們并不愿意接受,但卻基本正確的判斷:信息如潮水般涌來(lái),相關(guān)信息的監(jiān)測(cè)和搜集都已超出了人的手工操作能力,更不要說(shuō)分析抽取有價(jià)值的情報(bào)了;信息并不是情報(bào),信息、數(shù)據(jù)只是能夠從中提取情報(bào)的原料,或者叫礦石。

在這個(gè)信息泛濫的時(shí)代,這些情報(bào)礦石的品位并不很高,我們擁有的提煉技術(shù)還很初級(jí);情報(bào)是信息、數(shù)據(jù)背后的含義,獲得情報(bào)的關(guān)鍵是理解和判斷能力。在這一點(diǎn)上來(lái)看。我們現(xiàn)在擁有的強(qiáng)大的技術(shù)能力卻顯得有些無(wú)能為力;數(shù)據(jù)表明,一個(gè)企業(yè)或組織80%的信息是以文本的形式存放的,包括WEB頁(yè)面、技術(shù)文檔、電子郵件等。

由于信息技術(shù)還沒有賦予對(duì)文本的閱讀和分析能力,而由于文本數(shù)量的飛速增長(zhǎng)和經(jīng)常改變,人們已經(jīng)沒有足夠的時(shí)間和精力處理數(shù)量巨大的文本,而這又是組織存在和運(yùn)轉(zhuǎn)所必需的。

競(jìng)爭(zhēng)情報(bào)存在于事實(shí)、事件、關(guān)系、變化之中,競(jìng)爭(zhēng)情報(bào)工作就是需要監(jiān)測(cè)和采集這些事實(shí)、事件、關(guān)系、變化的信息,并分析它們自身以及對(duì)于所關(guān)心事物的意義。這就意味著我們需要監(jiān)測(cè)和搜集的信息可能會(huì)非常廣泛,就如同美國(guó)在國(guó)家競(jìng)爭(zhēng)中投入巨資監(jiān)聽全球所有國(guó)家?guī)缀跻磺型ㄓ嵅ǘ我粯印W鳛橐粋€(gè)企業(yè)和組織不可能有這樣的能力對(duì)競(jìng)爭(zhēng)環(huán)境和競(jìng)爭(zhēng)對(duì)手進(jìn)行全面的信息監(jiān)測(cè)和搜集。作為一種現(xiàn)實(shí)可行的替代方案,企業(yè)或組織可以進(jìn)行媒體和文獻(xiàn)文檔信息的監(jiān)測(cè)和搜集。

面對(duì)浩如煙海的文本信息,如何幫助人們有效地收集和選擇所感興趣的信息,如何幫助用戶在日益增多的信息中自動(dòng)發(fā)現(xiàn)新的概念,并自動(dòng)分析它們之間的關(guān)系,使之能夠真正做到信息處理的自動(dòng)化,這已經(jīng)成為信息技術(shù)領(lǐng)域的熱點(diǎn)問(wèn)題。我們已經(jīng)可以對(duì)結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行很好的分析和處理,真正的困難在于非結(jié)構(gòu)化的信息,也就是我們通常說(shuō)的文本信息。人們迫切需要能夠從大量文本文檔中快速、有效地發(fā)現(xiàn)有用資源和知識(shí)的方法和工具。在這種強(qiáng)烈需求的驅(qū)動(dòng)之下。文本挖掘技術(shù)被催生了。

在討論文本挖掘技術(shù)之前,我們先要討論一下結(jié)構(gòu)化信息的挖掘問(wèn)題。結(jié)構(gòu)化數(shù)據(jù)我們已經(jīng)建立了有效的分析和處理方法,計(jì)算機(jī)可以很好地進(jìn)行處理。為什么呢?因?yàn)槲覀兛梢愿嬖V計(jì)算機(jī)這些數(shù)據(jù)之間的邏輯關(guān)系和尋找各種關(guān)系的模型。而對(duì)于非結(jié)構(gòu)化的數(shù)據(jù)——自然語(yǔ)言文本,我們還不能做到這一點(diǎn)。這是因?yàn)槲覀儗?duì)于結(jié)構(gòu)化數(shù)據(jù)已經(jīng)可以“操作性”地描述它們的關(guān)系和模式。比如加、減、比例、對(duì)數(shù)、微分等等。

文本挖掘技術(shù)的發(fā)展

文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知識(shí),并且利用這些知識(shí)更好地組織信息的過(guò)程。文本挖掘是信息挖掘的一個(gè)應(yīng)用研究分支。用于基于文本信息的知識(shí)發(fā)現(xiàn)。

文本挖掘利用智能算法,如神經(jīng)網(wǎng)絡(luò)、基于案例的推理、可能性推理等,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源(如文檔、電子表格、客戶電子郵件、問(wèn)題查詢、網(wǎng)頁(yè)等),抽取或標(biāo)記關(guān)鍵字概念、文字間的關(guān)系,并按照內(nèi)容對(duì)文檔進(jìn)行分類,獲取有用的知識(shí)和信息。文本挖掘技術(shù)涉及多種科學(xué)學(xué)科,涵蓋了多種技術(shù)。包括數(shù)據(jù)挖掘技術(shù)、信息抽取、信息檢索、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算語(yǔ)言學(xué)、統(tǒng)計(jì)數(shù)據(jù)分析、線性幾何、概率理論甚至還有圖論。

文本挖掘?qū)嶋H上就是利用計(jì)算機(jī)的高速度和海量處理能力,來(lái)幫助人們處理文本信息。怎樣幫助人來(lái)處理文本信息呢?這還要從人如何利用文本信息談起。

我們知道,人們需要信息是要理解信息所代表的含義。在這一點(diǎn)上計(jì)算機(jī)理解自然語(yǔ)言的能力還非常有限,幾乎幫不了人的什么忙。只有人“規(guī)定”一個(gè)符號(hào)序列等同于什么,并且用什么樣的形式去表達(dá)(如數(shù)字、文字、圖像、音頻序列)。除此之外,計(jì)算機(jī)什么也不“想”,也不會(huì)“想”。說(shuō)穿了,在弄清楚人的思維的奧秘之前,我們恐怕還沒有辦法讓計(jì)算機(jī)具有思維能力,哪怕是很初級(jí)的。

因此。計(jì)算機(jī)目前能夠解決的還是符號(hào)序列和符號(hào)序列之間的關(guān)系,比如發(fā)現(xiàn)兩個(gè)文本文件中出現(xiàn)了相同的符號(hào)序列,一篇文獻(xiàn)中同一個(gè)符號(hào)序列出現(xiàn)了多少次等。可以說(shuō),目前文本挖掘的本質(zhì)還是統(tǒng)計(jì)的和結(jié)構(gòu)的分析技術(shù),遠(yuǎn)遠(yuǎn)還沒有達(dá)到語(yǔ)義的層次。即便是基于樣本的學(xué)習(xí)訓(xùn)練方法和神經(jīng)網(wǎng)絡(luò)等人工智能方法,都是如此。從目前文本挖掘技術(shù)的研究和應(yīng)用狀況來(lái)看,從語(yǔ)義的角度來(lái)實(shí)現(xiàn)文本挖掘的還沒有看到,目前研究和應(yīng)用最多的幾種文本挖掘技術(shù)包括文檔聚類、文檔分類和摘要抽取。

文檔聚類、分類和文摘

文檔聚類就是通過(guò)對(duì)文檔的字詞和結(jié)構(gòu)特征進(jìn)行分析,用來(lái)發(fā)現(xiàn)與某種文檔相似的一批文檔,幫助知識(shí)工作者發(fā)現(xiàn)相關(guān)知識(shí)。聚類方法通常有:層次聚類法、平面劃分法、簡(jiǎn)單貝葉斯聚類法、K-最近鄰參照聚類法、分級(jí)聚類法、基于概念的文本聚類等。

文檔聚類常常用于將一批文檔聚類成若干個(gè)類,提供一種文檔分析方法和組織文檔庫(kù)的方法。聚類分析可以用來(lái)發(fā)現(xiàn)文檔特征生成文檔分類器,以對(duì)文檔進(jìn)行分類。

文本挖掘中的聚類分析可用于提供大規(guī)模文檔庫(kù)內(nèi)容的總括,判斷文檔之間的相似程度。在搜索引擎服務(wù)中,用來(lái)減輕瀏覽相關(guān)、相似信息。文檔分類和聚類是不同的,區(qū)別在于分類是基于已有的分類體系表的,分類表是通常由人工指定,是進(jìn)行了語(yǔ)義處理的。一般比較準(zhǔn)確、科學(xué)地反映了某一個(gè)領(lǐng)域的劃分情況,所以在信息系統(tǒng)中使用分類的方法,能夠讓用戶手工遍歷一個(gè)等級(jí)分類體系來(lái)找到自己需要的信息,達(dá)到發(fā)現(xiàn)知識(shí)的目的,這對(duì)于用戶剛開始接觸一個(gè)領(lǐng)域想了解其中的情況,或者用戶不能夠準(zhǔn)確地表達(dá)自己的信息需求時(shí)特別有用。

而聚類分析則沒有這樣的分類表,只是基于文檔之間的相似度。并且僅僅在聚類分析的前提下生成的分類還需要人工賦予語(yǔ)義解釋。也就是說(shuō),機(jī)器聚類篩選出來(lái)的特征可能是人無(wú)法理解的。

文檔自動(dòng)分類一般采用統(tǒng)計(jì)方法或機(jī)器學(xué)習(xí)來(lái)實(shí)現(xiàn)。常用的方法有:簡(jiǎn)單貝葉斯分類法、矩陣變換法、K-最近鄰參照分類算法以及支持向量分類機(jī)等。自動(dòng)文摘是由于互聯(lián)網(wǎng)上的文本信息、機(jī)構(gòu)內(nèi)部的文檔及數(shù)據(jù)庫(kù)的內(nèi)容都在成指數(shù)級(jí)的速度增長(zhǎng),用戶在檢索信息的時(shí)候,可以得到成千上萬(wàn)篇的返回結(jié)果,其中許多是與其信息需求無(wú)關(guān)或關(guān)系不大的,如果要剔除這些文檔,則必須閱讀完全文,這要求用戶付出很多勞動(dòng),而且效果不好。

自動(dòng)文摘能夠生成簡(jiǎn)短的關(guān)于文檔內(nèi)容的指示性信息。將文檔的主要內(nèi)容呈現(xiàn)給用戶,以決定是否要閱讀文檔的原文,這樣能夠節(jié)省大量的瀏覽時(shí)間。自動(dòng)文摘就是利用計(jì)算機(jī)自動(dòng)地從原始文檔中提取全面準(zhǔn)確地反映該文檔中心內(nèi)容的簡(jiǎn)單連貫的短文。

最簡(jiǎn)單的自動(dòng)文摘方法就是截取文章頭部有限數(shù)量的文字,生成文檔的文摘。一般來(lái)說(shuō)要求自動(dòng)文摘應(yīng)能將原文的主題思想或中心內(nèi)容自動(dòng)提取出來(lái),文摘文字應(yīng)具有概況性、客觀性、可理解性和可讀性。

按照生成文摘的句子來(lái)源,自動(dòng)文摘方法可以分成兩類,一類是完全使用原文中的句子來(lái)生成文摘;另一類是可以自動(dòng)生成句子來(lái)表達(dá)文檔的內(nèi)容。后者的功能更強(qiáng)大,但在實(shí)現(xiàn)的時(shí)候,自動(dòng)生成句子是一個(gè)比較復(fù)雜的問(wèn)題,經(jīng)常出現(xiàn)產(chǎn)生的新句子不能被理解的情況,因此目前大多用的是抽取生成法。

文本挖掘現(xiàn)實(shí)與應(yīng)用前景

從文檔挖掘的現(xiàn)實(shí)來(lái)看,雖然距離語(yǔ)義層次的理解和知識(shí)挖掘的理想還很遙遠(yuǎn)。但是已經(jīng)在文本搜索、剔出重復(fù)、文檔聚類分析、自動(dòng)分類和文摘方面取得了實(shí)用的效果。其實(shí),我們每天使用的搜索引擎技術(shù)中就已廣泛地應(yīng)用到了文本挖掘技術(shù)。

信息化的社會(huì)、商業(yè)環(huán)境和組織內(nèi)部每天都在產(chǎn)生海量的文檔信息,而人們已經(jīng)沒有足夠的精力和時(shí)間去處理這些文本信息,因此,文檔信息的自動(dòng)化處理已經(jīng)是刻不容緩的商業(yè)需求。文本挖掘技術(shù)及其相關(guān)的文檔自動(dòng)化處理技術(shù)具有非常廣泛的應(yīng)用前景和商業(yè)價(jià)值。

如果從情報(bào)搜集和分析的角度來(lái)看,文本挖掘技術(shù)已經(jīng)在為我們的情報(bào)搜集活動(dòng)提供支持,特別是網(wǎng)絡(luò)情報(bào)收集方面。可以預(yù)期,隨著網(wǎng)絡(luò)文獻(xiàn)量的海量增長(zhǎng),搜索、相似性判別、剔除重復(fù)、聚類和分類、文摘和管理,各類文本處理和信息挖掘技術(shù)將被更加廣泛地應(yīng)用到情報(bào)搜集和管理之中。

很多文本挖掘技術(shù)的應(yīng)用是一般用戶幾乎感覺不到的。從情報(bào)分析的角度看,核心工作還是要靠人來(lái)進(jìn)行,但是大量的預(yù)處理、整序和信息統(tǒng)計(jì)特征分析則可以由文本挖掘及其相關(guān)技術(shù)來(lái)進(jìn)行。隨著語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展和大規(guī)模語(yǔ)料語(yǔ)義研究的進(jìn)展,文本挖掘技術(shù)可能會(huì)給我們的情報(bào)分析和判斷帶來(lái)巨大的便利,甚至?xí)霈F(xiàn)一些基于語(yǔ)料的文本分析工具,這些工具可能會(huì)處理文檔中語(yǔ)詞之間的關(guān)系。

關(guān)于文本挖掘技術(shù)的現(xiàn)實(shí)應(yīng)用和期望,有兩點(diǎn)需要特別指出:首先,不要企望短時(shí)間內(nèi)對(duì)文本挖掘技術(shù)在語(yǔ)義層面有很大的突破,因而不要對(duì)其理解力和智能化有過(guò)高的奢望。特別是在短時(shí)間內(nèi),理解、想象和含義判斷依然是人類的專利和專長(zhǎng)。其次,文本挖掘技術(shù)已經(jīng)在為我們帶來(lái)便利和效率——如搜索引擎中的剔除重復(fù)和自動(dòng)文摘。不要奢望文本挖掘很快越過(guò)語(yǔ)義鴻溝,也不要因?yàn)檎Z(yǔ)義鴻溝的存在而看不到其重要的應(yīng)用意義和巨大的商業(yè)價(jià)值。

主站蜘蛛池模板: 夜夜操狠狠操| 露脸一二三区国语对白| 激情综合五月网| 国产精品福利在线观看无码卡| 日韩第一页在线| 99re这里只有国产中文精品国产精品 | 99精品免费欧美成人小视频| 亚洲色欲色欲www在线观看| 97视频免费在线观看| 欧美在线天堂| 久热中文字幕在线| 国产成人精彩在线视频50| 国产超碰在线观看| 91人人妻人人做人人爽男同| 91麻豆国产在线| 亚洲性视频网站| 免费人成视网站在线不卡| 欧美a网站| 国产香蕉国产精品偷在线观看| 亚洲美女一区二区三区| 日韩在线欧美在线| 男女男精品视频| 亚洲成人福利网站| 亚洲 欧美 日韩综合一区| 亚洲成人黄色在线| 国产免费久久精品99re不卡 | 97青青青国产在线播放| 精品91自产拍在线| 四虎影视永久在线精品| 亚洲精品无码不卡在线播放| 无码有码中文字幕| 日本不卡视频在线| 欧美a级完整在线观看| 久久伊人操| 999国内精品视频免费| 伊人久久影视| 亚洲精品成人片在线观看 | 国产农村1级毛片| 国产在线精品99一区不卡| 国产丝袜第一页| 亚洲黄色网站视频| 一级爱做片免费观看久久| 在线无码九区| 亚洲色欲色欲www在线观看| 直接黄91麻豆网站| 亚洲精品免费网站| 午夜啪啪网| 五月激情综合网| 亚洲一级毛片免费看| 精品国产网| 热久久综合这里只有精品电影| 国产成人综合久久| 日韩专区第一页| 国产精品原创不卡在线| 亚洲国产精品美女| 在线观看无码a∨| 久久国产亚洲欧美日韩精品| 免费中文字幕在在线不卡| 无码高潮喷水专区久久| 色精品视频| igao国产精品| 日本黄色不卡视频| 色综合五月| 国产幂在线无码精品| 欧美综合在线观看| 亚洲精品国产综合99久久夜夜嗨| 久久青青草原亚洲av无码| 99久久精品视香蕉蕉| 国产国拍精品视频免费看| 欧美一级专区免费大片| 福利一区在线| yy6080理论大片一级久久| 三区在线视频| 国产欧美网站| 国产一区二区三区日韩精品| 成人字幕网视频在线观看| 国产免费a级片| 九月婷婷亚洲综合在线| 欧美成人综合在线| 久久香蕉国产线| 亚洲精品国产首次亮相| 中文一级毛片|