999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)分析方法及其在情報(bào)研究中的適用性

2022-12-19 00:54:48薛麗惠
科學(xué)與信息化 2022年21期
關(guān)鍵詞:數(shù)據(jù)挖掘語(yǔ)言分析

薛麗惠

中國(guó)電子科技集團(tuán)公司第十研究所 四川 成都 610036

引言

大數(shù)據(jù)分析的服務(wù)目標(biāo)是“深入發(fā)現(xiàn)、分析、引導(dǎo)行動(dòng)”,包括由多項(xiàng)工作構(gòu)成的高重復(fù)性的工作。為了確保數(shù)據(jù)的準(zhǔn)確,通常要將各種分析方法和軟件工具相結(jié),以此使其能夠幫助工作人員更好地分析和處理海量數(shù)據(jù),提高數(shù)據(jù)分析的速度,并且從海量數(shù)據(jù)中獲取有用的信息。同時(shí),運(yùn)用大量的分析技術(shù)與軟件手段,可以提高大數(shù)據(jù)分析的精確性。然而,在大數(shù)據(jù)分析的同時(shí),也要充分考慮到大數(shù)據(jù)的應(yīng)用,使其能夠更符合大數(shù)據(jù)的分析結(jié)論,進(jìn)而凸顯其整體的實(shí)際運(yùn)用價(jià)值。

1 大數(shù)據(jù)分析的方法分類(lèi)

對(duì)于目前的大數(shù)據(jù)分析方法,學(xué)者的看法也不盡相同。對(duì)這些大數(shù)據(jù)的分析,可以分為3大類(lèi)。從面向數(shù)據(jù)的角度、面向流程的角度和面向信息技術(shù)的角度進(jìn)行分類(lèi)。

1.1 數(shù)據(jù)視角下大數(shù)據(jù)分析

數(shù)據(jù)視角下的大數(shù)據(jù)分析方法的分類(lèi),主要是以數(shù)據(jù)處理的對(duì)象“數(shù)據(jù)”為基礎(chǔ),將大數(shù)據(jù)的類(lèi)型、數(shù)據(jù)的總量、處理數(shù)據(jù)的方式等方面進(jìn)行歸類(lèi)。

1.2 流程視角下大數(shù)據(jù)分析

以過(guò)程為導(dǎo)向的大數(shù)據(jù)分析方法,主要是根據(jù)大數(shù)據(jù)分析的過(guò)程,將其歸類(lèi)為一種較為系統(tǒng)化的方法。

1.3 信息技術(shù)視角下大數(shù)據(jù)分析

從信息技術(shù)角度看,大數(shù)據(jù)的分類(lèi)主要集中于與大數(shù)據(jù)相關(guān)的新信息技術(shù)。以大數(shù)據(jù)處理體系結(jié)構(gòu)、計(jì)算模式和系統(tǒng)為基礎(chǔ),對(duì)大數(shù)據(jù)進(jìn)行分類(lèi)整合。

2 大數(shù)據(jù)分析方法在情報(bào)研究中的適用性

2.1 可直接移植方法

可直接移植方法顧名思義,就是直接將數(shù)據(jù)分析的方法、原理、算法等,直接用于情報(bào)的研究。利用大數(shù)據(jù)技術(shù),實(shí)現(xiàn)對(duì)信息資源的直接加工,解決在信息研究中所面臨的有關(guān)問(wèn)題[1]。由于數(shù)據(jù)分析有很多種方式,比如數(shù)據(jù)挖掘,觀點(diǎn)挖掘,文本挖掘,多元統(tǒng)計(jì)分析,時(shí)間序列分析,多源數(shù)據(jù)融合,這些都是可以直接用于情報(bào)分析。就像前面提到的觀點(diǎn)挖掘、文本挖掘、多元統(tǒng)計(jì)分析、時(shí)間序列分析、多源數(shù)據(jù)融合等,都可以直接應(yīng)用于情報(bào)領(lǐng)域。

2.1.1 數(shù)據(jù)挖掘與文本挖掘在情報(bào)研究中的應(yīng)用。從字面意義上來(lái)說(shuō),數(shù)據(jù)挖掘和文字挖掘是2個(gè)截然不同的概念,因此它們采用了不同的發(fā)現(xiàn)技術(shù)。文本挖掘是一種利用計(jì)算機(jī)語(yǔ)言和統(tǒng)計(jì)學(xué)的方法來(lái)揭示文本中的詞匯和句法特點(diǎn)。而數(shù)據(jù)挖掘是利用計(jì)算機(jī)數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)作為數(shù)據(jù)挖掘的基礎(chǔ),通過(guò)對(duì)大量數(shù)據(jù)進(jìn)行挖掘,從而發(fā)現(xiàn)數(shù)據(jù)中可能存在的各種數(shù)據(jù)類(lèi)型以及數(shù)據(jù)間的相關(guān)性。

2.1.2 多元統(tǒng)計(jì)分析與時(shí)間序列分析。多元統(tǒng)計(jì)分析與時(shí)間序列分析在目前的大數(shù)據(jù)分析和情報(bào)研究中,是一種比較常用的定量分析手段。這兩種大數(shù)據(jù)的分析方法的區(qū)別是:多元統(tǒng)計(jì)分析是指兩個(gè)或更多的要素之間的相互依存和共同發(fā)展。時(shí)間序列分析是基于隨機(jī)過(guò)程和數(shù)理統(tǒng)計(jì)的方法,對(duì)大數(shù)據(jù)時(shí)代下的動(dòng)態(tài)數(shù)據(jù)序列進(jìn)行了研究。

這兩種方法都有一個(gè)共同的特征,即從歷史資料的變動(dòng)角度,客觀地評(píng)估某一事件的發(fā)展?fàn)顩r,或?qū)δ骋皇录陌l(fā)展做出理性、客觀的評(píng)估。

2.1.3 多源數(shù)據(jù)融合方法。多源數(shù)據(jù)融合方法與上述的大數(shù)據(jù)分析方法相比,是一種針對(duì)大數(shù)據(jù)環(huán)境中的異質(zhì)數(shù)據(jù)進(jìn)行綜合處理的一種新方法,更類(lèi)似于基于大數(shù)據(jù)的分析[2]。多源數(shù)據(jù)融合方法在智能領(lǐng)域的應(yīng)用,還需要借助多種技術(shù)、軟件手段,通過(guò)多方面的協(xié)作,實(shí)現(xiàn)對(duì)海量信息的綜合分析。其內(nèi)容主要有:同型異源信息、異質(zhì)信息、多語(yǔ)種信息的數(shù)據(jù)分析。多源數(shù)據(jù)融合,其數(shù)據(jù)分析的難度遠(yuǎn)超以往的大數(shù)據(jù)分析,因?yàn)槎嘣磾?shù)據(jù)的收集、整理、分析、判斷等過(guò)程,都會(huì)影響到數(shù)據(jù)的分析。

2.2 移植方法

2.2.1 大數(shù)據(jù)環(huán)境中可用于數(shù)據(jù)處理和分析方法。目前的大數(shù)據(jù)時(shí)代,數(shù)據(jù)量呈爆炸性增長(zhǎng),但由于缺乏一個(gè)統(tǒng)一的標(biāo)準(zhǔn),這將直接導(dǎo)致大量的數(shù)據(jù)質(zhì)量出現(xiàn)低效性,進(jìn)而將嚴(yán)重影響大數(shù)據(jù)的分析效果,進(jìn)而導(dǎo)致數(shù)據(jù)的準(zhǔn)確性和可信度下降。為了獲得高質(zhì)量的資料,將需要對(duì)現(xiàn)有資料進(jìn)行綜合分析,以取得更好的資料。這一數(shù)據(jù)的篩選主要是數(shù)據(jù)差錯(cuò)的自動(dòng)檢測(cè)和修復(fù)、數(shù)據(jù)處理和分析,這些方法能夠更好地提升處理數(shù)據(jù)的一致性、完整性、準(zhǔn)確性和時(shí)效性[3]。對(duì)于大數(shù)據(jù)分析應(yīng)用于情報(bào)領(lǐng)域的應(yīng)用,其關(guān)鍵在于收集到的信息資料,并對(duì)其進(jìn)行質(zhì)量控制。而大數(shù)據(jù)分析在情報(bào)應(yīng)用中的應(yīng)用,對(duì)情報(bào)材料的質(zhì)量有著舉足輕重的作用,如果在大數(shù)據(jù)分析中發(fā)現(xiàn)了不完全或不準(zhǔn)確的信息,那么得到的情報(bào)就會(huì)有誤差,從而導(dǎo)致情報(bào)不夠準(zhǔn)確、信息不全等問(wèn)題。雖然資料的質(zhì)量由使用者決定,但若能將資料處理與分析的方式引入,將資料的不一致、遺漏、重復(fù)等問(wèn)題,將會(huì)提升資料的準(zhǔn)確率,并將其應(yīng)用于情報(bào)研究。

2.2.2 時(shí)空數(shù)據(jù)分析。時(shí)空數(shù)據(jù)分析是對(duì)地理信息科學(xué)進(jìn)行的一種研究,包括天氣預(yù)報(bào)、環(huán)境監(jiān)測(cè)、GIS、城市交通網(wǎng)絡(luò)管理等。這種分析方法在情報(bào)學(xué)中的應(yīng)用,很大程度上依賴(lài)于其所搜集資料的可信度。

2.3 不適用的方法

2.3.1 翻譯生物信息學(xué)分析。在大數(shù)據(jù)分析中,翻譯生物信息學(xué)分析需要更高的數(shù)據(jù)采集精度,它是一種在特殊情況下綜合大量數(shù)據(jù)資源和高效地使用生物信息的方法。同時(shí),生物翻譯分析也能很好地解釋人和疾病的關(guān)系。從宏觀上來(lái)說(shuō),利用生物信息學(xué)進(jìn)行數(shù)據(jù)分析,可以發(fā)現(xiàn)基因與疾病之間的聯(lián)系,并通過(guò)對(duì)生物信息學(xué)的分析,將其應(yīng)用到分子層次,甚至是整個(gè)人類(lèi),從而為人類(lèi)的疾病提供更多的參考。

2.3.2 學(xué)習(xí)分析方法。學(xué)習(xí)分析法是一種通過(guò)數(shù)據(jù)收集、數(shù)據(jù)分析和評(píng)價(jià)學(xué)習(xí)者的分析手段,它的終極目標(biāo)是了解和優(yōu)化學(xué)習(xí)環(huán)境以及學(xué)習(xí)者所處的學(xué)習(xí)環(huán)境。根據(jù)UNESCO IITE公司的數(shù)據(jù)分析,可以根據(jù)數(shù)據(jù)挖掘的結(jié)果進(jìn)行分析,包括行為分析、關(guān)聯(lián)分析和影響因子分析。盡管資料搜集是一種常用的信息處理方式,但是學(xué)習(xí)分析法的最終目的是對(duì)學(xué)習(xí)者所處的環(huán)境進(jìn)行闡釋?zhuān)瑸槔蠋熀凸芾碚咛峁Q策依據(jù),以逐步培養(yǎng)學(xué)生的學(xué)習(xí)習(xí)慣和提高學(xué)習(xí)效率。但由于它具有特殊的意義和適用場(chǎng)合,脫離了學(xué)習(xí)情境,它就會(huì)發(fā)生改變,因此其將很難移植到智能研究中去。

3 大數(shù)據(jù)分析的常見(jiàn)方法

3.1 流程視角下的大數(shù)據(jù)分析

從流程角度看,大數(shù)據(jù)分析是一種嚴(yán)格遵循大數(shù)據(jù)分析流程的方法,從流程角度看,因?yàn)閿?shù)據(jù)分析是按照一定的程序進(jìn)行的,所以,整個(gè)分析過(guò)程具有較高的有序性,而且每個(gè)環(huán)節(jié)都是緊密相連的。從總體上講,大數(shù)據(jù)分析可以分成5個(gè)步驟,每個(gè)步驟都要選擇最適合的算法。①數(shù)據(jù)分析的第一步,也就是數(shù)據(jù)的來(lái)源和獲得,收集數(shù)據(jù)的時(shí)候,要從各種可以感知到的工具中提取有用的信息[4],這些信息都與時(shí)間、空間具有緊密聯(lián)系。②對(duì)數(shù)據(jù)進(jìn)行清理與提取,即從不同類(lèi)型的數(shù)據(jù)中提取有用的信息,并把它們轉(zhuǎn)換成結(jié)構(gòu)化的形式。③數(shù)據(jù)集成。在此過(guò)程中,將數(shù)據(jù)的結(jié)構(gòu)轉(zhuǎn)換成可閱讀或自動(dòng)分析的形式。④則是對(duì)數(shù)據(jù)的解析,在對(duì)這些數(shù)據(jù)進(jìn)行分析的時(shí)候,首先要找到這些數(shù)據(jù)之間的關(guān)系和規(guī)則,然后再?gòu)倪@些數(shù)據(jù)中挖掘出更多的信息。⑤對(duì)數(shù)據(jù)的解釋?zhuān)簿褪前褦?shù)據(jù)轉(zhuǎn)換成一種便于讀者理解的格式,使其結(jié)果更直觀。從過(guò)程角度看,數(shù)據(jù)分析的核心技術(shù)包括神經(jīng)網(wǎng)絡(luò)、回歸分析、分類(lèi)、機(jī)器學(xué)習(xí)、網(wǎng)絡(luò)分析、語(yǔ)言分析等。

3.2 信息技術(shù)視角下的大數(shù)據(jù)分析

從信息技術(shù)的角度看,大數(shù)據(jù)的分析主要是利用各種新信息技術(shù)對(duì)其進(jìn)行分析。其中數(shù)據(jù)處理的基本框架是數(shù)據(jù)整合、抽取、數(shù)據(jù)分析、數(shù)據(jù)解釋等。在數(shù)據(jù)的整合與提取上,有4種方法:聯(lián)邦數(shù)據(jù)庫(kù)、物化、搜索引擎、數(shù)據(jù)流4種。在進(jìn)行數(shù)據(jù)分析時(shí),一般都是利用傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)機(jī)來(lái)進(jìn)行,但由于其無(wú)法對(duì)大量的數(shù)據(jù)進(jìn)行分析,因此將需要對(duì)數(shù)據(jù)進(jìn)行調(diào)整,而在此類(lèi)操作下將直接限制數(shù)據(jù)的應(yīng)用。同時(shí),在數(shù)據(jù)的解讀中,還可以利用交互的數(shù)據(jù)分析和可視化技術(shù),使用戶能夠更深層度上了解信息數(shù)據(jù)。在非關(guān)聯(lián)資料的處理中,資料分析采用多維度的觀點(diǎn),可以直接地對(duì)資料進(jìn)行分析。

3.3 數(shù)據(jù)視角下的大數(shù)據(jù)分析

數(shù)據(jù)角度的數(shù)據(jù)分析,主要是基于數(shù)據(jù)的數(shù)據(jù)分析,從數(shù)據(jù)的總量、類(lèi)型、數(shù)據(jù)的處理方式等方面進(jìn)行分類(lèi)。從數(shù)據(jù)分析的特定角度出發(fā),可以把大數(shù)據(jù)分為回顧性數(shù)據(jù)分析、標(biāo)準(zhǔn)化數(shù)據(jù)分析和預(yù)測(cè)數(shù)據(jù)分析3種類(lèi)型。在回顧性的資料分析中,其研究的重點(diǎn)在于對(duì)資料的研究。而在預(yù)測(cè)性數(shù)據(jù)的分析中,則是以歷史資料為基礎(chǔ),通過(guò)模擬的方法來(lái)進(jìn)行預(yù)測(cè)。而標(biāo)準(zhǔn)化數(shù)據(jù)分析則是指對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行分析,以引發(fā)事件。除此之外,還可以根據(jù)其他的方法來(lái)進(jìn)行分類(lèi)。

4 大數(shù)據(jù)分析在情報(bào)研究中的未來(lái)發(fā)展趨勢(shì)

4.1 情報(bào)語(yǔ)言發(fā)展走向交融化

情報(bào)語(yǔ)言的整合包含了許多方面的內(nèi)容,隨著5G的廣泛應(yīng)用和智能社會(huì)的發(fā)展,首先,信息檢索將在國(guó)防、國(guó)家安全、高科技、商業(yè)和公共安全等領(lǐng)域發(fā)揮越來(lái)越突出的作用,競(jìng)爭(zhēng)情報(bào)非常寶貴。其次,情報(bào)語(yǔ)言中的分類(lèi)檢索語(yǔ)言、詞語(yǔ)檢索語(yǔ)言、代碼檢索語(yǔ)言、引文檢索語(yǔ)言和復(fù)合檢索語(yǔ)言將變得更加詳細(xì)、準(zhǔn)確、完整和綜合。不僅涉及分類(lèi)法、主題方法、分類(lèi)法和主題方法之間的轉(zhuǎn)換和兼容,還涉及自然語(yǔ)言和受控語(yǔ)言的整合。識(shí)別各種信息資源的敘詞表、顯示概念之間的關(guān)系以及規(guī)范主題詞概念的術(shù)語(yǔ)將動(dòng)態(tài)更新。提供構(gòu)建各種媒體信息資源的結(jié)構(gòu)化方法將更具適用性和易用性,并不斷推動(dòng)信息語(yǔ)言朝著整合和傳播的方向發(fā)展。

4.2 情報(bào)語(yǔ)言發(fā)展走向?qū)I(yè)化

在科技語(yǔ)境下就要求情報(bào)信息更加的專(zhuān)業(yè)化,提高專(zhuān)業(yè)化就需要智能圖書(shū)館配備更加專(zhuān)業(yè)的知識(shí)。為了幫助不同領(lǐng)域的讀者找到相關(guān)知識(shí),在信息檢索詞庫(kù)中,應(yīng)包換更多專(zhuān)業(yè)信息語(yǔ)言。例如,醫(yī)學(xué)專(zhuān)業(yè)的讀者想要搜索“阿爾茲海默癥”相關(guān)內(nèi)容,如果搜索詞條輸入為“阿爾茲海默癥”、“老年癡呆”,找到的結(jié)果將十分有限。從專(zhuān)業(yè)的角度分析,阿爾茲海默癥是一種神經(jīng)系統(tǒng)退行性疾病,如果僅僅以“阿爾茲海默癥”進(jìn)行搜索,得到的內(nèi)容不夠全面,了解到的知識(shí)也會(huì)大打折扣。這就要求智能圖書(shū)館在幫助讀者搜索時(shí)注意聯(lián)想詞條的推送。由于檢索學(xué)科還涉及信息檢索的專(zhuān)業(yè)術(shù)語(yǔ),即族檢索和特征檢索,因此信息語(yǔ)言的構(gòu)建應(yīng)考慮更好的族分類(lèi)語(yǔ)言和具有更好特征的主題語(yǔ)言。專(zhuān)業(yè)化的推進(jìn)反映了在科學(xué)技術(shù)背景下,學(xué)科、專(zhuān)業(yè)和產(chǎn)業(yè)之間的分工越來(lái)越細(xì)。信息檢索必須深入分析,全面準(zhǔn)確地分類(lèi)。信息語(yǔ)言的使用只能與學(xué)科、專(zhuān)業(yè)和行業(yè)等術(shù)語(yǔ)相關(guān)聯(lián)[5]。

5 結(jié)束語(yǔ)

在大數(shù)據(jù)時(shí)代,數(shù)據(jù)呈現(xiàn)出爆炸性的發(fā)展態(tài)勢(shì),要使數(shù)據(jù)得到最優(yōu)化,就需要運(yùn)用大數(shù)據(jù)的分析手段。本文對(duì)大數(shù)據(jù)的分析方法進(jìn)行了歸納和總結(jié),從可直接移植、可調(diào)整后移植、不適合于智能研究、需要進(jìn)一步加強(qiáng)等4個(gè)角度,對(duì)大數(shù)據(jù)分析技術(shù)在智能領(lǐng)域的適用性進(jìn)行了探討。同時(shí),還從大數(shù)據(jù)的分析方法和應(yīng)用于情報(bào)領(lǐng)域的應(yīng)用著手,切實(shí)預(yù)判未來(lái)數(shù)據(jù)分析的發(fā)展趨勢(shì)。

猜你喜歡
數(shù)據(jù)挖掘語(yǔ)言分析
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
隱蔽失效適航要求符合性驗(yàn)證分析
語(yǔ)言是刀
文苑(2020年4期)2020-05-30 12:35:30
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
讓語(yǔ)言描寫(xiě)搖曳多姿
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
我有我語(yǔ)言
主站蜘蛛池模板: 国产91无毒不卡在线观看| 国产一级二级三级毛片| 国产乱子伦手机在线| 久久中文字幕2021精品| 欧美激情第一区| 成人夜夜嗨| 99在线国产| 国产亚洲欧美日韩在线观看一区二区| 国产精品久久久久久久伊一| 国产97区一区二区三区无码| 国产在线观看91精品亚瑟| 国产欧美日韩另类精彩视频| 国产福利微拍精品一区二区| 玖玖精品在线| 一本一本大道香蕉久在线播放| 超清无码一区二区三区| 国产精品免费电影| 凹凸精品免费精品视频| 国产区福利小视频在线观看尤物| 日韩av在线直播| 91亚洲精选| 中文无码伦av中文字幕| 亚洲看片网| 欧美在线三级| 国产精品区视频中文字幕| 综合久久五月天| 国产69精品久久久久孕妇大杂乱 | 无码中文字幕精品推荐| 久久久久久尹人网香蕉 | 日韩成人在线一区二区| 精品国产免费观看一区| 91精品福利自产拍在线观看| 国产精品免费露脸视频| 精品久久久久成人码免费动漫| 婷婷六月激情综合一区| 亚洲男女天堂| a级毛片免费播放| 亚洲日韩久久综合中文字幕| 亚洲AV一二三区无码AV蜜桃| 亚洲精品高清视频| 国产成人盗摄精品| 亚洲综合婷婷激情| 久久性视频| 亚洲婷婷丁香| 91亚洲精选| 亚洲中文字幕av无码区| 啪啪国产视频| 亚洲第一色网站| www成人国产在线观看网站| 色综合中文综合网| 少妇高潮惨叫久久久久久| 国产日韩丝袜一二三区| 亚洲无码精品在线播放| 久久久久久久97| 欧美成人午夜影院| 任我操在线视频| 国产专区综合另类日韩一区| 久久a毛片| 人人艹人人爽| 国产呦精品一区二区三区下载| 98超碰在线观看| 亚洲精选高清无码| 欧美日韩久久综合| 日韩欧美国产综合| 国产亚洲欧美日韩在线一区| 久久99热66这里只有精品一| 国产性生大片免费观看性欧美| 国产色网站| 国产欧美日韩资源在线观看| 久久精品视频亚洲| 中字无码av在线电影| 欧美国产综合视频| 四虎国产成人免费观看| 中文字幕亚洲专区第19页| 日韩国产黄色网站| 国产精品区网红主播在线观看| 欧美中文字幕一区| 九九热精品在线视频| 999精品视频在线| 91福利免费视频| 国产精品网址你懂的| 中文字幕av一区二区三区欲色|