999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

復雜信息環(huán)境下多源數(shù)據(jù)情報價值發(fā)現(xiàn)研究*

2023-10-18 13:59:12鞠孜涵白如江馮夢瑩張亞輝辛曉夢
圖書與情報 2023年3期
關(guān)鍵詞:價值特征環(huán)境

鞠孜涵 白如江 馮夢瑩 張亞輝 辛曉夢

(1.山東理工大學信息管理研究院 山東淄博 255049)

隨著大數(shù)據(jù)、人工智能的迅猛發(fā)展,支撐科技情報決策的數(shù)據(jù)環(huán)境正發(fā)生著翻天覆地的變化。數(shù)據(jù)的來源、類型、規(guī)模、結(jié)構(gòu)、質(zhì)量等也由于信息技術(shù)的更新迭代發(fā)生重大變化,復雜信息環(huán)境下多源數(shù)據(jù)呈現(xiàn)相對“不穩(wěn)定狀態(tài)”[1]。地球上每天約產(chǎn)生5 億條推文、400 萬GB 的Facebook 數(shù)據(jù)[2]。諸如此類的多源異構(gòu)數(shù)據(jù)為情報研究提供了豐富的數(shù)據(jù)資源,為情報工作轉(zhuǎn)型帶來了新契機,但也使得情報工作陷入了“信息泥潭”“數(shù)據(jù)焦慮”中。

復雜信息環(huán)境下,多源數(shù)據(jù)的內(nèi)容涵蓋了政策、報告、規(guī)劃等,動態(tài)演變強,呈現(xiàn)出規(guī)模龐大、結(jié)構(gòu)異構(gòu)、語義復雜、數(shù)據(jù)不完備、粒度各異等特點[3]。在這些良莠不齊的多源數(shù)據(jù)網(wǎng)絡中,究竟有多少是情報任務需要的信息,如何及時有效地發(fā)現(xiàn)多源數(shù)據(jù)的情報價值,迫切需要有一個完整的情報價值發(fā)現(xiàn)體系去支撐和指導實踐。從而幫助情報人員從海量的數(shù)據(jù)中快速且準確地甄別出有情報價值的內(nèi)容,使情報工作在這個數(shù)據(jù)、信息過剩的復雜環(huán)境中,更加精準化、智能化的發(fā)展,發(fā)揮多源數(shù)據(jù)對情報決策支持的重大效果。

1 情報價值發(fā)現(xiàn)研究綜述

“價值”是指能滿足人類某種需要的屬性,而“情報價值”是指情報所具有的對人有用的屬性[4],即情報的獲取者接收該情報后,幫助其達到某一具體目標的有用性,是情報客觀屬性與用戶需求的耦合。對于情報價值發(fā)現(xiàn)來說,多源數(shù)據(jù)的客觀屬性與用戶的情報需求,二者缺一不可。在情報價值計算方面,由于情報在加工過程中投入的人力、物力等不能簡單分割,而且情報的利用具有一定的特殊性,并不方便計量,因此對于情報價值的判斷逐漸成為學界研究的焦點。

早期的情報價值發(fā)現(xiàn)研究以定性評價多源數(shù)據(jù)的外部特征指標為主。1991 年,Richmond 提出了最早的關(guān)于多源網(wǎng)絡信息情報價值評價的“10C 原則”,包括了內(nèi)容(content)、可信度(credibility)、連續(xù)性(continuity)等10 個定性指標[5]。1997 年,佐治亞大學的Oliver 等針對網(wǎng)絡數(shù)據(jù)的質(zhì)量問題,提出了經(jīng)典的“OASIS 評價體系”,包括客觀性(objective)、準確性(accurate)、數(shù)據(jù)來源(source)、信息量(information content)、范圍(range)5 個指標[6]。在后續(xù)的研究中,各種不同的定性指標也被陸續(xù)提出,如數(shù)據(jù)的格式、時效性、原創(chuàng)性、全面性等[7]。

隨著評價角度的不斷完善,研究者開始更加注重指標體系構(gòu)建的科學性與完備性。北約組織針對網(wǎng)絡開源情報,提出了準確性、權(quán)威性、時效性、客觀性和關(guān)聯(lián)性5 個方面的評價體系。鄒婧雅等結(jié)合上述方法,構(gòu)建了國際智庫開源情報的評價體系,從數(shù)據(jù)源和數(shù)據(jù)內(nèi)容兩個角度構(gòu)建評價體系,包括了數(shù)據(jù)的真實性、完整性、時效性、預測性、實踐性、反情報性、可理解性和可回溯性8 個要素[8]。情報價值的定性評價方法已經(jīng)趨于成熟,能從多種視角對評價對象進行相對全面和細致的分析,但是其主觀性強,分析結(jié)果的科學性和說服力有待提高,并且不能滿足自動化評價的需求。

定量的情報價值評估方法通過數(shù)量統(tǒng)計分析等,能有效排除一些主觀因素,使得評價結(jié)果更具可信度,是多源數(shù)據(jù)情報價值發(fā)現(xiàn)的重要發(fā)展方向。早在1996 年“鏈接(sitation)”[9]一詞被首次提出,用來描述網(wǎng)站之間相互鏈接的行為,就為后續(xù)的定量評價提供了思想指導。基于網(wǎng)絡鏈接分析的方法也在實踐中取得了巨大成功,如Page 等提出的PageRank算法[10],作為主流的網(wǎng)頁重要性排序方法,也被拓展到數(shù)據(jù)的情報價值評估研究中。后續(xù),D-S 證據(jù)理論、AHP 層次分析法、Bayesian 網(wǎng)絡和模糊評價等也被應用于數(shù)據(jù)的情報價值評估[11]。但是定量評價方法只能通過數(shù)量統(tǒng)計結(jié)果進行通用性的評價,無法對多源數(shù)據(jù)進行深層次的利用。

由于定性和定量評價方法都有各自的局限性,所以出現(xiàn)了將二者結(jié)合起來的綜合性評價方法,評價的角度也從數(shù)據(jù)外部特征深入到文本內(nèi)容維度,從而達到相對完整的評價結(jié)果。在具體實踐中,中科院文獻情報中心發(fā)布的《情報重要度的指標體系和計算方法》[12]報告中提出了情報類型、情報來源、情報主題、主題相關(guān)度和科技相關(guān)度5 個一級指標,并細化成31 個二級指標,率先將情報外部特征深入到文本內(nèi)容維度,為相關(guān)研究提供了良好的借鑒。曾文等構(gòu)建了科技前沿領域的開源數(shù)據(jù)質(zhì)量評價體系[13]。

在近幾年的研究中,以用戶情報需求導向的評價指標構(gòu)建研究逐步增加。如王晰巍等基于信息生態(tài)視角,發(fā)現(xiàn)不同用戶的群體特征對于多源數(shù)據(jù)利用 價 值 的 評 判 具 有 較 大 影 響[14]。Vatani 和Shiri 聚焦數(shù)據(jù)內(nèi)容的詞特征,通過構(gòu)建用戶興趣模型關(guān)聯(lián)數(shù)據(jù)內(nèi)容與用戶偏好,實現(xiàn)了具有較高情報價值的數(shù)據(jù)過濾與篩選[15]。不難發(fā)現(xiàn),情報用戶的需求始終是情報工作的核心,對多源數(shù)據(jù)進行情報價值發(fā)現(xiàn),最終目的也是為了服務用戶(見圖1)。

圖1 多源數(shù)據(jù)情報價值發(fā)現(xiàn)重要研究節(jié)點

總體而言,國內(nèi)外學者已經(jīng)從定性評估、定量評估和綜合評估3 個方面,展開了大量多源數(shù)據(jù)情報價值問題的研究。但仍存在以下問題:(1)定量化的情報價值計算方法,計算成本高、耗時長,復雜信息環(huán)境下迫切需要能支持更大數(shù)據(jù)規(guī)模、更快計算速度的情報價值發(fā)現(xiàn)方法;(2)價值評估維度單一,現(xiàn)有研究以考慮數(shù)據(jù)外部特征或內(nèi)容特征等某一方面為主,分析結(jié)果片面,面對“不穩(wěn)定”的信息環(huán)境需要全面評估而非單一維度;(3)復雜信息環(huán)境下數(shù)據(jù)焦慮、信息迷霧等困擾嚴重,現(xiàn)有方法對數(shù)據(jù)語義內(nèi)容的挖掘程度不足,需要更加細粒度的價值發(fā)現(xiàn)方法;(4)用戶需求不斷提升,事實型、泛在化的情報服務難以滿足需求,這也要求情報價值發(fā)現(xiàn)需要充分考慮情報需求,由表及里,提供精準情報價值發(fā)現(xiàn)。

綜上,未來多源數(shù)據(jù)情報價值發(fā)現(xiàn)工作不但要關(guān)注數(shù)據(jù)的外部基礎特征,而且要利用計算機技術(shù)對多源數(shù)據(jù)的內(nèi)容特征進行深層次語義解析,并結(jié)合情報需求綜合發(fā)現(xiàn)多源數(shù)據(jù)的情報價值已成為共識。因此,如何在復雜信息環(huán)境下,利用深度學習等技術(shù),從數(shù)據(jù)的外部特征、內(nèi)容特征和情報需求3 個方面快速甄別有情報價值的內(nèi)容,實現(xiàn)精準化情報價值發(fā)現(xiàn)是目前面臨的最突出問題。

2 復雜信息環(huán)境下多源數(shù)據(jù)情報價值發(fā)現(xiàn)的新要求

趙志耘指出,當前科技情報復雜信息環(huán)境的現(xiàn)實條件,使情報研究發(fā)生了前所未有的影響和變化[16]?!靶畔h(huán)境”是指科技情報工作在發(fā)展和演進過程中的信息條件[17],而“復雜信息環(huán)境”特指科技情報產(chǎn)品的生產(chǎn)環(huán)境,包括“外部”環(huán)境和“內(nèi)部”環(huán)境兩個方面[18]。“外部”環(huán)境是指外部環(huán)境日趨復雜,不確定顯著增加,科技情報信息源呈復雜性;“內(nèi)部”環(huán)境指情報產(chǎn)品生產(chǎn)所處的環(huán)境,也就是數(shù)據(jù)的來源、類型、規(guī)模等發(fā)生著翻天覆地的變化,數(shù)據(jù)內(nèi)容更為復雜[16]。與此同時,人工智能技術(shù)以海量的數(shù)據(jù)支持、不斷改進的核心算法和不斷突破的計算速度,深刻變革科技情報感知、融合、分析與服務的模式[19]。BERT、ChatGPT 等新技術(shù)方法的突破,表明一代又一代的AI 技術(shù)突飛猛進,情報領域更不能淺嘗輒止,復雜信息環(huán)境也為多源數(shù)據(jù)情報價值發(fā)現(xiàn)提出了新要求、新挑戰(zhàn)。

2.1 數(shù)據(jù)海量異構(gòu):需要更快的感知響應能力

復雜信息環(huán)境下,單源數(shù)據(jù)往往呈現(xiàn)出碎片化、線索化的特征,無法提供完整的情報地圖。只有通過多源數(shù)據(jù)間的相互支持、補充和校對,才能提供更加準確、全面和及時的信息支撐情報工作。此外,多源數(shù)據(jù)來自不同載體、不同渠道的數(shù)據(jù)體量大、更新快、種類多。面對海量的數(shù)據(jù)集合,需要更快的感知響應能力,提高情報工作的效率,數(shù)據(jù)的分析規(guī)模和處理效率大幅提高,海量數(shù)據(jù)的處理迎來“AI-first”突破。

復雜信息環(huán)境的不確定性,可能導致高價值情報數(shù)據(jù)稍縱即逝,需要利用先進的計算機技術(shù)快速感知、及時跟蹤、全面掌握數(shù)據(jù)情況。不僅如此,復雜環(huán)境也為多源數(shù)據(jù)獲取的深度和廣度提供了極大幫助,情報數(shù)據(jù)分析不再受限于某一領域,要求情報價值發(fā)現(xiàn)工作運用數(shù)智技術(shù),開展多維度研判。AI 技術(shù)的應用極大地節(jié)省了時間和人力成本,隨著情報任務和問題呈現(xiàn)出實時化、復雜化、多維化等特點,過去依賴局部特征、傳統(tǒng)工具、人工為主的多源數(shù)據(jù)情報價值挖掘方式必將跌落鴻溝。如何將海量異構(gòu)的多源數(shù)據(jù)整合增益,提高情報價值發(fā)現(xiàn)的效率和準確率,成為新時代情報發(fā)展的關(guān)鍵。

2.2 數(shù)據(jù)價值稀疏:需要更細粒度的挖掘能力

復雜信息環(huán)境下,數(shù)據(jù)來源五花八門,科技博弈誘發(fā)的數(shù)據(jù)“迷霧”特征日益凸顯,多源數(shù)據(jù)的情報價值稀疏,導致高質(zhì)量情報極有可能被淹沒在數(shù)據(jù)海洋中,迫切需要更細粒度、更智能化的情報挖掘能力來確保情報產(chǎn)品的質(zhì)量。傳統(tǒng)科技文獻數(shù)據(jù)的組織方式往往以題目、摘要、關(guān)鍵詞等外部信息組織為主,較少深入到文獻內(nèi)容層面。當前,情報分析方法由手工作坊轉(zhuǎn)向大規(guī)模、細粒度智能分析,類ChatGPT 人工智能技術(shù)已具有自動綜述、觀點提煉等潛在能力,為情報分析提供了智能化工具的同時,提高了情報價值挖掘的準確性,更容易發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律。如在下一代移動通信領域,如果只使用粗粒度數(shù)據(jù)分析,可能只能得到一些常規(guī)的技術(shù)發(fā)展趨勢,如5G 商用化、6G 研發(fā)啟動;但如果進行細粒度內(nèi)容分析,就能挖掘出更多精尖技術(shù)、前沿技術(shù),如太赫茲技術(shù)、大規(guī)模MIMO 技術(shù)等。

當然細粒度的數(shù)據(jù)挖掘也存在一些挑戰(zhàn),如需要更復雜的算法、更精確的數(shù)據(jù)采集和處理,但隨著計算機技術(shù)的不斷發(fā)展,使得從海量數(shù)據(jù)中精準挖掘細粒度知識對象的能力逐步提升,以研究問題、方法、步驟等深入到文獻內(nèi)容層面的內(nèi)容組織成為可能,為細粒度的情報價值發(fā)現(xiàn)提供了可能。

2.3 情報需求提升:需要更精細化的研判能力

復雜信息環(huán)境,用戶的需求也日漸寬泛,數(shù)據(jù)規(guī)模不斷擴大,技術(shù)方法持續(xù)更新,情報任務日漸復雜,對多源數(shù)據(jù)情報價值的辨析需求相比于過去更為突出,情報需求更多時候由顯在轉(zhuǎn)為了潛在,由宏觀轉(zhuǎn)向了微觀,并不斷細化。宏觀層面的情報需求,一般具有框架性、戰(zhàn)略性、全局性的特點,通常是在制定戰(zhàn)略定位時所需的需求。這類需求往往不需要經(jīng)常去求證,可以根據(jù)情報用戶大致判斷,或放眼世界來判斷可能會有什么樣的情報需求。而微觀情報需求大多是需要探明的需求,如一個具體研究問題折射出的情報需求,有關(guān)某一技術(shù)成熟度的情報需求等。

但不管數(shù)據(jù)環(huán)境和情報需求如何變化,情報工作“耳目、尖兵、參謀”的宗旨始終沒有改變。及時、準確、全面地捕捉最新、最快的情報需求動態(tài),更精細化的分析隱藏在數(shù)據(jù)背后的規(guī)律與趨勢、內(nèi)容與價值,提供精準情報支持,對于把握最新研究進展等情報工作具有重要意義。

2.4 信息環(huán)境復雜:需要更智能化的分析能力

“信息環(huán)境”日趨復雜,驅(qū)動了情報工作在數(shù)據(jù)獲取手段、獲取方式、處理技術(shù)等方面的深刻變革,僅僅依靠人力分析的做法已不能履行情報工作的使命。隨著深度學習的出現(xiàn),泛智能化是大勢所趨,人工智能技術(shù)的應用對提高復雜信息環(huán)境下科技情報“線索發(fā)現(xiàn)”能力具有重要作用,為多源數(shù)據(jù)的自動化全面搜集、精準過濾和深度分析研判提供了新的機遇和可能。

復雜信息環(huán)境下科技情報工作的對象多元化、特征復雜化,數(shù)據(jù)領域也從傳統(tǒng)的科技文獻數(shù)據(jù)拓展至幾乎所有的領域,信息環(huán)境轉(zhuǎn)向開放,迫切需要彌補可用數(shù)據(jù)資源與緊迫情報需求之間的差距,更智能化發(fā)現(xiàn)多源數(shù)據(jù)的情報價值。如中科院自動化研究所的王飛躍團隊提出基于ACP 的開源情報分析框架,構(gòu)建了面向開源數(shù)據(jù)的科技監(jiān)測與協(xié)作創(chuàng)新平臺[20]。清華大學唐杰團隊建立了新一代科技情報大數(shù)據(jù)挖掘與服務平臺AMiner,以科研人員、科技文獻和學術(shù)活動三類數(shù)據(jù)為基礎,對異構(gòu)科技情報網(wǎng)絡進行深度挖掘,提供語義搜索、語義分析等服務,被稱為科研搜索“神器”[21]。能夠滿足用戶精準定位、實時分析的智能情報分析數(shù)據(jù)庫越來越多,驅(qū)動情報工作者開始運用更智能化的方法從紛繁復雜的數(shù)據(jù)中發(fā)現(xiàn)情報價值。

2.5 對于提出復雜環(huán)境下的多源數(shù)據(jù)情報價值發(fā)現(xiàn)的思考

可以看出,相比于傳統(tǒng)信息環(huán)境,復雜信息環(huán)境下給多源數(shù)據(jù)的情報價值發(fā)現(xiàn)帶來的影響包括更強更快的處理力、更細粒度的挖掘力、更精細化的分析力和更智能化的發(fā)現(xiàn)力等。情報數(shù)據(jù)環(huán)境的變化也決定了情報研究必須重視對數(shù)據(jù)情報價值的挖掘,過去普遍認為只有人類才能實現(xiàn)的任務,正在一個個地由機器實現(xiàn),“人類+AI”的組合既優(yōu)于純?nèi)祟愐矁?yōu)于純計算機,將復雜信息環(huán)境與多源數(shù)據(jù)情報價值發(fā)現(xiàn)結(jié)合到一起進行研究,主要有以下思考:

(1)前瞻定位。復雜信息環(huán)境下,科技情報工作面臨著需求、視角、模式等的變化,支撐情報研究的數(shù)據(jù)資源呈現(xiàn)出海量、多源、異構(gòu)的特征?;诤A繑?shù)據(jù)開展的情報研究越來越受到重視,做好多源數(shù)據(jù)的情報價值發(fā)現(xiàn)具有戰(zhàn)略必要性。但是,傳統(tǒng)的研究方法難以在大規(guī)模數(shù)據(jù)的基礎上保證情報研究的質(zhì)量,美國情報分析之父Sherman Kent 也曾指出:如果要進行情報工作,必須要對情報資料進行評判,才能得出相應的假設,如果情報資料是劣質(zhì)的,那得到的情報圖景也一定是不合格的[22]。所以在多源數(shù)據(jù)情報價值發(fā)現(xiàn)中考慮復雜的信息環(huán)境,把情報價值發(fā)現(xiàn)從傳統(tǒng)認知范式里分解出來,更高效的開展情報工作是未來研究的重要方向。

(2)任務驅(qū)動。目前針對多源數(shù)據(jù)情報價值的分析方法通常根據(jù)數(shù)據(jù)的外部特征構(gòu)建指標體系,從而發(fā)現(xiàn)情報價值。如來自官方媒體的數(shù)據(jù)要比來自個人社交媒體的數(shù)據(jù)更具有價值。但是,這種方法并沒有對數(shù)據(jù)的語義內(nèi)容進行深入探究,在對從多源數(shù)據(jù)中精確挖掘細粒度知識對象的要求不斷提高的今天,顯然是不夠的。針對這個問題,充分考慮復雜信息環(huán)境下數(shù)據(jù)價值稀疏特征,著眼于數(shù)據(jù)內(nèi)容層面,在外部特征的基礎上增加文本語義內(nèi)容維度,同時考慮情報任務需求,可以確保情報工作更加穩(wěn)定、高效、準確地進行。

總體來看,面對復雜的信息環(huán)境以及海量、多源、異構(gòu)的數(shù)據(jù),如何高效地發(fā)現(xiàn)和挖掘符合需求的有效數(shù)據(jù),實現(xiàn)數(shù)據(jù)價值的增值,成為情報研究面臨的重要問題。本文就如何基于復雜信息環(huán)境進行多源數(shù)據(jù)情報價值發(fā)現(xiàn)進行可行性分析,希望在守正繼承傳統(tǒng)研究范式的基礎上,拓展以深度學習等新技術(shù)支撐的多源數(shù)據(jù)情報價值自動發(fā)現(xiàn),推動情報工作更加智能、高效地發(fā)展。

3 多源數(shù)據(jù)情報價值發(fā)現(xiàn)體系構(gòu)建

多源數(shù)據(jù)情報價值發(fā)現(xiàn)的目的是為情報用戶的決策提供支持,因此對于情報價值的判斷通常是由情報用戶使用后的效果來決定的,使用效果越好則情報價值越高。這種情報價值的判斷方式雖有其客觀性,但并不全面,因為在數(shù)據(jù)感知泛化的時代背景下,情報的準確性是相對的,情報的不確定性才是其客觀屬性。由此可見,對多源數(shù)據(jù)的情報價值判斷,一方面要體現(xiàn)數(shù)據(jù)的基本性能,另一方面要考慮數(shù)據(jù)的內(nèi)容語義特征,同時還要兼顧數(shù)據(jù)對于情報需求的參考作用。

綜合上述三方面的考慮,本文提出多源數(shù)據(jù)情報價值發(fā)現(xiàn)研究思路,從良莠不齊的海量數(shù)據(jù)中,發(fā)現(xiàn)情報線索,針對情報需求,確定其情報價值。整體分為四個部分:首先,構(gòu)建多源數(shù)據(jù)空間,獲取多源異構(gòu)的海量數(shù)據(jù),初步篩選去除冗余;其次,選擇定性與定量結(jié)合的方法對多源數(shù)據(jù)的外部基本特征(權(quán)威性、時效性、關(guān)注度等)進行情報價值的挖掘與計算;再次,充分利用BERT 模型Transformer 架構(gòu),對多源數(shù)據(jù)的內(nèi)容特征進行深層次的語義解析;最后,根據(jù)情報任務的具體需求,結(jié)合情報線索的揭示,對多源數(shù)據(jù)進行指向性的價值發(fā)現(xiàn),最終達到發(fā)現(xiàn)高價值數(shù)據(jù)的目的(見圖2)。

圖2 復雜信息環(huán)境下多源數(shù)據(jù)情報價值發(fā)現(xiàn)設計方案

3.1 構(gòu)建多源數(shù)據(jù)空間

大數(shù)據(jù)時代下,情報“耳目、尖兵、參謀”的作用越來越得到各方關(guān)注,科技情報的工作過程需要廣泛并且可靠的數(shù)據(jù)作為支撐。在這個信息互聯(lián)互通的背景下,數(shù)據(jù)的獲取途徑越來越多,獲取方式更加多樣,過去以單源數(shù)據(jù)為主的情報工作方式轉(zhuǎn)向多源數(shù)據(jù)綜合利用,但在雜亂無章的各類數(shù)據(jù)中構(gòu)建高質(zhì)量的多源數(shù)據(jù)空間仍是情報工作的重要準備環(huán)節(jié)。

從多源數(shù)據(jù)空間的組成來看,主要包括兩方面的數(shù)據(jù):一類是以篇章為基本單元的基礎資源類數(shù)據(jù),如論文、規(guī)劃、專利、標準、分析報告等;另一類是領域知識庫,涵蓋相關(guān)領域項目、技術(shù)、特征等各類情報對象的基本情況。由于多源數(shù)據(jù)的情報價值判斷有著非常細致的要求,如對通信領域重要的多源數(shù)據(jù),對于其他領域的研究來說可能就沒有那么重要,因此領域知識庫的建立對于提高情報價值判斷精確度會有所幫助。

在多源數(shù)據(jù)空間構(gòu)建過程中,由于這些數(shù)據(jù)源異構(gòu)性強、冗余度高,所以為了高效進行后續(xù)的情報價值發(fā)現(xiàn),需要對搜集到的數(shù)據(jù)進行初步篩選,去除冗余信息,解決數(shù)據(jù)積累的過程中,數(shù)據(jù)重復、沖突和不一致的問題。同時,多源異構(gòu)的數(shù)據(jù)會引起數(shù)據(jù)空間管理的混亂,如多源載體中針對同一對象有不同的表述方法,直接影響了數(shù)據(jù)的價值發(fā)現(xiàn),甚至導致錯誤的情報決策。因此,需要構(gòu)建結(jié)構(gòu)化的多源數(shù)據(jù)表示方法,解決其異構(gòu)性帶來的問題,并基于情報任務對應的領域知識結(jié)構(gòu)化、精細化的描述多源數(shù)據(jù),繼而計算相似度,將情報的重復和沖突程度量化,最終通過分析相似度來衡量數(shù)據(jù)價值。

快節(jié)奏時代的多源數(shù)據(jù)空間并不是一成不變的,每天都有海量的數(shù)據(jù)撲面而來,數(shù)據(jù)更新速度遠超我們想象,所以多源數(shù)據(jù)空間一定是一個動態(tài)變化的,可以實時更新的同步數(shù)據(jù)集。此外,在數(shù)據(jù)獲取和更新過程中,要重點關(guān)注幾點:(1)多源數(shù)據(jù)質(zhì)量的把握,著力解決好數(shù)據(jù)的獲取途徑和方式的問題;(2)獲取基本數(shù)據(jù)類型的同時,兼顧領域數(shù)據(jù),構(gòu)建好知識組織體系(見圖3)。

圖3 多源數(shù)據(jù)空間構(gòu)建重點關(guān)注的問題

3.2 基于數(shù)據(jù)外部特征的情報價值發(fā)現(xiàn)

多源數(shù)據(jù)的外部特征是指數(shù)據(jù)自身所具備的基本特征,主要是從數(shù)據(jù)的外在屬性入手,并不涉及數(shù)據(jù)的具體內(nèi)容,對數(shù)據(jù)的情報價值進行挖掘與計算。由于數(shù)據(jù)的基本特征直接影響了后續(xù)數(shù)據(jù)分析的可接受度和易挖掘性,所以一個或一類數(shù)據(jù)的基礎特征評分越高,其研究價值也就越高。因此多源數(shù)據(jù)的外部特征是情報價值發(fā)現(xiàn)中必不可少的因素。

結(jié)合現(xiàn)有研究與科技情報工作的特點,本文選擇多源數(shù)據(jù)的權(quán)威性、關(guān)注度、時效性、準確性、完整性和相關(guān)度6 個二級評價指標(見表1),提出DAGF算法充分考慮情報價值評估過程中的模糊、復雜、難以量化的因素,將定性與定量分析綜合,得出量化的情報價值。如權(quán)威性是指數(shù)據(jù)來源對象或機構(gòu)的權(quán)威性,多源數(shù)據(jù)來自科技管理機構(gòu)、政府部門、國際組織、新聞網(wǎng)站等復雜渠道,來源機構(gòu)的權(quán)威性越高,數(shù)據(jù)權(quán)威性越高,其數(shù)據(jù)價值也在一定程度上提高,如來自政府官網(wǎng)的數(shù)據(jù)要比自媒體平臺的數(shù)據(jù)更權(quán)威;關(guān)注度是指數(shù)據(jù)所受關(guān)注的程度,關(guān)注度越高,數(shù)據(jù)傳播越廣泛,則更容易被發(fā)掘,數(shù)據(jù)價值也就越高。

表1 數(shù)據(jù)情報價值評估指標

具體來說,DAGF 算法是由德爾菲法(Delphi method)、層次分析法(Analytic hierarchy process)、灰色關(guān)聯(lián)分析(Grey correlation analysis)和模糊評價法(Fuzzy evaluation)集成的評價方法。首先,利用德爾菲法匿名函詢、多輪反饋等優(yōu)點,建立上述指標評價體系;其次,利用層次分析法系統(tǒng)性分析,構(gòu)造判斷矩陣并計算各指標的權(quán)重,并計算得到6 個二級指標在指標體系中的權(quán)重;第三,利用灰色關(guān)聯(lián)分析操作簡單、不需要經(jīng)典分布規(guī)律,且計算量小的優(yōu)勢,依次確定評價量樣本矩陣、評價等級集合、各等級的灰數(shù)和白化權(quán)函數(shù)、灰色統(tǒng)計數(shù),最終確定灰色評估權(quán)值和權(quán)矩陣;最后,利用模糊綜合評價矩陣,綜合上述指標權(quán)重和灰色評價權(quán)矩陣,計算該數(shù)據(jù)的情報價值得分,依據(jù)得分對數(shù)據(jù)進行過濾,支持后續(xù)精細化的情報研究(見圖4)。

圖4 基于數(shù)據(jù)外部特征的情報價值發(fā)現(xiàn)流程

將DAGF 算法引入多源數(shù)據(jù)情報價值發(fā)現(xiàn)研究,在一定程度上對多源數(shù)據(jù)進行了客觀地評價,適用于情報數(shù)據(jù)要求低、情報需求簡化的任務場景,但是由于情報價值判斷是一個復雜的過程,在細粒度情報數(shù)據(jù)感知背景下,還應在實踐中結(jié)合多源數(shù)據(jù)內(nèi)容語義特征進行深度分析。

3.3 融合內(nèi)容語義特征的情報價值發(fā)現(xiàn)

多源數(shù)據(jù)的內(nèi)容特征主要是從數(shù)據(jù)內(nèi)容的角度出發(fā),對數(shù)據(jù)的情報價值進行計算與挖掘。對于數(shù)據(jù)來源,究其根源還是其內(nèi)容是否完整,即數(shù)據(jù)的完備性,是否滿足情報用戶對內(nèi)容領域的需求。如果需要研究的是“蘋果”,而提供的資料卻是很多關(guān)于“梨”的數(shù)據(jù),即便基礎特征再好,數(shù)據(jù)的情報價值也會大打折扣,所以基于內(nèi)容語義特征的多源數(shù)據(jù)價值發(fā)現(xiàn)模塊必不可少。

隨著人工智能技術(shù)的發(fā)展,基于數(shù)據(jù)內(nèi)容特征的語義挖掘方法逐漸成熟。本文基于BERT(Bidirectional Encoder Representations from Transformers)大規(guī)模無監(jiān)督預訓練模型以及其Transformer 架構(gòu),由于BERT 預訓練模型不僅可以使下游模型性能大幅提升,且使Transformer 信息提取能力增強,是一種超強的特征抽取器,能對文本語義和句法特征有效建模,因此構(gòu)建基于文本內(nèi)容語義特征的情報價值發(fā)現(xiàn)模型,對多源數(shù)據(jù)的語義內(nèi)容特征進行情報價值計算,并結(jié)合前文所述的數(shù)據(jù)外部特征情報價值評估結(jié)果,得出綜合的情報價值計算結(jié)果。

由于標注語料集是不可或缺的一部分,但是人工標注情報價值費時費力,借鑒張敏等[23]提出的情報價值計算模型思路,利用多源數(shù)據(jù)情報價值外部特征得分自動構(gòu)建訓練集,采用二分類任務模型輸出有無情報價值的結(jié)果,并通過預測有情報價值類別的置信度來得到該數(shù)據(jù)情報價值的評分,最后綜合外部特征得分計算出最終的情報價值。

在模型構(gòu)建過程中,充分發(fā)揮BERT 模型Transformer 架構(gòu)的優(yōu)勢,并將情報的外部資源特征融入到模型中輔助決策。在基于數(shù)據(jù)內(nèi)容語義特征的情報價值計算模型中,文本的向量化是重要環(huán)節(jié)之一,將文本映射到高維向量空間,獲取字的表示。具體來說,先將文本分詞、標記化,通過WordPiece 分詞,將單詞分解成詞片段,并賦予不同的embedding 向量,位置嵌入表示詞在文本的相對位置信息后進行分段嵌入,對輸入的文本序列進行多層的encoding,得到多個帶有語義信息的向量以及最終的文本向量表示。所得結(jié)果中的有情報價值類的預測得分即為基于內(nèi)容語義特征的多源數(shù)據(jù)情報價值評分。最后結(jié)合前文數(shù)據(jù)外部特征的情報價值得分,得出綜合的情報價值。

3.4 基于情報需求模型的情報價值發(fā)現(xiàn)

情報工作始終是由需求驅(qū)動的,正如情報學家包昌火所說“需求是情報的第一驅(qū)動力”,美國情報學家Herring 也認為情報工作的首要任務就是識別用戶的情報需求[24]。因此,多源數(shù)據(jù)是否符合目標用戶的情報需求直接決定了數(shù)據(jù)的價值,由于不同用戶的情報需求差異性大,識別不同用戶的情報需求和多源數(shù)據(jù)中的情報線索,成為了開展情報價值發(fā)現(xiàn)的重要環(huán)節(jié)。

部分學者嘗試從數(shù)據(jù)驅(qū)動的角度獲取情報需求,鄒益民和張智雄提出了基于對象計算的情報價值判斷方法[25],呂宏玉楊建林基于模板識別國家戰(zhàn)略情報需求[26],Levashova 等通過情報需求建模,分析情報需求與數(shù)據(jù)價值[27]。借鑒現(xiàn)有研究中的情報需求關(guān)注模型,結(jié)合情報價值自動發(fā)現(xiàn)的任務,本文設計的多源數(shù)據(jù)情報價值發(fā)現(xiàn)模型主要包括三部分:一是情報需求識別,結(jié)構(gòu)化描述情報需求和領域先驗知識;二是情報線索識別,深層次揭示多源數(shù)據(jù)中蘊含的情報線索;三是情報需求與情報線索進行匹配度計算,判斷多源數(shù)據(jù)情報價值(見圖5)。

圖5 基于情報需求模型的情報價值發(fā)現(xiàn)過程

3.4.1 情報需求識別

情報需求識別模型的主旨任務是將情報需求轉(zhuǎn)為計算機可讀、可計算的知識,也就是結(jié)構(gòu)化、模型化的描述情報主體的任務需求。本文認為情報需求識別模型,還應該關(guān)注領域先驗知識,考慮情報對象的特殊性,更加精細化的描述情報需求。

情報任務的差異性,導致了情報人員對各類多源數(shù)據(jù)的關(guān)注點大不相同,因此在結(jié)構(gòu)化描述情報需求的過程中,必須考慮情報對象及行為的特殊性。如科研攻關(guān)團隊更傾向于關(guān)注重大戰(zhàn)略報告、技術(shù)白皮書、重要成果發(fā)布報告等,而對于企業(yè)團隊則更加關(guān)注政策措施、投資預算等相關(guān)信息。不同的情報對象具有鮮明的特殊性,這也使得在情報需求識別中引入領域先驗知識和精細化需求分析具有必要性。

首先,情報需求識別模型是用戶情報需求、領域需求分析和領域知識描述的共同語言,是實現(xiàn)領域先驗知識“啟發(fā)”用戶情報需求的關(guān)鍵;其次,對情報需求進行識別和分析,獲取領域需求知識,常用的分析方法有專家知識分析法和大數(shù)據(jù)分析法;最后,通過本體描述情報需求,并構(gòu)建情報需求知識庫。值得注意的是,在情報需求的描述過程中,情報對象的行為強度影響了情報需求的識別準確率,如果情報對象中包含了“革命性地”“首次”“率先”等詞修飾,則該數(shù)據(jù)更具備情報價值。

3.4.2 情報線索識別

多源數(shù)據(jù)中蘊含著與情報發(fā)生相關(guān)的地點、時間、任務、機構(gòu)、人物、緣由等情報元素,然而這些元素結(jié)構(gòu)分散、相關(guān)關(guān)系難以確定,造成了情報價值判斷的困難。情報線索識別是對多源數(shù)據(jù)中蘊含的重要情報線索進行揭示,基于數(shù)據(jù)增強的BERT 預訓練模型等,完成主體內(nèi)容識別、情報元素抽取、對象行為抽取等處理過程,將多源數(shù)據(jù)中蘊含的情報發(fā)生時間、地點等不同語義角色信息、語篇結(jié)構(gòu)特征等抽取出來,并映射成對象網(wǎng)絡,將其轉(zhuǎn)化為可計算的知識單元。

情報線索的主體是語篇中的情報對象,語篇對象及其行為直接影響了情報元素抽取的準確性和情報線索匹配的效率。通常情況下,多源數(shù)據(jù)篇章中的主體對象往往出現(xiàn)在開始部分,或貫穿整個篇章頻繁出現(xiàn)。一方面,通過情報對象的分布規(guī)律可以輔助情報線索的識別;另一方面,情報對象的出現(xiàn)頻次也可以作為定量指標來計算該對象行為情報元素的價值。

由情報線索也就是對象及其行為組成的語義結(jié)構(gòu)圖,能夠更加清晰和直觀地反映出多源數(shù)據(jù)所蘊含的情報信息,能夠很好地聯(lián)系并揭示散落在資源中的情報線索,為情報價值的判斷提供堅實的語義模型支撐。更重要的是這種多源數(shù)據(jù)情報線索的揭示方式與前文所述的情報需求識別模型是一致的,都是在考慮情報對象及行為的基礎上,進行線索的發(fā)現(xiàn)與揭示,為多源數(shù)據(jù)的價值發(fā)現(xiàn)奠定基礎。

此外,當前數(shù)據(jù)與信息環(huán)境呈現(xiàn)復雜性,不同于傳統(tǒng)科技數(shù)據(jù)呈現(xiàn)的相對穩(wěn)定狀態(tài),復雜信息環(huán)境下的科技數(shù)據(jù)并不穩(wěn)定,在獲取更便捷、來源更豐富,帶來新契機的同時,“科技信息迷霧”的困擾不容忽視[1]。由于“信息迷霧”的成因更為復雜,給情報線索的識別帶來極大干擾,未來研究中能夠準確感知、刻畫和表達“情報線索”的方法和技術(shù)至關(guān)重要。

3.4.3 情報價值判斷

在上述過程中,情報需求識別模型對基于領域先驗知識的情報需求進行了結(jié)構(gòu)化描述,情報線索識別對多源數(shù)據(jù)中散落的情報元素進行了揭示,兩者分別立足于需求與數(shù)據(jù)視角,還需要對二者進行相似度計算,完成情報價值的判斷。由于二者均考慮了情報用戶及其行為,所以本質(zhì)是是對用戶行為模式的匹配,從相似度的視角將情報需求與情報線索的沖突和沖突量化,最終以相似度度量值來表示情報價值。具體來說,通過領域先驗知識、行為強度修飾詞等對情報線索進行數(shù)據(jù)增強,使得重要情報線索更加突出,再將情報用戶需求與情報線索進行相似度計算,并將計算結(jié)果歸一化和標準化。引用分級評價思想,將計算結(jié)果分段表示,如星級劃分,使計算結(jié)果更容易理解和接受。

4 結(jié)語

復雜信息環(huán)境打破了傳統(tǒng)情報價值評估的工作模式,將具有新時代特色的情報價值發(fā)現(xiàn)思路引入大眾視野范圍內(nèi),為科研人員及時發(fā)現(xiàn)高價值的情報信息帶來了新機遇。本文提出了復雜信息環(huán)境下多源數(shù)據(jù)情報價值發(fā)現(xiàn)新思路,并分別設計了基于數(shù)據(jù)外部特征、融合內(nèi)容語義特征和基于情報需求模型的情報價值發(fā)現(xiàn)過程。多源數(shù)據(jù)情報價值發(fā)現(xiàn)既要遵循一般情報源的規(guī)律,也要因具體領域的變化而適當調(diào)整,根據(jù)情報分析需求從不同的粒度進行多源數(shù)據(jù)情報價值挖掘是關(guān)鍵一步,關(guān)注情報用戶及其行為是核心思想,基于深度學習模型實現(xiàn)情報價值自動化發(fā)現(xiàn)是大勢所趨。在未來研究中,面對復雜數(shù)據(jù)環(huán)境,搶抓新一代信息技術(shù)發(fā)展機遇,加強多源數(shù)據(jù)情報價值發(fā)現(xiàn)在數(shù)據(jù)分析規(guī)模、挖掘粒度、情報需求匹配等方面的智能化建設,更準確地感知、刻畫和表達多源數(shù)據(jù)情報價值的方法將引起廣泛關(guān)注。

猜你喜歡
價值特征環(huán)境
長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
一種用于自主學習的虛擬仿真環(huán)境
孕期遠離容易致畸的環(huán)境
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
環(huán)境
抓住特征巧觀察
一粒米的價值
“給”的價值
線性代數(shù)的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 欧美不卡视频在线| 无码精品国产VA在线观看DVD| 日韩天堂网| 人妻丰满熟妇αv无码| 国内毛片视频| a级高清毛片| 91热爆在线| 啊嗯不日本网站| 丝袜国产一区| 亚洲综合精品香蕉久久网| 久久精品国产免费观看频道| 国产成人福利在线视老湿机| 毛片免费高清免费| 欧美成人精品一级在线观看| 乱系列中文字幕在线视频| 内射人妻无套中出无码| 久草青青在线视频| 波多野结衣一二三| 国产91线观看| 在线观看无码av免费不卡网站| 欧美国产菊爆免费观看| 欧美黄网站免费观看| 一区二区三区在线不卡免费| 宅男噜噜噜66国产在线观看| 国产性爱网站| 国产一在线| 成人小视频在线观看免费| 1024国产在线| 日韩欧美色综合| 成年午夜精品久久精品| 91成人在线观看| 自慰网址在线观看| 国产一区二区影院| 国产性生交xxxxx免费| 久久精品国产精品青草app| 亚洲有无码中文网| 波多野结衣中文字幕久久| 国产欧美在线观看一区| 亚洲香蕉久久| 五月天香蕉视频国产亚| 欧美在线一二区| 天天躁狠狠躁| 久久久久久高潮白浆| 中文无码日韩精品| 久久国产精品77777| 91在线高清视频| 国产成人综合久久精品下载| 国产精品久久久久久久伊一| 国产白浆视频| 精品人妻无码区在线视频| 亚洲精品无码人妻无码| 国产黄色爱视频| 日韩av在线直播| 亚洲国产成人在线| 91免费国产高清观看| 真人免费一级毛片一区二区| 国产欧美日韩专区发布| 伊伊人成亚洲综合人网7777| 欧美劲爆第一页| 日韩AV无码一区| 国产自产视频一区二区三区| 色视频久久| 在线免费不卡视频| 91在线国内在线播放老师| 在线观看亚洲人成网站| 69综合网| 精品国产成人三级在线观看| 福利一区三区| 久久中文字幕2021精品| 日韩区欧美区| 亚洲码一区二区三区| 久无码久无码av无码| 国产迷奸在线看| 99精品这里只有精品高清视频| 亚洲一区无码在线| 亚洲天堂伊人| 国产网友愉拍精品| 亚洲视频三级| 99手机在线视频| 亚洲乱码在线播放| 国产男人的天堂| 国产91视频免费观看|