999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向知識服務的領域知識結構研究

2022-01-24 15:43:34馬海云
情報學報 2022年1期
關鍵詞:用戶服務信息

馬海云,薛 翔

(南京大學信息管理學院,南京 210093)

1 引言

隨著學科領域的發(fā)展,尋找普遍適用的方法來組織全人類的知識已不可行,知識組織正在走向領域知識組織的時代[1]。領域知識結構作為領域知識組織的研究基礎,與此相關的研究逐漸成為知識管理、圖書情報等學科的重要研究內(nèi)容[2]。現(xiàn)有研究主要集中在如何通過技術手段和文獻數(shù)據(jù)揭示學科領域內(nèi)的知識關聯(lián)和知識分布結構。關于領域知識結構的理論研究較為零散,相關研究可梳理為兩類:一類是參照社會網(wǎng)絡分析的方法,認為知識節(jié)點及其關系組成的網(wǎng)絡即為知識結構[3];另一類則根據(jù)知識內(nèi)容的粒度大小,將知識結構分為宏觀層面、中觀層面和微觀層面[4]。這兩類研究各有側(cè)重,張發(fā)亮等[2]將其綜合起來,提出了基于文獻數(shù)據(jù)的學科領域金字塔知識結構模型。但不同于以結構化數(shù)據(jù)或文獻數(shù)據(jù)為主的傳統(tǒng)知識結構設計,大數(shù)據(jù)時代下的信息內(nèi)容還包含了包括音頻、視頻和文本在內(nèi)的非結構化數(shù)據(jù),且數(shù)據(jù)具有極強的動態(tài)性,這對領域知識的結構設計提出了新的要求。

大數(shù)據(jù)技術的發(fā)展使得大數(shù)據(jù)環(huán)境下知識組織的研究工作引起了部分機構的關注,如由原國家新聞出版署推動建設的國家知識資源服務中心制定并發(fā)布了知識組織與服務相關行業(yè)的標準[5];中國工程科技知識中心建設了大數(shù)據(jù)環(huán)境下工程科技領域知識融合的架構[6]。這些研究雖然對大數(shù)據(jù)環(huán)境下知識組織與服務的技術和規(guī)范開展了一些有益的探索,而在大數(shù)據(jù)環(huán)境下,用戶在獲取知識的過程中更加依賴于知識服務,用戶的知識服務需求也愈加精細化,但現(xiàn)有研究未能充分重視知識服務在知識組織中的作用。

鑒于此,本文擬從以用戶需求為導向的知識服務視角出發(fā),探討大數(shù)據(jù)環(huán)境下的領域知識結構。首先,根據(jù)大數(shù)據(jù)環(huán)境下領域知識服務的特點厘清了用戶主導的領域知識服務模式;其次,根據(jù)該模式設計了大數(shù)據(jù)環(huán)境下能夠滿足用戶個性化需求的可分領域的知識結構模型;最后,結合領域大數(shù)據(jù)向領域知識轉(zhuǎn)化的過程以及用戶需求信息給出了該領域知識結構模型的構建流程。以期領域知識結構的設計在滿足大數(shù)據(jù)時代下用戶知識服務需求的同時,還能夠靈活應對數(shù)據(jù)動態(tài)變化情況下的領域知識庫擴充,為今后關于領域知識組織的研究和實踐工作提供參考。

2 文獻回顧

2.1 知識組織與知識服務

知識組織,是指對知識客體所進行的諸如整理、加工、揭示、控制等一系列組織化過程及其方法[7]。這一概念最早在20世紀20年代末由美國著名分類法專家Bliss[8]在其著作《知識組織和科學系統(tǒng)》中提出,并詳細闡述了以文獻分類為基礎的知識組織理論與圖書館工作的關系。早期的知識組織的相關研究主要建立在分類法、敘詞表等工具方法的基礎上,發(fā)展相對緩慢;直到1989年國際知識組織協(xié)會(International Society of Knowledge Organiza‐tion,ISKO)成立,關于知識組織問題的研究才正式引起學界的廣泛關注[9]。1991年,劉洪波發(fā)表的論文《知識組織論——關于圖書館內(nèi)部活動的一種說明》[10],首次將知識組織理論引入國內(nèi)圖書情報研究領域。此后,王知津[11]、蔣永福[7]、畢強等[12]對知識組織的理論與方法進行了重要拓展,使之成為了國內(nèi)圖情研究領域的一個重要分支。

知識服務,是指在搜尋、分析、組織知識的能力基礎上,根據(jù)用戶所面臨的具體問題與環(huán)境,參與到用戶解決問題的過程當中,為用戶提供有效的知識應用和知識創(chuàng)新服務[13]。這種服務不單純是為用戶提供一份答案,還囊括了接收用戶知識需求、開展知識檢索、篩選、組織以及最終幫助用戶應用知識解決問題的全過程[14]。

由此可見,知識組織與知識服務兩者之間存在緊密關聯(lián),知識組織構建了知識體系框架,是知識服務的前提和基礎,而知識服務則為知識組織工作的開展提供了根本動力和指導方向,是知識組織的前向延伸和最終目標,兩者相輔相成、互不可缺。近年來,一些學者開始將知識服務與領域知識組織相結合,嘗試基于特定的服務場景或系統(tǒng)探索與之相契合的領域知識組織方法,以期提高知識服務中的工作效率。譬如,頡艷萍[15]從多維度分析了圖書館環(huán)境下知識組織和個性化知識服務的內(nèi)涵,為圖書館構建知識服務平臺、開展知識服務提供了行動建議;徐緒堪等[16]立足水利現(xiàn)代化建設新形勢,在充分了解用戶知識需求和現(xiàn)有水利知識資源供需矛盾的基礎上,從知識服務角度對水利工程知識組織進行宏觀架構,形成了一套包含知識組織結構設計、知識再生、組織實現(xiàn)到服務提供的完整流程;王曰芬等[17]從個性化知識服務角度出發(fā),了解個性化服務中知識組織的目標、對象和原則,同時剖析知識組織機制內(nèi)涵和組成要素,借此探索出了面向個性化知識服務的知識組織的過程與方法;吳愷等[18]根據(jù)用戶行為信息的類型、知識組織和利用的需求,設計了通用的用戶信息知識組織模型,該模型能夠按照預先設定的模式進行信息析取、組織,為不同類型的用戶提供服務。

需要注意的是,雖然學界已經(jīng)意識到了用戶個性化需求對個性化服務的最終效率,乃至領域知識組織的對象、深度、廣度、有效性等有著重要影響,并且已經(jīng)構建了一批基于單一領域下的面向知識服務的知識組織體系。但隨著網(wǎng)絡技術的發(fā)展和大數(shù)據(jù)時代的到來,面對龐大繁雜、急劇膨脹的數(shù)據(jù)和日益差異化的用戶知識需求,這些領域知識組織架構中知識來源、類型單一、體量較小、更迭緩慢,用戶特征識別率不高等問題被充分暴露,已經(jīng)成為知識服務效率提升的阻礙之一。因此,有必要深入剖析大數(shù)據(jù)背景下知識服務的特點,從用戶知識服務需求角度入手,重新展開知識組織架構設計。

2.2 領域知識組織中的知識結構

隨著人類對世界的了解和掌握的知識不斷增加,學者們意識到尋找普遍適用的方法來組織全人類的知識已不可行,轉(zhuǎn)而開始關注不同領域知識組織的研究。1995年,Hj?rland等提出了領域分析是信息科學的新方法[19],并在后續(xù)研究中進一步指出領域分析已經(jīng)成為知識組織的研究熱點[20]。此后,學者Mai[21]在區(qū)分從本體論角度發(fā)現(xiàn)知識的組織方法和基于認識論角度對已經(jīng)存在事物的客觀中立描述的知識組織方法時,指出知識組織已經(jīng)進入領域知識組織的時代。隨后,學者們開始了關于領域知識組織所涉及的理論、方法及實證研究。本文對相關研究進行了梳理,具體如表1所示。

表1 領域知識組織的研究進展

從表1可見,目前關于領域知識組織的研究仍處于探索階段,且以如何使用相關技術與方法實現(xiàn)領域的知識組織為主。在理論研究方面,已有少部分研究梳理了領域知識的概念、構成要素以及分析流程等基礎理論,這些研究為后續(xù)領域知識組織的研究奠定了基礎。

由于知識組織形式對知識服務最終質(zhì)量存在根本性影響,而領域知識結構作為領域知識組織的底層架構,決定了領域知識組織的最終形式,自然也開始受到學界和業(yè)界的廣泛關注[30]。在對已有文獻梳理后發(fā)現(xiàn),現(xiàn)階段領域知識結構相關研究主要集中在領域知識結構的概念辨析[31-32]、特征識別[33]、構成分析[4,34-35]、類型劃分[36]以及在具體學科領域中的實踐應用[37]等方面。例如,趙蓉英等[38]在對知識網(wǎng)絡結構系統(tǒng)分析的基礎上,提出了知識網(wǎng)絡機構具有知識節(jié)點的獨立性、繼承性、變異性、多維性和再生性等多種特性;文庭孝等[39]對領域知識組織中國網(wǎng)絡結構的發(fā)展歷程、結構類型以及測度方法等進行了詳細梳理;陳必坤[40]基于可視化視角,對學科領域知識的理論基礎、結構分類以及構建方法等進行了系統(tǒng)的研究與實證。

但是,這些研究當中關于指導領域知識結構設計與構建的研究相對較少,僅有部分學者對知識圖譜、知識網(wǎng)絡等結構的構建流程進行了探索性研究,或者在介紹某個具體領域中知識結構構建方法時對構建流程其進行簡要介紹[37,41]。整體來看,相關研究尚不夠系統(tǒng),研究結果難以具有普適性。此外,隨著大數(shù)據(jù)技術的快速發(fā)展和資源類型的日趨多元,以及知識服務用戶需求的差異化加劇,領域知識組織開始面臨來自多方面的挑戰(zhàn)與壓力。現(xiàn)有模式下的領域知識結構已經(jīng)無法完全適應新形勢下領域知識組織和服務的多樣化需求,因此,有必要系統(tǒng)分析大數(shù)據(jù)時代的知識服務模式,在此基礎上對領域知識結構重新架構,為提高知識服務質(zhì)量奠定基礎。

3 大數(shù)據(jù)環(huán)境下知識服務模式研究

3.1 大數(shù)據(jù)環(huán)境下領域知識服務的特點

傳統(tǒng)的領域知識服務以文獻數(shù)據(jù)為基礎,挖掘領域內(nèi)知識的關聯(lián),并按照一定的規(guī)則將知識或信息組織起來呈現(xiàn)給用戶。大數(shù)據(jù)時代,不僅領域知識的數(shù)據(jù)內(nèi)容發(fā)生了改變,用戶的群體的需求也在不斷變化,領域知識服務呈現(xiàn)出以下幾個特點。

(1)數(shù)據(jù)多元化。傳統(tǒng)的知識服務主要依托于文獻數(shù)據(jù)和結構化的數(shù)據(jù);大數(shù)據(jù)時代,在進行領域知識服務時,所涉及的數(shù)據(jù)不僅包含了文獻及結構化的數(shù)據(jù),還包含了社交媒體、百科網(wǎng)頁以及知識庫的數(shù)據(jù),這些數(shù)據(jù)是隨著時間推移不斷變化的。此外,知識服務提供者還需要分析用戶的反饋信息與需求信息,及時補充領域信息庫中的數(shù)據(jù)內(nèi)容。數(shù)據(jù)多元化不僅是大數(shù)據(jù)時代領域知識組織與服務的特點,更是一種挑戰(zhàn)。

(2)方式智能化。機器學習、人工智能以及本體技術的發(fā)展使得領域知識服務方式更加智能。知識服務提供者不再完全依托于人工去搜尋、清洗、辨別數(shù)據(jù),而是實現(xiàn)了通過機器學習的方式自動識別與領域相關的信息。另外,在大數(shù)據(jù)環(huán)境下,通過對用戶行為數(shù)據(jù)收集分析,能夠更加準確地進行用戶畫像分析,智能地為用戶提供不同層次、不同內(nèi)容的領域知識服務。智能化的知識與服務方式提高了大數(shù)據(jù)背景下領域知識組織與服務的效率和用戶滿意度。

(3)內(nèi)容專業(yè)化。領域知識服務是指為了滿足特定某個領域用戶的需求,提供以內(nèi)容為基礎的知識產(chǎn)出(決策建議、解決方案等)的過程[42]。大數(shù)據(jù)時代下的領域知識服務提供者不僅需要具備與該領域相關的專業(yè)化知識和技能,而且還要掌握用戶需求分析的專業(yè)知識,以便在充分掌握用戶的實際知識需求的基礎上給出能夠解決用戶實際性問題的專業(yè)知識。內(nèi)容專業(yè)化是領域知識服務最顯著的特征。

(4)服務個性化。對于同一個領域而言,不同用戶的知識需求也是存在差異的[43]。例如,對于剛?cè)腴T某領域的用戶而言,其最需要的是通識性的領

域知識;對于科研用戶而言,其需要的是自己所關注主題的領域知識;對于實踐型的用戶而言,其需要的是應用知識……大數(shù)據(jù)時代,互聯(lián)網(wǎng)平臺可以收集用戶注冊的基礎資料以及信息檢索行為等信息并進行用戶畫像分析,以便更精準地判斷用戶所需的知識,滿足用戶個性化的需求。個性化是大數(shù)據(jù)時代下領域知識服務新的特點。

3.2 用戶主導的領域知識服務模式

根據(jù)第3.1節(jié)的分析,不論是服務方式還是服務內(nèi)容,大數(shù)據(jù)環(huán)境下的知識服務都更加注重用戶體驗。對于同一個領域而言,知識組織與服務的視角可以是不一樣的,為滿足用戶的個性化體驗,知識服務模式也應適應不同用戶群的特征[44]。例如,對于食品科學這一領域,有的用戶只想了解有關營養(yǎng)健康的基礎知識,滿足日常生活需求;有的用戶比較關注食品的質(zhì)量監(jiān)測標準與方法;有的用戶則關注食品行業(yè)的技術工程;還有的用戶關注綠色、功能性、有機食品的開發(fā)問題,等等。因此,大數(shù)據(jù)環(huán)境下,如何通過用戶信息數(shù)據(jù)對用戶進行分類畫像,實現(xiàn)為不同層次的用戶制定不同的服務方案已成為新的研究趨勢。本文提出了以用戶為主導的領域知識服務模式,如圖1所示。

如圖1所示,大數(shù)據(jù)環(huán)境下,以用戶為主導的領域知識服務模式主要分為用戶分析、服務提供以及根據(jù)再生知識擴充領域信息庫三個部分。

圖1 用戶主導的領域知識服務模式

第一部分是針對用戶的特點對用戶群體進行分類,以便為不同群體的用戶提供對應的專業(yè)化知識。為后續(xù)按用戶的個性特征制定知識服務方案做好鋪墊,以達到強化知識服務質(zhì)量、滲透知識服務覆蓋的目的。該部分的具體做法為,在保護用戶隱私的前提下,根據(jù)用戶的注冊信息、信息檢索行為信息或者以問卷調(diào)查的方式獲取用戶的偏好數(shù)據(jù),利用數(shù)據(jù)挖掘、行為建模等方式進行用戶畫像分析。

第二部分是針對不同層次不同特點的用戶,為其提供個性化的領域知識服務。例如,對于大部分領域而言,用戶群體都可以分為剛?cè)腴T的基礎用戶、專業(yè)的科研用戶以及注重應用的實踐型用戶。領域知識服務提供者應摸清各類用戶群體的特征,在明確用戶需求并確定好服務內(nèi)容后,從領域信息庫里提取并組合相應的知識元,生成對解決每位用戶實際問題均有用的通識知識、專題知識、應用知識或方案建議等內(nèi)容,并以可視化的方式將結果展現(xiàn)給用戶。這一部分是大數(shù)據(jù)環(huán)境下領域知識服務模式的核心部分,該部分的關鍵點在于深刻理解各個用戶群體的知識需求,并在此基礎上根據(jù)用戶的需求組織知識元,以達到滿足不同用戶群體的個性化需求的目的。

第三部分是領域信息庫的擴充部分,該部分主要是對在用戶分析時所用到的用戶需求信息、知識使用場景信息以及提供知識服務之后的用戶反饋信息做更進一步的挖掘,探測出隱含知識中的潛在規(guī)律,進而生成以用戶為中心的再生知識。該部分是一個以用戶為中心的動態(tài)優(yōu)化學習過程,以此為基礎擴充領域信息庫是大數(shù)據(jù)環(huán)境下領域知識服務創(chuàng)新持續(xù)發(fā)展的核心。

本節(jié)以不同用戶群體需求差異為出發(fā)點,厘清了以用戶需求為導向的知識服務模式,該模式不僅滿足了大數(shù)據(jù)環(huán)境下知識服務內(nèi)容專業(yè)化、方式智能化和服務個性化的特點,同時也為后續(xù)從以用戶為主導的知識服務視角設計領域知識結構打下了基礎。

4 面向知識服務的領域知識結構分析

4.1 知識服務視角下的領域知識結構

Simon[45]在其一本關于人工智能科學的書中曾指出,復雜的系統(tǒng)往往具有可分解的層次結構,該結構使得人們能夠描述并理解系統(tǒng)及其包含的主要因素。因此,國內(nèi)外不少學者在研究知識體系結構時,都將其劃分為不同的要素層次。例如,趙蓉英[3]將知識網(wǎng)絡結構歸納為知識節(jié)點及其關系的兩層次結構;胡昌平等[4]給出了基于K-core層次劃分的共詞分析方法,將知識網(wǎng)絡結構分解為基礎層、細節(jié)層和中間層;王昊等[34]在研究圖書情報學科的知識體系構建和演化時,將學科的知識結構理解為各知識點之間的層次體系。這些研究均以文獻數(shù)據(jù)為基礎,探討了知識結構的層次結構,但是在大數(shù)據(jù)的時代背景下,知識的數(shù)據(jù)來源發(fā)生了變化,領域數(shù)據(jù)具有很強的動態(tài)性,領域知識也會隨之進行不斷的擴充,因此,大數(shù)據(jù)環(huán)境下的領域知識結構設計思路需要進行調(diào)整,本文按照不同的粒度對領域知識進行了層次劃分。

此外,根據(jù)前文的分析可知,不同于傳統(tǒng)知識服務下的知識結構,大數(shù)據(jù)環(huán)境下的知識結構設計要面向用戶的個性化需求。由于用戶所需解決的問題和場景是不斷變化的,為了領域知識元提取的靈活性,該知識結構不應該也不能是不可分割的整體。由此,本文在設計領域知識結構時,又對每個層次的領域知識塊進行了聚類,將每層的領域知識劃分為不同的模塊。根據(jù)上述分析,本文設計了大數(shù)據(jù)環(huán)境下面向知識服務的領域知識結構,如圖2所示。

圖2 面向知識服務的領域知識結構

具體說來,本文在設計領域知識結構時,從大數(shù)據(jù)資源、用戶需求以及用戶反饋的信息中提煉出領域知識后,進一步對領域知識進行知識分解,并分成了四個層次:基礎細節(jié)層、中間要素層、問題求解層以及知識拓展層。

1.農(nóng)產(chǎn)品流通不暢。農(nóng)村地區(qū)有大量優(yōu)質(zhì)的農(nóng)產(chǎn)品,但是由于交通的阻礙和信息的不對稱導致這些資源難以轉(zhuǎn)化為經(jīng)濟優(yōu)勢,最終這些農(nóng)產(chǎn)品白白浪費掉。但是一些城市地區(qū),農(nóng)產(chǎn)品價格卻逐漸上漲。

基礎細節(jié)層包含了某領域概念、事實等在內(nèi)的領域知識全部特征項,這些特征項完整地反映了某一領域的知識信息。基礎細節(jié)層是構成領域知識的最小單位,也是領域知識結構的基礎。

中間要素層通過對領域知識基礎細節(jié)層中的各個特征項進行頻次統(tǒng)計、人工篩選以及專家判斷等手段,篩選出領域知識的核心要素,這些要素是領域知識核心內(nèi)容,能夠反映某領域知識的主要特點。

問題求解層在對中間要素層根據(jù)用戶問題及需求進行分類聚類的基礎上,生成了能夠解決用戶實際問題的知識單元。問題求解層是面向知識服務的領域知識結構的核心部分。

知識拓展層在對領域知識單元以及用戶的反饋信息和需求信息進行關聯(lián)分析、合并計算后,形成再生知識,以擴充領域知識庫,使得領域知識庫能夠更加貼近用戶需求。知識拓展層是領域知識服務保持活力的關鍵。

本文設計的領域知識結構具有如下特點:

(1)可分性。在將領域知識結構劃分為不同層次的基礎上,根據(jù)用戶需要將每層的知識劃分為不同的模塊。這種領域知識結構的設計思想是本文的一個特色,方便了知識服務提供者按照用戶需要解決問題以及根據(jù)需求靈活地從知識庫中提取相應的信息。

(2)用戶導向性。在知識結構的設計中,知識服務概念的引用是一個新的嘗試,也是本結構的重點之一。首先,通過對用戶需求進行主題分類,將領域知識的各要素關聯(lián)起來組合成面向用戶實際需求的知識單元。其次,通過對用戶需求信息及反饋信息的挖掘,生成新的信息以擴充領域知識。這兩個過程充分體現(xiàn)了領域知識結構設計中用戶的重要性,為領域知識組織滿足用戶的個性化需求提供了可能。

4.2 領域知識的轉(zhuǎn)化流程

大數(shù)據(jù)環(huán)境在推動領域知識服務發(fā)展的同時,也對領域知識服務中的數(shù)據(jù)搜集、信息分析以及知識生成等工作提出了更高的要求。具體說來,大數(shù)據(jù)時代下的領域知識服務面臨著以下挑戰(zhàn):①如何從海量、多源、異構的大數(shù)據(jù)中搜集并集成碎片化的領域數(shù)據(jù)[46]。②如何判斷信息真值,提高知識服務的價值。大數(shù)據(jù)時代下的數(shù)據(jù)資源形態(tài)各異,來源廣泛,在處理從網(wǎng)絡資源中收集的信息時,常常會發(fā)現(xiàn)這些信息存在嚴重冗余、歧義的現(xiàn)象[47]。③如何正確解讀用戶需求。用戶的信息素養(yǎng)以及個人特征等的差異導致用戶在表達自己信息需求時的全面性和準確性大有不同,尤其是在大數(shù)據(jù)時代,當用戶面對著紛繁復雜、形式多樣的信息時,往往會信息迷失。此時更需要知識服務提供者能夠引導用戶全面地表述出其顯性的信息需求,并根據(jù)用戶的檢索信息行為,挖掘出其隱性的信息需求,以便提高領域知識服務的水平與效率。

為了解決上述挑戰(zhàn),已有學者從技術角度出發(fā),致力于解決領域大數(shù)據(jù)向領域知識轉(zhuǎn)化過程中所面臨的問題并取得了相應的成果。例如,林海倫等[46]在對網(wǎng)絡大數(shù)據(jù)時代下的知識融合方法進行綜述時,總結出了開放網(wǎng)絡環(huán)境下的知識評估方法包括基于貝葉斯概率估計的評估方法、基于D-S證據(jù)理論(Dempster-Shafer envidence theory)的評估方法、基于模糊集理論的知識評估方法以及基于圖模型的知識評估方法。2020年12月15日,國家圖書館數(shù)字資源部主任曹寧在報告國圖專題領域知識組織關于《中國戰(zhàn)疫記憶庫人物譜和大事記》建設的實踐和探索時指出,資源遴選分為兩個步驟,一是通過前期人工遴選建立詞表,二是將建立的詞表交予機器學習建模,以實現(xiàn)自動識別目標資源。上述研究成果主要關注大數(shù)據(jù)環(huán)境下的知識組織的實現(xiàn)方法,還缺乏一套針對大數(shù)據(jù)環(huán)境下領域數(shù)據(jù)向領域知識轉(zhuǎn)化的模式和框架,參考傳統(tǒng)環(huán)境下的數(shù)據(jù)向知識轉(zhuǎn)化的過程DIKW(data,information,knowl‐edge,wisdom)模型[48]。本文結合上述成果構建了領域數(shù)據(jù)向領域知識轉(zhuǎn)化的過程框架,認為將領域數(shù)據(jù)向領域知識轉(zhuǎn)化的過程主要分為四個階段:①從海量、多源異構的數(shù)據(jù)資源中抓取與某領域相關的數(shù)據(jù),形成某領域的數(shù)據(jù)資源;②將資源按照數(shù)據(jù)類型分類,形成領域數(shù)據(jù)集;③對領域數(shù)據(jù)集進行信息提取,生成領域信息庫;④融合領域信息庫中的信息,進而將其轉(zhuǎn)化為領域知識。具體過程如圖3所示。

圖3 大數(shù)據(jù)背景下領域知識轉(zhuǎn)化流程

第一階段是對百科網(wǎng)頁數(shù)據(jù)、文獻資源數(shù)據(jù)、社交論壇數(shù)據(jù)和知識庫數(shù)據(jù)進行采集、清洗、去重及選擇,以形成與某領域內(nèi)容相關的數(shù)據(jù)集。上文在分析大數(shù)據(jù)環(huán)境下領域知識的特點及挑戰(zhàn)時已經(jīng)指出,科學、客觀、全面的領域數(shù)據(jù)資源是為用戶提供優(yōu)質(zhì)服務的前提。因此,大數(shù)據(jù)環(huán)境下遴選出優(yōu)質(zhì)的領域數(shù)據(jù)資源是后續(xù)生成領域知識并進行知識服務的基礎,在資源遴選的過程中,不僅要保證資源的科學性與全面性,還要保證資源的動態(tài)性。在這個階段中,主要的實現(xiàn)方法是通過爬蟲技術和人工采集的方式來不定期獲取數(shù)據(jù)資源,而后對這些數(shù)據(jù)資源進行噪聲及冗余數(shù)據(jù)的清洗,采用人工標注的方式標注有用信息,再將人工標注的結果傳給計算機,利用機器學習的方法建立模型,并對機器提取的核心信息進行人工核對,確保核心資源的準確性,以實現(xiàn)定期準確地從海量數(shù)據(jù)資源中自動識別出與某領域資源相關的數(shù)據(jù),保證數(shù)據(jù)資源的動態(tài)性。

第二階段是對已經(jīng)獲得的領域數(shù)據(jù)按數(shù)據(jù)形式進行歸類,主要將數(shù)據(jù)分為文本型數(shù)據(jù)和多媒體數(shù)據(jù)。

第三階段是判斷領域數(shù)據(jù)資源的真?zhèn)尾κ占男畔①Y源進行拆解。具體來說,對于文本數(shù)據(jù)而言,在對其進行自然語言處理后進行實體和關系的抽取;對于視頻、音頻、圖片等信息而言,首先需要對其進行歸類處理,然后通過語音識別技術與人工轉(zhuǎn)錄的方式,記錄下該類信息中的內(nèi)容,并將其轉(zhuǎn)化為文本信息,再按照文本數(shù)據(jù)的方式進行處理,信息真?zhèn)蔚呐袛喾绞街饕蠨-S證據(jù)理論法、模糊集理論法以及圖模型法。在知識抽取獲得領域資源的概念和關系后,建立相應的概念庫、實體庫及關系庫。

第四階段是對領域信息資源的融合,主要是對知識抽取中所提取的概念、實體、關系等進行關聯(lián)分析和合并計算,以生成對解決實際問題有用的領域知識。

通過定期數(shù)據(jù)抓取、清洗、知識抽取、關聯(lián)聚類等操作可以將領域大數(shù)據(jù)逐步轉(zhuǎn)化為能夠解決用戶實際問題的領域知識,本文總結的領域大數(shù)據(jù)向領域知識轉(zhuǎn)化的過程不僅為從海量多源異構的數(shù)據(jù)源中獲取領域知識提供了行動參考,也為進一步分析設計領域知識結構的構建流程奠定了基礎。

4.3 領域知識結構的構建流程

關于領域知識結構的構建方法與構建流程方面,目前已有部分學者就文獻數(shù)據(jù)基于本體、社會網(wǎng)絡、頻次統(tǒng)計、共現(xiàn)、引用、合作等內(nèi)容開展了相關研究,并已經(jīng)形成了較為完整和成熟的方法體系。例如,胡昌平等[4]以領域關鍵詞的強共現(xiàn)關系為基礎的知識網(wǎng)絡,給出了基于K-core值的領域知識結構劃分過程;陳雪飛等[38]基于領域文獻繪制了包括知識點抽取、關系建立、知識可視化等內(nèi)容的領域知識網(wǎng)絡構建過程;張發(fā)亮等[2]總結出了基于文獻數(shù)據(jù)的領域知識結構通用構建流程。總體上,這些研究關于領域知識結構的方法和流程更加適用于單一的文獻數(shù)據(jù),尚缺乏一套針對大數(shù)據(jù)環(huán)境下面向知識服務的領域知識結構構建過程。基于以上分析,本文在梳理了現(xiàn)有關于領域知識結構構建研究的基礎上,通過從海量、多源異構的數(shù)據(jù)源中采集、提取、遴選出與某領域的相關信息,面向用戶需求逐步設計了大數(shù)據(jù)環(huán)境下知識服務驅(qū)動的領域知識結構,如圖4所示。

從圖4中可以看出,用戶需求驅(qū)動的領域知識結構的構建過程主要分為三個部分。

圖4 用戶需求驅(qū)動的領域知識結構構建過程

第一部分的主要工作是將從海量數(shù)據(jù)中收集并清洗過的某領域相關的數(shù)據(jù)轉(zhuǎn)化為領域信息庫,該信息庫包含了某領域的全部原始數(shù)據(jù),是領域知識結構構建的基礎。該部分的轉(zhuǎn)化過程見第4.2節(jié)。

第二部分是領域知識結構的構建部分,這部分的主要流程可以分為四步。第一步是基礎細節(jié)層的構建。該層是對領域信息庫中的信息進行拆解,通過自然語言處理技術中的詞法分析和句法分析,實現(xiàn)對領域知識的全部特征項的提取,這些特征項包括了該領域的基本概念、實體、實例等在內(nèi)的領域基本信息。基礎細節(jié)層的特征項最為豐富,是某領域知識的全貌通過對基礎細節(jié)層特征項之間的關系分析,可以獲得某領域的通識知識。第二步是構建中間要素層。中間要素層是對基礎細節(jié)層的濃縮,主要是通過特征項的出現(xiàn)頻次統(tǒng)計、專家意見等方法遴選出某領域較為重要的特征項集,如核心人物、重要機構、主要成就等。這些特征項集是領域知識的核心,對這些核心要素進行分析可以獲取領域發(fā)展的主要分支和熱點方向。第三步是問題求解層的構建。主要是利用用戶基本信息、行為信息及需求信息等進行用戶畫像分析,根據(jù)不同用戶群體的特點從基礎細節(jié)層或中間要素層中提取信息,并根據(jù)用戶的特點及需求將各個要素聯(lián)系起來,通過聚類、關聯(lián)等方法形成能夠滿足解決用戶實際問題的知識單元,問題求解層是領域知識結構構建的最終目的。第四步是知識拓展層的構建。這一步是通過分析問題求解層各個知識單元之間的關系,以及中間要素層在向問題求解層轉(zhuǎn)化過程中關聯(lián)聚類時的依據(jù),如用戶使用知識的場景、用戶的需求特點、用戶的需求變化過程等挖掘出新的領域知識。知識拓展層是領域知識結構的升華。

第三部分的主要內(nèi)容是領域信息庫的擴充,該部分主要是將知識拓展層的信息以及再生知識增加到領域信息庫中。再生知識的產(chǎn)生主要是利用分類、聚類、關聯(lián)、粒度分析等方法對用戶需求及行為信息進行挖掘。通過融合用戶的需求和知識使用情景,以解決用戶的實際問題為主線展開知識的推理,從不同視角分解和認識用戶的問題,在尋求隱含知識的同時,挖掘其中的規(guī)律和模式。利用再生知識對領域信息庫進行擴充是領域保持生命力與創(chuàng)新力的關鍵所在。

5 結語

大數(shù)據(jù)環(huán)境下,知識組織的內(nèi)容經(jīng)歷了從傳統(tǒng)的結構化數(shù)據(jù)和文獻數(shù)據(jù)向多源異構數(shù)據(jù)的轉(zhuǎn)變,這種轉(zhuǎn)變在賦予知識組織與知識服務新特點的同時也帶來了新的挑戰(zhàn)。為應對這些挑戰(zhàn),本文首先總結出了大數(shù)據(jù)背景下的領域知識服務特點,并在此基礎上,對以用戶為導向的知識服務模式進行梳理。其次,結合該模式,設計了知識服務視角下的領域知識結構。最后,本文給出了該結構的構建流程。本文設計的領域知識結構既能夠及時根據(jù)用戶需求及反饋信息,以及在大數(shù)據(jù)環(huán)境下挖掘的新知識補充領域知識庫,也能夠根據(jù)用戶需求靈活地從知識庫中提取信息。在后續(xù)研究中我們會將本文所提出的知識結構運用于實際領域的知識組織中,并通過用戶調(diào)研的方式來檢驗依據(jù)該領域知識結構展開的領域知識組織的可行性以及其能否滿足用戶的個性化需求,根據(jù)發(fā)現(xiàn)的問題在實踐中不斷完善該結構的構建框架與流程。

猜你喜歡
用戶服務信息
服務在身邊 健康每一天
服務在身邊 健康每一天
服務在身邊 健康每一天
招行30年:從“滿意服務”到“感動服務”
商周刊(2017年9期)2017-08-22 02:57:56
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 亚洲国产精品国自产拍A| 国产男女免费完整版视频| 欧美精品影院| 亚洲国产看片基地久久1024| av在线5g无码天天| 尤物亚洲最大AV无码网站| 992tv国产人成在线观看| 99人体免费视频| 国产91在线|日本| 色呦呦手机在线精品| 亚洲成人一区在线| 国产xx在线观看| 亚洲欧美在线看片AI| 91精品国产综合久久香蕉922 | 四虎国产永久在线观看| 99热亚洲精品6码| 香蕉视频在线观看www| 九色视频在线免费观看| 欧美成人一区午夜福利在线| 噜噜噜久久| 国产免费福利网站| 日韩高清欧美| 熟女视频91| 六月婷婷激情综合| 亚洲有无码中文网| 亚洲日韩图片专区第1页| 91亚洲视频下载| 在线无码av一区二区三区| 中国特黄美女一级视频| 天天操天天噜| 强乱中文字幕在线播放不卡| 亚洲av无码片一区二区三区| 无码国产偷倩在线播放老年人| 四虎亚洲精品| 在线看片免费人成视久网下载 | 91久久偷偷做嫩草影院免费看 | 亚洲狠狠婷婷综合久久久久| 亚洲第一香蕉视频| 国产成人成人一区二区| 欧美日韩国产精品va| 免费a级毛片18以上观看精品| 青青草a国产免费观看| 国产美女一级毛片| 国产成a人片在线播放| 久久无码av三级| 国产高颜值露脸在线观看| 日韩中文精品亚洲第三区| аⅴ资源中文在线天堂| 亚洲首页在线观看| 午夜老司机永久免费看片| 婷婷色中文| 日韩区欧美国产区在线观看| 欧美另类图片视频无弹跳第一页| 亚洲区一区| 欧美a级完整在线观看| 91成人免费观看| 最新亚洲人成网站在线观看| 国产精品永久免费嫩草研究院| 99国产在线视频| 青青操国产视频| 日韩欧美高清视频| 极品国产一区二区三区| 国产精品性| 999福利激情视频| 国产视频你懂得| a亚洲天堂| 香蕉久久永久视频| 国产激情无码一区二区APP| 啪啪啪亚洲无码| 色天天综合久久久久综合片| 精品伊人久久久久7777人| 亚洲首页国产精品丝袜| 国产无码高清视频不卡| 亚洲VA中文字幕| 欧美国产在线看| 国产女同自拍视频| 激情在线网| 欧美色图第一页| 波多野结衣爽到高潮漏水大喷| 国产欧美自拍视频| 婷婷久久综合九色综合88| 在线欧美日韩|