

摘要:為解決出版行業(yè)因數(shù)據(jù)來源多樣和系統(tǒng)異構(gòu)導(dǎo)致的信息整合難題,文章提出一種融合本體與元數(shù)據(jù)的數(shù)據(jù)集成方法。該方法利用關(guān)系數(shù)據(jù)庫構(gòu)建局部本體,結(jié)合四種相似度計(jì)算方法進(jìn)行概念匹配,再通過Sigmoid函數(shù)融合生成綜合相似度矩陣,最終利用穩(wěn)定婚姻算法實(shí)現(xiàn)最優(yōu)映射。為進(jìn)一步提升匹配效果,引入BP神經(jīng)網(wǎng)絡(luò)模型挖掘元數(shù)據(jù)關(guān)聯(lián)信息,共同服務(wù)于全局本體構(gòu)建。實(shí)驗(yàn)表明,該方法在處理復(fù)雜異構(gòu)數(shù)據(jù)方面表現(xiàn)出良好的匹配精度和應(yīng)用價(jià)值,有效提升了數(shù)字資產(chǎn)管理效率。
關(guān)鍵詞:出版行業(yè);數(shù)據(jù)集成;本體;相似度計(jì)算;元數(shù)據(jù);BP神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP311" " " 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號:1009-3044(2025)28-0042-03
開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID)
0 引言
近年來,隨著信息技術(shù)的快速發(fā)展和智能手機(jī)的普及,電子書、社交媒體及各類應(yīng)用逐漸成為部分讀者獲取知識(shí)的重要方式[1],對傳統(tǒng)紙質(zhì)圖書形成一定的補(bǔ)充與替代。為適應(yīng)這一趨勢,各出版社積極推進(jìn)數(shù)字出版,推動(dòng)圖書數(shù)字化[2],并積累了大量數(shù)字資產(chǎn),成為其核心競爭力。出版社的數(shù)字資產(chǎn)主要包括電子書、期刊等內(nèi)容資源,以及作者信息、銷售記錄等業(yè)務(wù)數(shù)據(jù)[3]。
數(shù)字技術(shù)雖為出版行業(yè)的資產(chǎn)管理帶來了便利,但也引發(fā)了新的挑戰(zhàn)。在數(shù)字化轉(zhuǎn)型中,由于各系統(tǒng)建設(shè)時(shí)間、功能目標(biāo)和數(shù)據(jù)規(guī)范不同,導(dǎo)致數(shù)字資產(chǎn)的管理面臨“數(shù)據(jù)孤島”和異構(gòu)數(shù)據(jù)難以整合的問題[4],嚴(yán)重影響信息共享與數(shù)據(jù)利用。盡管已有聯(lián)邦數(shù)據(jù)庫、數(shù)據(jù)倉庫、中間件等集成方法,但在處理出版行業(yè)復(fù)雜多源數(shù)據(jù)時(shí),仍存在語義理解能力不足、關(guān)聯(lián)分析困難以及智能化水平有限等問題。為此,本體作為一種有效的知識(shí)組織工具[5],能夠提升系統(tǒng)互操作性和數(shù)據(jù)整合能力,為數(shù)字資產(chǎn)的高效集成與智能應(yīng)用提供新思路。
本研究融合本體理論與元數(shù)據(jù)技術(shù),提出一種適用于出版行業(yè)數(shù)字資產(chǎn)的統(tǒng)一建模方法。該方法實(shí)現(xiàn)了對多源異構(gòu)資源及其關(guān)聯(lián)關(guān)系的形式化表達(dá)與標(biāo)準(zhǔn)化管理,提升了數(shù)據(jù)整合的精度與智能化水平。相比傳統(tǒng)集成方式,該模型在整合能力和信息共享方面更具優(yōu)勢,為智能服務(wù)提供支撐,幫助出版機(jī)構(gòu)更準(zhǔn)確把握市場和用戶需求,增強(qiáng)競爭力。
1 基于本體的多源異構(gòu)數(shù)據(jù)集成方法
1.1 局部本體構(gòu)建
構(gòu)建局部本體的關(guān)鍵是從多源異構(gòu)數(shù)據(jù)中提取核心信息,分析各數(shù)據(jù)庫結(jié)構(gòu),并將其轉(zhuǎn)化為本體中的類、對象屬性和數(shù)據(jù)屬性等元素。由于關(guān)系數(shù)據(jù)庫與本體在結(jié)構(gòu)上具有相似性,本文設(shè)計(jì)了從數(shù)據(jù)庫到本體的映射規(guī)則[6],具體如下:
1) 本體類與表名的映射
各個(gè)表名轉(zhuǎn)換為本體中的類。
2) 本體屬性與字段名的映射
① 外鍵字段:映射為對象屬性,定義域?yàn)楫?dāng)前類,值域?yàn)楸灰玫念悺?/p>
② 普通字段: 映射為數(shù)據(jù)屬性,定義域?yàn)樗鶎兕悾涤驗(yàn)樵撟侄蔚臄?shù)據(jù)類型。
3) 本體實(shí)例與數(shù)據(jù)記錄的映射
每條數(shù)據(jù)記錄對應(yīng)一個(gè)本體實(shí)例。
4) 特殊情況
若兩個(gè)表主鍵相同且存在依賴關(guān)系,則建立子類關(guān)系。例如已售圖書表Book_onsell依賴于圖書信息表Book且主鍵相同,因此Book_onsell是Book的子類。
通過上述規(guī)則可將數(shù)據(jù)庫結(jié)構(gòu)轉(zhuǎn)化為局部本體模型。但由于各局部本體之間相互獨(dú)立,可能存在命名和語義上的不一致問題,給數(shù)據(jù)集成帶來挑戰(zhàn)。
1.2 本體映射
本體映射是識(shí)別并建立多個(gè)本體之間對應(yīng)關(guān)系的過程,核心在于計(jì)算概念間的相似性。本文從概念的語義、字符串特征、屬性和實(shí)例四個(gè)維度分別計(jì)算其相似度,并進(jìn)行加權(quán)融合,得到綜合相似度。
1) 基于語義的相似度計(jì)算
針對不同數(shù)據(jù)庫中同一概念可能存在多種表達(dá)的問題,本研究采用WordNet中兩個(gè)概念節(jié)點(diǎn)之間的最短路徑[7]長度衡量語義相似度,計(jì)算公式如下:
[simWordNet(s1,s2)=2×depth(lso(s1,s2))depths1+depths2]" " "(1)
式中:[lsos1,s2]表示概念[s1]和[s2]的最低公共祖先節(jié)點(diǎn),[depths]表示概念在WordNet語義樹中的深度。
2) 基于字符串的相似度計(jì)算
為彌補(bǔ)語義相似度在詞形和拼寫層面的不足,本文采用結(jié)合詞長信息的編輯距離[8]方法衡量字符串相似性,計(jì)算公式如下:
[simLevenshtein(s1,s2)=1-2*d(s1,s2)ls1+ls2]" " "(2)
式中:[d(s1,s2)]表示概念[s1]和[s2]之間的編輯距離,[ls]表示字符串的長度。
3) 基于屬性的相似度計(jì)算
①數(shù)據(jù)屬性
首先按數(shù)據(jù)類型對本體類的數(shù)據(jù)屬性進(jìn)行分類,得到概念[A]和[B]的數(shù)據(jù)屬性子集,并匹配相同類型屬性,如[Aint,Bint],然后為每對屬性計(jì)算相似度,構(gòu)造相似度矩陣。匹配時(shí)優(yōu)先選取相似度最高的元素,并刪除其所在行與列,重復(fù)操作直至矩陣為空,得到相似度序列[d=d1,d2,…dq|q=min (i,j)],屬性子集對的相似度為該序列的平均值,若存在類型缺失或不匹配,則對應(yīng)相似度為 0。最終,數(shù)據(jù)屬性相似度為所有子集對相似度的平均值。
②對象屬性
對象屬性的計(jì)算步驟與數(shù)據(jù)屬性類似,但不需要前期的類型區(qū)分[9]。由于數(shù)據(jù)屬性和對象屬性在概念描述中同等重要,最終屬性相似度取兩者的平均值。
4) 基于實(shí)例的相似度計(jì)算
在評估本體概念相似度時(shí),若其實(shí)例存在交集,則認(rèn)為概念具有較高相似性,本文使用Jaccard系數(shù)[10]進(jìn)行量化。
本文綜合運(yùn)用四種相似度計(jì)算方法,分別生成對應(yīng)的相似度矩陣。由于各矩陣反映的匹配特征不同,采用Sigmoid函數(shù)對其進(jìn)行非線性加權(quán)融合,根據(jù)分布特性動(dòng)態(tài)調(diào)整權(quán)重,突出高相似度的影響力,構(gòu)建更具區(qū)分度的綜合相似度矩陣。最后,結(jié)合穩(wěn)定婚姻算法實(shí)現(xiàn)一對一最優(yōu)匹配。
2 BP神經(jīng)網(wǎng)絡(luò)與本體關(guān)聯(lián)分析
在基于本體的多源異構(gòu)數(shù)據(jù)集成中,核心是整合各數(shù)據(jù)源的局部本體信息。為提升集成精度,本文引入數(shù)據(jù)庫中的元數(shù)據(jù)資源,其不僅描述數(shù)據(jù)的基本特征,還揭示數(shù)據(jù)間的潛在關(guān)聯(lián)。為挖掘元數(shù)據(jù)價(jià)值,本文采用神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)聯(lián)分析,通過訓(xùn)練模型發(fā)現(xiàn)其中的隱含規(guī)律,從而優(yōu)化多源數(shù)據(jù)的匹配效果。
2.1 元數(shù)據(jù)提取與標(biāo)準(zhǔn)化
在進(jìn)行匹配計(jì)算前,需從數(shù)據(jù)庫中提取并處理元數(shù)據(jù),然后將每個(gè)屬性轉(zhuǎn)化為多維特征向量。由于數(shù)據(jù)庫設(shè)計(jì)者會(huì)根據(jù)屬性的特點(diǎn)選擇合適的數(shù)據(jù)類型,因此需要對不同的數(shù)據(jù)類型進(jìn)行區(qū)分,并使用對應(yīng)的數(shù)值表示:int為10、decimal 為20、bit為30;差異較大的數(shù)據(jù)類型如char、money和datetime分別用100、200、300表示,布爾型則用0和1表示。
具體特征提取方式如下:
1) 字符型數(shù)據(jù):按字節(jié)數(shù)統(tǒng)計(jì)長度并進(jìn)行數(shù)值化處理。
2) 數(shù)字型數(shù)據(jù):直接分析數(shù)據(jù)實(shí)例中的數(shù)值并提取統(tǒng)計(jì)信息。
3) 稀有型數(shù)據(jù):如 datetime 類型,提取日期部分作為特征。
為提高神經(jīng)網(wǎng)絡(luò)處理效率,所有特征值均歸一化至[0,1]區(qū)間,公式如下所示:
[fx=2×11+1.01-x-0.5]" " "(3)
2.2 模型訓(xùn)練
為將處理后的特征向量用于BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練,需先確定網(wǎng)絡(luò)輸出格式并準(zhǔn)備對應(yīng)標(biāo)簽數(shù)據(jù)。以Author表為例,在對其元數(shù)據(jù)和結(jié)構(gòu)信息進(jìn)行標(biāo)準(zhǔn)化處理時(shí),選取了包括數(shù)據(jù)類型、長度、是否可為空、是否為主鍵、精度、小數(shù)位數(shù)、最小值、最大值、平均值及數(shù)字字符比例等指標(biāo)。表1展示了Author表中部分屬性字段的特征信息及其對應(yīng)的輸出向量示例。
在設(shè)計(jì)BP神經(jīng)網(wǎng)絡(luò)時(shí),以表中數(shù)據(jù)為例,首先根據(jù)數(shù)據(jù)特征確定網(wǎng)絡(luò)結(jié)構(gòu)。輸入層包含10個(gè)節(jié)點(diǎn),對應(yīng)10個(gè)特征;輸出層包含4個(gè)節(jié)點(diǎn),對應(yīng)4種分類結(jié)果。隱藏層節(jié)點(diǎn)數(shù)依據(jù)經(jīng)驗(yàn)設(shè)定為輸入層與輸出層節(jié)點(diǎn)數(shù)之和的一半。該設(shè)計(jì)在控制模型復(fù)雜度的同時(shí),也確保其具備足夠的表達(dá)能力。
訓(xùn)練過程首先進(jìn)行前向傳播,隱藏層通過加權(quán)求和并經(jīng)Sigmoid函數(shù)進(jìn)行非線性變換,輸出層使用Softmax函數(shù)生成概率分布。由于初始權(quán)重和偏置是隨機(jī)的,預(yù)測結(jié)果通常偏差較大。為此,采用交叉熵?fù)p失函數(shù)衡量誤差。當(dāng)誤差超過閾值時(shí),進(jìn)入反向傳播,利用梯度下降法調(diào)整權(quán)重和偏置,逐步減小預(yù)測誤差。隨著迭代進(jìn)行,損失不斷下降,直到滿足精度要求或達(dá)到最大迭代次數(shù),此時(shí)的參數(shù)即為最優(yōu)模型配置。
2.3" 屬性匹配
屬性匹配過程分為三個(gè)階段:第一階段使用本體相似度算法獲取初始候選匹配;第二階段基于候選對構(gòu)建并訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型;第三階段對新屬性進(jìn)行標(biāo)準(zhǔn)化處理后輸入網(wǎng)絡(luò),完成匹配預(yù)測。該方法融合神經(jīng)網(wǎng)絡(luò)輸出與本體匹配結(jié)果,增強(qiáng)匹配決策的可靠性。例如,一個(gè)表示作者姓名的屬性,經(jīng)特征提取和標(biāo)準(zhǔn)化后得到向量 (0.7,0.2,0,0.005,0,0,0.03,0.08,0.05,0),輸入訓(xùn)練好的網(wǎng)絡(luò)后輸出相似度向量(0.0015,0.012,0.251,0.979),表明該屬性最可能和Name屬性匹配。
為減少因源集合與目標(biāo)集合元素?cái)?shù)量差異帶來的匹配偏差,本文采用雙向選擇策略:分別為源數(shù)據(jù)和目標(biāo)數(shù)據(jù)構(gòu)建獨(dú)立的BP神經(jīng)網(wǎng)絡(luò)模型,分別進(jìn)行正向和反向匹配。正向網(wǎng)絡(luò)以源數(shù)據(jù)為訓(xùn)練集、目標(biāo)數(shù)據(jù)為輸入;反向網(wǎng)絡(luò)則相反。最終取兩個(gè)方向匹配結(jié)果的交集作為最終匹配輸出。該方法有效緩解了不同數(shù)據(jù)模式間的差異,提高了匹配的穩(wěn)定性和魯棒性。
局部本體匹配和神經(jīng)網(wǎng)絡(luò)屬性匹配共同支持全局本體的構(gòu)建。本體融合旨在識(shí)別各局部本體間的關(guān)聯(lián)概念與屬性,并分析其語義異同。融合過程首先計(jì)算概念和屬性的相似度,找出潛在的等價(jià)映射;再結(jié)合元數(shù)據(jù)信息驗(yàn)證匹配結(jié)果的合理性。最終在解決命名沖突、結(jié)構(gòu)差異和語義不一致的基礎(chǔ)上,將多個(gè)局部本體整合為統(tǒng)一、協(xié)調(diào)的全局本體,全面表達(dá)出版領(lǐng)域的核心知識(shí)結(jié)構(gòu)。
3 實(shí)驗(yàn)結(jié)果與分析
本文在本體匹配中融合了多種元數(shù)據(jù)信息,并采用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行屬性匹配。考慮到目前缺乏可用于本體與元數(shù)據(jù)關(guān)聯(lián)分析的標(biāo)準(zhǔn)數(shù)據(jù)集,研究基于實(shí)際應(yīng)用場景,對多源系統(tǒng)的原始數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建了實(shí)驗(yàn)所需的數(shù)據(jù)集,以驗(yàn)證方法的實(shí)際效果。
為全面評估本文方法在處理多源異構(gòu)數(shù)據(jù)中的性能,實(shí)驗(yàn)基于圖書信息、作者信息和銷售記錄三類典型業(yè)務(wù)數(shù)據(jù)構(gòu)建數(shù)據(jù)集。通過對其異構(gòu)模式進(jìn)行建模與本體化表示,提取出具有語義描述能力的元數(shù)據(jù)與本體結(jié)構(gòu)。
在實(shí)驗(yàn)過程中,首先采用基于本體的匹配算法進(jìn)行初步匹配;隨后,進(jìn)一步結(jié)合BP神經(jīng)網(wǎng)絡(luò)對本體與元數(shù)據(jù)進(jìn)行聯(lián)合分析。通過兩種方法的實(shí)驗(yàn)對比,驗(yàn)證本文方法在真實(shí)場景中數(shù)據(jù)集成的效果。
相比傳統(tǒng)的單一本體方法,本文提出的結(jié)合元數(shù)據(jù)信息并引入神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)聯(lián)分析的方法,在數(shù)據(jù)集成任務(wù)中具有更優(yōu)的表現(xiàn)。該方法有效提升了屬性映射的準(zhǔn)確性和匹配質(zhì)量,能夠更好地應(yīng)用于多源異構(gòu)數(shù)據(jù)的集成場景中。
4 結(jié)束語
針對出版行業(yè)數(shù)字資產(chǎn)面臨的海量、多源及語義異構(gòu)問題,本文結(jié)合本體與元數(shù)據(jù)技術(shù),提出多源異構(gòu)數(shù)據(jù)集成方法。實(shí)驗(yàn)驗(yàn)證表明,該方法有效提升匹配準(zhǔn)確性,具備良好的可行性與應(yīng)用價(jià)值。未來研究將拓展本體構(gòu)建的數(shù)據(jù)來源,完善行業(yè)本體模型,并探索基于集成數(shù)據(jù)的深入應(yīng)用,如數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn),助力出版企業(yè)在數(shù)字資產(chǎn)管理與智能服務(wù)方面的能力提升。
參考文獻(xiàn):
[1] 蔣賢駿,陶善勇.淺析出版社的數(shù)字資產(chǎn)開發(fā)[J].電腦知識(shí)與技術(shù),2019,15(3):201-202.
[2] 秦熹微.傳統(tǒng)圖書出版融合發(fā)展之路[J].中國報(bào)業(yè),2023(22):164-165.
[3] 陳源蒸.出版數(shù)字資產(chǎn)管理[J].出版經(jīng)濟(jì),2004(12):74-76.
[4] 陳云霄.企業(yè)管理數(shù)字化探究[J].合作經(jīng)濟(jì)與科技,2024(10):115-117.
[5] 方卿,丁靖佳,王嘉昀.數(shù)字出版知識(shí)服務(wù)進(jìn)展與啟示[J].數(shù)字圖書館論壇,2021(7):2-9.
[6] 丁嵐,賈琦.一種將關(guān)系數(shù)據(jù)庫轉(zhuǎn)換為OWL本體的方法[J].科技信息,2011(27):209-210,250.
[7] 孫麗莉,張小剛.基于WordNet的概念語義相似度的計(jì)算方法[J].統(tǒng)計(jì)與決策,2017,33(23):79-82.
[8] 雷凱博.面向多源異構(gòu)數(shù)據(jù)的集成方法研究與應(yīng)用[D].鄭州:鄭州大學(xué),2021.
[9] 張聰,王海龍,柳林.紀(jì)檢監(jiān)察領(lǐng)域本體構(gòu)建與元數(shù)據(jù)集成[J].內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版),2023,52(5):544-550.
[10] 孫海真,謝穎華.改進(jìn)的多策略的概念相似度計(jì)算方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(7):93-98.
【通聯(lián)編輯:光文玲】