李強 劉思得 張鎮波 鮑玉來



關鍵詞:語義關聯:多源自媒體資源:知識組織:元數據
多源自媒體資源包含了大量的數字內容,例如博客、微博、微信公眾號、短視頻等,這些內容能夠豐富圖書館的館藏,為用戶提供多元化的信息資源。多源自媒體資源的數量龐大,用戶往往無法通過傳統的檢索方式找到所需的信息。構建多源自媒體資源的知識組織模型,可以通過對多源自媒體資源進行分類、標注等方式,提高用戶獲取信息的效率。多源自媒體資源的特點是用戶可以自由發布和共享自己的知識和經驗。通過構建多源自媒體資源的知識組織模型,可以促進用戶之間的知識交流與分享,打破傳統知識傳播的壁壘。多源自媒體資源中蘊含了大量的學術研究成果和專業知識,構建多源自媒體資源的知識組織模型可以將這些資源整合起來,為學術研究和學習提供支持。多源自媒體資源的知識組織模型能夠將用戶的需求與資源進行匹配,提供個性化的推薦和服務,從而提升用戶的使用體驗。
1多源自媒體資源知識組織目標與原則
多源自媒體是指來自多個不同平臺和渠道的多源自媒體資源。多源自媒體,也稱為個人媒體或公民媒體,是指個人或團體通過互聯網等數字化技術手段發布、傳播信息的新型媒體形式。在當前的信息時代,多源自媒體已成為人們獲取信息、表達觀點的重要途徑。
1.1多源自媒體的特點
多源自媒體的特點主要體現在以下幾個方面:
1)多樣性:多源自媒體包括各種類型的網絡平臺,如社交媒體(微博、微信)、短視頻平臺(抖音、快手)、問答社區(知乎)、直播平臺(斗魚、虎牙)等。
2)開放性:多源自媒體門檻低,任何人都可以成為信息的生產者和傳播者,內容涵蓋廣泛,從生活瑣事到專業知識,無所不包。
3)實時性:多源自媒體信息發布迅速,能夠實時反映社會熱點事件和個人即時感受。
4)互動性:多源自媒體具有強烈的社交屬性,用戶之間可以進行評論、點贊、分享等多種形式的互動。
5)多元化:多源自媒體內容多樣,不僅有文字,還有圖片、音頻、視頻等多種形式。
因此,多源自媒體的研究對于了解公眾意見、挖掘社會熱點、提升信息服務質量等方面具有重要意義。同時,由于多源自媒體資源的多源異構特點,如阿有效地組織和管理這些資源也是一項重要的挑戰。
1.2多源自媒體資源知識組織目標
多源自媒體資源知識組織的目標是發掘館藏與多源自媒體資源在知識上的聯系,實現多源自媒體資源的有序化組織和高效利用,并為用戶進行信息檢索提供便利,減少其在精細化檢索上耗費的時間,具體內容如下:
1)推動多源自媒體資源有序化組織。知識組織被定義為揭示知識單元,挖掘知識關聯的過程或行為,最為快捷地為用戶提供有效知識或信息。通過引入知識元和語義關聯等方法,將較為雜亂的多源自媒體資源信息整理為結構化的有序知識來源,挖掘內部知識結構和特征規律,方便圖書館的引用。
2)實現館藏到多源自媒體資源的一對多映射。通過對多源自媒體資源和虛擬館藏資源進行知識元瞄述、抽取、關聯和應用,采用深度學習、主題建模等多種技術方法對知識內容單元進行序化重組,旨在通過尋找館藏與多源自媒體資源在知識結構上的映射關系,使圖書館實現由多源自媒體資源到館藏的利用。
1.3多源自媒體資源知識組織原則
對多源自媒體資源進行知識組織需要遵循一定的原則。①科學性原則,科學性原則是科學研究的首要原則,也是知識組織的首要原則;②有序性原則,當今時代信息量的爆發式增長,海量信息和虛假信息導致了檢索和甄別困難,因此,實現知識的有序化是知識組織工作的重要目標之一:③實用性原則,實用性原則發源于實用主義,主要體現為強調行動和效果,將經驗和實踐歸結為行動的效果,將知識歸結為行動的工具,將真理歸結為有用、效用或行動的成功,盡力立足于事實,腳踏實地地進行科學研究;④多維性原則,多維性原則指要從多個維度進行多源自媒體資源的知識組織,其一指從語義方面對館藏資源進行知識元分析:其二是對多源自媒體資源進行知識結構的解析:其三是揭示在上述二者之間的內在聯系。需要借助人工智能技術,有針對性地多角度、多途徑、全方位進行知識組織研究,滿足用戶的多維知識需求。
2多源自媒體資源知識組織模型邏輯框架構建
2.1多源自媒體資源知識組織方式和單一來源自媒體資源知識組織方式的區別
單一來源自媒體資源知識組織方式是指只從一個特定平臺或渠道收集多源自媒體資源進行知識組織。這種方式的優點是數據來源相對穩定,數據格式和內容類型較為一致,便于管理和處理。例如,如果僅從知乎平臺收集問答信息,那么數據主要以文本形式存在,且結構清晰,可以按照問題、回答、評論等維度進行分類和索引。然而,多源自媒體資源知識組織方式則需要面對來自多個不同平臺和渠道的數據,這些數據不僅在格式上可能存在差異(如文字、圖片、視頻等),而且在內容和主題上也可能各不相同。這就需要更為復雜的知識組織策略和技術手段。
1)多源自媒體資源的知識組織需要解決數據整合的問題。由于各個平臺的數據格式和標準可能不同,因此需要進行數據轉換和標準化,以便于后續的處理和分析。
2)多源自媒體資源的知識組織需要考慮如何有效地提取和利用信息。這包括對數據的內容進行深入理解和解析,例如識別關鍵詞、命名實體、情感傾向等,并建立它們之間的語義關聯。
3)多源自媒體資源的知識組織還需要應對數據更新和變化的問題。由于多源自媒體的實時性和動態性,數據可能會快速地產生和消失,因此需要設計合理的數據采集和更新策略。
多源自媒體資源知識組織方式相比單一來源自媒體資源知識組織方式,需要更強大的數據處理和分析能力,以及更為靈活和適應性的知識組織策略。
2.2多源自媒體資源知識組織邏輯框架
多源自媒體資源知識組織是數字資源知識組織領域下,基于多源自媒體資源知識內涵及與館藏資源的關聯關系開展的知識組織新模式,旨在從多源自媒體資源中尋求與館藏資源的語義關聯與映射,并嘗試實現與虛擬館藏資源之間的語義關聯,從而為虛擬館藏提供延伸服務。
將多源自媒體資源知識組織劃分為多源自媒體資源特征知識組織和多源自媒體資源內容知識組織兩個維度。在上述兩個維度的知識組織基礎上,再加以對虛擬館藏資源的知識抽取結果,將三者進行語義關聯,挖掘館藏資源和多源自媒體資源在知識結構、知識內涵上的聯系,并以此思路構建了多源自媒體資源知識組織邏輯框架,如圖1所示。
3多源自媒體資源特征信息組織
多源自媒體資源特征信息組織是以知識元為核心要素,對多源自媒體資源的特征,即結構化信息的內容和特征進行抽象表示和概括,以促進知識的管理和利用,是知識元抽取、知識關聯等知識組織工作的基礎。多源自媒體資源特征信息組織結構整體劃分為語義與全局兩個維度,由表及里,由形式到內容進行知識元描述。首先從多源自媒體資源結構化信息出發,對結構化信息進行元數據描述,構建多源自媒體資源特征元數據描述框架,并采用形式語言進行規范化表示。其次通過引入本體,構建多源自媒體資源特征元數據描述模型。最后,從全局維度人手,為多源自媒體資源特征之間的語義關系構建一個系統性的元數據體系結構,以此全面地對多源自媒體資源特征信息進行抽象化表示,為后續的語義關聯做好鋪墊工作。
多源自媒體資源特征元數據描述框架構建包括4個步驟,分別為多源自媒體資源特征信息分析、多源自媒體資源特征核心要素提取、元數據標準復用、元數據描述框架構建。
3.1多源自媒體資源特征信息分析
多源自媒體資源特征信息的結構和布局較為簡單,根據多源自媒體平臺常見的作者一作品一觀眾/讀者三元體系,將多源自媒體資源特征信息中作者相關信息定義為作者要素,將資源客觀上存在的、一般不會改變的信息定義為客觀要素,將因觀眾交互產生的、通常用于衡量資源質量的信息定義為質量要素。此外分別以B站、抖音.知乎3個平臺的自媒體資源為例,分析這些多源自媒體平臺的資源相關特征,從而為多源自媒體資源特征元數據描述框架構建提供參考依據。
B站多源自媒體資源特征信息基本分布于詳情頁,包括資源標題、播放量、彈幕量、作者、作者認證信息、作者粉絲量、資源獲認可量(點贊、投幣、收藏)、資源標簽、資源關聯等。其中作者、作者認證信息、作者粉絲量可歸納為作者要素,資源標題、資源標簽可歸納為客觀要素,播放量、彈幕量、資源獲認可(點贊、投幣、收藏)、資源關聯可歸納為質量要素。
抖音多源自媒體資源特征信息與資源詳情頁的體現不夠完整,需要借助作者主頁來補充信息,包括作者、資源標題、資源標簽、資源獲認可量(點贊、收藏)、作者認證信息、作者粉絲量、總獲贊量等。其中作者、作者認證信息、作者粉絲量、總獲贊量可歸納為作者要素,資源標題、資源標簽、播放量和訪問地址可歸納為客觀要素,播放量、資源獲認可量(點贊、收藏)可歸納為質量要素。
知乎多源自媒體資源特征信息與資源詳情頁的體現同樣不夠完整,同樣需要借助作者主頁來補充信息,包括作者、發布日期、資源標題、資源標簽、資源獲認可量(點贊、評論)、作者從事行業、作者粉絲量、總獲贊量等。其中作者、作者從事行業、作者粉絲量、總獲贊量可歸納為作者要素,資源標題、發布日期、資源標簽可歸納為客觀要素,資源獲認可量(點贊、評論)可歸納為質量要素。
3.2提取多源自媒體資源知識元核心要素
結合上文中所分析和歸納的多源自媒體資源特征信息,并參考現有的成熟元數據標準,提煉多源自媒體資源特征要素(如表1所示),為多源自媒體資源知識元元數據框架構建奠定基礎。
3.3元數據標準復用
由于多源自媒體資源方面目前并沒有專業的元數據標準,因此考慮從較為廣泛的網絡資源領域選取了DC元數據進行復用。
DC(Dublin Core)元數據又稱“都柏林核心元數據”,是當前圖書館界應用最廣、影響最大的標準化元數據,其主要元素構成如表2所示。
3.4構建多源自媒體報紙資源知識元元數據描述框架
參考DC元數據標準后,本文復用了其中5個元素(題名、日期、創建者、主題、來源),關于已定義的其余多源自媒體知識元要素,目前尚未找到近似的元數據標準,因此,本文進行自定義一個元數據標準(wemedia,簡寫為wm)說明,元數據元素共計17個,具體信息如表3所示。
4多源自媒體資源內容信息組織
多源自媒體資源內容信息組織是基于互聯網環境下用戶進行信息檢索的主要方式中的視頻檢索,即到視頻中找答案的檢索行為而構建的。主要以人工智能技術對多源自媒體資源的內容進行知識抽取工作,主要分為實體抽取、事件知識元抽取和主題知識元抽取3部分,對資源中包含的知識元進行具象化概括和標注,以對多源自媒體資源特征信息組織進行補充,為后續的語義關聯提供支持。
4.1多源自媒體資源內容文本化
在知識組織工作中,組織的對象均為各種形式的文本信息,而非文本類多源自媒體資源中同樣包含著許多有價值的信息,卻由于載體的限制從未成為知識組織的對象。因此,本文嘗試提出一個研究思路,通過若干步驟對非文本類多源自媒體資源進行文本化,提取出資源中的內容,使其可以適用于當下常用的知識組織方法,為知識抽取工作提供數據支持。當前,非文本類資源包括視頻資源、音頻資源和圖片資源,由于圖片資源內容特征涉及非文字性的圖形、色彩、色調、紋理、內容對象、物理制作等要素信息,現有技術對于圖像提取信息的手段缺乏而無法獲得有效信息,因此本文對多源自媒體資源內容文本化的設計將忽略圖片資源信息,僅考慮視頻資源和音頻資源。下面將以B站視頻類多源自媒體資源“【羅翔】正當防衛的尺度”為例,展示多源自媒體資源內容文本化的主要流程。
1)工具選擇與項目搭建
本文選擇的多源自媒體資源文本化工具為深度卷積神經網絡(DCNN)、連接時序分類(CTC)方法及語言模型Language Model等,使用語音識別專用數據集進行訓練。
首先通過特征提取將音頻文件中普通的語音信號通過分幀加窗等操作轉換為神經網絡需要的二維頻譜圖像信號,即語譜圖。然后通過DCNN(深度卷積神經網絡),將聲學信號轉換為拼音標簽序列。
在語音識別系統的聲學模型的輸出中,往往包含了大量連續重復的符號,因此還需要使用CTC(連接時序分類)方法將連續相同的符合合并為同一個符號,然后再去除靜音分隔標記符,得到最終實際的語音拼音符號序列。
拼音轉漢字的原理參照動態規劃算法,與計算機學中的最短路徑的算法基本相同。可將拼音到漢字的轉化看成對最短路徑問題的求解,每個漢字有且僅有1個音,但每一組拼音可以對應多個漢字,將拼音符號序列對應的字自左向右相連即構成1張有向圖,如圖2所示。
Y1是輸入的拼音符號序列,W11、W12、W13分別為Y1的第一、二、三個候選字,有向箭頭表示該候選字與下一個候選字組成的字段符合原本語義表達的概率,后續以此類推直到Y。與最短路徑問題略有不同的是,在語音轉化中期望得到的結果是到終點概率最大的路徑,因此本文使用了最短路徑算法中的貪心算法來進行語音到文本的解碼。
貪心算法(又稱貪婪算法),指在對問題求解時,總是做出在當前看來是最好的選擇。也就是說,不從整體最優上加以考慮,他所做出的是在某種意義上的局部最優解。貪心算法不是對所有問題都能得到整體最優解,關鍵是貪心策略的選擇,選擇的貪心策略必須具備無后效性,即某個狀態以前的過程不會影響以后的狀態,只與當前狀態有關。
2)多源自媒體資源下載與音頻提取
由于本文使用的多源自媒體資源文本化工具的輸人格式為音頻文件,因此需要對非音頻資源(即視頻資源)進行預處理,提取出音頻部分。多源自媒體資源的下載渠道為各自媒體資源平臺網站、APP或公眾號等,大多數多源自媒體平臺的音頻緩存格式為.mp3,視頻緩存格式則為.mp4或.flv,通過一些視頻處理軟件即可實現音頻提取。
B站的視頻緩存格式較為特殊,為.m4s格式,因此不能通過常規視頻處理軟件,需要用.m4s專用的軟件進行提取,否則會造成文件損壞。B站多源自媒體資源文件緩存index.json為頁面配置文件,audio. m4s和video. m4s分別為該資源的影像部分和音像部分,我們僅需要其中的音像部分即可,即audio.m4s文件,再將該文件使用.m4s專用軟件(如秒轉m4s等)將audio. m4s文件轉為.mp3的音頻文件即可。
3)格式轉化
在音頻識別項目中為了減少環境的負荷,通常要求音頻文件的shape[list]≤1600。而.mp3文件的shape[list]為42605,遠遠超出臨界值,因此需要對.mp3文件進行輕量級化,轉化為更接近原聲的.wav文件,減少對環境的依賴程度。
由.mp3文件到.wav文件的格式轉化可使用Audacity軟件完成,只需使用Audacity打開.mp3文件,重新錄制后再導出為.wav文件即可。
4)語音識別
將處理后的音頻文件路徑輸入語音識別項目后即可輸出識別后的中文文本。
4.2多源自媒體資源內容關鍵詞與知識摘要抽取
多源白媒體資源內容知識摘要與關鍵詞抽取分別使用了TextRank算法中的Summarize函數與Key-words函數。
TextRank算法是由頁面重要性排序算法Pag-eRank算法遷移出來而生成的新算法,PageRank算法依據頁面間的鏈接性聯系構建網絡,而TextRank算法則依據字詞間的共現性聯系構建網絡。
PageRank算法所建立的網絡上的邊為有向無權邊,而TextRank算法把單詞當作萬維網中的節點,并通過單詞間的共現性關系判斷一個單詞的價值,從而把PageRank中的有向無權邊轉換為無向有權邊。
首先需要將給定的文本進行分詞和詞性標注,詞性標注與命名實體識別相似但不完全相同,詞性標注指根據詞性標記所有詞語,而命名實體識別僅選出已被定義的的實體。本文分詞及詞性標注同樣采用Jiagu自然語言處理工具構建完成。多源自媒體資源內容詞性標注標準如表4所示,以B站視頻類多源自媒體資源“【羅翔】正當防衛的尺度”為例,展示分詞及詞性標注結果,如圖3所示。
在所有詞性標注的結果中剔除停用詞,只保留名詞、動詞、形容詞等,而后即可構建詞圖G=(V,E)。其中V為節點集合,由經過上一步所產生的詞匯構成,然后通過共現關系構造任何兩個節點相互之間的邊:在窗口尺寸為K的視窗中(即最多共現K個單詞,通常K取2),兩個節點相互之間具有邊當且僅當它們所相應的詞匯在尺寸為K的視窗中共現。
根據式(1).可以迭代求解各節點占據的權重,直到收斂。對節點的權重實行倒序排序,由此得出了最關鍵的t個詞,命名為top-t詞。對新獲得的top-t詞,在原始文本上加以標注,如果在它們的中間產生了任意相鄰短語,就當作關鍵詞抽取出來,即最終輸出的結果。
在給定文本中抽取關鍵句時,把文本中的各個語句單獨視為一個節點,假設兩個語句具有相似之處,即認為在這兩個語句對應的節點間具有一條無向有權邊,判斷語句間相似性的公式見式(2):
其中S1、S2為兩個獨立的句子,w為句子中的詞匯集。式(2)右側分子部分意為是同一個詞重復出現在兩個句子中的次數,分母則是對句子中詞的個數求對數后再求和,如此方可控制較長文本在相似度計算上的誤差。
按照上述相似度計算公式循環計算出任何兩個節點間的相似度,并設定閾值以去除兩個節點中間相似度較低的一邊,進而建立出節點連接圖,隨后迭代計算各個節點的TextRank值,在排序后選出TextRank值最大的n個節點,將其對應的語句作為關鍵句,并作為結果輸出。
以B站視頻類多源自媒體資源“【羅翔】正當防衛的尺度”為例,關鍵詞及知識摘要抽取結果如圖4所示。
4.3多源自媒體資源內容知識組織信息整合
按照多源自媒體資源知識元模型邏輯框架,多源自媒體資源內容知識組織所得結果將會與多源自媒體資源特征知識組織的所得結果一同進行語義關聯,為方便語義關聯工作的進行,需要將多源自媒體資源內容知識組織的結果集成到已構建的多源自媒體資源特征信息本體中,合并為多源自媒體資源信息本體,如圖5所示。
4.4多源自媒體資源語義網絡構建
1)語義網絡
語義網絡(Semantic Network)是奎林(Quillian JR)于1968年提出的一種以網狀脈絡表達數據關聯的形式,是人工智能程序運用的表示方式之一,是一種直觀的知識表示方法。語義網絡本質上是多組三聯組的組合與擴展,其構建方法主要是半自動法或自動法,包括概念抽取和關系抽取兩個步驟。
2)多源自媒體資源特征知識元語義網絡
通過Protege內的OntoGraf模塊,可對構建好的本體模型進行結構脈絡可視化,如圖6所示。
由于語義網絡的表達范圍有限,一旦節點個數太多,網絡結構復雜,推理就難以進行,因此在語義網絡的構建過程中需要有意控制節點的數量。
根據圖6中的結構脈絡,在多源自媒體資源特征信息分類層次的基礎上,將從事行業、職業經歷、教育經歷概括為履歷知識元。由于日期在語義網絡構建中具有格式特殊性,因此將其從客觀信息類中分出,獨立概括為時間知識元,概括后的整體知識元語義網絡如圖7所示。
多源自媒體資源特征語義網絡將多源自媒體資源的屬性以及屬性間的語義聯系顯示地表現出來,下層結點可以繼承、新增和變異上層結點的屬性,從而便于實現信息共享和知識挖掘。
5多源自媒體資源語義關聯實驗
為對多源自媒體資源知識組織結果進行延伸和應用,以實現研究目標中的館藏到多源自媒體資源的一對多映射,基于語義學理論,通過計算機領域的關聯算法對多源自媒體資源知識組織結果和館藏資源進行語義關聯研究,設計多個方案進行關聯并通過實驗比對它們的效果。
5.1語義關聯實驗設計
對語義關聯實驗進行設計,實驗的設計將分為4個部分,分別是需求分析、語義關聯算法選取、語義關聯方案設計和實驗流程設計。
5.1.1實驗需求分析
算法需要對知識組織的結果預處理后的數據同關聯對象進行語義關聯計算,輸出與給定的每個多源自媒體資源知識組織結果的語義關聯度,并按語義關聯度高低進行排序。排序后的各多源自媒體資源知識組織語義關聯度,關聯度最高和最低之差應不小于0.01,確保語義關聯結果能表現出明顯的高低之分。
5.1.2語義關聯算法選取
1)語義關聯算法。語義學理論中認為,任何兩個詞語的相似度取決于它們的共性(Commonality)和個性(Differences),語義關聯度一般為一個0~1之間的實數。
目前較為常見的語義關聯算法主要有:詞向量關聯法、特征關聯法、Bert概率關聯法和詞典關聯法。由于詞向量關聯法相較于其他關聯法較為直接和簡便,因此在目前語義關聯方面的算法更多會選擇詞向量關聯法。
2)算法評價指標。衡量機器學習算法的三大指標為:查全率、查準率和F1。
3)語義關聯算法對比分析。本實驗中選擇了詞向量關聯法中使用較多的幾種算法,并通過上述評價指標進行對比,如表5所示。
通過表5中的數據可見,算法text_similar-matching-tool-master在3項指標上都明顯優于其他算法,因止匕選擇text_similar-matching-tool-master來進行語義關聯實驗。
5.1.3語義關聯方案設計
通過結合多源自媒體資源知識組織中的多源自媒體資源語義網絡脈絡,已確定的語義關聯方案有兩種:整體關聯法和加權關聯法。在本實驗中根據語義網絡中各節點之間的距離為多源自媒體資源知識組織結果中的各個部分賦予權重,將各部分單獨作為算法的輸入結果進行語義關聯,再對輸出的結果進行加權運算,得出最終的加權語義關聯度。
在對算法的測試過程中發現,實驗算法對長文本的語義關聯度輸入結果浮動較大且整體偏低,而對短文本的語義關聯度則較為穩定,因此需要進行預實驗加以確定。
如圖8所示,將一段100字的文本分為5段20字的文本,再將它們分別與另一段關聯文本進行語義關聯,關聯文本為該100字文本經翻譯成英語、德語后再翻譯回中文的結果,語義關聯結果如圖9所示。
圖9中的similarity為100字文本同關聯文本間的語義關聯度,而similarity1~5則為分段后的5段文本各自與關聯文本間的語義關聯度。
通過預實驗可發現,similarity1~5均高于simi-larity,且對similarity1~5計算平均值后依然遠高于similarity。由此可見同一段文本內容,將其整體進行關聯和分段進行關聯的結果存在較大偏差。
多源自媒體資源知識組織結果由組成結構化信息、命名實體、關鍵詞、知識摘要等組成,因此考慮對多源自媒體資源知識組織結果進行分段,其中知識摘要字數相對較多可根據文段長度適當分為2~3段,再將它們分別與關聯對象進行語義關聯,以此構建分段關聯法。因為分段需要進行數倍于整體關聯法的工作量,因此在保證輸出語義關聯度最高的5個結果能夠達成的基礎上,分段關聯法將僅在整體關聯法結果中的語義關聯度最高的10個結果中進行。
分段關聯法對多源自媒體資源知識組織結果的分割恰好符合加權關聯法的數據需求,因此加權關聯法可在分段關聯法的基礎上進行。
至此,本實驗的語義關聯方案全部確定,分別為整體關聯法、詞句關聯法和加權關聯法,實驗語義關聯方案設計流程圖如圖10所示。
整體關聯法為語義關聯算法的直接調用,計算出關聯對象與多源自媒體資源信息的語義關聯度。
分段關聯法在整體關聯法的基礎上,對結果中語義關聯度前十的多源自媒體資源進行分段,以所有文段對于關聯對象信息的平均語義關聯度,作為該多源自媒體資源信息整體對于關聯對象信息的語義關聯度輸出。
加權關聯法在詞句關聯法的基礎上,對分段后的語義關聯度進行加權計算后得出加權語義關聯度。權重分配參照多源自媒體資源本體及知識元語義網絡結構,以節點的級別進行分配。
其中內容知識元、作者知識元和客觀信息知識元與上一級節點之間的距離比約為1:1.5:2.5,因此3個知識元與上一級節點的關聯程度比為1:111.5:1/2.5,化簡后約為5:3. 33:2,為方便加權計算,應盡量使比例總和為10個倍數,因此此處將關聯程度比例近似視為為5:3:20
通過上述比例可對一級節點進行權重分配,其中內容信息占0.5,作者信息占0.3,客觀信息占0.2,后續節點因距離差不夠明顯,計算比例較為困難,因此采用依次平分的形式,具體如表6所示。
5.1.4實驗流程設計
1)數據準備,將實驗所需的多源自媒體資源信息數據與關聯對象數據分別進行整理。
2)語義關聯計算,將整理的數據集通過3種算法進行語義關聯度計算,分別得出與之關聯度最高的5個結果及其語義關聯度。
3)結果檢驗,結果檢驗分為兩個部分。第一部分為對3種算法的整體關聯正確率進行人為判斷相關性,第二部分為對比詞句關聯法和加權關聯法下各個結果所計算出的語義關聯度。
4)實驗分析及總結。
5.2實驗數據收集及預處理
對實驗所需要的數據進行需求分析,確定數據的來源、類型和內容構成。然后通過技術手段對實驗數據按需求分類、分結構進行收集。最后對實驗數據進行預處理,以方便后續實驗流程進行。
5.2.1實驗數據說明
實驗的數據主要分為兩個部分:多源自媒體資源知識組織結果和關聯對象數據,數據類型均為txt文本文件。
多源自媒體資源數據知識組織結果通過上文構建的多源自媒體資源知識組織方法獲得,分別從B站、抖音、知乎3個社交媒體平臺選取若干多源自媒體資源數據,進行知識組織后將結果分別存入本地。出于工作量的考慮,將3個平臺的多源自媒體資源數量均定位50個。
為驗證語義關聯效果是否準確,應該在語義關聯數據集中適當加入干擾信息,因此在實驗中設置了20%的干擾信息,即與關聯對象不相關的多源自媒體資源數量占總多源自媒體資源數量的1/5。
5.2.2多源自媒體資源知識組織結果獲取
1)數據來源及類型。多源自媒體資源知識組織的結果,來源于多源自媒體資源經過第二部分多源自媒體資源知識組織的結果輸出。而知識組織對象的多源自媒體資源從B站、抖音、知乎3個平臺選取主要法律相關的知識性多源自媒體資源,其中200-/0的干擾性信息選取金融相關知識性多源自媒體資源。
2)數據采集。以B站為例,通過在網頁中查看源碼可知,B站的分區及關鍵詞等信息均包含在
在通過上一步的篩查后,即可對多源自媒體資源進行數據采集,采集的對象包括標題、作者、標簽等結構化信息,還包括多源自媒體資源本身,需要將其下載到本地并進行音頻提取等操作。
3)知識組織。對多源自媒體資源數據按多源自媒體資源知識組織模型進行知識組織后,將數據分別寫入txt文本文件,如圖11所示。
5.2.3關聯對象數據獲取
1)關聯對象選取。多源自媒體資源知識組織目標之一是實現館藏到多源自媒體資源的一對多映射,尋找館藏與多源自媒體資源在知識結構上的映射關系,以滿足用戶日益增長的知識需求,使圖書館實現由多源自媒體資源到館藏的利用,因此,本實驗中的關聯對象選擇了圖書館虛擬館藏資源。而由于需要保證語義關聯的效果,因此關聯對象與待關聯的文本之間應該具有相關性,即虛擬館藏的選取應該選用法律相關的館藏資源。本實驗關聯對象資源選擇了虛擬館藏資源《法律基礎》,如圖12所示。
2)關聯對象信息抽取目標分析。對關聯對象做信息抽取的主要目的是提供與多源自媒體資源信息進行語義關聯工作的數據。而本文的研究主體為對多源自媒體資源信息進行的知識組織,關聯對象是作為語義關聯的參照而存在的,因此對關聯對象的知識抽取,只需對在虛擬館藏所在頁面上能表示該虛擬館藏的信息進行收集和組織即可,不需要對關聯對象信息抽取的結果構建本體。
在語義關聯中,對文本的分段不是必要的,進行語義關聯的兩段文本在長度相差較大時誤差甚至可以忽略不計,因此不需要對關聯對象信息抽取的結果分段,保留其內容寫入txt文本中即可。
3)關聯對象信息抽取框架構建。根據虛擬館藏資源知識信息目標分析的結果構建了虛擬館藏資源信息抽取框架,如表7所示,抽取結果如圖13所示。
5.2.4數據預處理
為方便實驗進行,對知識組織所得結果的txt文本進行分類整理,文件以【數據來源平臺+序號】命名,通過對txt文本進行命名,在后續試驗中即可通過循環算法對同一來源的多個文本進行語義關聯,大大減少實驗工作量。
5.3運行結果及分析
5.3.1算法運行結果
本實驗采用的3種方案分別為整體關聯法、分段關聯法和加權關聯法的運行結果,根據實驗需求設計,對各個實驗方案輸出結果中的語義關聯度最高的5個結果及其語義關聯度進行展示,如表8~表10所示。
5.3.2實驗結果分析
本實驗的研究目標是實現虛擬館藏資源到多源自媒體資源的一對多映射,主要的衡量指標應為輸出的結果具體是否與虛擬館藏資源相關,因此本實驗的運行結果分析主要通過觀察分析來完成。
算法的運行結果顯示,整體關聯法同其他兩種算法所得的語義關聯度相差甚遠,詞句關聯法和加權關聯法所得語義關聯度在0.4~0.5之間,而整體關聯法所得語義關聯度均在0.3以下。3種算法均能關聯出共計150個資源中在標題上與關聯對象《法律基礎》有直接相關的,也是內容上最為相關的一個,即《法律基礎一民事訴訟(一)》這一資源。證明3種算法對高度相關資源的關聯能力符合預期結果。
從整體關聯正確率來看,詞句關聯法和加權關聯法均能關聯出5個法律相關多源自媒體資源,符合預期結果。
而對比詞句關聯法和權重關聯法可見,加權關聯法所得5個結果的語義關聯度較為相近,而詞句關聯法所得5個結果的語義關聯度則較為分散。
以語義關聯為基礎,綜合運用了語音文本化、語義識別和語義關聯等人工智能技術,以收集一組織一關聯一發現為主要流程對多源自媒體資源進行了知識組織研究,實現了虛擬館藏資源到多源自媒體資源間的一對多映射。
6總結
本文分析了多源自媒體資源特征信息,構建了多源自媒體資源元數據描述框架。在元數據描述框架的基礎上,構建了多源自媒體資源本體,對構建本體所需的概念分類、層次結構、屬性和關系進行定義,為語義關聯提供支持。通過融合語音識別、語義識別等技術,將知識組織研究拓展到非文本類資源領域,為知識組織研究提供了新的思路。本文通過分詞和加權計算,設計了圖書館館藏資源和多源自媒體資源間的語義關聯算法并進行了檢驗,對比了不同算法下語義關聯的結果。達成了虛擬館藏資源到多源自媒體資源之間一對多映射關系的研究目標,且關聯關系較為準確,在一定程度上對虛擬館藏延伸有參考性。