999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體的媒資知識圖譜研究與實現

2018-06-28 06:42:34唐兆琦
傳播與版權 2018年5期
關鍵詞:文本信息

唐兆琦

國內的廣電文化傳媒行業,從20世紀90年代開始逐步實施媒體內容資產的數據庫管理,經過20多年的發展和積累,產生了海量的編目和使用信息。如何有效地分析這些“媒資大數據”的內部關系,幫助用戶快速準確全面地檢索到自己所需要的信息,甚至從知識層面提供關聯信息的發掘和推薦等,有著重要的意義和應用前景。

基于知識地圖的媒資檢索研究能對海量媒資庫進行更為智能化的知識管理,從而實現多維度的、自動化的知識整合。該研究在互聯網視音頻和圖文內容呈現爆炸式增長的當下,具有很好的理論研究意義和廣泛的應用推廣價值。

一、知識圖譜技術

(一)知識圖譜的定義

知識圖譜(Knowledge Graph)最早是由Google推出的產品名稱,利用知識圖譜可以為查詢詞賦予豐富的語義信息,建立與現實世界實體的關系,從而幫助用戶更快找到所需的信息。在Google之后,Bing、百度、搜狗等搜索引擎公司也都紛紛推出了自己的知識圖譜產品。現在,知識圖譜已經被用來泛指各種大規模的知識庫。

知識圖譜旨在描述真實世界中存在的各種實體或概念,以及它們彼此之間的關系或關聯。其中,每個實體或概念用一個全局唯一確定的ID來標識,稱為它們的標識符(identifier);若干屬性-值對(attribute-value pair,又稱AVP)用來刻畫實體的內在特性;而關系(relation)用來連接兩個實體,刻畫它們之間的關聯。

(二)本體與知識圖譜的構建

知識圖譜的構建對文本信息處理和信息檢索具有重要的價值,而構建知識圖譜,就是獲取大規模結構化數據并在其中進行實體發現和關系映射的過程。

構建知識圖譜有以下七個步驟:

(1)確定本體的專業領域和范疇;

(2)考查復用現有本體的可能性;

(3)列出本體中的重要術語;

(4)定義類和類的等級體系(完善等級體系可行的方法有:自頂向下法、自低向上法和綜合法);

(5)定義類的屬性;

(6)定義屬性的分面;

(7)創建實例。

二、項目技術方案與實施

本文對媒資知識圖譜的建立方法是采用“自頂向下”和“自底向上”相結合的方式。其中,自頂向下的方式是通過本體編輯器預先構建本體,它依賴于從媒資百科和結構化數據得到的高質量知識中所提取的模式信息;而自底向上的方式則通過前面介紹的各種實體和關系的抽取技術,將這些置信度高的模式合并到知識圖譜中。

(一)定義領域相關的知識本體

本文基于上海廣播電視臺從二十世紀八十年代至今的媒資內容,尤其是其中的編目信息(側重在“娛樂”和“體育”這兩個領域),建立本體和媒資知識地圖。

這些編目信息中的純文本的標引數據是獲取知識圖譜的主要數據源。這些文本描述數據需要通過分詞、實體抽取技術來分離出其中的實體,借助媒資標引(XML文件)提供的輔助信息和SMG的媒體百科鏈接信息,從標引的文本描述中抽取實體類型和關系,判別其所對應的本體概念,建立圖譜知識庫。

本文以媒資庫中的編目文件作為實驗數據源,它們都是以XML格式保存的。這些以XML格式標注的媒資素材,提供了半結構化的數據,但其中關鍵的分鏡頭內容描述基本上為純文本的數據,因此需要對這些數據通過自然語言處理和文本挖掘的技術進行自動實體抽取、實體對齊,屬性值決策,才能獲取知識地圖所需的實體關系。

對標注數據的信息抽取是本項目的關鍵問題之一。本文先對XML格式文檔進行預處理,包括:去除冗余、重復、不規范的信息;依據現有文檔結構獲取初始的分類信息;獲取待處理的正文主體。

對媒資數據的進一步加工處理方式與基于互聯網的搜索引擎對可用數據的處理原則略有不同。互聯網上來自于網頁的原始數據不僅有標題等,許多還包括各種詳盡的內容,而媒資資源的數據內容通常只有標題句或大段的描述文字組成。所以,若直接借鑒互聯網公司建立知識圖譜模型的方法,會導致出現大量的空關聯。因此本文必須在現有媒資編目數據的基礎上,統計出常見的、有價值的關聯關系,從而建立“可用”的知識圖譜。

本文把實體對的上下文中可以用來描述實體之間關系的一般動詞和名詞稱作“特征詞”。另外,把特定實體類型在文本庫中的高頻實體稱作種子實體,如經常出現在娛樂資訊中的“章子怡”“成龍”“劉德華”等,即屬于人名實體類型的種子實體。種子實體可以用于后續特征詞的抽取。

本文首先以實體對類型(如“人名-人名”和“人名-機構名”代表兩個不同的實體對類型)為單位,采用基于大規模語料庫統計的方法抽取與特定實體對類型相關度較大的候選特征詞集;然后,采用啟發式通用過濾規則對候選特征詞集進行過濾;最后,借助語義詞典計算候選特征詞之間的相似度,對候選特征詞聚類,完成關系類型的自動發現,此時每類即為自動發現的一個關系類型。

具體處理過程如下:

(1)正文抽取:對正文文本素材,取出其中的編目信息中的大段描述文字部分;

(2)文本處理:對原始文本進行斷句、中文分詞、詞性標注、依存句法分析、命名實體識別等底層自然語言處理操作;

(3)特征詞抽取:讀取句子的處理結果,計算實體出現頻率,選取種子實體,進而,從與種子實體形成實體對的句子集中統計抽取特征詞集,它們將用于描述實體關系;

(4)特征詞聚類:由于不同的特征詞可以表達相同的實體關系,所以,進一步利用語義詞典計算特征詞之間的相似度,通過聚類,得到自動發現的實體關系類型。

(二)知識圖譜的生成

通過之前的方法,已從媒資編目的正文文本中抽取構建了知識圖譜所需的各種候選實體(概念)及其屬性關聯,但這些信息是彼此孤立的,為了形成一個真正的知識圖譜,需要將這些信息孤島集成在一起。

其中實體融合的目的在于發現具有不同標識卻代表真實世界中同一對象的那些實體,并將這些實體歸并為一個具有全局唯一標識的實體對象,然后添加到知識圖譜中。

當融合來自不同數據源構成知識圖譜時,有一些實體會同時屬于兩個互斥的類別(如男女)或某個實體所對應的一個屬性(如性別)對應多個值,這就是不一致性。由于不一致性的檢測要面對大規模的實體及相關事實,純手工的方法不完全可行。一個簡單有效的方法是充分考慮數據源的可靠性以及不同信息在各個數據源中出現的頻度等因素來決定,再輔以人工的校對,以決定最終選用哪個類別或哪個屬性值。

這里采用的是利用該實體詞所出現的上下文的概率,通過大規模語料篩選以及人工校對,對特定的實體詞分別定義一些正向詞和反向詞。例如當成龍作為明星實體詞出現時,給它定義的正向詞包括成龍曾經出演過的電影名、房祖名(成龍的兒子)、功夫、受傷、公益等與他的工作、生活、社會活動密切相關的詞匯,而給它定義的反向詞包括望子(望子成龍這個成語的前半部分)、學校、教育等相關的詞匯,這樣根據與該實體詞協同出現的正向詞或反向詞的概率,就可確定將它映射到哪個實體ID上了。

之后的實體關系抽取則采用前面提到的特征詞聚類,以及基于預定義的規則模板匹配的方法來實現。

(三)原型系統描述

在上述研究和實驗的基礎上,本文開發了基于媒資知識地圖的查詢應用原型系統(如圖1所示),用于展示知識搜索在媒資領域的應用場景。

圖1:查詢應用系統原型的組成結構

大體上,該系統分為“離線”和“在線”兩個部分,離線部分主要用于構建領域相關的本體和知識圖譜(媒資知識地圖),形成媒資知識庫,供在線搜索系統使用。

其基礎數據來源包括SMG的媒資百科(如人工整理的結構化的詞條)、SMG的媒體資源庫(如人工編目的媒資內容對應的元數據XML),以及第三方資源(如中文詞匯表和文法分析規則庫),采用手工或半自動的方法,利用文本分析、語義分析等NLP工具對上述資源進行清洗、預處理和整理,然后通過實體發現、消歧、實體關系抽取等步驟,構建了娛樂領域和體育領域的本體,并進一步生成媒資知識圖譜。

在線部分主要實現了基于知識的查詢應用原型系統,它采用離線部分生成的媒資知識庫,以B/S(Browser/Server)模式運行。其前端采用瀏覽器界面(HTML5),后端采用J2EE架構實現。

它從PC前端的瀏覽器接收用戶輸入的查詢請求(可以是短語,也可以是關鍵詞列表),送到后端的知識查詢引擎中后,進行必要的預處理(包括NLP文本分析和語法分析),然后在媒資知識圖譜(或領域相關本體)中對實體、關系、屬性等進行匹配或推理,最后對得到的候選資源(即指向相應詞條或媒資編目文件的鏈接)按相關性進行排序,并輸出到結果呈現界面(網頁)上。

經過實測統計,該原型系統對于一般的查詢請求,均可以在2秒以內返回結果,這其中包括了分析、查詢、讀取數據庫,以及格式化頁面等動作。

三、總結與展望

本文在基于本體的媒資地圖的研究與實現方面進行了非常有成效的探索,但仍有很多細節有可改進或完善的空間。例如,在構造本體和知識圖譜過程中,如何盡可能地提高自動化程度、減少人工干預或校對的工作量,將是非常有意義的工作。

此外,目前個別領域進行了探索,將來可嘗試將該方法應用到其它更多的領域,基于更大規模的數據進行建模、應用,并在此過程中發現和改善原方法的不足之處,從規模上、應用效果等方面向實用化更進一步。

猜你喜歡
文本信息
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 2020最新国产精品视频| 九色在线视频导航91| 国产精品成人AⅤ在线一二三四| 久久综合伊人77777| 99无码中文字幕视频| 日本手机在线视频| 午夜不卡福利| 亚洲一区第一页| 中文国产成人精品久久| 中国精品久久| 亚洲永久色| 曰AV在线无码| 日本国产在线| 色综合狠狠操| 91久久偷偷做嫩草影院电| 日韩欧美国产成人| 操操操综合网| 婷婷色一区二区三区| 国产一级无码不卡视频| 久久国产亚洲偷自| 亚洲熟妇AV日韩熟妇在线| 日本一区二区三区精品AⅤ| 国产免费久久精品99re丫丫一| 高清码无在线看| 国产青青草视频| 亚洲区欧美区| 成人国产精品网站在线看| 久久久久久高潮白浆| 欧美日韩精品在线播放| 国产亚洲视频在线观看| 久久国产精品波多野结衣| 91丝袜乱伦| 中文国产成人精品久久一| 国产亚洲精| 91九色视频网| 凹凸精品免费精品视频| 狠狠v日韩v欧美v| 91久久国产成人免费观看| 激情乱人伦| 国产日韩久久久久无码精品| 免费毛片a| 国产农村1级毛片| 韩日无码在线不卡| 日韩第九页| 欧美精品亚洲日韩a| 国产av无码日韩av无码网站| 亚洲水蜜桃久久综合网站 | 亚洲高清中文字幕在线看不卡| 亚洲最黄视频| 色色中文字幕| 国产免费久久精品99re丫丫一| 免费在线一区| 蜜桃视频一区二区三区| 青草精品视频| 国产精品人成在线播放| 亚洲精品第一页不卡| 国产乱子伦视频在线播放| 91高清在线视频| 91福利免费视频| 欧亚日韩Av| 黄色福利在线| 亚洲欧美色中文字幕| 91小视频版在线观看www| 欧美精品H在线播放| 精品国产自| 亚州AV秘 一区二区三区| 欧美亚洲中文精品三区| 久久久国产精品免费视频| 91青青草视频在线观看的| 国产在线第二页| 国产三区二区| 婷婷色狠狠干| 欧美日韩精品一区二区视频| 在线国产91| 波多野结衣亚洲一区| 日韩高清欧美| 深夜福利视频一区二区| 韩国v欧美v亚洲v日本v| 国产欧美日韩va另类在线播放 | 久爱午夜精品免费视频| 四虎在线高清无码| 视频一本大道香蕉久在线播放|