王勁東,武 頻,朱永華
(上海大學 計算機工程與科學學院,上海 200444)
基于Jena的電影素材領域本體構建及推理研究
王勁東,武 頻,朱永華
(上海大學 計算機工程與科學學院,上海 200444)
在電影素材數字化和大數據環境下能夠快速準確地檢索到目標電影素材,實現電影素材的自動關聯,減少人工干預成為快速語義檢索和智能推薦的研究重點。為了解決該問題,提出了一種基于Jena的電影素材領域本體推理模型。在電影領域專家的參與下抽取電影素材相關術語和概念,然后根據OWL語言規則,利用本體建模工具Protégé構建電影素材領域本體,并進行了語義公理和自定義規則的推理,描述了本體概念、屬性相互之間的關系及本體構建和推理的細節。建立了一個基于Lucene影視素材的檢索查詢系統,進行了基于關鍵字查詢和拓展查詢。結果表明,該本體推理模型可以很好地對電影素材的知識進行表示,支持基于語義推理的智能查詢,并且有較高的效率。
電影素材;領域本體;Jena;推理
電影素材蘊含著豐富的價值,是電影制作過程的藝術寶庫。電影素材本身包含的知識與電影素材知識庫相結合能夠大大豐富電影素材的信息,為電影制作提供信息。在影視動漫創意產業實施過程中,作為影視動漫產業的基礎和關鍵,電影素材的管理維護在電影文化創意及制作業務的全流程中起到了至關重要的作用。它需要一套有效的電影素材數據資源庫的管理技術與工具。視頻制作過程的海量信息,包括維護文本、圖形、圖像、動畫、視頻、音頻等結構化、半結構化和非結構化三種大數據。
電影素材語義模型包括:電影素材是什么,電影素材可以應用在哪里制作場景以及電影素材的應用環境。因此,電影素材信息不僅包括電影素材的色彩、形狀、內容以及制作信息等,更重要的是電影素材本身所蘊含的藝術價值以及對當時社會、人文信息的反映。目前,在多媒體檢索領域主要有基于文本的檢索和基于內容的檢索。在大數據環境下,基于文本的檢索的查全率和查準率不高。因此,文中研究電影素材整體和電影素材部件、電影素材部件和部件間的關系,通過電影素材語義標注方法標注的電影素材的內容設計并構建一個領域本體。通過該本體對檢索條件進行推理,實現電影素材整體、電影素材部件的檢索。
目前對海量非結構化的電影素材數據進行檢索往往達不到預期的結果。國際標準—MPEG-7可以很好地描述媒體內容,逐漸成為基于內容描述和檢索的規范。李偉等[1]提出了基于內容的電影動畫素材檢索;劉東波建立了基于本體的動畫素材檢索系統[2];郭嘉琦[3]建立了基于本體的電影領域檢索模型;曾維明[4]建立了基于本體的電影領域的推薦系統。但是目前電影素材的檢索還是基于電影領域的某一塊領域,并沒有從整個電影領域去實現電影素材的關聯。
文中的基于語義本體的電影素材分類方法以及語義推理的電影素材檢索研究包括兩方面的特色:
(1)電影素材領域本體的構建是整個研究的核心。構建一個完整的包含電影素材各種關系的本體將為后續研究打下堅實的基礎,包括電影素材的構件部件、大小、位置、時間、主題等元數據信息,涵蓋了社會、經濟、歷史、建筑、人文、動漫等多領域語義信息。
(2)電影素材的檢索效果與推理展示關系用戶滿意度。將電影素材與電影素材關聯起來,為電影制作人員所用,并能夠快速準確地得到電影素材及其相關的電影素材是文中的重點。
所謂本體[5](Ontology)是一種共享概念模型的形式化規范說明,是對知識世界的一種描述。該定義主要包含四層含義:概念模型、明確、形式化和共享。其中,概念模型是指從客觀世界中抽象出事物的相關概念并建立其相應的關系而得到的模型,該模型所表現的含義不同于具體的一些環境狀態;明確是指在本體所使用的概念及這些概念的相關約束條件都有著明確的定義;形式化是指本體能被計算機處理,如果不能被計算機處理,這個本體就是無意義的;共享是指本體中體現的是人類共同認可的知識,它反映的是相關領域中被公認的概念集。
2.1 領域本體
所謂的領域本體[6](domain-specific ontology)就是對學科領域的一種知識描述,包括學科中的概念、屬性、概念間的關系以及屬性間關系的約束。特定的學科知識都有顯著的領域特性,而領域本體能夠更為合理而有效地進行學科知識的表示。領域本體可以表示某一特定領域范圍內的特定知識。這里的“領域”是根據領域本體構建者的需求來確立的,它可以是某個特定學科領域,或者這個學科領域的某個特定范圍,也可以是幾個學科領域的結合。
2.2 領域本體的構建
理論上,可以通過5種類型的構件類/概念、關系、函數、公理和實例來形式化描述一個本體。領域本體的類(Classes)和概念(Concepts)的含義很廣泛,可以指任何事物的描述,如功能、行為、工作描述或者策略和推理過程等,是對領域知識術語的描述。
文中用C表示類集,I表示類集中的實例集,R表示關系集合,Ax表示公理集合,來約束類間的屬性及關系,所以本體可以表示為一個四元組,O=(C,I,R,Ax)。若把上述關系集合R劃分成函數和關系,即加入函數F,公理A,那么就把四元組變成五元組[7],O=(C,R,F,A,I),作為基本的建模原語。
領域本體的構建一般都有領域專家的參與。領域本體的構建方法[8]主要有METHONTOLOGY、骨架法、KACTUS工程法、SENSUS法、IDEF-5方法、七步法等。不同的領域本體可以采用不同的構建方法,文中主要采用斯坦福大學開發的七步法構建本體。
2.3 Jena簡介
Jena[9]是一個基于Java框架的本體語言開發工具包,最早來源于SIRPAC API的工作,可以支持多種本體描述語言構建本體。Jena自帶相關推理機制,有著完整的本體解析、存儲、推理和查詢函數以及相關調用接口[10]。構建本體是為了讓計算機能解析本體并進行推理,得到需要拓展和一些隱藏的信息。領域本體在通過一致性檢驗后,存入知識庫中并進行推理,得到額外的隱含信息[11],即推薦出來的信息。Jena2提供了ARQ查詢引擎,實現RDQL和SPARQL查詢語言,從而支持對模型的查詢。另外,查詢引擎與關系數據庫相結合,可以將本體中的數據存入到關系數據庫中。基于Jena的推理機支持OWL[12]的公理推理和自定義規則的推理;將已生成的本體模型同相應的推理機聯合,能從本體所描述的實例和類中推出隱含信息。
3.1 本體模型的建立
(1)確定核心類及類的等級關系。電影素材領域本體是以現有的影視素材網站和多媒體文件為知識源所構建的,電影素材本體主要分為五個核心類:文本(影視評論、劇本、演員導演信息、影視新聞等等)、圖片、視頻、音頻、工具(影視制作工具)。其中,圖片的子類又可以分為人物、動物、植物、自然景觀、人文景觀、物品、社會紀實(真實反映具有實效性的人或事,災難、戰爭、貧困等)、生活百態(反映社會各階層人群的社會活動和社會現象),其中人文景觀的子類又包括城市、街道、建筑、園林、民居等。圖1為部分電影素材本體概念簡單層次圖。

圖1 部分電影素材本體概念簡單層次圖
(2)確定類間非等級的語義關系。分析電影素材及結構關聯確定整體部分關系、同義關系、不相交關系、操作關系等。創建的概念間語義關系如下:
整體與部分關系(IsPartOf)指概念間的構成關系,如設置“城市景觀”類的部分類為街道類、民居類、建筑類和園林類。
同義關系(equal)指概念之間或者屬性之間有相同的含義,如周星馳和“星爺”指同一個人。
不相交關系(disjointWith)指概念間沒有交集,如“動物叫聲”和“人類聲音”。
操作關系指概念間存在操作或者被處理關系,如視頻剪輯工具可以處理視頻。
(3)確定數據屬性。本體的層次概念確定以后,還要確定概念的數據屬性,例如圖片類的子類—人物類主要包括人物類型、人物行為、版權、景別(近景、中景、遠景、全景、特寫)、拍攝角度(正平視、仰視、斜視、俯視、側視)、季節(春季、夏季、秋季)、格式(jpg、bmp、gif等),父類的屬性子類一定也會繼承。
(4)構建本體。目前本件構建工具一般采用Protégé(斯坦福大學醫學院生物信息研究中心開發的一款本體構建工具),它是基于Java語言開發的用來進行知識獲取和本體編輯的軟件。Protégé提供了本體概念類、屬性、關系和實例的構建,并且用戶只需在本體概念層次上進行領域本體模型的構建,進而屏蔽了具體的本體描述語言。Protégé4.3的特點是插件可以拓展特殊的功能,具有方便快捷的圖形化的用戶界面,簡單易用,支持OIL、DAMA、OWL、RDF等語言,適合本體的概念化和形式化階段。圖2為電影素材本體的部分圖解。

圖2 電影素材本體的部分圖解
(5)創建實例。以Picture類的子類Human為例,取電影《大話西游》的一張圖片,如圖3所示。

圖3 《大話西游》圖片實例
生成的OWL文件片段如圖4所示。

圖4 人物圖片實例的OWL文件片段
可以看出,該圖片名稱為XiYou_23,人物個數為兩位,人物行為為站立,圖片格式為jpg,人物類別為青年,圖片版權屬于電影《大話西游》,景別為中景,視角為仰視,圖片中人物所處的季節為冬季。
3.2 基于電影素材本體的推理規則構造
文中采用的是基于Jena的推理技術。在構建本體的過程中,通過推理機對其一致性進行檢測并得到一些隱含的信息。Jena內自帶了一個通用的規則推理機,該推理機根據其自帶的前向鏈、后向鏈以及混合的規則觸發機制進行解釋的方式進行推理[13]。該推理機除了支持OWL的公理推理,還可以基于自定義規則的推理,在推理過程中把需要進行查詢推理的本體和推理機進行綁定,進而得到需要檢索的模型對象InfModel。最后借助Model API和Ontology API就可以對已建立的模型對象進行操作和處理。
Jena本身已經自帶了一定的通用推理規則,用于檢查概念的可滿足性以及類之間的關系和屬性的傳遞性、互逆、不相交等其他一些通用推理規則。通過這些通用規則可以對本體類別信息、屬性信息和實例信息進行拓展推理和查詢。基于電影素材本體的基本規則歸納如表1所示。
例如傳遞性的規則1,對稱性的規則6和屬性繼承規則11可以描述為:
Rule1:(?a rdfs:subClassOf ?b),(?b rdfs:subClassOf ?c)->(?a rdfs:subClassOf ?c)
Rule6:(?a name ?b)->(?b name ?a)
Rule11:(?a rdfs:subClassOf ?b),(?a has ?q)->(?b has ?q)

表1 電影素材本體的基本規則
為了滿足在應用過程中的個性化需求,還可以自定義一些推理規則作為對基本推理規則的補充。自定義規則的構造是根據本體中的邏輯結構推理出某類或者某個實例不存在或者不明顯的屬性,也就是隱含的信息。例如
Rule14:(?a has property ?q),(?q>100 M)->(?a is a big vidio)
Rule15:(?a part of ?b ),(?b hasSeason winter)->(?b hasSeason winter)
Rule16:(?a hasname ?q),(?b songname ?q)->(?a part of ?b )
Rule14的意思是視頻片段a擁有屬性q(視頻大小),如果q的值大于100 M,則認為視頻片段a是大視頻。
Rule15表示圖片a是b的局部圖片,如果b圖片季節屬性為冬季,則a圖片季節屬性也是冬季。
Rule16表示音頻類文件音樂類的子類歌曲實例a名字為q,且視頻類的子類音樂類的子類mv類的實例屬性“歌名”為q,則認為音頻a為視頻b的一部分。
通過Jena的推理引擎對定義的規則進行推理,然后將滿足條件的實例加入到相應的查詢結果中,如下所示:
Rule17:(?a belongArea china),(?a issueYear ?q),(?q>2013)->(?a is new Chinese song MV);
這條規則的推理結果是滿足發行年代大于2013的內地歌曲MV實例歸類最新內地歌曲MV,是音樂類的子類,音樂類又是電影片段的子類。歌曲MV擁有發行年代(issueYear)、地區(belongArea)、歌手(singer)、時長(duration)、格式(vidioStyle)、歌曲類型(songStyle)等基本屬性。
推理過程主要是:使用Model Fctory中的CreateOntology Model方法來創建model,加載本體模型文件Movie.owl,然后加載推理規則文件Movie.rules,接著創建推理機reasoner,使用Create infModel()方法來創建含有推理規則的模型對象infModel,最后推理并產生結果。圖5是對“最新內地歌曲MV”的查詢結果。

圖5 對“最新內地歌曲MV”的查詢展示
建立基于Lucene搜索引擎[14]的查詢系統。由圖5可以看出,在搜索框輸入“最新內地歌曲MV”的查詢結果為《Love With You》和《老婆》,其展示結果按照MV發行年份的順序排序,展示框的右邊顯示的是實例的父類及更上層的類。雖然該電影素材本題庫中的實例還不夠完善,但是從查詢結果來看,不僅完全滿足了查詢要求,而且很高效。
文中采用本體構建工具Protégé4.3完成了電影素材領域本體的構建,并利用該模型進行了有效的電影素材推薦。主要內容如下:
(1)梳理出電影領域的術語,并根據抽取的術語構建概念模型,用本體建模工具Protégé4.3完成了電影素材領域本體的構建。
(2)根據本體推理工具Jena進行了語義公理和自定義規則的推理,并通過實例查詢驗證了推理的有效性。
文中構建的電影素材本體及其推理方法可以廣泛用于電影素材的檢索查詢和電影素材的推薦,但是由于電影素材本體涵蓋太多的概念,在領域本體的構建過程中還不夠完善。下一步研究將會完善電影素材本體及其規則庫,將Jena推理技術和本體概念相似度計算相結合進行電影素材的拓展查詢和智能推薦。
[1] 李 偉,王樹梅,王 玲.基于內容的電影動畫素材檢索[J].計算機工程,2007,33(12):222-224.
[2] 劉東波.基于本體的動畫素材檢索系統設計與檢索模型研究[D].長沙:湖南師范大學,2009.
[3] 郭嘉琦.領域本體的構建及其在信息檢索中的應用研究[D].北京:北京郵電大學,2007.
[4] 曾維明.基于領域本體的語義檢索及個性化推薦算法研究[D].南京:南京理工大學,2010.
[5] Studer R,Benjamins V R,Fensel D.Knowledge engineering,principles and methods[J].Data and Knowledge Engineering,1998,25(12):161-197.
[6] 劉 萍,胡月紅.領域本體學習方法和技術研究綜述[J].現代圖書情報技術,2012,28(1):19-26.
[7] 柴留祥,何 豐.基于Jena及其本體推理的研究[J].計算機技術與發展,2011,21(11):117-119.
[8] 李 勇,張志剛.領域本體構建方法研究[J].計算機工程與科學,2008,30(5):129-131.
[9] McBride B.Jena:a semantic web toolkit[J].IEEE Internet Computing,2002,6(6):55-59.
[10] 袁 輝,李延香.語義Web環境下文獻搜索引擎功能的研究[J].電子設計工程,2013,21(5):12-14.
[11] 劉 寧,李冠宇,邵 彬.Jena2推理機制的研究[J].微計算機信息,2010,26(11-3):173-175.
[12] 7 OWL Web本體語言指南[EB/OL].[2009-04-09].http://zh.transwiki.org/cn/owlguide.htm.
[13] Kim J,Jeong D,Baik D K.Ontology-based semantic recommendation system in home network environment[J].IEEE Transactions on Consumer Electronics,2009,55:1178-1184.
[14] 周登朋,謝康林.Lucene搜索引擎[J].計算機工程,2007,33(18):95-96.
Research on Reasoning and Construing of Movie Material Domain Ontology Based on Jena
WANG Jin-dong,WU Pin,ZHU Yong-hua
(School of Computer Engineering and Science,Shanghai University,Shanghai 200444,China)
Under the environment of the digitization of movie material and the big data,it is the focus of research for fast semantic retrieval and intelligent recommendation to quickly and accurately retrieve the target film material,and realize the automatic relevance of movie material and reduce the manual intervention.In order to solve the problem,a reasoning model of domain ontology for movie material based on Jena is proposed.The related terms and concepts of film material is extracted with the participation of experts in the field of cinema,then the movie material domain ontology is constructed with the ontology modeling tool Protégé based on OWL rules.Then,it uses inference engine to perform reasoning for semantic axioms and user-defined rules,which describes the relationship of concept and attributes of ontology with each other and the details of the construction and reasoning for the ontology.Search query system is constructed based on Lucene,supporting keyword-based query and expand query.The results show that the model can well represent the movie material knowledge,supporting intelligent recommendation based on the semantic reasoning with a high efficiency.
movie material;domain ontology;Jena;reasoning
2015-09-26
2015-12-29
時間:2016-08-01
上海市科學技術計劃項目資助(14590500500)
王勁東(1988-),男,碩士研究生,研究方向為軟件測試、并行計算、圖像處理等;武 頻,副教授,博士,研究方向為CFD數值計算、高性能計算、圖像處理等。
http://www.cnki.net/kcms/detail/61.1450.TP.20160801.0842.008.html
TP391
A
1673-629X(2016)08-0030-05
10.3969/j.issn.1673-629X.2016.08.006