殷紅梅
(健雄職業(yè)技術學院,江蘇 太倉 215411)
基于本體的綜合評價文本自動生成系統(tǒng)研究
殷紅梅
(健雄職業(yè)技術學院,江蘇 太倉 215411)
隨著信息技術的高速發(fā)展,信息處理已經(jīng)成為目前最重要的研究內(nèi)容,如何從大量的相關信息中獲取我們需要的且相對準確的信息已經(jīng)成為當前社會的一大難題。本文針對這一問題展開研究,通過對大量評語文本的分析,提出了一種基于本體的綜合評價文本自動生成的方法,可以快速處理大量評語文本,從而自動獲取相應的綜合評價文本。
本體;信息抽取技術;綜合評價
在日常生活中,我們對任何事物一般都有一個相對綜合的評價。這個綜合評價如何得來?主要是從日常的信息中提取歸納而來。這看上去是一個無形的過程,但目前許多企事業(yè)單位為了獲取有效的綜合評價,通常會采取大量的調(diào)研,從多份調(diào)查表中提取信息來形成一個綜合的評價。這個過程目前大多都是經(jīng)過人工的數(shù)據(jù)采集和分類匯總,加上人類思維活動來完成的,整個過程工作量大,通常只是形成一個評價結果,而且會摻雜著許多主觀因素,形成的綜合評價結果不夠客觀。如果由計算機去完成這個過程,通過對語義的分析理解和推理,形成一個相對客觀的評價文本,這無疑將會更利于我們客觀地了解事物各方面的情況,同時降低人們的工作量,提高工作效率。
2.1 本體
本體起源于一個哲學上的概念,所以從哲學的范疇來說,本體是客觀存在的一個系統(tǒng)的解釋或說明,體現(xiàn)的是客觀現(xiàn)實的抽象本質(zhì)。近幾年來,隨著信息技術需求的不斷增強,計算機技術的發(fā)展日新月異,面對信息時代怎樣組織、管理和維護大量信息,并為用戶提供行之有效的服務,已經(jīng)成為當前一項緊迫的研究課題。為了達到這些要求,本體作為一種能在知識和語義層次上描述信息系統(tǒng)的建模工具,從被提出以來就引起了國內(nèi)外的關注,并在計算機的各個領域得到了大量的應用。因此,我們將本體的概念引入信息抽取技術的領域,通過對特定領域的信息進行抽取并整合,形成特定事物的綜合評價。如果能將這個思路通過計算機來實現(xiàn),這將是一項有意義而又具有挑戰(zhàn)性的工作。
2.2 基于本體的信息抽取技術
基于本體的信息抽取技術是一種把信息技術和本體結合起來實現(xiàn)信息抽取的一種技術,它是當前研究的一個熱點。基于本體的信息抽取技術通過研究描述本體的概念、關系以及層次結構間的約束等來生成抽取規(guī)則,然后依據(jù)相應的規(guī)則對輸入的文本信息進行抽取。在信息抽取系統(tǒng)中,一般首先對要處理的文本先進行常量和識別關鍵字等預處理,然后依據(jù)本體生成的相應規(guī)則對預處理后的文本信息進行匹配抽取,其次分析匯總抽取的結果,最后寫入對應的數(shù)據(jù)庫。
2.3 模糊綜合評價的方法
在實際工作中,我們對一個事物的評價常常涉及很多方面。這樣對事物做出評價就需要依據(jù)多個因素,而不能只依據(jù)某一因素去評價事物,這就是綜合評價。模糊綜合評價先對多種模糊性因素進行單一因素評價,然后根據(jù)事先制定的規(guī)則集進行模糊推論,最后根據(jù)一定的原則對評價結果進行解釋。
(1)首先建立評語的領域本體,它包含了所描述領域的關系、概念、約束等信息。本文根據(jù)實際工作需要,構建了一個簡單的教師評語本體。
(2)通過本體解析器解析本體領域,將其中所包含的所有領域信息抽取出來形成一個本體框架。在本系統(tǒng)中是把這些信息寫入到數(shù)據(jù)庫。
(3)對評語源文本進行預處理,利用語法分析來簡化文本中的繁雜結構,特別是針對一些程度副詞和特殊句式抽取等常見問題,提出相應的處理辦法。
(4)運行詞庫編輯模塊,本體關系概念的關鍵字都由它來管理,把這些也寫入數(shù)據(jù)庫。
(5)將預處理模塊得到的結果和字典編輯模塊的關鍵字進行匹配,最后把匹配結果也寫入數(shù)據(jù)庫的本體框架中。
4.1 綜合評價體系結構的構建
構建一個全面合理的評價系統(tǒng)需要進行大量的調(diào)研,這將消耗大量的人力和物力。由此我們可以把之前創(chuàng)建的評語本體體系活用過來,這樣就能很好地獲取評語文本的層次框架,也就獲取了綜合評價的評價指標。這里我們以教師的評價體系為例,可以建立一個二級的綜合評價指標體系。具體的體系結構如下:
(1)教書育人
①敬業(yè)愛崗
②責任感
③教風
(2)教學內(nèi)容
①教學理念
②知識更新
③理實一體
(3)教學態(tài)度
①工作熱情
②課前準備
③課后輔導
(4)教學方法
①調(diào)動學生的主動性
②現(xiàn)代化教學方法的使用
③因材施教
(5)教學能力
①專業(yè)知識②語言表達
③教學方法的靈活運用
④創(chuàng)新改革精神
4.2 詞語的量化
為使計算機能處理文本從而獲得文本的綜合評價,這就要求計算機在處理評語文本的過程中能理解語義,為此我們可以人為地通過詞語的量化來達到目的。以有關“教學態(tài)度”詞匯表中的部分詞為例,其量化如表1所示:

表1 教學態(tài)度詞匯表
量化表完成后我們就可以對本體實例中對應的屬性值進行量化,并且很容易得到一個實體屬性的綜合隸屬度。得到綜合隸屬度之后,我們就需要找到一個能確切地描述該隸屬度的詞,這就需要完成“由值到詞”的轉換,但我們計算出的綜合隸屬度可能找不到完全適合的對應詞,所以在具體處理過程中我們可以對指標做一個定性的量化,可以把隸屬度范圍的區(qū)分為優(yōu)秀、良好、中等、較差四類,如表2所示:

表2 隸屬度等級表
其次為每一個量化的等級找到相近的詞語,作值到詞的對應。如表3所示。量化的工作完成后我們就可實現(xiàn)綜合評價文本的自動生成。

表3 屬性參考詞表
4.3 綜合評價文本的自動生成
基于模糊理論和結構化文本獲取的基礎,我們能夠很容易地獲取到綜合的結構化評語文本,最后只需要把得到的綜合結構化評語文本按照指定的模式進行填充,就可以獲得一條客觀的綜合評語文本。現(xiàn)以5個學生對同一教師的評語為例說明實現(xiàn)過程,如表4所示:

表4 綜合評語自動生成系統(tǒng)處理源數(shù)據(jù)
為了獲得一條綜合的評語文本,我們需要把每個學生寫的評語文本進行結構化,并寫入到對應教師的數(shù)據(jù)庫表中,最終形成如圖1所示的結果:

圖1 教師數(shù)據(jù)表
我們通過對結構化評語進行解析,得出了每條評語的分項屬性隸屬度和綜合的隸屬度。再對照隸屬度等級表和屬性詞參考表,獲取分項屬性評價詞。從而定制綜合評價的框架文本,將評價詞填入對應空缺中,獲得如圖2結果:

圖2 綜合評價自動生成界面
本文結合基于本體的信息抽取技術,建立了綜合評價的分析模型,提出了一種基于本體的綜合評價文本自動生成的方法,并建立了一個從文本中獲取信息自動生成綜合評價的演示系統(tǒng)。該系統(tǒng)能夠利用不同的學生的評語,自動生成對某一教師的綜合評價,大大減輕了的傳統(tǒng)評價工作的工作量,也使的評價工作更為客觀合理。
[1]劉遷,焦慧,賈惠波.信息抽取技術的發(fā)展現(xiàn)狀及構建方法的研究[J].計算機應用研究,2007,7,24(7):6-9.
[2]孫玉娣,張玉強.基于本體的綜合評價自動生成系統(tǒng)研究[J].情報雜志,2007,2.
[3]陳蘭.基于Ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D].電子科技大學,2004,10.
[4]李向陽,苗壯.自由文本信息抽取技術[J].情報科學,2004,22 (7):815-821,829.
[5]劉文彬,模糊綜合評價系統(tǒng)研究與實現(xiàn)[D].河北工業(yè)大學,2003.
Research of Comprehensive EvaluationAutomatic Generation System Based on Ontology
Yin Hongmei
(Chien-Shiung Institute of Technology,Taicang 215411,Jiangsu)
tract】With the rapid development of information technology,information processing has become the most important research content.How to get what is necessary and relatively accurate information from a large amount of information has become a big problem in current society.Aiming at this problem and based on the analysis of lots of comment texts,this paper puts forward a kind of method for automatic generation of the comprehensive evaluation of text based on ontology,which can rapidly process large amount of texts,and automatically obtain the corresponding comprehensive evaluation of text.
words】ontology;information extraction;information extraction technology
殷紅梅,女,江蘇太倉人,工程碩士,講師,研究方向:計算機應用技術研究。