沈 威
(華中師范大學 語言與語言教育研究中心,湖北 武漢430079)
近年來,中文信息處理技術取得了一定的成績.總的來講,在字、詞處理方面的技術比較成熟,而在句子層面的研究則相對薄弱.在字、詞等方面,尤其是上世紀80年代之后,漢語的字、詞方面的各種研究得到了較快的發展.比如在分詞算法上,全切分分詞方法、最短路徑分詞方法、N-最短路徑分詞方法、基于隱馬爾科夫模型(HMM)或n元語法(n-gram)的分詞方法等一系列分詞方法相繼提出.而且,還出現了一批有指導性、代表性的文獻和工具,比如《現代漢語語法信息詞典》和“知網”.這些成果的出現顯示出現階段中文信息處理在字、詞方面的研究已經相當成熟.不過盡管中文信息處理目前取得的成績是巨大的,但還是存在不少問題.
中文信息處理是一個融合了認知科學、數學、邏輯學、統計學、語言學、計算機科學等多個學科知識的綜合性學科.它所面臨的問題往往是復雜的.目前仍面臨著許多尚未解決,也不好解決的難題.比如,從目前情況來看,僅僅是歧義的消解就已經讓自然語言處理研究者力不從心,更何況在實際的語言運用中,還有諸如隱喻、幽默、夸張、雙關等修辭手法的運用.[1]
特別是在中文信息處理領域中,對小句的研究還相對不足.比如現在熱門的各種搜索引擎仍舊是以詞項為主要匹配手段.而漢語中人們交流的形式是小句,各種專家系統中人與機器的交流形式也是小句,中文信息處理迫切需要對小句有足夠的認識,那么首要的問題就是要對小句進行準確、細致的建模.
相對于字、詞已經取得的豐碩成果,中文信息處理對句子層面的研究就顯得非常不足了.目前對小句進行本體建模的文章極少,而且所建的本體模型要么不太完善要么不太準確,都或多或少存在著這樣那樣的問題.[2]在這個大環境下,要想中文信息處理在句子層面有所突破,最關鍵的第一步就是建立一個科學的小句本體模型.而如何將傳統的小句本體知識應用于中文信息處理,首先要解決的就是建立一個以小句為中心的句法標注體系.[3]
本體(Ontology)最開始是在哲學領域中出現的,哲學中對本體的定義為:“系統地對世界上客觀存在物的描述.”哲學中的本體關心的是客觀現實的一種抽象本質.自哲學領域對本體做了定義之后,其它許多學科和學者也都給本體下過定義,其中以Gruber給出的定義影響最大.“本體是概念化的明確的規范說明”.[4-5]后來Studer等人總結前人的相關定義描述,將本體的描述概括為“共享概念化的形式的明確規范”.[6]
本體的主要目標是對相關領域的知識進行搜集和分類,確定這個領域內部人們普遍認可的詞匯,并從各個不同層級的形式化模式上標明詞匯之間的各種復雜的聯系.信息處理領域中本體是人們公認的最重要的成分之一.
UML(unifiied modeling language)是一種面向對象的建模語言,它是運用統一的、標準化的標記和定義實現對任何具有靜態結構和動態行為的系統進行面向對象的描述和建模.運用UML對小句本體進行建模可以保證模型的通用性,所以本文將利用UML對小句進行靜態的本體建模.
人們平時說話都會用到小句,或者由小句構成的復句、句群.人們說話就是一種表述.小句是最小的具有表述性和獨立性的語法單位.
所謂具有表述性,是指能夠闡明言者的表達意圖,不能含糊不清.所謂獨立性,是指小句作為一個實體不能作為別的小句的組成部分.[5]比如:
(1)今天星期一.
(2)我知道今天星期一.
(3)由于外面在下雨,所以我遲到了.
這三例中,第一例是小句.第二例也是小句,但是第二例中的“今天星期一”不是小句,因為“今天星期一”被包含在小句“我知道今天星期一”里.第三例是由兩個分句“由于外面在下雨”和“所以我遲到了”組合而成的復句.
有時,即使是由一個嘆詞構成的疑問句或感嘆句,實際上也跟深層潛在的判斷存在關系.比如:
(4)哦?
(5)哼!
第一個例子是由一個嘆詞構成的疑問句,在特定的語境中可能跟“想不到會這樣”之類的判斷存在聯系;第二個是由一個嘆詞構成的感嘆句,在特定的語境中可能跟“你想得美”之類的判斷存在聯系.
小句在漢語的各級各類語法單位中占有主導地位,換句話說,居于中樞地位的是小句.[6]小句之所以能夠統領漢語的其他語法單位如詞、短語、復句、句群等而居于核心地位,是基于以下三個方面的因素:
2.2.1 小句在各級各類語法實體中,所具備的各種語法因素最為齊全
相對于句子語氣、語素、詞、短語、復句、句群等語法單位而言,小句所包含的語法因素種類最多.
2.2.2 小句在各級各類語法實體中,具有中樞地位
漢語包含多種語法實體,而只有小句和其他各種語法實體有直接聯系,處于核心地位.具體來說,人們在說話表達意圖時,小句和句子的語氣是直接聯系的;在小句的內部構成部件上,詞、短語和小句是直接相關的;在小句之外更大的語法單位來看,復句和句群也都是由小句構成的.
2.2.3 在漢語的各級各類語法實體中,其它實體均依附于小句,處于從屬地位
由于小句具有承上啟下的重要功能,使得只有小句能約束其它的語法實體,其它語法實體都必須依附于小句.[7]具體來講:
2.2.3.1 句子語氣 依附于小句
準確一點來講,應該是句子語氣粘附于小句直接構件,從而形成小句.
比如“今天星期四”是小句直接構件,那么只要陳述語氣粘附于這個構件,就會形成陳述句“今天星期四”.倘若是疑問語氣粘附于這個構件,就會形成疑問句“今天星期四?”
2.2.3.2 復句和句群 依賴于小句
復句是由分句和分句聯結而成,而分句也可以看做是一種特殊的小句,可以說沒有小句,也就沒有復句.
句群是由兩個或兩個以上的句子構成.構成“句群”的成分“句”既可以是單句成分的小句,也可以是由以小句為基礎的分句聯結而成的復句.
(6)今天下午老師有事,下午的課取消了.
(7)學校里走不開?不認識到這里的路?車胎漏氣了?路上出了麻煩?
這兩例中,前一例是個因果復句,這個復句由兩個分句“今天下午老師有事”和“下午的課取消了”聯結而成.后一例是個句群,這個句群由四個小句“學校里走不開?”“不認識到這里的路?”“車胎漏氣了?”“路上出了麻煩?”組成.
總而言之,復句和句群離不開小句.
2.2.3.3 詞 受控于小句
漢語語法系統中的詞獨立存在于小句之外,但是卻是受控于小句的.詞,只有跟小句發生聯系之后,才能明確顯示其語法特性和語法職能,才能發揮特定的語法作用.
比如:
(8)這是一個標志,標志著人類正在走向互相了解,走向互相尊重.(邊霞遐《化劍為犁》)
這一例中,第一個“標志”出現在賓語部分里,受“一個”的修飾,這一語法環境把它規約為名詞;第二個“標志”出現在謂語部分里,帶了動態助詞“著”,而且后面出現了賓語“人類正在走向互相了解,走向互相尊重”,這一語法環境把第二個“標志”規約為動詞.“入句顯類”,這是詞性句規約的重要表現.
2.2.3.4 短語 從屬于小句.
絕大多數的短語,不像詞那樣獨立存在于句子之外.從總體上看,在漢語語法系統中,短語實際上從屬于小句,為小句所管控.這可以從三個方面來觀察.
①短語的具體組合,為造句的具體需要所決定.
絕大多數的短語,都是自由短語.它們具有組合的臨時性和可變性.也就是說,短語究竟由哪個結構成分跟哪個結構成分組合而成,完全取決于小句表述意旨的臨時需要,非常靈活.比如:
(9)他這幾天要跑錢.(哪有心思跟你們聊天!)
(10)他這幾天要跑票.(哪有心思跟你們聊天!)
(11)他這幾天要跑官.(哪有心思跟你們聊天!)
單獨說“跑錢”“跑票”“跑官”,聽起來也許不知所云,但出現在“他這幾天要X”的小句中,它們的意思就比較明確了.“跑錢”,為弄到錢而奔跑;“跑票”,為弄到票而奔跑;“跑官”,為弄到官職而奔跑.
②短語的結構類型是包容在小句的結構類型之中的.
短語所具有的的結構類型如“動賓”“主謂”“定心”“狀心”“心補”等,沒有一種不在小句結構類型的包容之中.短語的結構類型在小句中全都可以找到.請看例子:
(12)買五個蘋果!
(13)今天我請毓芳同云霖看電影.
(14)好漂亮的蝴蝶!
(15)非常不錯!
(16)累得在床上躺了三天三夜.
例(12)~例(16)的例子去掉句末標點就分別變成了相應的動賓、主謂、定心、狀心、心補短語.
③短語的語義內涵,為小句的結構格局所顯示.[7]
看兩個例子:
(17)我們下午學習文件.
(18)我們下午領學習文件.
這兩例中,“學習文件”有不同的語義內涵.前一例,“學習文件”被安置在謂語部分,是動賓結構,表示行為.后一例,被安置在動詞“領”的后面作其賓語,是定心結構,表示事物.
本部分將利用UML對小句進行本體建模.先介紹小句建模涉及到的概念以及概念與概念之間的關系.
小句本體建模里涉及到的概念有:句子語氣、語素、詞語、短語、成分詞、非成分詞、成分短語、非成分短語、關系類短語、標志類短語.
小句本體建模里各概念之間涉及到的關系有:
①公共領域本體和小句本體為聚合關系,且一個公共領域本體可以使用多個小句本體.
②小句和句子語氣的關系為組合關系,一個小句必須有而且只可以有一種語氣.
③句子語氣和陳述語氣、疑問語氣、祈使語氣、感嘆語氣的關系為繼承關系.
④小句的構件有兩個類型:詞語和短語,小句和詞語、短語的關系為聚合關系.
⑤一個短語由兩個或兩個以上的詞語構成,短語和詞語的關系為聚合關系.
⑥一個詞語由一個或一個以上的語素構成,詞語和語素的關系為聚合關系.
⑦詞語按照能否作句法成分,又可以分為成分詞和非成分詞.詞語與成分詞、非成分詞的關系為聚合關系.
⑧成分詞分為名詞、動詞、形容詞、副詞、數詞、量詞、代詞、擬音詞.成分詞和名詞、動詞等詞之間為繼承關系.
⑨非成分詞分為介詞、連詞、助詞.非成分詞和介詞、連詞、助詞之間為繼承關系.
⑩短語根據是否可做句子成分分為成分短語和非成分短語.短語與成分短語、非成分短語之間為聚合關系.
?成分短語可以從結構的角度和功能的角度分為結構類短語和功能類短語.成分短語和結構類短語、功能類短語之間的關系為聚合關系.
?結構類短語根據結構成分之間的語義關系是否清晰可分為結構關系類短語和結構標志類短語.結構類短語與結構關系類短語、結構標志類短語之間為聚合關系.
?結構關系類短語又可根據組成成分之間是否平等分為成分配對式短語和依次排列式短語.結構關系類短語與成分配對式短語、依次排列式短語之間為聚合關系.
?成分配對式短語的類型有:主謂短語、動賓短語、定心短語、狀心短語、心補短語.成分配對式短語與主謂短語等短語之間為繼承關系.
?依次排列式短語可分為聯合短語和同位短語.依次排列式短語與聯合短語和同位短語之間為繼承關系.
?結構標志類短語根據語表上的標志可分為:能愿短語、“的”字短語、介詞短語、方位短語、趨向短語、比況短語、數量短語.結構標志類短語和它們之間的關系為繼承關系.
?功能類短語包括名詞性短語、動詞性短語和形容詞性短語.功能類短語和它們之間的關系為繼承關系.
根據以上小句的概念以及各概念之間的關系,可以構建圖1所示的小句本體模型圖.

圖1 小句本體模型
本文首先介紹了中文信息處理的研究現狀、本體的概念以及為什么選用UML來描述小句的本體模型;其次,本文較為詳細地介紹了漢語里小句的概念和內涵以及小句為什么在漢語的各級各類語法實體里處于中樞地位?最后,本文對小句里包含的各種概念以及概念之間的關系進行了分析,并利用UML對小句進行了靜態的建模.本模型為中文信息處理領域的句處理打下了基礎.今后有關漢語里句子語義的自動理解,小句、復句乃至句群等方面的研究都可以利用本文所建立的小句本體模型.
下一步,我們將對小句本體模型圖中各個類的數據成員和方法逐一進行實現、對小句構件內部各成員之間隱含的語義、語法關系進行充分地挖掘并將其形式化,這些嘗試將對中文信息處理中的句處理起到推進作用.