朱淑琴,沈雨辰
(北京聯合大學師范學院,北京 100011)
新聞漢語句式系統
朱淑琴,沈雨辰
(北京聯合大學師范學院,北京 100011)
新聞漢語是國際漢語教學中一門重要課程,新聞中有一些固定句式和常用句型,掌握這些句式能有效提高新聞文本的閱讀能力。從現有新聞漢語教材中進行整理收集,構建新聞漢語句式庫,基于自然語言處理技術實現對這些句式的自動識別,為了方便用戶查詢搜索以及句式管理,設計開發可視化的框架句式管理平臺。
新聞漢語;句式;自然語言處理;可視化管理平臺
近年來,中國的快速發展吸引了全球目光,各國與中國的經濟往來越來越頻繁,出現越來越多漢語學習者。而新聞漢語學習能夠讓漢語學習者接觸到最新、最流行的漢語,通過閱讀新聞漢語也能夠很好地了解中國文化。新聞漢語是適應新聞交際需要而形成的特殊漢語體式,它跟日常口語交際的日常漢語不太一樣,它是漢語書面語的一種特殊表現形式。新聞有一些固定句式和常用句型,如“以……為指導,深入貫徹……觀,總結……經驗,提出……要求,做出……部署”等政論文最常見的套話,掌握這些套話能有效提高新聞的閱讀能力。
句式結構對于外國留學生語漢語學習者理解句義、培養語感,具有事半功倍的作用,也能夠間接提高學生的應試能力[1-3]。中文書籍的特點是“兩多”,即框架結構多,長句多。而框架結構相對于長句來說,無論是在本體方面的研究,還是在對外漢語教學方面的研究仍存在著欠缺之處,因而也有待于我們在句式框架結構的研究進一步深入探索。
本文從現有新聞漢語教材課后習題或者語言點中進行整理收集,構建框架句式庫,在此基礎上采用自然語言處理技術進行框架句式的自動識別和獲取,并開發可視化的框架句式管理平臺,方便用戶查詢搜索以及句式管理。
本文搜集了大量的新聞漢語教材,并將教材課后習題或者語言點中句式進行整理,創建句式表,將句式相關信息填入表中,句式信息如表1所示:

表1 句式信息表
每項信息都是依照參考書目中的句式提取下來的,數據信息按照書名進行排序,最終概覽如圖1所示。
在句式庫的基礎上采用自然語言處理技術進行句式的自動識別,利用正則表達式為句式逐一編寫規則,并且逐條驗證。正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符,及這些特定字符的組合,組成一個“規則字符串”,這個“規則字符串”用來表達對字符串的一種過濾邏輯[4]。
本文將句式表中的句式表達式分為三類:短句、詞組、漢字。短句的結構,類似“令人擔憂的是……”字數稍多,并且在句式中間不能加入別的任何字;詞組的結構與短句相似,例如“一旦……”但是為了結果的準確,會在這種句式的前(或后)加上一些限制;最后一種漢字,是編寫時最為困難的,要一步步的剔除與這個字能組成詞語的其他字,一般情況下,漢字不單獨組成句式,可以與漢字、詞組或者短句組成類似“像……一樣”這種結構的句式。

圖1 句式庫信息概覽圖

表2 句式分類
從表2可以看出短句類常用句式的正則表達式就是其自身,因為字數多,所以不會產生其他相似的匹配結果。相比于短句而言,詞組類句式表達式就復雜一些了,要將詞語作為成語或常用短語中的情況排除,以防匹配出的信息不準確。很明顯地可以感覺到漢字類句式表達式比之前兩種的都長了很多,這是因為單個漢字可以組成大量的詞語,在匹配時會出現搜尋到包含這個漢字的詞組,所以要將這些情況一一清除,所以漢字類的表達式才會這么多。與漢字或詞組相關聯的單詞都是從專業的詞典中查詢得到的。
在前面新聞漢語句式數據庫的基礎上,本文開發可視化的句式管理平臺,將數據庫信息可視化,實現框架句式搜索功能,方便用戶查詢搜索以及管理員后臺管理句式[5]。
3.1 角色定義
管理員是指對網站進行開發和維護的人員,這個角色可以在后臺執行登錄,當管理員進行登錄操作后,可以進行用戶管理、句式管理和網站管理。在對用戶進行管理的時候可以執行修改信息和刪除用戶信息;可以對已有句式進行查找或修改不正確內容,刪除重復句式,添加句式(不可重復添加);隨時發布系統公告或維護信息,查看用戶反饋信息,完善網站。管理員信息存在數據庫中,在網頁上不能直接注冊。管理員功能用例如圖2所示:

圖2 管理員功能例圖描述

圖3 用戶功能例圖描述
用戶是指網站的主要面向對象,也就是網站的使用者,在執行完登錄之后,可以對自己查看的句式信息進行意見反饋,一般的游客可以瀏覽網站,查看已有句式的信息,但不能對句式進行意見反饋,其他部分都可以進行操作。信息檢索部分,可以輸入想要查找的句式的關鍵字進行模糊查詢。句式識別時,可以輸入一句話或者一段文字。用戶功能用例如圖3所示。
3.2 具體實現及效果
(1)句式管理:管理員登錄后臺系統之后,可以對查看所有句式,對句式進行修改,刪除所選句式,并且可以添加新的句式。句式信息表分為:常用句式、句式釋義、作者、頁碼、出處、發布時間等相關信息字段。句式管理界面如圖4所示:

圖4 句式管理
(2)句式搜索:網站的搜索功能主要是面向用戶,打開搜索界面后能夠能夠看到所有的句式,當用戶想要查找某個特定句式時,就可以利用模糊搜索功能找到需要的句式。具體界面如圖5所示:

圖5 句式搜索
(3)句式識別:用戶提供需要檢測的短文,可以在短文中識別出常用句式,如圖6所示:

圖6 句式識別界面
句式識別核心實現代碼如下:

本文從現有國際漢語教材課后習題或者語言點中進行整理,收集大量句式信息,構建框架句式庫;在此基礎上采用自然語言處理技術進行句式的自動識別和獲取,利用正則表達式為句式逐一編寫規則;并開發可視化的框架句式管理平臺,方便用戶查詢搜索以及句式管理。
[1]張娟.國內漢語構式語法研究十年[J].漢語學習,2013(02):65-77.
[2]Jing He,Weiming Peng,Jihua Song,and Hongzhang Liu.Annotation Schema for Contemporary Chinese Based on JinXi Li’s Grammar System[A].Proceedings of The 14th Chinese Lexical Semantics Workshop.CLSW2013[C].Beijing:Springer,2013,668-681.
[3]彭煒明,何靜,宋繼華.句本位語法圖解析句系統的設計與實現[A].項潔.數位人文研究叢書5——數位人文研究與技藝[C].臺灣:國立臺灣大學出版中心,2014,195-210.
[4]Yan Zhang,Jihua Song,Xue Zhu,Weiming Peng.The identification of Grammar Points in International Language Teaching Materials Based on Sentence-based Annotation[A].Proceedings of 2014 International Conference of Educational Innovation through Technology. EITT 2014[C].CPS,2014,29-36.
[5]梅峻韜,宋麗紅,董靜.面向移動終端和Web的智能自習室管理系統[J].現代計算機(專業版),2015(21).
News Chinese Sentence Pattern System
ZHU Shu-qin,SHEN Yu-chen
(Teachers'College of Beijing Union University,Beijing 100011)
News Chinese is an important course in the international Chinese teaching.There are some fixed sentence patterns in the news text.Mastering these sentence patterns can effectively improve the reading ability of the news text.Collects fixed sentence patterns from the existing Chinese teaching textbooks,constructs the database of news Chinese sentence pattern,and realizes the automatic recognition of these sentence patterns based on natural language processing technology.In order to facilitate the user to search and manage the sentence patterns,designs and develops a visual management platform for the sentence patterns.
New Chinese;Sentence Pattern;Natural Language Processing;Visual Management Platform
1007-1423(2016)33-0073-04
10.3969/j.issn.1007-1423.2016.33.017
朱淑琴(1978-),女,碩士,研究方向為中文信息處理
2016-09-20
2016-11-18