999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

三詞型術語抽取研究

2017-07-10 07:52:42那日松劉青
中國科技術語 2017年3期

那日松+劉青

摘 要:主要討論了由三個詞組成的術語的抽取問題。首先從實驗語料中抽取了三個詞組成的詞串,利用語法規則剔除了不符合要求的三詞串,最后對剩下的三詞串進行了人工判別,判斷其是否為術語。研究發現:1)由三個詞組成的術語數量相對較少;2)所獲得術語中被賦予新含義的術語占多數;3)同一領域術語間的流通性不同;4)三個以上的詞組成的術語仍然存在,只是數量直線下降。

關鍵詞:三詞型術語,術語抽取,法律術語

中圖分類號:H083;H087;D90 文獻標識碼:A DOI:10.3969/j.issn.1673-8578.2017.03.002

Research on Triword Term Extraction//Narisong,LIU Qing

Abstract: This paper mainly discussed the topic of triword term extraction. We extracted all the linguistic strings formed by three words from the corpus, and filtered those illegal phrases based on the rule of grammar, and judge whether the rest of triword linguistic strings could be identified as terms. Our conclusions are: 1) there are a relatively small number of triword terms in the corpus; 2) many triword terms have been given new meanings; 3) terms in the same field have different negotiability; 4) there are terms formed by more than three words in the corpus, but the number of this kind term is falling sharply.

Keywords: triword term,term extraction,legal term

引 言

術語是專業領域中概念的語言指稱[1]。從不同的角度出發可以對術語進行多種分類。從術語語言結構的角度,可以把中文術語系統中的術語分為單詞型術語和多詞型術語[2]。單詞型術語是指由單詞構成的術語,多詞型術語是指采用原有的單詞構成詞組來表示新概念的術語。也就是說術語的長度不一,正如馮志偉在《現代術語學引論》中提出的,以組成術語的單詞數作為長度單位,術語的最小長度為1,大量術語分布在2~6詞之間[2]。

從目前的術語抽取研究來看,主要是基于語料庫利用規則和統計相結合的方法[3-6]來抽取術語,不過很多研究主要是側重于抽取單詞型的術語。多詞型術語數量較少、抽取難度大,使得其受到的關注度較低,而一些研究不再將術語分為單詞型術語和多詞型術語。

本文主要是討論法律術語[7-8]的抽取問題,在之前的研究中筆者主要探討了單詞型和雙詞型法律術語的抽取[9],這里重點討論三詞型法律術語抽取的問題。首先對實驗語料進行分詞和詞性標注,然后利用三元語法,將所有三詞串提取出來,之后利用排除法,剔除不符合語法規則的三詞串,最后人工識別出了所有可能的三詞型法律術語。

一 語料與研究方法

研究材料選用了香港雙語法例資料系統(BLIS, Bilingual Laws Information System)[10]中的1萬個句子,包含37萬多個詞的語料。語料利用ICTCLAS分詞系統進行了分詞和詞性標注,標注時遵循了北大詞性標準。

研究采用了統計和語法規則相結合的方法。三個詞組成的詞串的抽取主要使用了n元語法,即將語料中同時出現在一個上下文中的三個詞組成的詞串都挑選出來,并對其出現次數進行統計。之后對所有三詞串進行是否合法的判別,判斷三詞串是否符合語法規則,是否為符合人類語言規律的詞串。

n元語法(ngram)[11]是指文本中連續出現的n個語詞。n元語法模型是基于(n-1)階馬爾可夫鏈的一種概率語言模型,通過n個語詞出現的概率來推斷語句的結構。本文使用三元語法,提取了語料中所有三詞串,并計算了它們的出現次數。

按照國家標準GB/T 10112—1999 術語工作·原則和方法,術語選擇和術語構成的要求是:1)單名單義性;2)顧名思義性;3)簡明性;4)派生性;5)穩定性;6)合乎本族語言習慣。我們嚴格按照該原則和方法來人工識別了語料中所有的法律術語。

二 數據與討論

除去標點符號,我們共獲得了94 823個三詞串,去掉包含助詞(/u)、介詞(/p)、副詞(/d)、方位詞(/f)、非語素詞(/x)、連詞(/c)、量詞(/q)的詞串后,剩下16 778個三詞串。人工識別出406個候選三詞型術語,在百度百科和法律詞典中查詢和確認后,共獲得了76個待定的法律術語和36個法律術語。

1.待定的法律術語

76個待定的法律術語大部分以“法律、條例、程序、合約、令、規則、狀、罪、訴訟、權、法則、法令、事宜”等詞結尾,這類詞雖然由多個修飾成分組合而成,而且大部分能讓大家理解所表述的內容,但是也存在著法律層面對于這種條例新的詮釋和解讀,所以類似這樣的詞該如何判別其是否為術語呢?如果從術語的定義出發,這樣的組合詞已經在法律領域賦予了新的定義,而不是人們普遍理解的字面含義,應該有法律層面的解釋。這類詞主要特點是使用頻率相對較高,頻繁出現在法律領域文獻中,只是組成部分組詞能力較強。我們將這類法律術語稱為法律常用詞。

2.法律術語

嚴格來說,我們從16 778個詞串中只抽取到了36個法律術語,占全部三詞串的0.2%,非常低,假設我們把前述76個詞也認作術語,其比例也只占到0.67%,這也是人們很少討論或者忽略討論多詞型法律術語的原因所在。表1是我們從實驗語料中提取出來的36個法律術語。表中分別列出了每個詞的詞性和出現頻數。由于分詞工具無法做到百分百正確,所以有些分詞和詞性標注結果有誤。這些法律術語大部分是賦予了法律含義后的詞,所承載的含義不是組成它們的三個詞的含義的相加,所以這類法律術語是真正的法律專用詞。

3.問題討論

(1)頻率不是判斷法律術語的關鍵指標。從表1可見,這些法律術語的出現頻數并不高,基本都在10次以下。主要原因可能在于我們選擇的語料規模不夠大,而且這些法律術語使用范圍受限,只適合在法律領域或者其中某些部分使用,即有些法律術語只是在某些章節中集中出現,而在其他章節較少提及或者基本不會提及。但有些組合能力較強的術語,在整個法律語料中使用的頻率都比較高。所以有必要將術語分為兩個等級:領域常用詞和領域專用詞。領域常用詞主要特點是在某一個領域內使用頻繁,組詞能力強,而領域專用詞使用頻率并不高,但是所承載的領域信息較強。這也充分說明了在流通性方面,術語間有較大的差別。

(2)多詞型術語雖然少,仍有少量以片段的形式出現在三詞串中,例如:“監/g 理/v 誓/g (2)”(監理誓章);“知/v 會/v 備/v (45)”(知會備忘);“皇/g 制/v 誥/v (4)”(英皇制誥);“餉/v 租/v 值/v (41)”“課/n 差/v 餉/v (41)”(應課差餉租值)。

(3)分詞和詞性標注錯誤也部分影響術語的判別。特別是對于兼類詞的分詞和詞性標注錯誤常有發生。例如:“雙/b 語法/n 例/v”。

(4)多詞型術語的自動識別難度較大,因為這些術語出現頻次較低,組詞能力較弱,都是些新生詞,且賦予了新的含義,分詞工具無法正確地應對和切分這些詞,反而有所妨礙。

三 結 語

以上針對性地討論了三個詞組成的三詞型法律術語的抽取問題,由于大部分詞和術語的長度集中在一詞或二詞范圍內,所以三詞組成的術語相對較少。我們將所有可能的三詞串都抽取出來,對其進行了進一步的研究分析,最后只獲得了極少的術語。這也說明了自動抽取多詞型術語的難度相當大,而且完全靠自動的方法獲得所有多詞型術語需要付出比較大的代價,需要大量的人力和時間才能實現。不過也不能因為多詞型術語數量少,抽取難度大而忽略了對它們的研究,也應積極搜集并補充相應的術語詞典。

研究中我們總結出:1)建議將術語進行分類,例如分為領域常用詞和領域專用詞,這樣更利于術語特點的掌握及自動提取。2)分詞和詞性標注出現錯誤,會影響語法規則(詞性,短語結構)在剔除非法律術語時所起的作用。3)從詞的層面或者詞間關系的層面,較難給出判別術語的特別有效的規則來,所以可以考慮從句子結構的層面出發,通過句法分析來發現和抽取術語。

參考文獻

[1] 國家技術監督局. GB/T 10112—1999 術語工作·原則和方法[S].北京:中國標準出版社,2000:1-8.

[2] 馮志偉.現代術語學引論[M].北京:語文出版社,1997.

[3] 周浪. 中文術語抽取若干問題研究[D]. 南京:南京理工大學, 2009.

[4] 張榕.術語定義抽取、聚類與術語識別研究[D].北京:北京語言文化大學,2003.

[5] 張勇.中文術語自動抽取相關方法研究[D].武漢:華中師范大學,2006.

[6] 凌祺,樊孝忠.領域詞匯自動獲取的研究[J].微機發展,2005(8):148-150.

[7] 劉紅嬰.法律語言學[M].北京:北京大學出版社,2007.

[8] 封鵬程.現代漢語法律語料庫的建立及其詞匯計量研究[D].南京:南京師范大學,2005.

[9] 那日松.法律術語抽取研究[D].北京:中國傳媒大學,2008.

[10] 揭春雨,劉曉月,冼景炬,等.從網絡獲取香港法律雙語語料[C]//南京師范大學.全國第八屆計算語言學聯合學術會議(JSCL-2005)論文集.北京:清華大學出版社,2005:193-199.

[11] Manning C D, Schütze H. Foundations of Statistical Natural Language Processing[M].Cambridge: MIT Press, 1999:192-195.

主站蜘蛛池模板: 国产精品亚欧美一区二区| 蜜臀AV在线播放| a天堂视频| 中文字幕色在线| 久久国产免费观看| 国产区成人精品视频| 制服丝袜亚洲| 呦女精品网站| 狠狠亚洲五月天| 2021天堂在线亚洲精品专区| 视频二区中文无码| 成人在线欧美| 欧美激情综合一区二区| 国产一区二区三区免费观看| 亚洲一区二区精品无码久久久| 国产麻豆另类AV| 一区二区三区四区在线| 一本大道视频精品人妻| 免费中文字幕在在线不卡| a毛片在线免费观看| 欧美视频在线播放观看免费福利资源| 亚洲第一福利视频导航| 亚洲欧美成人网| 综合色88| 欧美精品aⅴ在线视频| 欧美性猛交xxxx乱大交极品| 亚洲精品桃花岛av在线| 国产尤物jk自慰制服喷水| 国产精品刺激对白在线| 欧美日韩v| 国产精品真实对白精彩久久| 亚洲国产欧美目韩成人综合| 青青操视频免费观看| 伊人网址在线| 91色在线观看| 99久久精品免费观看国产| 找国产毛片看| m男亚洲一区中文字幕| 国产成人精品高清不卡在线 | 久久国产成人精品国产成人亚洲| 久久精品国产91久久综合麻豆自制| 蜜桃视频一区| 午夜国产精品视频黄 | 第一区免费在线观看| jizz亚洲高清在线观看| 亚洲人精品亚洲人成在线| 尤物午夜福利视频| 毛片一级在线| 国产精品大尺度尺度视频| 丁香婷婷久久| 日韩人妻无码制服丝袜视频| 久久国产亚洲欧美日韩精品| 欧美a在线视频| 色成人综合| 欧洲日本亚洲中文字幕| 久久亚洲黄色视频| 国产高清不卡| 国产精品嫩草影院视频| 午夜无码一区二区三区| 国产精品视频第一专区| 激情视频综合网| 尤物特级无码毛片免费| 国产成人亚洲无吗淙合青草| 国产精品13页| 久热这里只有精品6| 日本五区在线不卡精品| 奇米影视狠狠精品7777| 波多野结衣无码AV在线| 亚洲视频二| 91蜜芽尤物福利在线观看| 男女性色大片免费网站| 人妻21p大胆| 一级毛片基地| 少妇极品熟妇人妻专区视频| 久久综合九色综合97婷婷| 亚洲精品黄| 91久久性奴调教国产免费| 无码人中文字幕| 欧美成人精品一区二区| 伊人久久精品无码麻豆精品| 日韩免费中文字幕| 国产成人免费手机在线观看视频|