999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種IT領域術語識別系統的設計與實現

2020-05-06 09:01:57木合亞提·尼亞孜別克古力沙吾利·塔里甫
中國科技術語 2020年2期

木合亞提·尼亞孜別克 古力沙吾利·塔里甫

摘 要:針對信息領域的術語識別平臺的設計和開發是對該領域術語資源進行更有效利用的重要手段之一。文章闡述了信息領域的哈薩克語術語識別平臺的設計,該平臺采用條件隨機場和人工修改的方法,基于信息領域術語本身的特點分析了該領域術語的構成規則及相關術語識別方法。

關鍵詞:信息領域;術語識別;系統設計

Abstract:The design and development of the terminology recognition platform in information technology field is one of the important means for more effective use of term resources. This paper describes the design of Kazakh language terminology recognition platform in the information technology field. Based on the characteristics of the information technology field terminology, the platform analyzes the rules of terminology formation and related terminology identification methods using a conditional random field (CRF) and manual modification method.

Keywords:information technology field; terminology recognition; system design

引 言

隨著中文各語言信息處理應用領域的不斷擴展,對于不同語言不同領域術語的檢索需求也越顯迫切。其中以計算機作為工具的哈薩克語信息技術領域術語識別平臺的構建對哈薩克語自然語言信息處理、哈薩克語語言學研究、信息安全檢索、機器翻譯、語料庫建設、IT領域術語庫等民族語言信息化建設的作用日顯重要[1]。術語是代表特定學科領域基本概念的語言單元,是該領域核心知識的體現,方便人們快速獲取專業知識,如何自動獲取術語自然也成為相關專業人員的研究熱點。術語自動抽取是信息處理領域中一項重要的研究任務,在詞典編纂、本體構建、機器翻譯等領域都有重要應用。術語抽取技術是大規模本體工程自動或半自動構建、擴充的關鍵技術之一。近年來,人們已經認識到了術語抽取方法的重要性并進行了大量研究,而目前廣泛采用的術語提取思想主要分為基于統計學、基于機器學習、基于語言學和多種思想結合的混合方法。本文闡述的系統設計為結合語言學規則,并采用條件隨機場(conditional random fields,CRF)和人工修改的方法。望通過信息領域哈薩克語術語識別系統的設計實現,對民族文化的挖掘、傳承、創新及民族科技教育工作和社會安全、穩定與繁榮發展盡一份力。

一 系統設計

本系統是基于各類哈薩克文網站及中小學信息技術教材中獲取的各種文本的電子版語料,通過目前多語種信息技術實驗室使用的各種語言語料工具進行原始語料的詞法分析后獲得的已經完成單詞提取、詞綴提取和詞性標注的熟語料。在輸入基于規則的哈薩克語信息技術領域術語抽取系統中的熟語料后,通過領域術語詞典和術語聚類規則庫進一步過濾得到最終的術語生成候選術語和候選術語標注語料[2-4]。再通過修改將候選術語標注語料生成為訓練語料。系統具體流程如圖1所示。

二 系統功能模塊

從系統功能角度出發,以隨機場的方法為處理哈薩克信息技術術語抽取問題的提取條件,將哈薩克語信息技術領域術語識別看作一個序列詞性標注問題,將哈薩克語信息技術領域術語分布的特征量化作為系統的訓練的特征,利用條件隨機場(CRF)的工具包訓練出哈薩克語信息技術領域術語特征模板。整個系統可分為術語標注語料庫和CRF模式識別兩個子系統,術語標注語料庫子系統還包括預處理部分、生成訓練語料部分、術語識別部分、術語抽取部分、定界規則部分等,另一個CRF模式子系統還包括模型參數部分、特征選擇部分、特征模板選取部分等。系統功能模塊如圖2所示。

三 系統主界面

整個系統由術語抽取、生成訓練語料、術語識別、退出系統等四個部分組成。術語抽取部分可以進行術語的打開、抽取、保存、退出等操作步驟,生成訓練語料、術語識別部分進入后也有各自不同的操作界面。系統主界面如圖3所示。

1. 術語抽取

因存在單詞術語、多詞術語等區別,不同的語言中術語組成形式也不同,例如名詞+名詞、形容詞+名詞、名詞+動詞等,故術語抽取將根據語言特點及術語的組成結構來界定抽取規則。該模塊主要為相關的資料中的術語抽取,進入頁面后分左右兩個界面,左側可以進行文件打開、抽取、保存、退出、術語統計等操作,右側顯示已抽取的術語及抽取個數等信息。系統的術語抽取架構圖詳細操作界面如圖4所示。

2.生成訓練語料

IT術語語料庫中存放的語言材料均在語言的實際使用中真實出現過,是以電子計算機為載體承載語言知識的基礎資源,真實語料需經過加工才能成為有用資源。以系統中的熟語料作為輸入,依語言學規則自給定文檔中抽取術語,再經過進一步修改過程后生成訓練語料。術語本身可以是詞也可以是詞組,哈薩克語IT領域術語結構多種多樣,有些術語由一個詞或兩個詞連接組成,也有些術語由不同的附加成分或者嵌套組成,構成形式有名詞+名詞、形容詞+名詞、名詞+動詞等。生成訓練語料部分包括打開XML文件、打開術語文件、XML文件中標注術語、保存標注文件等模塊,可根據需要進一步進行相關操作,如打開術語庫文件進行XML標注等[5-8]。界面上也包括上一個、下一個或者上一段、下一段等選項,每個選項都有不同的階段性的操作步驟,生成訓練語料模塊詳細操作界面如圖5所示。

3.術語識別

該模塊包括訓練、測試、分析三個部分,不同的操作界面自不同部分進入。進入訓練語料部分后,可見添加語料、特征抽取、模型訓練等選項,每個選項中可繼續進行相應操作。測試模塊包括測試語料、術語識別、保存結果及快速測試等部分,分析模塊中可顯示正確識別的術語個數、錯誤識別的術語個數、系統標注為術語的個數、未判斷的術語個數、準確率、召回率、F值等內容。術語識別方法都已先預選,即首先候選出候選術語,哈薩克語雖屬于黏著語,但IT術語的詞性具有一定的規律性,通過分析、觀察,寫出IT術語的詞性規則表,再利用規則和已標注好詞性的文本進行匹配,抽取相應的詞或者詞組作為候選術語。系統的術語識別訓練語料操作界面如圖6所示。

四 結 語

術語識別平臺的建設是一個周期長、數據需求量大的大型工程。而針對信息領域的術語僅完成了原始數據的收集工作與基本信息的整理工作,術語識別系統的構建還處于初始階段,任重而道遠。相關專業人員還需不懈努力,提升加工處理和分析語料工具的技術方法,不斷完善該系統的建設,才能進一步滿足哈薩克語語言學信息研究的多種需要。

參考文獻

[1] 戴慶廈,趙小兵.中國少數民族語言文字信息處理研究與發展[M].北京:民族出版社,2010.

[2] 木合亞提·尼亞孜別克,古力沙吾利·塔里甫,達吾勒·阿布都哈依爾.采用CRF模型的哈薩克語信息技術術語自動抽取技術研究[J].西北師范大學學報:自然科學版,2016,52(1):53-56.

[3] 鄭家恒,張虎,譚紅葉,等.智能信息處理:漢語語料庫加工技術及應用[M].北京:科學出版社,2010.

[4] 木合亞提·尼亞孜別克,古力沙吾利·塔里甫.哈薩克語IT領域術語識別研究與實現[J].中文信息學報,2016,30(3):68-73.

[5] 哈斯.蒙古語語料庫語言資源管理平臺的設計與實現[J].內蒙古師范大學學報:自然科學漢文版,2008,37(6):743-745.

[6] 木合亞提·尼亞孜別克,古力沙吾利·塔里甫.哈薩克文信息處理現狀中的若干問題探討[J].智能計算機與應用,2011,1(4):45-46.

[7] 劉劍,唐慧豐,劉伍穎.一種基于統計技術的中文術語抽取方法[J].中國科技術語,2014,16(5):10-14.

[8] 張榕.面向術語識別的術語界定研究[J].中國科技術語,2014,16(4):5-8.

主站蜘蛛池模板: 手机成人午夜在线视频| 亚洲人成网站观看在线观看| 国产国产人在线成免费视频狼人色| 国产自视频| 在线观看国产精品第一区免费 | 免费国产黄线在线观看| 精品国产自在现线看久久| 国产成人亚洲无码淙合青草| 日韩 欧美 小说 综合网 另类| 国产高清在线精品一区二区三区| 亚洲无码视频喷水| 青青草原国产| 91精品国产91久无码网站| 99久久精品久久久久久婷婷| 91亚洲免费| 国产视频只有无码精品| 亚洲精品视频免费观看| 国产情精品嫩草影院88av| 亚洲成肉网| 秘书高跟黑色丝袜国产91在线| 日韩色图区| 黄色网页在线播放| 国产福利小视频在线播放观看| 国产95在线 | 日韩欧美国产精品| 免费在线不卡视频| 99福利视频导航| 国产凹凸视频在线观看| 91精品国产情侣高潮露脸| 高潮毛片无遮挡高清视频播放| 成人午夜天| 日本一区二区三区精品视频| 人妻出轨无码中文一区二区| 午夜精品影院| 波多野结衣无码中文字幕在线观看一区二区| 久青草免费视频| 99久久国产精品无码| 伊人五月丁香综合AⅤ| 国产成人永久免费视频| 国产在线精彩视频二区| 国产精品永久不卡免费视频| 毛片一级在线| 亚洲视频一区| 国产啪在线| 成年片色大黄全免费网站久久| 91精品国产无线乱码在线| 色久综合在线| 久久久噜噜噜| 亚洲一区二区日韩欧美gif| 无码啪啪精品天堂浪潮av| 最新国产高清在线| 白浆免费视频国产精品视频| 成人在线视频一区| 中文国产成人精品久久一| 国产91蝌蚪窝| 国产成人h在线观看网站站| 亚洲精品无码高潮喷水A| 99伊人精品| 日韩精品无码免费一区二区三区 | 四虎永久在线视频| 一级毛片高清| 国产91精品调教在线播放| 波多野结衣视频一区二区| 一本大道香蕉久中文在线播放 | 狠狠ⅴ日韩v欧美v天堂| 欧美精品在线看| 99在线视频免费| 99精品欧美一区| 谁有在线观看日韩亚洲最新视频| 无码中文字幕乱码免费2| 久久青草视频| 制服丝袜亚洲| 国产精品视频猛进猛出| 久久国产精品国产自线拍| 婷婷丁香在线观看| a级毛片视频免费观看| 57pao国产成视频免费播放| 最新痴汉在线无码AV| 国模极品一区二区三区| 亚洲综合色婷婷| 91年精品国产福利线观看久久| 一级成人欧美一区在线观看|