999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于啟發式規則的藏語重疊詞抽取方法研究

2020-10-12 13:02:38才讓卓瑪
科學與信息化 2020年20期
關鍵詞:規則

摘 要 文章利用網絡爬蟲方法對網絡資源進行了歸納整合,建立了自用微型語料庫。依據藏語字形特點搜集和歸納了重疊詞規則,最后通過規則抽取,實現并完成藏語重疊詞的抽取。抽取效果良好,具有較好的通用性。

關鍵詞 語料庫;規則;藏語;重疊詞;抽取

引言

藏語重疊詞作為藏語特殊的一類詞,在句子中承擔著重要的語法作用和語法手段。詞的抽取是自然語言處理中的知識抽取的一種應用,如今被廣泛運用于學術、醫藥學等領域。藏語文本語料的構建是藏文信息領域的一大基礎性研究,語料的匱乏成了發展瓶頸。鑒于這樣的背景下,本文提出了構建文本語料,規則抽取詞的方法。經總結,抽取方法主要可以分為基于統計的方法[1],基于規則的方法和基于統計和規則相結合的方法,通常在實際應用中可根據面向數據源的不同選取不同的方法。

1語料庫預處理

傳統的語料庫的語料大多來自書本、試卷等紙質文本掃描或打字,其效率較低,人工耗費巨大,隨著互聯網的發展,網絡上海量的文本,為語料庫建設提供了大量的文本資源,因此,基于網絡文本的語料庫應運而生。重疊詞的抽取是在一定規模的語料庫的基礎上實現,構建語料庫時除了已有語料外,網頁正文的抽取也是首要選擇。在對藏文網頁進行大規模的網絡爬蟲后,為減少語料噪音和改善文本質量還對對藏語文本數據集進行預處理,初步達到預期效果。

(1)編碼轉換:將所有文本都轉換成UTF-16編碼格式,以統一不同編碼形式的藏文文本。

(2)分詞:藏語是拼音文字,屬于屈折型語言,詞是最小能夠獨立運用的語言單位,詞與詞之間用音節符“”為自然分割符,短語之間用垂符進行分隔。因此,根據音節符、垂符就可以解決分詞問題。本文采用西北民族大學信息院祁坤鈺教授開發的藏文分詞系統用來分詞,此軟件具有歧義識別、未登錄詞識別、詞性標注等獨特的特點,對語義分析和文本分類等有非常大的幫助。

(3)“躁音”過濾:對語料中出現的所有非藏語文字、數學符號、數字、標點符號和空格進行過濾。

2規則構建的方法

對于藏語的重疊詞而言,首先根據詞的特征需要構建出詞的屬性的描述規則,再通過構建的規則對藏語重疊詞進行抽取。而重疊詞作為藏語普遍的語法手段,名詞、動詞、數詞、代詞、形容詞等都是能夠重疊,其數量浩繁、形式繁多、結構復雜,所以對其規則的構建是非常重要同時也是較為困難的。因此,抽取規則的設計是最關鍵的環節之一,不同程度上影響著抽取效果。通常來說,抽取規則構建主要分為基于統計和基于規則兩種方法[2]。文章采用人工構建抽取規則的方法,此方法是一種通過對規則進行理解,了解規則本身的含義和涵蓋的范圍,再通過搜集和歸納重疊詞的結構特征總結規則,并根據規則對重疊詞的抽取實驗

2.1 藏語重疊詞的抽取規則

構建規則是通過大量閱讀相關文獻及領域內的研究基礎上,統計和歸納重疊詞的形態特征后提出的規則構建思想。規則構建過程共分為5個步驟:

(1)閱讀大量文獻。文獻的閱讀可分為兩步進行,首先,梳理領域內文獻,對其進行一一精讀,搜集和歸納藏語重疊詞的結構形式的統計;其次,詞典的歸納法。

(2)搜集藏語重疊詞。在查閱文獻過程中,對藏語重疊詞進行歸類統計,從形式上將藏語重疊詞分為單音節重疊、雙音節重疊和多音節重疊,根據特征再搜集,再分類。

(3)尋找藏語重疊詞的規則。

(4)統計規則。在初步形成的規則上根據不足和缺點進行進一步完善和補充,最終形成規則。

(5)完善規則。

通過大規模歸納總結,藏語重疊詞的抽取規則可以分為七種。規則抽取有一特點是字形結構,藏語恰好是形態比較開放豐富的文字,在搜集分析抽取規則時,依照詞的構詞特點和詞性變化可以確定屬于哪個類型,適用哪個規則方法,以最終達到準確抽取。就如第二種規則來講,是構詞方式上可以入手分析,這類詞一般是三音節,第一個字是單音節多以動詞,而后兩個字是多音節,是相同的兩個字,一般為擬聲擬態詞(如vod lam lam,ldi ri ri等)。在抽取時設y為總符號,那么設第一音節為y1,設后兩個音節為y2,抽取規則是y(y1=y2),在重疊詞抽取時按照這個規則撰寫程序抽取,符合規則條件則抽取,否則則放棄,其他規則也依次類推

3實驗數據與結果

文章共對五十余個藏文網頁和上萬條URL做了網絡爬蟲,初步構建了文本語料庫,再依靠語料進行規則抽取后,共抽取到了3211條藏語重疊詞,抽取率達92%,抽取效果良好,具有較高的通用性。

4結束語

本文是一種基于規則的抽取方法,該方法對藏語網絡資源進行了文本整合,然后從建好的語料庫中利用程序實現了重疊詞的抽取。實驗結果取得了良好的效果,基本滿足了快速準確收集特征詞的要求,擺脫了煩瑣的傳統方式,為文本信息抽取提供了新的思路和方法。

參考文獻

[1] 孫杰,關毅.基于統計的網頁正文信息抽取方法的研究[J].中文信息報,20(0):17-22.

[2] 黃紹杉.基于統計與規則的專利摘要信息抽取[D].北京:中國科學技術信息研究所,2045.

作者簡介

才讓卓瑪(1994-),族,甘肅碌曲人;畢業院校:西北民族大學中國民族信息技術研究,學歷:碩士研究院。現就職單位:西北民族大學中國民族語言文字信息技術教育部重點實,研究方向:藏文信息處理技術。

猜你喜歡
規則
拼寫規則歌
撐竿跳規則的制定
數獨的規則和演變
依據規則的推理
法律方法(2019年3期)2019-09-11 06:26:16
善用首次銷售規則
中國外匯(2019年7期)2019-07-13 05:44:52
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
顛覆傳統規則
環球飛行(2018年7期)2018-06-27 07:26:14
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
啦啦操2010—2013版與2013—2016版規則的對比分析
運動(2016年6期)2016-12-01 06:33:42
主站蜘蛛池模板: 四虎精品黑人视频| 亚洲第一色视频| 欧洲高清无码在线| 国产精品lululu在线观看| 国产美女视频黄a视频全免费网站| 成人小视频在线观看免费| 国产精品自在拍首页视频8| 欧美人在线一区二区三区| 最新亚洲人成网站在线观看| 国产成人夜色91| 一边摸一边做爽的视频17国产| 久久一级电影| 爆操波多野结衣| www欧美在线观看| 欧洲极品无码一区二区三区| 亚洲视频免费在线看| 97se亚洲综合在线| 国产不卡国语在线| 第一区免费在线观看| 小说 亚洲 无码 精品| 亚洲第一页在线观看| 亚欧乱色视频网站大全| aaa国产一级毛片| 国产免费高清无需播放器| 欧美α片免费观看| 四虎AV麻豆| 国产精品久久久久久久伊一| 中文字幕日韩久久综合影院| 情侣午夜国产在线一区无码| 一本久道热中字伊人| 亚洲一区二区三区国产精品| 亚洲天堂免费| 国产波多野结衣中文在线播放| 国产成人精品2021欧美日韩| 国产第一色| 婷婷激情亚洲| 亚州AV秘 一区二区三区| 国产精欧美一区二区三区| 亚洲视频色图| 免费毛片a| 国产欧美性爱网| 亚洲天堂成人在线观看| 91亚瑟视频| 少妇精品网站| 欧美日韩国产一级| 亚洲国产日韩欧美在线| 国产正在播放| 91人妻日韩人妻无码专区精品| 亚洲国产一成久久精品国产成人综合| 久久国产香蕉| 97精品伊人久久大香线蕉| 国产真实乱了在线播放| 中文字幕佐山爱一区二区免费| 91精品专区国产盗摄| 亚洲国产理论片在线播放| 国产污视频在线观看| 六月婷婷精品视频在线观看| 国产精品美人久久久久久AV| 伊人成人在线| 日韩精品专区免费无码aⅴ| 国产精品亚洲va在线观看| 91系列在线观看| 国模粉嫩小泬视频在线观看| 日韩小视频在线观看| 国产美女自慰在线观看| 国产最爽的乱婬视频国语对白| 一区二区影院| 亚洲国产清纯| 性色生活片在线观看| 久久久久人妻一区精品| 波多野结衣视频网站| 欧美日韩中文字幕在线| 欧洲熟妇精品视频| 中文字幕亚洲另类天堂| 亚洲一区国色天香| 国产成人综合久久| 欧美日韩成人在线观看| 久久精品国产电影| 怡春院欧美一区二区三区免费| 国产后式a一视频| 77777亚洲午夜久久多人| 欧类av怡春院|