999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于欄目的藏文網頁文本自動分類方法

2011-06-28 06:27:06胥桂仙向春丞趙小兵楊國勝
中文信息學報 2011年4期
關鍵詞:分類文本方法

胥桂仙,向春丞,翁 彧,趙小兵,楊國勝

(1. 中央民族大學 信息工程學院,北京 100081; 2. 國家語言資源監測與研究中心 少數民族語言分中心,北京 100081)

1 引 言

在一個多民族的國度,保護少數民族文化遺產是我們每個人的責任。自上世紀80年代開始,藏文走入了信息化時代。20多年來,我國的民族語言文字及現代科技工作者在藏文計算機信息處理方面做了大量的工作。才讓加等人對藏文語料進行分詞標注[1]并利用詞性特征建立分類語料庫[2],賈會強等人提出了基于規則的藏文文本分類方法[3]。藏文網頁文本分類不僅對于幫助人們快速、準確獲取所需信息及構建藏文語料庫具有積極的意義,而且對于推動和發展藏文信息檢索技術,保護少數民族語言文化也有重要作用。

文本分類的技術有很多。文獻[4]中設計了一種基于統計與基于規則相結合的混合分類器系統,它需要一定規模的高質量語料庫作為訓練集。文獻[5]提出了一種基于統計的二元分詞文本分類方法,文獻[6]中利用粗糙集優越的約簡理論對文本進行了分類,它們都需要借助分詞器對文本進行分詞。由于藏文訓練語料的收集需要大量人力、物力、財力,短期內不能完成,所以無法采用基于統計的文本分類算法,如:K近鄰法(KNN)、決策樹、支持向量機(SVM)[7]等經典分類方法。同時,基于規則的文本分類方法需要建設科學的、全面的藏文主題詞表,其工作量大,分類時人工干預的成分多。

為此,本文提出了一種簡單、快速且準確率理想的藏文網頁文本分類方法,該方法不需要事先對抽取的藏文網頁文本進行分詞等復雜操作,而是結合現有的網頁文本提取技術,利用正則表達式提取網頁日期、網頁欄目,并建立基于網頁欄目詞條的類別特征詞表來對藏文網頁文本進行分類。

2 分類方法的實現過程

2.1 建立藏文類別特征詞表

我們構建了人文與社會科學類、自然科學類兩個大類,前者包括政治類、法律類、歷史類、社會類、經濟類、藝術類、文學類、軍事類、體育類、生活類、宗教類、文化宣傳類12個類別,后者包括數理類、生化類、環境類、農林類、醫藥衛生類5個類別。類別命名參照了《國務院公文主題詞表》的第一層主題詞,類別的特征詞則來源于待分類網站的網頁欄目詞條。由于一個網站符合要求的欄目詞條是有限的,因此可以快速、準確地采集類別特征詞,建立類別特征詞表。例如有譯成中文后的藏文欄目詞組:“首頁—>專欄—>格爾薩傳”,那么僅可將詞條“格爾薩傳”加入預定義的“文學類”一類中。

為了實現類別特征詞表能被快速順序查找和動態擴充的功能,我們采用鏈表數組的方式來存儲類別特征詞表。定義用Tn來表示類別名稱,其中n表示類別個數;tk表示其中的特征詞,其中k表示該類別中的第幾個特征詞。那么類別特征詞表的存儲結構如圖1所示。

圖1 類別特征詞表存儲結構圖

類別T1及其特征詞用一個鏈表來存儲,該類別擴充的特征詞加入鏈尾;n個類別鏈表由一個大小為n的數組管理。這樣建立和存儲的類別特征詞表,可以保證隨機順序匹配速度快,特征詞可以動態擴充,其個數及長度不限。

2.2 網頁預處理

2.2.1 提取藏文網頁正文發表日期

提取藏文網頁正文發表日期以對該網頁文本命名,對后期分類語料的使用和處理很有意義,如我們可能會要求按類別和時間對藏文文本語料庫進行檢索。

藏文網頁文件的日期通常有如下兩種格式:

(1)

(2)

當然,某些網站的網頁日期信息不在元素的內容中,如中國西藏信息中心網。用于提取日期信息的正則表達式為:

(1)

(2) \d{4}(.{10,13})\d{2}(.{5,8})\d{2}

上述提取日期的正則表達式可合并為:(\d{4}-\d{2}-\d{2})|(\d{4}(.{10,13}) \d{2}(.{5,8})\d{2})

2.2.2 提取藏文網頁文本內容

藏文網頁主題內容的抽取可以借鑒國內外研究較多的一些方法,如基于混合特征的網頁主題提取方法[8],依靠統計信息抽取網頁正文[9], 利用HTML與文本的密度比進行文本識別與抽取[10],利用DOM樹進行Web信息抽取等技術。本文利用了網頁分塊的信息提取方法[11],并結合正則表達式來抽取藏文網頁文本內容。

2.2.3 提取網頁欄目信息

對于含有欄目信息的藏文網頁,系統采用正則表達式提取,下面以中國藏族網通網站為例,如有網頁文檔片段:

用于提取欄目信息的正則表達式為:

(1) “”;

(2) “>(\W+)<”;

2.3 基于欄目的網頁文本分類

在提取時網頁時間、網頁正文文本及網頁欄目后,我們將網頁欄目按鏈接級數拆分為多級詞條。基于欄目的網頁分類算法流程圖如圖2所示。

圖2 藏文網頁文本分類流程圖

獲取文本類別算法程序描述如下:

//將用“>>”連接的網頁欄目詞組進行拆分

eachColumn = fileColumn.split(">>");

//計算欄目詞條個數

columnLength = eachColumn.length();

//對詞條進行分級匹配

for i=0 to columnLength

//調用詞條在類別詞表中的匹配函數

resultCategory = match(eachColumn[i]);

if resultCategory == null

then

繼續匹配;

else 返回類別名稱;

我們將丟棄不能提取出日期、正文及欄目的網頁,并對能提取這些信息的網頁分為“欄目合法網頁”和“欄目非法網頁”兩類。其中前者定義為:欄目詞組中至少含有一個具有類別特征的詞條的網頁。欄目非法網頁即欄目不能給出類別信息。例如下面給出了一個“欄目非法網頁”的欄目詞組:

首頁 >>新聞 >>藏區新聞 >>西藏

類似這類欄目中不含具有類別特征的詞條,我們同樣作丟棄處理。

3 實驗結果及分析

基于欄目的藏文網頁分類工具如圖3所示。

圖3 基于欄目的藏文網頁分類工具截圖

為了驗證該分類方法的有效性,我們采集了2010年的中國藏族網通的絕大部分網頁文件,文件格式為.htm,共1 842篇,作為該分類方法的實驗語料。

實驗結果統計如表1所示。(注:網頁數量為0的類別未給出)

分類結果統計表顯示該方法能成功分類1 842篇網頁文件中的623篇,絕大多數未能分類的藏文網頁均為“欄目非法網頁”。對于分類結果的準確率統計,我們采取了隨機采樣的統計方法,即在各實驗結果類別中隨機抽取一定百分比的文本進行人工驗證。統計結果表明,本文提出的藏文網頁文本分類方法能將“欄目合法網頁”完全正確地歸于預定義類別中,分類準確率可達97%。

表1 分類結果統計表

4 結語

本文提出了一種基于欄目的藏文網頁自動分類方法。實驗表明,該方法能快速、準確地將大量藏文網頁文本進行自動分類。這將為今后的基于統計和基于規則的藏文文本分類、構建藏文語料庫提供高質量語料。

當然,該方法也有不足及需要進一步改進與優化的地方,主要包括以下三個方面:

(1) 不同的藏文網站有不同的網頁欄目格式,制定統一的或者可擴充的欄目提取規則(集),才能保證該分類方法對其進行有效處理。

(2) 藏文網頁文本的正確提取直接關系到最終文本語料的質量。對于沒有欄目信息的藏文網頁,需要進一步研究分類方法。

(3) 類別特征詞表的存儲結構需要根據特征詞的數量作相應的優化或變換,以實現欄目特征詞條的快速匹配,提高分類效率。

[1] 才讓加.藏語語料庫加工方法研究[J].計算機工程與應用,2011,47(6):138-139,146.

[2] 才讓加,吉太加.藏語語料庫的詞性分類方法研究[J]. 青海師范大學學報(哲學社會科學版),2005,(4):112-114.

[3] 賈會強,李永宏.藏文文本分類器的設計與實現[J].科技向導,2010,(4)下:30-31.

[4] 李渝勤,孫麗華.基于規則的自動分類在文本分類中的應用[J].中文信息學報,2004,18(4):9-14.

[5] 黃科,馬少平.基于統計分詞的中文網頁分類[J].中文信息學報,2002,16(6):25-31.

[6] 盧嬌麗,鄭家恒.基于粗糙集的文本分類方法研究[J].中文信息學報,2005,19(2):66-70.

[7] 許世明,武波,馬翠,等.一種基于預分類的高效SVM中文網頁分類器[J].計算機工程與應用,2010,46(1):125-128.

[8] 劉建,孫鵬,倪宏.面向分類的網頁主題特征提取[J].計算機應用研究,2010,27(9):3399-3402.

[9] 孫承杰,關毅.基于統計的網頁正文信息抽取方法的研究[J].中文信息學報,2004,18(5):17-22.

[10] 韓忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].計算機應用研究,2008,25(12): 3568-3571,3574.

[11] 黃玲,陳龍.基于網頁分塊的正文信息提取方法[J].計算機運用,2008,28:326-328.

猜你喜歡
分類文本方法
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 欧美色99| 国产丰满大乳无码免费播放| 欧美精品三级在线| 亚洲第一区欧美国产综合 | 亚洲午夜福利在线| 亚洲品质国产精品无码| 视频二区中文无码| 少妇精品网站| 波多野结衣在线se| 亚洲全网成人资源在线观看| 亚洲天堂视频网站| 波多野一区| 亚洲国产成人自拍| 日本a∨在线观看| 国精品91人妻无码一区二区三区| 不卡无码网| 国产成人一二三| 国产精品夜夜嗨视频免费视频 | 亚洲日本中文字幕乱码中文| 特级做a爰片毛片免费69| 91网站国产| 国产95在线 | 色天天综合| a在线观看免费| 日本不卡在线播放| 亚洲精品无码av中文字幕| av大片在线无码免费| 制服丝袜 91视频| 国产黑丝一区| 精品三级在线| 亚洲国产欧美目韩成人综合| 2020国产精品视频| 激情网址在线观看| 国产真实自在自线免费精品| 日本爱爱精品一区二区| 高清免费毛片| 国产爽爽视频| 中文字幕天无码久久精品视频免费| 中文字幕亚洲第一| 精品国产Ⅴ无码大片在线观看81 | 亚洲人成人无码www| 香蕉视频在线精品| 亚洲男人天堂久久| 很黄的网站在线观看| 亚洲国产精品不卡在线| 日韩美一区二区| 亚洲swag精品自拍一区| 无码 在线 在线| 本亚洲精品网站| 欧美日韩国产精品综合| 婷婷六月色| 欧美日韩国产系列在线观看| 国产另类乱子伦精品免费女| 88国产经典欧美一区二区三区| 岛国精品一区免费视频在线观看| 五月婷婷丁香综合| 亚洲人成网站日本片| 国产成人喷潮在线观看| 人妻精品久久无码区| 少妇精品在线| 久久黄色免费电影| 国产精品三级专区| 欧美日韩中文国产va另类| 久久久久88色偷偷| 熟妇人妻无乱码中文字幕真矢织江| 91精品视频播放| 视频在线观看一区二区| 日本黄色a视频| 九色91在线视频| 在线视频亚洲欧美| 欧美一级黄色影院| 欧美97色| 国产成人久久综合777777麻豆| 久久96热在精品国产高清 | 欧美精品影院| 精品国产黑色丝袜高跟鞋| 欧美精品伊人久久| 午夜视频免费一区二区在线看| 麻豆精品国产自产在线| 久久99精品久久久久久不卡| 18禁黄无遮挡网站| 日韩成人午夜|