999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向公共信息服務的藏文問題分類方法研究

2018-09-17 03:12:42孫麗萍戴玉剛
無線互聯科技 2018年17期
關鍵詞:分類校園

孫麗萍,戴玉剛

(西北民族大學 中國民族語言文字信息技術教育部重點實驗室,甘肅 蘭州 730030)

在信息化時代,隨著藏語言文字的信息資源日益豐富,相關的藏文數據信息不斷增加,藏族人民對信息獲取的需要不斷增強,傳統(tǒng)的搜索方法已不能滿足用戶需求,這極大影響了用戶獲取信息的快捷性和正確性。藏文問題分類對藏文信息抽取具有重要意義。目前,關于中文問題分類已經有很多學者對此進行了研究以及更深層次的探討,卻少有學者進行對藏文問題分類的研究。

藏文問題分類在少數民族公共信息服務領域有著重要的研究意義和應用價值。針對民族院校的公共信息服務平臺,學校應該不僅僅是局限于采用中文,而是應該多增加少數民族語言,方便少數民族學生。同時,此舉更能彰顯民族院校的特色。文章是面向公共信息服務的藏文問題分類,采用西北民族大學“校園百事通”的問題集進行分類。

1 相關研究

對于問題分類的研究,最早是采用基于規(guī)則的方法[1],分類的準確率較低,在所定義的7個類別上的準確率只達到了57.57%。現在主要采用基于統(tǒng)計的機器學習方法。其中代表性的是Dell等[2]提出的采用支持向量機(Support Vector Machine,SVM)算法對英文問題進行分類[3],該方法采用tree kernel提取特征,最終達到6個大類的90.0%精度。另一個是層次分類思想,把詞匯、詞性、語塊、命名實體、中心語塊和相關詞作為特征,達到6個大類91%的精度和50個小類84.2%精度。由于英文問題通常把疑問詞放在句首,且不存在分詞問題,而中文問題相對復雜,處理起來相對困難。對于中文問題,有代表性的是張宇等[4]提出的基于改進貝葉斯模型的問題分類,達到72.4%精度。文勖等[5]提出的基于句法結構分析的中文問題分類,將問題的主干和疑問詞以及附屬成分作為特征,大類和小類的精度分別達到了86.62%和71.92%。

作為一門少數民族語言,藏語方面的自然語言處理沒有像中文那樣被廣泛關注。但是作為一個多民族國家,大力發(fā)展少數民族語言是勢在必行的。關于藏文問題分類少有研究。柔特[6]提出了基于藏文疑問虛詞的問句分類方法,該方法首先提取問句中的藏文虛詞,然后根據所得虛詞進行問句分類。

2 問題分類

2.1 數據來源

文章采用西北民族大學“校園百事通”的問題集,該數據集包含902條校園問題和答案。主要是對西北民族大學的公共信息服務平臺進行問題分類,進而提高校園服務平臺的執(zhí)行效率,方便新老學生查詢學校信息。

2.2 校園公共信息服務問題分類體系

不同的語言,提問的方式也各有不同。關于校園公共信息服務領域是相對比較窄的一個面,所提問的有關問題也只于學校和學生切身利益有關。該領域的用戶問題與開放領域問答系統(tǒng)中的用戶問題是不一樣的。主要區(qū)別在以下方面。

(1)開放領域是面向所有領域的問題,因此不對處理的用戶有任何限制。但是面向公共信息服務領域的問題分類首先要區(qū)分用戶提交的問題是否在該領域范圍之內,在系統(tǒng)處理范圍之內。

(2)開放領域的問題分類主要分為人物、時間、地點、數字等問題類型,而校園公共信息服務領域的問題有其特殊性,主要關注的是校園概況,師資隊伍、校園服務、科學研究等問題類型。

文章采用西北民族大學“校園百事通”問題集,結合領域知識對語料庫進行分析,建立了滿足校園公共信息服務的問題分類體系。將該問題分類體系劃分為兩類,大類7個和小類39個(見表1)。

2.3 貝葉斯模型簡介

由于該藏文問題分類主要針對校園百事通,采用的藏文訓練文本量小。通過分析各個分類器的優(yōu)缺點,文章選擇貝葉斯分類器。貝葉斯分類方法以貝葉斯定理為理論基礎,采用了概率推理方法。貝葉斯分類的原理就是通過計算給定樣本在各個類別上的后驗概率,然后把該樣本判定為最大后驗概率所對應的類別。而在計算后驗概率的過程中,需要知道數據集中每個類別的先驗概率,以及屬性的條件概率。類別的先驗概率可以通過統(tǒng)計的手段預先知道,而屬性的條件概率也可以通過統(tǒng)計的方法或者假定的分布模型來估計。

表1 面向公共信息服務的問題分類體系

樸素貝葉斯分類原理:

(1)設x={a1,a2,…,am}為一個待分類項,而每個a為x的一個特征屬性。

(2)有類別集合C={y1,y2,…,yn}。

(3)計算P(y1|x),P(y2|x),…,P(yn|x)。

(4)如果,P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)},則x∈yk。

根據上述分析,樸素貝葉斯分類流程如圖1所示。

2.4 藏文問題預處理

2.4.1 藏文分詞

藏文是由30個輔音字母和4個元音字母組成的一種拼音文字,由這些字母組成音節(jié),由音節(jié)構成詞,音節(jié)之間用音節(jié)點“.”作為分隔符來進行區(qū)分。因此沒有明顯的分隔符進行區(qū)分。分詞是藏文預處理的一個重要階段。詞在漢語和藏語中都是最小的語義單位,詞與詞之間不像英文那樣有空格。藏文分詞是將句子切分成單獨的詞,也就是通過一定的方法使得在計算機上能自動地將藏文文本的詞與詞之間加上空格。文章采用TIP-LAS開源的藏文分詞詞性標注系統(tǒng)[7]。該系統(tǒng)能夠提供藏文分詞、詞性標注功能。

2.4.2 去停用詞

停用詞是指在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數據(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。在問題分類中去停用詞目的是提高分類速度。文章所用到的藏文停用詞都是人工輸入、非自動化生成的,得到的停用詞組成一個停用詞表。通過停用詞表把這些詞在預處理階段去除。

2.4.3 命名實體識別

命名實體識別(Named Entity Recognition,NER)其目的是識別語料中人名、地名、組織機構名等命名實體,識別文本中具有特定意義的實體。通常包括實體邊界識別和確定實體類別兩部分。命名實體識別是自然語言處理領域的基礎問題[8]。

2.5 分類精度

對藏文問題分類體系的大類和小類的分類準確率對系統(tǒng)進行評價。其分類精度定義如下:

3 結語

目前,面向公共信息服務的藏文問題分類的研究尚處于初級階段,可供參考的資料不多。文章結合中英文的分類體系以及藏文自身特點設計了藏文問題分類體系,簡要介紹自然語言處理方面的藏文問題分類的研究,進而能有效提高藏文問題分類的準確率。

因為該藏文問題分類主要針對校園百事通,采用的藏文訓練文本量小,該藏文問題分類系統(tǒng)會存在一定缺陷,但通過增加訓練文本,會有效改善情況。研究可知,問答系統(tǒng)已經成為當前自然語言處理的一個熱門方向。問題分類作為問答系統(tǒng)的關鍵組成部分,也必然是一個值得研究的方向。

圖1 樸素貝葉斯分類流程

猜你喜歡
分類校園
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標
Q爆校園
再見,我的校園
南方周末(2018-06-28)2018-06-28 08:11:04
數據分析中的分類討論
教你一招:數的分類
校園的早晨
琴童(2017年3期)2017-04-05 14:49:04
春滿校園
給塑料分分類吧
主站蜘蛛池模板: 国产96在线 | 毛片视频网| 91国内在线观看| 无码AV日韩一二三区| 1级黄色毛片| 久久久久人妻精品一区三寸蜜桃| 国产精品视频a| 亚洲精品va| 亚洲天堂视频在线播放| 久久综合一个色综合网| 日本AⅤ精品一区二区三区日| 狠狠色噜噜狠狠狠狠色综合久| 中文字幕在线一区二区在线| 国产欧美精品午夜在线播放| 国产精品私拍在线爆乳| 精品亚洲麻豆1区2区3区| 久久a级片| 免费一级毛片在线观看| 日韩国产欧美精品在线| 成人欧美日韩| 久久a级片| 久无码久无码av无码| 99久久精品国产麻豆婷婷| 久久国产亚洲欧美日韩精品| 久久99国产乱子伦精品免| 成人伊人色一区二区三区| 91麻豆国产精品91久久久| 大香伊人久久| 国产91小视频| 美女视频黄又黄又免费高清| 重口调教一区二区视频| 五月激激激综合网色播免费| 久久永久免费人妻精品| 亚洲欧美色中文字幕| 九九九精品视频| 波多野结衣二区| 国产男人的天堂| 美美女高清毛片视频免费观看| 免费99精品国产自在现线| 三上悠亚一区二区| 波多野结衣一区二区三区AV| 成色7777精品在线| 波多野衣结在线精品二区| 67194成是人免费无码| 99视频在线看| 精品综合久久久久久97超人| 精品国产成人国产在线| 亚洲天堂成人| 精品国产网| 精品一区二区三区无码视频无码| 亚洲丝袜中文字幕| 亚洲午夜福利精品无码不卡| 国产乱子伦视频三区| 色综合手机在线| 国产一区二区在线视频观看| 国产精品香蕉| 青青极品在线| 国产av剧情无码精品色午夜| 亚洲精品欧美日本中文字幕| 日韩福利在线视频| 精品撒尿视频一区二区三区| 欧美三级不卡在线观看视频| 一本一本大道香蕉久在线播放| 国产福利在线观看精品| 国产电话自拍伊人| 在线欧美a| 国产v精品成人免费视频71pao| 亚洲第一区在线| 在线观看精品国产入口| 久久久久夜色精品波多野结衣| 福利一区在线| 亚洲美女AV免费一区| 视频二区亚洲精品| 原味小视频在线www国产| 91麻豆精品视频| 国产十八禁在线观看免费| 国产网友愉拍精品视频| 日韩欧美网址| 国产成人精品在线1区| 国产99精品久久| 激情乱人伦| 夜夜拍夜夜爽|