999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中國少數民族語文百科知識問答系統設計

2020-07-14 01:27:26韋韌
軟件導刊 2020年1期

摘 要:我國是語言文字資源大國,為了增加各民族人民特別是青少年對黨和國家民族語言文字政策的了解,提出構建中國少數民族語文百科知識問答系統。該系統采用基于FAQ( Frequently Asked Questions)庫的問答系統,主要通過“問題答案”成對的形式將常見問題及其對應答案組合在一起作為問答系統的知識庫。通過中國少數民族語文百科知識問答系統,可以宣傳黨和國家民族政策,增進各民族之間的相互認識和理解,為促進各民族交往交流交融奠定知識基礎。

關鍵詞:中國少數民族語言文字;百科知識;問答系統

DOI: 10. 11907/rjdk.191292

開放科學(資源服務)標識碼(OSID):

中圖分類號:TP319

文獻標識碼:A

文章編號:1672-7800(2020)001-0200-03

0 引言

中國互聯網絡信息中心公布的《第43次中國互聯網絡發展狀況統計報告》…顯示,截至2018年12月底,中國網民規模達8.29億人,互聯網普及率為59.6%。這表明,互聯網已成為人們獲取信息的主要渠道和現代社會交流的重要工具。目前,大部分網站只是發布信息,幾乎不涉及人機交互,這種類型的網站被稱為信息展示類網站。隨著網站內容的不斷增多,網站信息量也越來越大,當人們想要去尋找某條歷史信息時,需要按關鍵詞搜索后順序瀏覽整個搜索結果目錄,大部分情況下,要打開頁面瀏覽后才能找到信息,這種檢索方式極大降低了信息查詢效率。同時由于網站頁面布局設計,總會有處于頁面邊角的信息不容易被人們發現,瀏覽信息時會產生遺漏。尤其是對于一個初次接觸該網站的人而言,其并不熟悉網站整體布局,想要尋找一條有用信息,往往事倍功半。針對這種情況,目前大型綜合網站都提供了搜索功能,利用全文索引技術對站點內容進行處理,通過關鍵詞匹配信息。這樣存在兩個問題:一是檢索關鍵詞必須準確,當用戶輸入一個不準確的關鍵詞時,可能得到的搜索結果與理想結果差別很大;另一個問題是檢索返回的結果是一個網頁鏈接,用戶仍然需要打開每一條鏈接,瀏覽每一個網頁尋找所需信息。

針對以上問題,問答系統( Question Answering System,QAS)應運而生,其最大優點在于回答問題的準確度更高,人們能夠更快更精準地獲取信息。

1 國內外研究評述

1.1 問答系統構建現狀

OAS是信息檢索系統中不同于傳統搜索引擎的一種高級形式,它直接用簡潔.準確的自然語言回答用戶用自然語言提出的問題。國外已開發出許多較為成熟的問答系統。Start問答系統由麻省理工學院開發,是全世界第一個面向網絡的問答系統,該系統僅支持英文提問,只能回答某些特定知識領域的簡單問題[2]。Answer Bus問答系統由密歇根大學開發,該系統可以使用多種語言進行提問,內容涉及多個知識領域[3]。Watson問答系統由IBM實驗室開發,該系統以非結構化或半結構化的自由文本作為答案的抽取對象,可梳理人類語言并在文本消息之間進行推斷,具有與人類相似的準確性,但檢索速度更快速[4]。國外問答系統還有蘋果公司開發的Siri[5]、微軟公司開發的Cor-tana[6]和亞馬遜公司開發的Alexa[7]。中文問答系統及其相關技術的研究時間相對較短,目前國內較成功的在線問答系統是知乎社區[8],還有百度公司研制的小度[9]。由于中文的特殊性,國外針對英文的自然語言處理技術無法直接借鑒,中文自然處理技術目前還有待改進,同時還缺少一個相對成熟統一的中文問答系統評估標準。

1.2 中國民族語言文字數據庫構建現狀

中央民族大學劉巖[10]詳細介紹了語音語料庫的特點和作用、工作步驟及建庫過程中遇到的難點;中國社會科學院民族學與人類學研究所呼和等[11]探討了語音聲學參數數據庫編制方法中的語料、功能字段和聲學參數的設計等問題;云南民族大學陳錫周[12]、云南大學陳雁婕等[13]介紹了云南少數民族語言文字文獻數據庫;新疆師范大學齊向偉等[14]開發出維吾爾語有聲數據庫資源管理平臺;西藏民族大學陳小瑩[15]設計了藏文百科知識自動問答系統;西北民族大學孫浩蒸等[16]構建了基于FAO庫的藏文問答系統;青海民族大學群毛措、安見才讓[17]提出了藏文問答系統中答案抽取的算法,采用基于相同詞匯的句子相似度算法和基于關鍵詞的相似度算法相結合的算法抽取最佳答案;青海師范大學柔特[18]提出了基于藏文疑問虛詞的問句分類方法。2008年國家語言文字工作委員會啟動了中國語言資源有聲數據庫建設,在國家層面,按照統一方法調查、采集、整理、加工、保存漢語及少數民族語言資源[19]。總體而言,我國現有少數民族語言數據庫專業性強,多數是語言學研究中某一個科研方向的專項數據庫,或者是某一特定區域的語言數據庫,服務對象是科研人員,并只針對建庫者及相關科研人員開放。

2 系統構建現實意義

民族平等和語言平等是新中國民族政策的根本出發點,民族語言文字是各民族的重要標志和文化特征。通過該問答系統,可以使各民族人民特別是青少年增加對黨和國家民族語言文字政策的了解,展示我國多民族融合發展的歷史,宣傳黨和國家民族政策,增進各民族之間的相互認識和理解,為促進各民族的交往交流交融奠定知識基礎。

長期以來,少數民族語言文字的信息化水平遠低于漢語言文字,科學研究成果社會普及度不高,缺乏有新意和創新手段的科普成果。該問答系統對促進民族語言文字的科學普及具有重要社會價值。

信息化和數字化是當今社會發展的必然趨勢,語言是信息天然的載體和工具,人類在社會交往中主要是通過語言文字進行,語言文字信息化是整個社會信息化的基礎。該問答系統順應互聯網時代發展需求,創新傳播和應用方式,在已有調研成果的基礎上,建立聲、文、圖、像一體化的中國民族語言文字數據庫,以新型科研成果形式豐富民族語言文化等方面的研究成果,將研究成果進行可視化方式展示,向國內外對中國民族語言文字感興趣的人們全面系統地傳播中國少數民族語言文字相關知識。

該問答系統便于動態更新民族語言文字知識,及時修正數據庫中的數據,使用者也可以方便、快捷地進行中國民族語言文字資料的查詢、檢索。

3 系統架構設計

知識庫( Knowledge Base)是一種匯集知識的智能系統,它利用計算機存儲和管理某一類特定領域的知識,并利用知識解決該領域出現的問題。知識庫也可說是知識的集合.而知識通常包括知識概念、事實與規則。知識庫與數據庫既有差異又相互聯系,兩者可統稱為信息庫。知識庫的發展前景是廣闊的,新的課題不斷涌現,例如,多級知識庫及綜合知識庫、黑板結構、分布式知識庫系統和多智能體協同工作系統研究等[20]。

中國少數民族語文百科知識問答系統采用基于FAO( Frequently Asked Questions)知識庫的問答系統,主要通過“問題答案”成對的形式將常見問題及其對應答案組合在一起作為問答系統的知識庫。當用戶提問時,系統可以通過關鍵詞匹配的方式在FAO知識庫中快速找到與用戶問題相似的問句,將對應答案反饋給用戶,這樣就不需要再經過信息檢索、答案抽取等許多復雜的處理過程,是一種便捷、準確的問答途徑。FAO知識庫的問答系統處理問題過程簡單,實現起來相對容易,搜索結果比較合理,系統響應時間相對較短。

問答系統包括4個模塊,各模塊功能如下:

(1)問題處理模塊。該模塊處理流程主要包括中文分詞、用戶關鍵詞提取、用戶關鍵詞標準化和用戶詞匯詞義擴展等,將用戶問題轉化成關鍵詞列表。問題處理模塊還需要依賴于一些知識庫,如中文分詞詞典、同義詞詞典、語言學文字學專業術語詞表等。

(2)問題檢索模塊。該模塊主要任務是計算用戶問題與問題庫中問句的相似度值。該模塊使用的語句相似度算法是系統的核心算法。

(3)答案抽取模塊。該模塊主要任務就是將候選問題集中問句按它與用戶問句的相似度值從大到小的順序進行排序,同時判斷問題庫中的問題是否是用戶要問的問題(通常根據一個預先定義的相似度閾值進行判斷),如果是,則直接返回問題對應的答案;如果不是,則返回與用戶問題相似度值較高的問題答案,再讓用戶進一步自行判斷選擇最優答案。

(4)FAQ知識庫模塊。FAO知識庫是問答系統中重要的基礎知識庫。FAO知識庫實際上就是一個“問題答案”對集合。由于FAO知識庫模塊是整個問答系統的核心模塊,知識庫的構建應盡可能全面,列舉出的問題答案對越多,問答系統的準確度就越高。

4 系統功能設計

本文主要利用信息抽取、信息檢索和自然語言處理等相關技術構建基于中國民族語言文字百科知識庫的答問系統。具體包括以下3個方面:

(1)收集中國民族語言文字基本知識,創建FAQ知識庫。FAO知識庫包含3個子知識庫,分別是中國民族語言文字政策知識庫、中國民族語言基本知識庫、中國民族文字基本知識庫。知識庫的數據存儲形式分為文本、圖片.音頻和視頻4種。中國民族語言文字政策FAO知識庫包含建國以來的國家民族語言文字法律法規和各地區民族語言文字法律法規,提供原文鏈接。中國民族語言FAO知識庫包含中國境內的民族語言種類、民族語言基本分布、使用人口、使用狀況、語言的簡要研究情況,并提供分布地圖展示、常用句的音頻及歌曲視頻。中國民族文字FAO知識庫包含中國境內的民族文字種類、各民族文字的基本使用狀況、文字的簡要研究情況,并提供文字樣例、文獻圖片。

(2)利用信息檢索技術完成針對中國民族語言文字基本知識庫問答條目的搜索引擎,提供基于關鍵字的基本查詢功能。根據用戶提問,答案首先以文本形式出現,然后根據檢索內容有多種表現形式。比如用戶搜索某一民族語言,首先出現的是針對民族語言的文本簡介,點擊語音標記,即可播出與之相對應的語言發音。如果用戶搜索某一民族文字,首先出現的是該民族文字的文本簡介,點擊圖片標記,即可彈出與之相對應的民族文字圖片。

(3)基于模式匹配和相似度計算方法設計一個中國民族語言文字百科知識網絡問答系統。現階段,中文自然語言處理技術和語義理解技術都不夠成熟,重難點主要集中在中文自然語言辨析理解、語句語義相似度算法優化、答案存儲與分析等方面。尤其是語句語義相似度算法是一個亟待解決的問題,該算法設計的優劣直接決定著問答系統查詢的召回率和準確率。

5 結語

本文研究并設計了中國少數民族語文百科知識問答系統,給出了系統框架設計思路及流程。其難點是FAQ知識庫構建,主要依靠人工手動搜集整理問題答案對,對于小型知識庫而言效果較好,但是對于信息量多、規模較大的知識庫,則耗時費力,構建FAO知識庫存在一定困難。中國少數民族語文百科知識問答系統是一個綜合處理系統,還涉及許多信息處理相關技術,這有待后續全面深入研究。

參考文獻:

[1] CNNIC.第43次中國互聯網絡發展狀況統計報告[R].2019.

[2]MIT Info Lab. The START natural language question answering system[ EB/OL]. http: //start.csail.mit.edu/index.php.

[3] 密歇根大學.Answer Bus官方網站[EB/OL].http://www.answerbus. com/.

[4] IBM實驗室.IBM Watson官方網站[EB/OL].https://www.ibm.com/developerworks/cn/cloudlibrary/cl-watson-films-hluemix-app/.

[5] 蘋果公司(中國).Siri官方網站[EB/OL].https://www.apple.com/cn/ siri/.

[6] 微軟公司(中國).Cortana官方網站[EB/OL].https://www.microsoft.com/zh-cn/windows/Cortana.

[7] 亞馬遜公司.Alexa官方網站[EB/OL].https://www.alexa.com/.

[8] 北京智者天下科技有限公司.知乎社區官方網站[EB/OL].https:,,www.zhihu.com/.

[9] 百度公司.小度官方網站[EB/OL].https://xiaodu.haidu.com/saiya/xiaodu-home/index.html#/.

[10]劉巖.關于中國少數民族瀕危語言語音語料庫的設計[J].中央民族大學學報:哲學社會科學版,2006( 4):133-136.

[11]呼和,哈斯其木格,周學文,等.中國少數民族語音聲學參數數據庫的研制方法[J].全國人機語音通訊學術會議,2009.

[12] 陳錫周.云南少數民族語言數據庫[J].云南民族學院學報:哲學社會科學版,2003,20(1):112-114.

[13] 陳雁婕,閔紅云,袁帆.論云南地方少數民族文字文獻數據庫構建[J].云南民族大學學報:哲學社會科學版,2005,22(1):148-151.

[14] 齊向偉,玉素甫·艾白都拉,艾孜爾古麗.基于語言資源理念的維吾爾語有聲數據庫構建研究[J].數字技術與應用,2011(7): 48-49.

[15] 陳小瑩.藏文百科知識問答系統的設計與研究[J].智能計算機與應用,2017,7(4):48-50.

[16]孫浩蒸,于洪志,蘇敏.基于知識庫的藏文問答系統研究[J].西北民族大學學報:自然科學版,2015,36(2):45-50.

[17] 群毛措,安見才讓.藏文問答系統中答案抽取算法的研究[J].電子技術與軟件工程,2016(6):158.

[18]柔特.藏文問答系統中問句的分類方法研究[J].計算機工程與科學,2015 .37(7):1393-1398.

[19]李宇明.論中國語言資源有聲數據庫的建設[J].中國語文,2010(4):356-384.

[20]何守才.數據庫百科全書[M].上海:上海交通大學出版社,2009.

(責任編輯:孫娟)

作者簡介:韋韌(1982-),博士,中國社會科學院民族學與人類學研究所助理研究員,研究方向為民族語文信息化。

主站蜘蛛池模板: 视频二区亚洲精品| 免费又爽又刺激高潮网址| 欧美h在线观看| 美女无遮挡免费网站| 中国一级特黄视频| 67194亚洲无码| 国产自无码视频在线观看| 国产理论精品| 中文字幕欧美日韩| 亚洲精品第1页| 乱色熟女综合一区二区| 国产精品人人做人人爽人人添| 国产91丝袜| 毛片手机在线看| 欧美日韩国产一级| 久久综合婷婷| 成年女人a毛片免费视频| 天堂在线www网亚洲| 日韩精品免费一线在线观看| 久无码久无码av无码| 国产69囗曝护士吞精在线视频 | 国产一区免费在线观看| 欧美伊人色综合久久天天| 日韩国产一区二区三区无码| 黄色网址手机国内免费在线观看| 精品国产免费观看一区| 国产亚洲美日韩AV中文字幕无码成人 | 欧美啪啪精品| 亚洲天堂在线免费| 欧美人与牲动交a欧美精品 | 高h视频在线| 欧美成人影院亚洲综合图| aⅴ免费在线观看| 不卡午夜视频| 九九九精品视频| 波多野结衣二区| 精品成人一区二区三区电影| 亚洲欧美在线精品一区二区| 无码精品国产dvd在线观看9久| 四虎成人免费毛片| 成人亚洲国产| 欧美怡红院视频一区二区三区| 麻豆精品国产自产在线| 国产精品亚欧美一区二区| 欧美亚洲国产精品第一页| 亚洲欧美成人在线视频| 九色最新网址| 亚洲色中色| 久久精品国产亚洲AV忘忧草18| 自拍偷拍一区| 欧美综合区自拍亚洲综合绿色| 成人在线欧美| 亚洲一级毛片免费观看| 久久精品国产免费观看频道| 亚洲精品综合一二三区在线| 亚洲欧美不卡中文字幕| 日韩精品资源| 午夜在线不卡| 亚洲国产中文欧美在线人成大黄瓜| 国产免费久久精品99re不卡| 日本伊人色综合网| 国产区免费| 国产成人亚洲毛片| 热伊人99re久久精品最新地| 久久久久国产精品嫩草影院| 无码粉嫩虎白一线天在线观看| 91视频首页| 九九热精品免费视频| 国产99热| 亚洲国产成熟视频在线多多| 国产精品亚洲片在线va| 日韩小视频网站hq| 97国产在线播放| 免费无遮挡AV| 国产无遮挡猛进猛出免费软件| 午夜天堂视频| 四虎免费视频网站| 成人亚洲国产| 国产成人精品一区二区三在线观看| 亚洲—日韩aV在线| 国产在线精品99一区不卡| 色综合久久久久8天国|