娜仁高娃
(內蒙古自治區地方語言文字研究應用中心,內蒙古 呼和浩特 010021)
自動問答(Question Answering,QA)是指利用計算機自動回答用戶所提出的問題,以滿足用戶知識需求的任務。不同于現有搜索引擎,問答系統是信息服務的一種高級形式,系統返回用戶的不再是基于關鍵詞匹配排序的文檔列表,而是精準的、以自然語言形式描述的答案。近年來,隨著人工智能的飛速發展,自動問答已經成為備受關注且發展前景廣泛的研究方向。
自動問答的研究歷史可以溯源到人工智能的原點。1950 年,人工智能之父阿蘭圖靈(Alan M.Turing)在《Mind》上發表文章“Computing Machinery andIntelligence”,文章開篇提出通過讓機器參與一個模仿游戲(Imitation Game)來驗證“機器”能否“思考”,進而提出了經典的圖靈測試(Turing Test),用以檢驗機器是否具備智能。同樣,在自然語言處理研究領域,問答系統被認為是驗證機器是否具備自然語言理解能力的4個任務之一(其他3個是機器翻譯、復述和文本摘要)。目前在自動問答系統研究領域,相對成熟的問答系統有麻省理工學院人工智能實驗室的 STARTSO 系統、密歇根州立大學的 AnswerBus 系統等。其中,STARTSO 系統基于互聯網訪問設計,可通過精心構建的知識庫來自動地回答資料庫中一些比較簡單的問題,但卻不能借助互聯網自行擴充內部的知識含量。而 AnswerBus 系統支持多文種訪問的具有多領域知識的自動問答系統,自 2011 年上線以來,已經回答了許多用戶的問題。從應用角度,現有基于關鍵詞匹配和淺層語義分析的信息服務技術已經難以滿足用戶日益增長的精準化和智能化信息需求,已有的信息服務范式急需一場變革。2011 年,華盛頓大學圖靈中心主任 Etzioni 在《Nature》上發表的“Search Needs a Shake-Up”中明確指出:在萬維網誕生20周年之際,互聯網搜索正處于從簡單關鍵詞搜索走向深度問答的深刻變革風口浪尖上。以直接而準確的方式回答用戶以自然語言提問的自動問答系統將構成下一代搜索引擎的基本形態。2011年,以深度問答技術為核心的IBM Watson自動問答機器人在美國智力競賽節目Jeopardy中戰勝人類選手,引起了業內的巨大轟動。Watson自動問答系統讓人們看到已有信息服務模式被顛覆的可能性,成了問答系統發展的一個里程碑。此外,隨著移動互聯網崛起與發展,涌現出了很多以蘋果公司 Siri、Google Now、微軟 Cortana 等為代表的移動生活助手。上述幾個系統都把以自然語言為基本輸入方式的問答系統看作是下一代信息服務的新形態和突破口,并加大人員、資金的投入,試圖在這一次人工智能浪潮中取得領先。
國內也有不少科研院所正在開展問答系統的研究,比如復旦大學、中科院、哈工大等。其中,哈爾濱工業大學開發了基于常用問題集的漢語問答系統,該系統首先根據用戶的提問建立一個候選問題集,然后通過計算句子語義相似度,在候選問題集中找到相似的問句,并將答案返回給用戶。而中科院的 NKI 知識問答系統以 NKI 知識庫為基礎,可以向用戶提供多個領域的知識服務,并且向自然語言方式進行提問的用戶返回準確的答案。國內漢語自動問答系統的研究和使用領域發展均較快,如除了銀行、車站等公共場所外的教育門戶網站、旅游、醫藥、汽車、銷售服務、購物平臺,等等。不同行業根據自身業務和服務特點,設計不同的架構方法和技術手段,實現和開發可操作性強的自動問答系統。
但是蒙古語自動問答系統的研究相對落后,使用領域也相對較少。筆者以蒙古文信息化工作發展情況為切入點,重點了解蒙古語自動問答系統研發及使用情況,并對其行業發展進行了分析,同時提出應加強多語種自動問答系統研發和推廣的建議。
為摸清我國蒙古語自動問答系統的建設使用現狀,本研究采用問卷調查的方法對蒙古語自動問答系統建設使用情況進行了調查。①確定研究區域。以內蒙古自治區為主,輻射至使用蒙古語的其他7個省、自治區,以蒙古文信息化研究為脈絡,對重點企業、科研院所、政府網站群、各大媒體從業人員為重點調查對象。②進行數據的收集。采用問卷調查法、訪談法了解各領域使用情況,認真做好訪談記錄。③進行統計分析。本次調查共發放問卷280份,回收268份,回收率為95.7%;有效問卷251份,有效率為93%。為確保研究結果真實有效,筆者對重點行業及相關企業進行了走訪調查,并將了解到的情況逐一進行分析,以便提出有針對性的意見、建議。
本課題從被調查者基本情況(職業、所屬地區)、蒙古語自動問答系統研發技術環境、重視程度、市場認知度、蒙古語自動問答系統使用情況、使用領域、自動問答系統發展趨勢等6大類共12個問題進行了調查。
被調查者來自內蒙古自治區、遼寧省、黑龍江省、吉林省、河北省、甘肅省省、青海省、新疆維吾爾自治區等使用蒙古語的地區,其中內蒙古為主要地區,調查總數200份,占總調查問卷的80%。其余51份來自其他省,占總調查問卷的20%。
內蒙古所轄12個盟市,其中呼和浩特為經濟社會發展中心,首府城市,共收集到110份調查問卷,占內蒙古總量的55%。其余盟市共90份,占內蒙古總量的45%。所涵蓋的調查樣本能真實反映目前蒙古語自動問答系統建設使用情況。
調查對象從事的行業組成為:相關企業人員 80人,占總人數的32%;媒體從業人員60人,占總人數的24%;科研院所人員30人,占總數的12%;行政事業單位工作人員80人,占總數的32%(見圖1)。設計初衷是從這些從事蒙古文信息化企業及科研院所人員中了解蒙古語自動問答系統開發、建設基本情況。因此,對開發者設置了不同于使用者的問卷。

圖1 調查對象職業組成
3.2.1 自動問答系統研發技術環境。從企業及科研院所技術人員使用的開發環境、開發語言、開發成果考慮,對研發自動問答系統所使用的技術環境設計了以下兩個問題,進行了調研。
“您開發成果主要發布平臺是?”(企業及相關開發人員作答)
調查數據顯示,PC端中88.3%的人使用Windows系統;9%的人使用Linux系統;2.7%的人使用MacOS系統;移動端中53.3%人使用 Android系統;46.7%的人使用 iOS系統。
“您用的主要開發語言是?”(企業及相關開發人員作答)
調查數據顯示使用C/C++的占25.8%;使用.NET的19.4%;使用JavaScript/TypeScript 的占16.1%;使用JAVA 的12.9%;也有使用PHP、Ruby、Swift、Python等開發語言的,使用人數基本都在10%以下(見表1)。

表1 研發技術環境統計
從以上問卷調查可以分析出,開發自動問答系統所用系統是以Windows系統為主,開發語言以C/C++和.NET為主,這也基本符合當前不同平臺在技術研發環境中的使用情況。另外,考慮到當前自動問答系統在工作場景中的使用率并不高,本次問卷調查也基本映射了未來自動問答系統的主要使用環境。
3.2.2 自動問答系統的重視程度。從參與開發情況、研發產品面向領域和企業重視程度(企業及相關開發人員作答)等方面進行了調研。
“您有無從事過蒙古語自動問答系統開發工作?”(企業及相關開發人員作答)
調查數據顯示,7.7%的人參與過自動問答系統的開發工作;92.3%的人沒有參與過蒙古語自動問答系統開發工作。
“您所開發產品主要面向的領域是?”(企業及相關開發人員作答)
調查數據顯示45.3%的人所研發產品面向媒體領域;21.3%的產品面向文化領域;12%的產品面向教育領域;醫療和旅游領域分別占6.7%;交通領域占5.3%,政務公開領域占2.7%。
“您認為當前迫切需要開發推廣哪些領域的蒙古語言文字信息化軟件、系統”(多選)。
調查數據顯示,人們迫切需要的軟件、系統主要集中在以下幾個領域,其中23.8%的人選擇了教育領域;22.1%的人選擇了政務服務領域;19.4%的人選擇了醫療衛生領域;17.7%的人選擇了影視娛樂;15.2%的人選擇了電子商務;1.8%的人選擇了其他領域(見圖2)。

圖2 開發產品主要面向的領域
從以上調查問卷分析出,企業及科研院所在蒙古語自動問答系統研發上的投入較少,相關人才相對缺乏。而這些開發人員研發產品主要面向的領域集中在文化領域等接受性強的領域,而在政務服務及醫療、電商行業等服務性強且需要人員互動行業的研發相對落后。最后一個問題則說明當前迫切需要與自動問答密切相關的各類服務行業軟件,如教育、政務服務、醫療衛生、電子商務等等。
3.2.3 自動問答系統市場認知度。人們對自動問答系統的認知度如何?通過設計以下兩個問題,進行了調研。
“您對自動問答系統了解嗎?”
調查數據顯示了解的占33.3%;不了解的占63.7%。
“您所用過的蒙古語言文字信息化成果有哪些?”(多選)。
調查數據顯示,被調查者用過的所有成果中位居榜首的是字體/輸入法,占比為17.8%;機器翻譯次之,占比為17.2%;15.1%的人使用辦公軟件;10.4%的人使用編碼轉換系統;9.1%的人使用各種小程序;8.7%的人使用文本校對系統;5.7%的人使用文字識別系統;5.3%的人使用各類資源庫;4.3%的人使用語音識別系統;3.0%的人使用手寫識別系統;2.1%的人使用語音合成系統;0.9%的人使用自動問答系統;1.5%地選了其他。
從數據分析很容易得出大部分人不太了解自動問答系統的結論。這也間接反映出蒙古語言文字信息化發展水平,涉及自然語言處理技術的語音識別、語音合成、自動問答等相關領域的研究和應用相對滯后,字體/輸入法、機器翻譯、辦公軟件、編碼轉換系統等領域應用較活躍(見圖3)。

圖3 蒙古語言文字信息化成果市場認知度
3.2.4 自動問答系統具體領域使用情況。在公共服務領域和政務服務領域制定兩個問題,對蒙古語自動問答系統使用情況進行了調查。“您接觸到哪些公共服務領域的蒙古語自動問答系統?”(多選)調查數據顯示,在公共服務領域中使用蒙古語自動問答系統百分比分別為:銀行自動問答系統占33.6%;通信領域占23.0%;車站、機場等交通領域占18.0%;醫療領域占10.1%;圖書館占8.8%;購物平臺占2.3%;賓館住宿1.8%;旅游領域占1.8%;其他領域占0.5%(見圖4)。

圖4 蒙古語自動問答系統公共服務領域使用情況
“您接觸到哪些政務服務領域的蒙古語自動問答系統?”(多選)調查數據顯示,在政務服務領域使用蒙古語自動問答系統百分比分別為:行政服務中心占31.9%;教育領域占15.0%;社會保障領域占13.3%;民政占9.7%;交通領域占9.7%;信訪占6.2%;工商占4.4%;稅務占3.5%;醫保占3.5%;城管占0.9%;其他領域占1.8%(見圖5)。

圖5 蒙古語自動問答系統在政務服務領域使用情況
分析得出,在公共服務方面,蒙古語自動問答系統在銀行和通信領域使用較為普遍;在政務服務領域中行政服務中心使用率最高,在教育、社保、民政等領域普及率不高。
在未來自動問答系統需求方面,設計了一個被調查者主觀列舉的問卷項目,被調查者根據自身需求羅列具體領域,從而了解自動問答系統將來的需求情況。
“您希望在日常生活中用到哪些領域的蒙古語自動問答系統?請具體列舉:”調查數據顯示,集中在以下6種情況:①出入口。學校、醫院、銀行、商場、超市、車站、機場、行政部門等各單位出入口使用自動問答系統方便出行者。②政務服務領域。民政、司法、社會保障、交通、城管、稅務、工商、信訪、行政服務中心、旅游等政務服務上使用自動問答系統。③公共服務領域。教育領域、醫療領域、交通運輸領域、金融領域、稅務、社會保障、通信領域、圖書館、銀行等公共服務領域使用自動問答系統。④應用軟件平臺。電子商務、日常繳費、通信設備、翻譯、購物平臺、地圖導航、手機應用等軟件平臺使用自動問答系統。⑤12345、12333、12123、12315等智慧服務平臺使用自動問答系統。⑥面向老人的特定場所,或者關愛老人的特殊服務,老人多咨詢的地方設置自動問答系統。
分析得出,隨著信息技術的發展人們對自動問答系統的使用領域也越來越廣,需求也更加多樣化。從孩子上學到老人的日常服務,從衣食住行到生老病死無一例外,都用自動問答系統來實現便利。在今后的發展中,蒙古語自動問答系統應更多參考較為成熟的漢語自動問答系統各領域的成功案例,更好地服務與當地少數民族群眾。同時加強研發推廣多語種自動問答系統,對使用推廣普及國家通用語言文字、提升國際影響力等方面具有獨特的作用。
自然語言處理技術是自動問答系統的核心技術。蒙古語自動問答技術的研究還處于起步階段。其智能化、語音接口的性能優化設計研究等方面發展緩慢。現自治區各公共服務領域只有銀行等少數服務行業設置了蒙古語自動問答系統,但仍未能在機場、車站、醫院等更多公共服務領域全面普及。蒙古語自動問答系統研發力度不夠,技術落后,應用面較窄等制約著蒙古語自動問答系統的開發、普及和使用率。
在互聯網大數據時代下數據信息量不斷增加,數據之間的關聯度越來越復雜。蒙古語口語化的語料較少、不平衡,語料庫的質量、數據表達不規范等都會影響問答系統的質量。
由于蒙古語使用群體為少數群體,研發產品經濟利益不可觀,因此中小企業將大部分人力、物力投放于經濟效益好的產業上,只投入小部分精力投入蒙古語自動問答系統開發。或者某些企業緊靠研發人員興趣愛好,自己擠出時間和精力進行研究。
近年來在黨和國家的指導下,在建設統一、規范的語料方面已經取得了一定的成績,自治區民委承擔建設國家發展和改革委員會批復項目“蒙古語言文字數字資源建設與共享工程”,通過該項目的建設研制了資源建設及信息處理相關26項標準,同時建立了涵蓋文化、科技、教育、基礎等方面內容的大規模的資源。在已經取得成績上后續增加投入,把資源建設好,為蒙古語自然語言處理技術研發奠定基礎。
通過不斷研究將這項技術瓶頸攻破,漢語和蒙古語,屬于不同語系研究范疇,漢語自然語言處理技術已經取得了較好的成績,但是蒙古語自然語言處理還不能直接引用相關技術,需要該語言的攻克研究。
通過電子信息產品制造和市場開拓、信息服務企業培育等企業稅金或產品、創新技術研發費用加計扣除等財稅優惠保障,不斷提高相關企業的技術研究積極性,激勵蒙古語言文字信息化技術研發和推廣應用。
在公共服務領域方面應加強銀行、醫療、通信、車站、機場、購物平臺及旅游等方面具體服務的創新性、方便性、科技引領性,讓用戶切身感受到科技帶來的巨大優惠。在政務服務方面,不斷擴展具體服務領域的同時,將已有的服務不斷優化升級,讓百姓在行政服務中心辦事少跑腿、少走彎路,出行方便,人身財產得到安全保障,隨時提供完備的醫保、社保、稅務、司法、金融,等等咨詢服務。
知識社會環境下的智慧城市是繼數字城市之后信息化城市發展的高級形態。智慧城市的驅動力來自以物聯網、云計算、移動互聯網為代表的新一代信息技術。自然語言處理、自動問答系統咨詢服務顯然成為智慧城市中的一個標志。運用自動問答系統研發成果在12345、12333、12123、12315等各類智慧服務平臺上,不僅精準高效,而且能快速解答咨詢者,還能節省很多人力。
蒙古語是跨境語言,對蒙古語自動問答系統建設使用情況的研究不僅對中、蒙、俄三國有著深遠的意義,同時對自動問答、蒙古文自然語言處理等領域有著深遠的意義。跨境語言研發成果不僅提升國家科技領先地位,還能最大限度保障國家網絡信息安全,為筑牢祖國北疆安全屏障提供信息技術支撐。