唐怡然 陳沿 黃思行
摘? 要:近年來,人們生活節奏的加快,人工智能領域發展迅速,機器學習逐漸受到大眾的青睞,尤其是深度學習在圖像、聲音、自然語言處理等領域取得卓越成效。機器學習算法的表示能力大幅度提高。互聯網時代逐漸崛起,尤其是隨著信息傳遞的迅速,實時新聞的建設如火如荼,公文通的推薦更顯得重要。一直被公認為信息量大、重要性難以判別的公文通自然也在改革的范疇。這既是一次難得的機遇,更是一場挑戰。
關鍵詞:機器學習;公文通;推薦系統
一、引言
機器學習算法能夠處理高維和多變量數據,并在復雜和動態環境中提取數據中的隱藏關系。通過機器學習的算法能夠實現在數據量和信息量龐大的公文通中篩選出更加精辟以及重要性更高的優質公文,并用一個推薦系統將優質的公文通展現給大眾,更加方便了大眾。
二、機器學習的簡介
機器學習,通過自主學習大量數據中存在的規律,獲得新經驗和知識從而提高計算機智能,使得計算機擁有類似人類的決策能力。基于學習形式的不同通常可將機器學習算法分為監督學習、無監督學習以及強化學習三類:
(一)監督學習
給學習算法提供標記的數據和所需的輸出,對于每一個輸入,學習者都被提供了一個回應的目標。監督學習被用于解決分類和回歸的問題。常見的算法有:決策樹、人工神經網絡算法、支持向量機、樸素貝葉斯、隨機森林等。
(二)無監督學習
給學習算法提供的數據是未標記的,并且要求算法識別輸入數據中的模式,主要是建立一個模型,對輸入的數據進行解釋,并用于下次輸入。主要用于解決聚類和降維問題,常見的算法有:聚類算法、降維算法。
(三)強化學習
該算法與動態環境相互作用,把環境的反饋作為輸入,通過學習選擇能達到其目標的最優動作。強化學習這一方法背后的數學原理與監督、非監督學習略有差異。監督、非監督學習更多地應用了統計學,而強化學習更多地結合了離散數學、隨機過程這些數學方法[2]。常見的算法有:馬爾可夫決策過程等[3]。
機器學習作為人工智能發展最快的分支之一,其理論和方法已被廣泛應用于各領域[4]。它是一門多領域交叉學科,學習算法多而抽象,不易理解掌握,容易導致教學理論與實踐脫節。
作為人工智能的核心,機器學習的主要功能是使得計算機模擬或實現人類的學習行為,通過獲取新的信息,不斷對模型進行訓練以提高模型的泛化能力[3]。由于機器學習具有強大的數據處理能力,該方法廣泛應用于數據挖掘、語音識別、計算機視覺、信息推薦等領域。
三、基于機器學習的公文通推薦系統的重要意義
公文通是國家機關、社會團體、企事業單位處理工作,具有特定格式的文件.它是傳達、貫徹黨和國家的方針、政策,發布法規、請示和答復問題、指導和商洽工作,報告情況、交流經驗的重要工具.國家行政機關的公文通是政令的基本載體,也是文書檔案的母體.公文通處理工作,是機關文書檔案工作的基礎,檔案的形式過程也就是公文處理的全過程.機關文書檔案工作,是機關工作的組成部分,是維護機關歷史真實面貌的重要工作,是提高機關工作效率和工作質量的必要條件.公文通質量如何,關系到機關工作的全局,也直接關系到公文下一步轉化為文書檔案的質量。[5]對此,基于機器學習的公文通處理工作起著至關重要的作用.機器學習的算法可以從信息量巨大的公文里面將重要性強的公文篩選出來,并通過一些渠道和方法將公文通推薦出來,這樣就能夠讓人們在這快節奏的生活中,顯得更加的便捷和消息獲得的精確。對保證政府機關工作的正常有序運轉,保證政令暢通發揮了重要作用。
四、基于機器學習的公文通推薦系統的問題
(一)公文通辦理程序不熟
近來,辦公室存在收到部門傳真或呈報公文后,收文者不明處置程序,到處尋找受文對象,影響公文辦結時限和機關形象。
(二)公文通審核把關不嚴
部分文秘人員只顧接收呈報公文,不審核公文內容、行文方式和是否確需政府辦公室受理,[6]雖然機器學習可以進行推薦公文通,可是畢竟是選擇的一些關鍵詞或者句子,并不是進行全文的一個閱覽和推薦,致使公文入口把關不嚴,影響辦理質量。
(三)草擬公文內容不精
部分草擬公文存在情況不夠清楚,觀點不夠鮮明,結構不夠嚴謹,即使基于機器學習可以推薦優質的公文通,但是,有的公文,整體的內容和框架非常好,可是條理不夠清楚,表述拐彎抹角,字詞搭配不當,標點運用不妥等問題,對公文整體質量帶來影響。
(四)校對公文細節掌握不到位
機器學習的算法會對篩選出來的文稿進行關鍵字詞或者大體內容的提取,可只粗略閱讀或而且不再進行校對,忽略發文校對關,致使發文日期、版面格式等細節出現錯誤。
(五)處理公文時限不清
受文辦理都有時限要求,部分公文通超出辦文時限,影響效率[7]。
五、結語
近年來人工智能方面受到了越來越多的關注。鑒于機器學習領域不斷進行創新。
在自然語言理解領域,如何更好地利用知識和常識成為一個重要的研究課題。很多情況下,只有具備一定常識的情況下,才便于對機器做出更深入的解釋和理解。在人機交互系統中需要相關領域知識,從而能更加準確地完成用戶查詢理解、對話管理和回復生成等任務,受益于類似人機交互系統通常需要相關的領域知識這一特點[8],提高了達到最終目的的可能性。
多數學者將領域知識引入到機器學習中,主要出于處理小數據場景或者提高性能的考慮。Rueden等人[9]首次提出知情機器學習(informed ML),對知識的類型、知識表示、知識轉換以及知識與機器學習的方法的融合做出詳細的分類說明.譬 如知識類型可分為:自然科學、處理流程、世界知識和專家直覺。在該框架指導下,用戶可以逐步選擇合適的知識類型、信息表示和融合算法實現對機器學習模型的傳遞信息,人機交互的表達方式,這樣就可以更好的便于人們對公文通信息的了解和掌握,以便于更好的推薦出更加可靠和重要的信息。
除此之外,知識圖譜具有海量規模、結構良好、語義豐富等優點,使其成為機器學習理解語言的重要背景知識成為可能。肖仰華團隊針對詞袋、概念、實體集和鏈接實體做出一系列的解釋工作,探索性地幫助機器理解和解釋概念。然而,大規模的常識獲取以及將符號化知識植入到數值化表示的神經網路都缺乏有效手段,這些問題將得到普遍的關注和研究。如果當機器學習成為人機交互的一部分時,這必然是一個社會發生巨大發展和進步的一方面。總之,基于機器學習的公文通推薦系統的解決方案源于實用性的需求。
參考文獻
[1]? Susto,G.A.,Schirru,A.,Pampuri,S.,McLoone,S.&Beghi,A.(2015).Machinelearningforpredictivemaintenance:Amultipleclassifierapproach.IEEETransactionsonIndustrialInformatics,2015,11:812-820.
[2]? 郭一帆,唐家銀.基于機器學習算法的壽命預測與故障診斷技術的發展綜述[J].計算機測量與控制,2019,27(3).
[3]? 李勇.本科機器學習課程教改實踐與探索[J].計算機教育,2015(13):63-66.
[4]? 閔鋒,魯統偉《機器學習》課程教學探索與實踐[J].教育教學論壇,2014(53):158-159.
[5]? 趙萌欣,公文處理工作的意義和要求,1997年01期第111-67頁.
[6]? 陳齊慧,當前公文處理工作中存在的主要問題和對策[J].
[7]? 李杰其,基于機器學習的設備預測性維護方法綜述[J].
[8]? 陳珂銳,孟小峰,機器學習的可解釋性[J].
[9]? Rueden V L,Mayer s,Beckh K,et a1.Informed machine 1earning—towards a tax.nomy of exphcit integration of knowledge into machine learning[J].arxiv preprint,arxiV:1903.12394,2019.