吳素研,吳江瑞,李文波
(1. 北京市科學技術情報研究所 北京100044;2. 河南工學院 河南省新鄉市100044;2. 中國科學院軟件研究所 北京100081)
電子政務是利用現代信息網絡技術和其他相關技術支持更加適合時代要求的政府結構和運行方式的實現。推行電子政務,是提高執政能力、深化行政管理體制改革的重要措施,是支持各級黨委、人大、政府、政協、法院、檢察院履行職能的有效手段。目前,電子政務在政協和人大工作中起到很大的作用,基本上完成了代表或者委員的網上履職功能,代表或者委員可以通過互聯網進行提案或者建議的提交,人大和政協工作人員能夠進行建議或者提案的相關處理。隨著北京市電子政務工作從數字北京到智慧北京的轉變,根據多年電子政務運行積累的數據和經驗,運用自然語言處理、文本挖掘等相關技術對建議或提案進行智能分析,如初步確定主題詞和承辦單位、自動發現本屆建議和提案的熱點,以及通過分析幾屆建議和提案,找出代表或者委員關注點的變化等。通過智能分析,可以協助工作人員對建議或者提案有更深入的了解和掌握,進一步提高辦公效率。
每年為期 6~7天的兩會期間,代表和委員集中提交建議和提案,需要工作人員每天對建議和提案進行處理,而且要根據當天建議和提案情況寫出統計分析報告,其中很重要的一項是代表或者委員今年關注的熱點,得出這個報告需要工作人員短時間內查看完所有提案并進行統計分析。人工完成這項工作壓力大,而且容易出錯。為此,考慮目前在不擴充系統硬件,并且不影響目前服務運行效率的基礎上,設計出盡可能少占用系統資源的熱點抽取方法。一般情況下,建議或者提案的題目基本上能代表本建議或者提案的主要內容,相對于上千字的文本內容,對十幾個字的題目進行文本挖掘占有更少的內存開銷。因此根據系統現狀和實際業務的需求,本文提出了基于知識庫和詞頻統計分析的建議或提案熱點抽取方法。
詞是文獻中承載概念的最小學術單位。詞頻分析法常用于科技文獻分析領域,是利用能夠揭示或表達文獻核心內容的關鍵詞或主題詞在某一研究領域文獻中出現的頻次高低來確定該領域研究熱點和發展動向的文獻計量方法。如加拿大蒙特利爾大學的Robert教授等以加拿大國家研究理事會確定的79個納米科技關鍵詞為依據,采用詞頻分析的方法,分析了全球范圍內納米科技論文的產出和分布。
科技文獻是學術論文,用語比較規范,學術化,而且一般都有關鍵詞或者主題詞。但是建議和提案是關系民生各個方面的內容,涉及范圍廣,目前分析方法采用的是一個建議或者提案的題目,而不是已經分好的關鍵詞。因此需要進行切詞處理,之后進行詞頻分析,包括詞出現的數量和關系,去除多余的詞。最后根據詞出現的關系,形成小的詞團,最終得出熱點。
由于提案建議包括教育、民生、法律等社會多個方面的內容,也包括很多比較生僻的專有方向,例如口述史等。因此利用專門分詞軟件容易遺漏這些偏僻詞,而且也容易把一個概念分為幾個詞。如中小企業,分為中小、企業兩個詞。雖然很多專門針對中文分詞的軟件如 IKAnalyzer,都設計有詞典庫,可以添加各個領域的專業詞,但是詞典維護需要時間積累,因此對初期沒有信息積累的建議和提案系統,沒有采用專門分詞軟件,而是采用多元N-gram分詞方式。N取值區域為[2,6]。
由于建議或者提案題目中經常包含與熱點沒有太大關系的詞,而采用N-gram分詞方式且N取值空間為[2,6]會切出很多詞,占據內存太多,最終計算量太大,考慮到服務器性能和效率,因此將常用詞作為停用詞,先從題目中去掉,去完后將題目分成幾個段,之后對這些段進行分詞。
如“關于進一步完善北京市最低生活保障制度”的提案,去除“關于、進一步、完善、北京市、制度、的提案”后,被分為“最低生活保障”進行切詞,最終切詞為:最低/低生/生活/最低生/低生活/最低生活。
此處停用詞和一般做中文處理的停用詞點不太一樣,經常使用的停用詞典,一般將數字和單個字母都當成停用詞去掉,但在此處不行。首先此停用詞用法和別的分詞軟件不一樣,一般分詞軟件將停用詞作為非單獨的單詞出現,本方法停用詞是直接從分詞句子中去掉,其次因為建議或提案的題目都是代表和委員精心設計的,不會出現沒有意義的數字和字母,將此去掉將會錯過新出現的詞,如 pm2.5等;最后,由于最終目的是熱點分析,因此在其他分詞軟件中認為是有意義的詞在此處則沒有用,如北京、首都、提高、完善等。
鑒于此,需要建立建議和提案專門應用的停用詞典。一般建立停用詞主要依靠 TF/IDF。詞頻(Term Frequency,TF)指的是某一個給定的詞語在該文件中出現的次數。以防止它偏向長的文件,這個數字通常會被歸一化。由于熱點搜索只在建議或者提案題目進行,而一個詞在題目中基本上都只出現一次,因此TF在此沒有實際的意義,進行停用詞發現不用考察 TF。
逆向文件頻率(Inverse Document Frequency,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到:

由 IDF定義可知,可以把它作為停用詞的一個判斷標準,一般 IDF高的話很可能就是停用詞,但是IDF究竟為多少時是停用詞,還需要借助于其他的信息進行判斷。
建議和提案因為工作需要都標識有主題詞。主題詞是一個三級的結構,一級大約有 13個,二級有40個,三級主題詞大約有380個左右。下面所得主題詞以三級為考察對象。一般熱點問題也跨主題詞,但基本上跨的都比較小,如養老問題,在三級主題詞為老齡問題、社會保障、離退休、待遇、社區、津貼、救濟、失業、安置等都有涉及,但是基本上都不超過10個。而停用詞的主題詞跨度比較大,在一次會議1,480條提案的題目中有 170條提案中出現,而且這些提案的主題詞種類為 110個。將主題詞映射為自然語言處理中的主題(即類別),則定義主題數TN(Topic Number):即一個詞 term 所出現的提案對應的不同主題詞個數。將此因素作為考察一個詞是否為常用詞的一個因素。
根據對已有 11次數據、兩萬多條的考察,則將idf>1.5且 TN>10為自動發現常用詞,同時常用詞還可以人為添加和刪除。
在進行去除常用詞和切詞后,可以根據詞頻進行統計,這時候會對整個題目的 term 根據詞頻有個排序。排序后顯示如下(格式為詞及出現的次數):出租23,租車 21,出租車 21,車難 14,打車 8,打車難 8,世界城3,界城市3,世界城市 3,回龍觀 17,居民 4,出行3,地鐵29。
我們通過考察,直接計算出來的詞頻有以下幾個問題:
①可以看出N-gram分詞的弊端,如出租、租車和出租車應該分為一個出租車,但是3-gram分完為出租車,2-gram繼續分就會出現出租和租車這兩個詞。后邊的車難、打車、打車難也存在這個問題。
②另外一個問題是出租車和打車難,這個問題對于政府來說都歸結為出租車問題。如有的代表或委員說出租車難打,有的人直接說打車難,其實意思都是一樣的。一個問題不同的描述,導致按照詞頻排序統計熱點時,同一個熱點分幾部分統計,導致熱點分散或者本來是熱點的詞統計不出來。
③還有一個重要的問題是,詞以獨立的個體存在,很難看出詞與詞之間的聯系,但實際上是詞聯系起來組成題目,詞之間是有關連的,如回龍觀出現了17次,那么大家可能更想了解,17個回龍觀的問題都是什么問題,是零散的,還是集中的問題。
針對以上3個問題,提出了如下解決方案:
問題①對于世界城/界城市/世界城市類似的詞,因為界城市和世界城沒有特別的含義,基本上和世界城市出現次數是一樣的,因此可以利用它們的出現次數進行考察,如果相近,則去除長度短的詞,留下長度長的詞。具體算法如下:

C是一個常量,根據經驗取0.9;t ermi(n?k)意思是長度為n?k的詞;∈符號的意思是左邊的詞包含在右邊的詞中;T F(termi(n-k))表示詞 termi(n-k)在文檔集中出現的次數。
經實際運行證明,這種算法可以很好地把類似世界城/界城市這樣的詞去掉,而且還能夠保留城市這樣的詞。因為世界城市在題目中出現的次數和城市比相差較大,畢竟城市也可能指北京,不只是世界城市。
問題②的解決需要建立知識庫,目前階段采用手工建立,憑借多年積累的對建議和提案的理解,人工總結其中的知識存入知識庫。目前,存入的主要是詞匯間的關系,主要有同義關系和同類關系。同義關系是指同義詞之間有完全的相等性,可以用其中的詞代替另外一個。如地鐵、城鐵和城市軌道,首都和北京,交通擁堵和交通堵塞。同類的關系是指針對建議和提案,同類詞說的是一樣的問題,但不能用其中一個詞完全代替另外一個,如出租車和打的,中小學、中小學生、初中生、高中生等。同義關系在處理中直接取詞頻最高的代替其他詞。同類關系處理中不代替,但是在結果排序中(正常按照詞頻排序)將其排在詞頻出現最高的詞后邊,形成詞匯聚類。
問題③比較復雜,但也是最有實際價值的問題。多個詞語羅列出來讓人們很難發現其中的關聯,失去很多有價值的信息。解決這個問題我們借助于知識圖譜(Mapping Knowledge Domain)的理論,它在圖書情報界稱為知識域可視化或知識領域映射地圖,是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。該理論后來在Google搜索中應用,大大提升了Google的搜索效果,主要針對搜索的改進是:找到最想要的信息;提供最全面的摘要。有了Knowledge Graph,Google可以更好地理解用戶搜索信息,并總結出與搜索話題相關的內容。例如,當用戶搜索“瑪麗·居里”時,不僅可看到居里夫人的生平信息,還能獲得關于其教育背景和科學發現方面的詳細介紹,讓搜索更有深度和廣度。
知識圖譜本質上是一種語義網絡。其結點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關系。我們借鑒知識圖譜的理論,提出詞匯關系圖譜的概念。將節點代表詞匯、節點之間由無向線段鏈接,其上的數值表示兩個詞共同出現在一條建議或者提案中的次數整個圖形成無向圖。我們將以一屆數據中17條包含回龍觀提案的一部分進行展示如下:

圖1 回龍觀提案的一部分Fig.1 Part of the Huilongguan Proposal
圖1中圓球代表節點即詞匯,記錄一個詞語和它出現的次數;同顏色的球代表出現次數一樣,并按照次數高低進行距離中心點不同距離的排列。從這張圖中,我們很容易看出17條回龍觀的提案都是圍繞什么問題的。
圖中形成閉環的部分說明閉環節點所代表的詞在一條建議或者提案中出現。例如,設施/閱覽室/圖書館。看一個詞所連的詞,說明了它的相關問題。這樣能讓單個詞匯語義聯系起來,給人更豐富的信息,更直觀呈現詞匯之間的聯系。
目前,因為服務器硬件條件的限制,熱點抽取信息源僅來自于建議、提案的題目,雖然題目包含了提案核心思想,但是內容則含有更加豐富的語義和語用信息,利用內容進行計算機智能分析將會更加準確。其次,知識庫太過簡單,僅限于同義和同類,還應該定義更多的關系,隸屬等,應能從知識庫中推算出概念是什么性質,如是地點還是人,能推出概念聯系起來組成的語義關系。另外,知識庫是手工建立,之后還要研究自動建立。在切詞和搜索熱點方面可以加入更高級的自然語言處理方法,使得熱點更加確切,關聯關系更加清晰。■
[1]鞏永強,劉莉. 基于詞頻分析法的情報學研究熱點透析[J]. 圖書館學研究,2011(7):9-13.
[2]夏立新,程秀峰,桂思思. 基于電子政務平臺查詢關鍵詞共現多維可視化聚類分析研究[J]. 情報學報,2012,31(4):352-361.
[3]吳小莉. 基于科技文獻的科技熱點監測方法研究與應用[D]. 北京:中國科學技術信息研究所,2007.
[4]劉劍蘭,朱東華. 信息抽取技術在情報監測中的應用[J]. 情報學報,2004(23):103-107.
[5]邱均,平呂紅. 基于知識圖譜的國內知識管理發展研究[J]. 情報學報,2013,32(5):548-560.