基于知識地圖的政府訴求文件自動推送模型研究

2015-12-14 10:43:45鄭小雪

現(xiàn)代情報 2015年8期

鄭小雪

〔摘要〕當(dāng)前不少政府部門在其官網(wǎng)上設(shè)置了意見反饋欄目，旨在為公眾提供申訴和表達(dá)意見的渠道。為了表示對公眾訴求意見的重視，有關(guān)部門必須快速且正確地將訴求文件推送至對口部門進(jìn)行處理及回應(yīng)。為解決上述問題，本文提出基于知識地圖的政府訴求文件自動推送模型，主要包括通過歷史文件的處理構(gòu)建政府知識地圖的模型和機(jī)制，并實(shí)現(xiàn)知識地圖與新進(jìn)訴求文件的匹配，實(shí)現(xiàn)文件到部門的正確推送，有助于減少人工分揀文件的作業(yè)，提高政府行政效率。

〔關(guān)鍵詞〕知識地圖；訴求文件；自動推送

DOI：10.3969/j.issn.1008-0821.2015.08.009

〔中圖分類號〕D035〔文獻(xiàn)標(biāo)識碼〕B〔文章編號〕1008-0821（2015）08-0043-04

近年來，隨著互聯(lián)網(wǎng)的快速發(fā)展，促使了我國網(wǎng)絡(luò)用戶的大幅度增加；同時隨著信息科技與產(chǎn)業(yè)競爭環(huán)境的日新月異，對于客戶關(guān)系管理（Customer Relationship Management，CRM）來說，建立一套完整的客戶信息系統(tǒng)是最為必要的，其目的在于管理和維護(hù)客戶關(guān)系，開發(fā)出適合客戶個性需求的產(chǎn)品或服務(wù)，從而提高客戶的滿意度同時吸引優(yōu)質(zhì)的新客戶。對于服務(wù)型政府部門而言，公眾就是它的客戶，同樣需要有良好的客戶關(guān)系管理來提升公眾對政府部門的滿意度。

借助于客戶關(guān)系管理理論及相關(guān)技術(shù)，許多企業(yè)利用互聯(lián)網(wǎng)提供各種網(wǎng)絡(luò)服務(wù)，方便客戶在沒有時間、地點(diǎn)的限制下接受企業(yè)服務(wù)，如：網(wǎng)上購物、技術(shù)咨詢、問題反饋等。同樣地，政府部門開通了不少便民服務(wù)平臺，收集民眾關(guān)于社會生活的各種訴求問題，通過對問題的回應(yīng)和處理，完善政府的行政管理機(jī)制，為公眾提供更便捷有效的政府服務(wù)，提高公民對政府的滿意度。以福建省福州市“便民呼叫中心12345”為例，該平臺疊加了網(wǎng)站、E-mail、短信、傳真、QQ等多種方式，自2006年3月由鼓樓區(qū)升級到福州市級層面應(yīng)用以來，截至2012年12月31日，共辦理訴求件928 255件次，及時回復(fù)率為9874%，群眾基本滿意率達(dá)9333%。然而，縱觀我國各種政府便民服務(wù)網(wǎng)站，雖然不乏像“福州12345”這樣的優(yōu)秀的公共平臺，但是仍然存在諸多問題：首先，現(xiàn)有的便民服務(wù)平臺的輻射范圍有限，僅能維持市一級（及以下）的回應(yīng)民意服務(wù)；其次，由于網(wǎng)絡(luò)輿情問題越來越受到政府、公眾及社會各界人士的關(guān)注，現(xiàn)今政府便民平臺回應(yīng)民眾的準(zhǔn)確率和時效性不高，容易激化輿情矛盾；最后，我國行政組織結(jié)構(gòu)過于龐大，而公眾陳情或請求回應(yīng)的文件過于復(fù)雜，常常需要人工分辨后才能指派給相關(guān)部門進(jìn)行處理，政府回應(yīng)過慢容易導(dǎo)致民怨，而培訓(xùn)專業(yè)的分派人員又需要長期訓(xùn)練和熟悉業(yè)務(wù)，才能準(zhǔn)確分配，這些問題無疑嚴(yán)重影響了政府互聯(lián)網(wǎng)便民服務(wù)的效率和效果。本文研究的基于知識地圖的政府訴求文件自動推送模型，重點(diǎn)解決“政府知識地圖的構(gòu)建”和“訴求文件自動化分類”兩個問題，有利于降低人工處理投資文件的成本，縮短政府回應(yīng)民意的時間，同時提升政府部門積極服務(wù)的形象。

2015年8月第35卷第8期現(xiàn)？代？情？報Journal of Modern InformationAug，2015Vol35No82015年8月第35卷第8期基于知識地圖的政府訴求文件自動推送模型研究Aug，2015Vol35No81模型架構(gòu)

首先以訓(xùn)練文檔建立政府知識地圖，接著通過對比的方式，為網(wǎng)絡(luò)輿情事件中的不同政務(wù)需求找出所應(yīng)負(fù)責(zé)處理的政府部門。模型架構(gòu)如圖1所示，主要分為知識獲取和訴求文件分配兩個模塊，獲取知識模塊主要是訓(xùn)練樣本文檔階段，先利用文件處理子模塊找出文件的特征詞，再使用知識地圖構(gòu)建模塊，利用關(guān)聯(lián)規(guī)則技術(shù)，找出特征詞與政府部門之間的關(guān)聯(lián)，進(jìn)而建立政府知識地圖；而訴求文件分配模塊則是針對實(shí)際應(yīng)用階段，先通過訴求文件處理子模塊找出新進(jìn)訴求文件的特征詞，再透過分配處理子模塊將文檔與知識地圖作對比，進(jìn)而決定訴求文件應(yīng)由哪些政府部門負(fù)責(zé)處理。圖1基于知識地圖的政府訴求文件自動推送模型

2知識獲取模塊

知識獲取模塊主要功能是建立政府部門知識地圖，作為進(jìn)行訴求文件分配時文檔對比的依據(jù)，通過訴求文件與事先建立好的知識地圖對比，可預(yù)測出該訴求文件所分配的具體政府部門，優(yōu)化政府決策。該模塊的資料來源于政府網(wǎng)站的各種文件和FAQ問答集，主要功能模塊包括了文件處理子模塊和知識地圖構(gòu)建子模塊，各子模塊的處理流程描述如下。

21文件處理子模塊

該模塊是從文件中挖掘出有用的特征詞，作為建立特征詞表的基礎(chǔ)詞源；主要包括3個步驟：分別為文件預(yù)處理、文件特征詞處理及文件特征詞表構(gòu)建，處理流程如圖2所示。

211文件預(yù)處理

這部分主要包括文件分詞處理與特征詞提取兩個重要

的步驟。文件預(yù)處理子模塊需要各政府部門提供該部門有代表性的政府職能描述文件，然后，利用分詞處理模塊對收集來的文件進(jìn)行分詞處理，再通過詞性合并的規(guī)則挖掘出有意義的特征詞。

（1）分詞處理

中文與拉丁語系的分詞過程大相徑庭，一般的英文文件只要以空白間隔將文件分解成一個個詞（Word）即可做后續(xù)的處理，本文研究的是中文文件為主，沒有空白格進(jìn)行斷詞。因此，中文分詞較英文分詞更難處理，現(xiàn)階段比較流行的中文分詞方法大致分為3種類型[3]：基于規(guī)則的分詞方法、基于理解的分詞方法、基于統(tǒng)計的分詞方法。本文運(yùn)用目前最常用的開放中文分詞工具CKIP中文斷詞系統(tǒng)[4]，該系統(tǒng)綜合運(yùn)用了上述分詞方法，將內(nèi)容切分成一組組的詞匯，并按照不同詞性對每組詞匯進(jìn)行標(biāo)記，例如詞類標(biāo)記Na/Nb/Nc分別是普通名詞、專有名詞及地方詞，且均可統(tǒng)一歸類為名詞（N）。接著過濾掉各文件中標(biāo)點(diǎn)符號等不具有語義的符號和不必要的停頓詞（Stop Words）。在中文的特征詞匯中，名詞（Nouns）與動詞（Verbs）所代表的意義最為重要，基本能代表文件中的重要概念，因此，本研究近保留名詞與動詞的單字詞，其他詞性的字詞均可忽略。endprint

（2）特征詞提取

“特征詞提取”的任務(wù)是整理合并經(jīng)過分詞處理后的詞匯，使之形成能夠代表文件的特征詞表。根據(jù)CKIP系統(tǒng)所產(chǎn)生的結(jié)果，本研究雖然僅保留了名詞與動詞的詞組，但是根據(jù)其他學(xué)者的研究表明[5]，如果不做詞性組合，仍然有很多無意義的字詞存在。基于本文的運(yùn)用背景和對象，發(fā)現(xiàn)諸多政務(wù)類詞匯，若不經(jīng)過詞性組合，將大大影響模型效果；例如：當(dāng)“環(huán)保人員”和“市政人員”兩個詞經(jīng)過分詞處理后，分布得到“環(huán)保”、“人員”及“市政”、“人員”，所得到的“人員”對于政府知識地圖的構(gòu)建是沒有意義的，因此，必須建立詞性合并的規(guī)則，具體范例如下：

詞性組合范例N+N“禽流感”（N）+“疫苗”（N）=“禽流感疫苗”（N）此外，為能使特征詞對于決定未來訴求文件推送至何部門時具有參考性，需先請專家以人工方式判斷文件所屬的政府部門，并將部門名稱加入文件的特征詞表中。另外，特征此表中的一些專有名詞（如疾病名稱、藥品名詞）因出現(xiàn)的頻率低，在建立知識地圖模塊階段，可能無法找出有效的關(guān)聯(lián)規(guī)則，為了解決此問題，將收集和分析各政府部門官方網(wǎng)站收集來文件及FAQ問答集，依各部門屬性建立特定名詞的特征詞表，以“特定名詞”取代出現(xiàn)頻率較少的專有名詞，例如以流行病代替“H1N1，H7N9”。

212文件特征詞處理

并非所有的詞匯都是重要的詞匯，所以要通過權(quán)重篩選的方式，以保留重要的特征詞。特征詞權(quán)重計算主要包括了兩個步驟：首先是利用TF-IDF加權(quán)模式計算各特征詞權(quán)重，最后根據(jù)特征詞出現(xiàn)的位置與事先設(shè)定的“特定特征詞”作權(quán)重加乘。

一般而言，文件詞匯的權(quán)重計算方法有TF加權(quán)和TF-IDF加權(quán)等[6]。TF表示詞頻，即字詞在某一個文件中出現(xiàn)的頻率，一般而言，TF越高表示該詞對這篇文件來說越重要。TF-IDF是一種統(tǒng)計方法，用以評估某個詞對于資料庫中的其中一份文件的重要程度。計算公式如下：

TF-IDF權(quán)重=wij×idf=wij×logNni（1）

wij=1+log10ifij？當(dāng)tfij>0時

0當(dāng)ifij=0時（2）

公式（2）中tfij為字詞ti在文件j出現(xiàn)的詞頻，公式（1）中wij為字詞ti在文件j出現(xiàn)的對數(shù)詞頻[7]，ni為資料庫中含有字詞ti出現(xiàn)的文件篇數(shù)，N為資料庫總的文件數(shù)。該公式的內(nèi)涵在于字詞的重要性隨著它在各文件中出現(xiàn)的次數(shù)成正比增加，但同時會隨著它在資料庫中出現(xiàn)的頻率成反比下降。考慮到本文采集的信息來源于各個政府部門官方網(wǎng)站的文件和FAQ問答集，文件長短不一，單用詞頻來計算權(quán)重會受到每篇文件字詞多寡的影響，選用TF-IDF來計算權(quán)重不僅考慮到了詞頻還考慮到出現(xiàn)詞匯的文件數(shù)量。

另一方面，還需要考慮到文件結(jié)構(gòu)對詞匯重要性的影響，并修正權(quán)重：文件中的特征詞出現(xiàn)的位置不同，也將給予不同的權(quán)重。一般政府文件或FAQ分為“標(biāo)題”和“內(nèi)容”兩個部分，“標(biāo)題”通常代表文件的主旨，位于“標(biāo)題”的特征詞代表文件的可能性更高，因此需要增加位于“標(biāo)題”的特征詞權(quán)重；若文件“內(nèi)容”已經(jīng)出現(xiàn)了相關(guān)政府部門的名稱，則文件被推送至這個相關(guān)部門的幾率越高，因此有必要增加此類政府部門名稱特征詞的權(quán)重。

TF-IDF修正權(quán)重=tfij×idfi×（1+s1×02+s2×01+s3×02）（3）

公式（3）中s1，s2和s3為布爾型數(shù)值，當(dāng)詞匯出現(xiàn)在文件“標(biāo)題”時s1為1，否則為0，當(dāng)詞匯出現(xiàn)在文件“內(nèi)容”時s2為1，否則為0，當(dāng)詞匯為部門名稱特征詞時s3為1，否則為0。

213建立文件特征詞表

特征詞的權(quán)重可以代表著該特征詞在整篇文件中所占的重要性，權(quán)重越高越可代表文件概念，從每篇文件中挑選出權(quán)重值最高的前10個特征詞用于代表該文件。將所有資料庫中的文件都整理成以特征詞的形式，并建立文件特征詞表，以此當(dāng)作建立知識地圖的基礎(chǔ)資料，透過編碼轉(zhuǎn)換以方便下階段的關(guān)聯(lián)規(guī)則的挖掘。

22知識地圖建立模塊

文件處理子模塊將所有文件都轉(zhuǎn)換成以特征詞表示，形成特征詞表。利用數(shù)據(jù)挖掘技術(shù)對文件資料庫的特征詞表進(jìn)行關(guān)聯(lián)規(guī)則的挖掘，透過設(shè)定關(guān)聯(lián)規(guī)則的最小支持度及置信度門檻值，以挑選出真正有效的關(guān)聯(lián)規(guī)則[8]；從有效的關(guān)聯(lián)規(guī)則中，找出各政府部門與特征詞之間的關(guān)聯(lián)。為避免重要的特征詞未被選入單位的特征詞集合，故設(shè)置較低的支持度，例如設(shè)定最小支持度為支持個數(shù)2，最小置信度07，所產(chǎn)生的關(guān)聯(lián)規(guī)則摘要如表1所示。

4討論

本文提出一個智能型政府知識地圖的構(gòu)建機(jī)制，來協(xié)助上級政府部門以自動化的形式將公眾的訴求意見迅速地分送至對口的政府部門，有利于相關(guān)部門

快速回應(yīng)民意，以提升政府部門的行政績效，同時節(jié)省了處理訴求文件的人力、物力等資源。未來的研究工作包括：首先，本文的研究前提是公眾訴求文件內(nèi)只能描述一個政府部門所負(fù)責(zé)的政務(wù)范圍，然而由于公眾對政府部門分工的不熟悉，使得文件內(nèi)往往包含了多類別的意見，如何處理復(fù)雜關(guān)聯(lián)的文件將是未來一個重要的研究課題；另外，由于時空環(huán)境的變遷，可能會出現(xiàn)不同的流行語或關(guān)注點(diǎn)，因此文件的特征詞會不斷變更，如何設(shè)計一個有效率的特征詞自動更新模型和機(jī)制也是將來一個思考方向。

參考文獻(xiàn)

東南網(wǎng).“12345”：老百姓呼叫政府[EB/OL].http：∥www.fz12345.gov.cn/article.jsp？articleId=1708，2013-05-04.

鄭麗珍，賴美慧.結(jié)合知識地圖之工部門陳述文件自動化分案系統(tǒng)[J].資訊管理學(xué)報，2011，18（4）：7-11.

[3]Christopher D，Hinrich Schutze.統(tǒng)計自然語言處理基礎(chǔ)[M].苑春發(fā)，等譯.北京：電子工業(yè)出版社，2004：1-50.

[4]中文詞知識庫小組.“CKIP”中文詞知識庫小組[EB/OL].http：∥rocling.iis.sinica.edu.tw/CKIP/，2013-04-20.

[5]邱登裕，潘雅真.結(jié)合資訊檢索與分群演算法構(gòu)建知識地圖[J].資訊管理學(xué)報，2006，13（8）：137-160.

[6]Salton G，Buckley.Term-weighting approaches in automatic text retrieval[J].Information Processing and Management，1988，24（5）：513-523.

[7]貝澤耶茨.現(xiàn)代信息檢索[M].黃萱菁，張奇，邱錫鵬，譯.北京：機(jī)械工業(yè)出版社，2012：90-155.

[8]Agrawal R，Inielinski T，Swami A.Mining association rules between sets of items in large databases[A].In Proc.1993 ACM-SIGMOD Int.Conf.Management of Data（SIGMOD93）[C].Washington，DC，1993：207-216.

[9]黃國禎，朱蕙君，曾秋蓉，等.具有自我調(diào)試功能之線上課程問題自動回復(fù)系統(tǒng)[J].電子商務(wù)學(xué)報，2007，9（3）：599-624.

（本文責(zé)任編輯：馬卓）endprint

現(xiàn)代情報2015年8期

現(xiàn)代情報的其它文章: 基于大數(shù)據(jù)的圖書館異構(gòu)數(shù)據(jù)整合機(jī)制研究; 移動互聯(lián)網(wǎng)時代競爭情報在企業(yè)電子商務(wù)中的應(yīng)用策略; 虛擬社區(qū)成員感知價值與鎖定效應(yīng)實(shí)證研究; 用戶關(guān)注微信公眾訂閱號動機(jī)研究; 基于共詞聚類分析的國外知識密集服務(wù)研究熱點(diǎn)分析; O2O在線外賣用戶滿意度研究與實(shí)證分析