999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關于短信營業廳智能搜索系統的研究

2012-01-01 00:00:00董宇

摘要:針對短信營業廳結合智能搜索系統的研究,提出了一種電信運營商短信渠道與用戶受理業務的交互過程中自然語言解析處理的方法。具體實現步驟為:獲取用戶發送的短信中包含的特征詞;從預先構建的特征概率詞庫中分別獲取特征詞對應的各業務的特征概率;根據特征詞對應的各業務的特征概率,計算用戶短信與業務的關聯度,將關聯度大的業務推薦給用戶受理。實驗證明,該系統的應用可以提高搜索效率,對用戶交互中的短語、同義字、錯別字等均能夠在一定程度上予以識別和理解,從而提高業務受理命中率,降低運營成本。

關鍵詞:短信營業廳貝葉斯語義解析

用戶通過短信等文本通信方式辦理或取消通信業務,可以有效節約用戶到短信營業廳辦理的時間、提高用戶的便捷性。但傳統的短信營業廳不支持或只能部分支持模糊匹配功能,對于不支持模糊匹配功能的短信營業廳,通過將短信內容與業務庫中預先設置的各業務映射的關鍵詞集進行精確匹配,匹配成功則為用戶辦理相應的業務,如果匹配失敗則向用戶返回輸入錯誤提示信息。而隨著電信運營商對新業務的不斷推廣,業務種類和數量越來越多,導致用戶辦理業務需要記憶大量的業務指令,嚴重影響了用戶使用電子渠道的便捷性,降低了用戶使用體驗,也抑制了用戶對于新業務消費沖動。因此,有必要研究和建設一種基于用戶上行短信的語義理解和業務匹配搜索系統,提高系統對用戶交互指令的理解能力,并從中找到用戶感興趣的業務并推薦給用戶辦理,提高用戶通過短信方式辦理移動業務的便捷性。

1 搜索系統的實現思路

開發一套系統實現語義搜索功能,包括中文分詞、語義解析和搜索、以及機器自學習等。系統采用算法將用戶上行短信與上千種業務分類或其他數據進行關聯,并將用戶上行短信歸入某一類或幾類業務。通過對特征詞的選取,以及每個特征詞對業務搜索分類的貢獻值進行篩選,將高于閥值的特征值作為聯合概率計算的因子,業務匹配成功與否是通過一組特征詞的關聯度計算得到的,從而避免了關鍵字的嵌套交叉問題。同時隨著用戶的不斷使用,有更多的上行數據提取特征,通過對特征指示性概率的反復迭代計算和訓練測試,實現機器自學習成長的過程,從而實現對業務指令的同義詞、近義詞、錯別字、生僻字等語義智能識別和業務搜索匹配。

樸素貝葉斯算法實現業務搜索:

貝葉斯分類算法是一種廣泛應用的分類算法,應用于文本分類時,通過計算文本屬于每個類別的概率P(cj|dx),將該文本歸為概率最大的一類,計算P(cj|dx)時利用貝葉斯公式。樸素貝葉斯分類算法即Naive Bayesian,它建立在“貝葉斯假設”的基礎之上:假設所有的特征之間互相獨立。實際上,在生活中這種獨立性很難存在,但從目前的實驗結果看來,基于這個假設的簡單貝葉斯分類算法的效果較好,而且計算簡單。

針對每一個業務指令,建立一個對應的目標短信和非目標短信關鍵詞的貝葉斯概率模型。其大體思想是,在已知的可以匹配到業務清單中服務指令的分類的短信(我們稱為目標分類短信)中,通過一些關鍵詞出現的頻率來取得一個特征,可運用貝葉斯公式,生成一個“目標服務指令指示性概率”。

根據客戶上行短信中所包含的一組詞,可以用另一個簡單的數學公式來確定文本短信的“整體目標概率”(combined probability),也稱短信的特征聯合概率。

算法說明:

選擇貝葉斯算法的原因是由于該算法的優點在于:①實現簡單;②貝葉斯模型能夠自我糾正。

①特征指示概率的計算公式為:pi(w)=

式中,pi(w)是第i個分類業務中特征詞w的特征指示概率;bi(w)是第i個分類業務中特征詞w的目標概率;gi(w)是第i個分類業務中特征詞w的非目標概率。

②目標概率計算公式為:bi(w)=

式中,DFi(w)為第i個分類業務中含有特征w的目標分類文本數量;Ni為第i個分類業務中總的目標分類文本數量。

③非目標概率計算公式為:gi(w)=

式中,DFj(w)為第j個分類業務中含有特征w的文本數量;Nj為第j個分類業務中總的目標分類文本數量;n為總的分類業務數量。

④特征概率計算公式為:fι(w)=

式中,m為含特征w的文本數量;s、x為預先設置的常量。

⑤聯合概率的計算公式為:

pK(Mi)=

式中,pk()為文本的聯合概率;Mi為第i個文本;f(wij)為第i個文本中的第j個特征詞的特征概率;K為第i個文本包含的特征詞數量。

通過以上算法,獲取用戶發送短信中包含的特征詞,并通過特征詞找到各業務對應的特征概率,計算短信對應業務的聯合概率,找出超過設置閥值的對應業務,輸出給短信營業廳執行相應業務受理流程,從而完成業務搜索。

2 短信營業廳搜索系統的開發與實現

2.1 系統功能架構說明

系統功能體系結構圖:

短信營業廳搜索系統的實現基礎是一種基于文本的搜索方法。根據用戶的功能需求,將基于文本的搜索方法設計為基礎的服務引擎。該服務引擎的用途是從一段(自然語言)文本中尋找出滿足要求的與之相匹配的若干關鍵字。關鍵字代表了序列的應用,如短信營業廳的業務關鍵字、知識庫中的知識點關鍵字、營銷活動中的活動關鍵字等。文本智能搜索服務引擎定位為基礎、通用、便于擴展的核心服務引擎。

文本智能搜索服務引擎的應用圖示:

如右圖所示,短信營業廳智能搜索服務引擎為擴展引擎,用于實現短信營業廳相關業務的處理。采用文本智能搜索服務引擎實現搜索服務的獨立性、可擴展性。便于開展其他業務應用的處理和分析。

2.2 系統分布式運行技術 系統采用分布式的體系結構來實現系統的各項維護功能,系統是三層或多層的B/S應用系統,把能夠執行特定企業功能的企業應用邏輯代碼封裝成應用企業對象并發布到應用服務器中,以供WEB服務器和瀏覽器調用。

2.3 系統數據單元

2.3.1 系統特征庫 系統特征庫是系統保存的特征詞組組合,其中保存的特征詞組是已經與系統業務數據庫進行了關聯的特征詞組組合,用來提供與自然語句所生成的關鍵詞組進行對比的依據,系統特征庫是可以進行擴充的,可以通過手工加入的方式進行加入,也可以通過詞組迭代庫中出現次數達到一定數量后自動提示用戶關聯后加入。

2.3.2 系統業務數據庫 系統業務數據庫保存系統中所有開辦的業務。系統業務數據庫中業務與系統特征庫中的特征詞組組合進行直接關聯,系統業務數據庫完全由用戶進行維護,當某一業務刪除后對應系統特征庫中的關聯特征詞組將被刪除。

2.3.3 詞組迭代庫 詞組迭代庫將保存系統中所有未能成功匹配的特征詞組。當某詞組在詞組迭代庫出現次數達到一定數量后將提示用戶將該語句關聯后加入系統特征庫中。當某詞組由詞組迭代庫中關聯進入系統特征庫后,系統自動刪除詞組迭代庫中類似詞組,如果用戶認為該詞組無法進行有效匹配即該詞組為無效數據系統也將自動刪除詞組迭代庫中類似詞組。

2.4 系統功能說明及技術參考

語義智能分析引擎結構:

2.4.1 應用接口 提供系統與短信營業廳的數據交互接口。輸入接口將通過web service接口獲取待分析文字內容,輸出接口將通過web service接口將分析結果傳遞給指定系統接口。

2.4.2 自動分詞功能 將自然語句進入智能分析系統后,系統先通過中英文分詞插件將自然語句分割為多個詞組,此時的詞組中應該有多個對于進行特征分析毫無作用的詞組。如自然語句‘我有點想開通彩信功能’分割后應為“我”、“有點”、“想”、“開通”、“彩”、“信”、“功能”。其中“我”、“有點”對于特征分析毫無作用。系統通過辨別詞語類型的方式將動詞和名詞以外的詞組剔除掉,留下“想”、“開通”、“彩”、“信”、“功能”,是該自然語句的關鍵特征詞組。

2.4.3 傾向性特征標準庫 根據用戶的不同身份,判讀詞組特征的權值也會有所不同,如全球通用戶在長途業務的權值會較高,而動感地帶的用戶的判讀權值會傾向于彩鈴和彩信。傾向性特征標準庫中的匹配標準會根據用戶的身份給予一定的加權值。傾向性特征標準庫中的特征加權值需要由系統用戶進行管理,系統將提供維護界面以及數據導入功能。

2.4.4 特征庫構建 短信提取:對短信的解碼提取短信信息,包括對測試集短信的提取和訓練集短信的提取。

去停用詞:實際應用時,文本中的很多詞與內容無關,例如“可是”、“那么”等。這些與內容無關的詞,稱作功能詞,在進行分類前,需要將其去除。另外,一些出現頻率過高的詞,例如“我們”、“人家”等,對于分類也沒有太大的貢獻。將功能詞和出現頻率過高的詞統稱為停用詞,它們只在文本中起輔助作用,因此,為減小短信特征向量的維數,提高過濾的性能,可以將它們刪除掉。為了后面的特征選取工作,本文將與分類關系不大的停用詞也事先作了依次剔除。

特征提取:將由訓練集或者測試集中的短信進行分詞,進行特征提取。特征提取是利用分詞技術對短信或者投訴內容進行詞匯拆分后,使用信息增益選取文本中的特征詞,把從文本中提取的特征串,計算其匹配某個業務分類的概率,再用放入特征庫中來進行儲存;在測試集中,提取文本的特征,交給下個環節處理。

2.4.5 概率計算 計算聯合概率是用來辨別兩個詞組之間的相似程度,相似程度越高則概率越高,概率達到一定標準后即認為的同義詞組。進行計算概率將首先從系統特征庫中提取特征詞組1例如“開通彩信”,然后與前一步生成的關鍵特征詞組進行概率計算。

①當概率計算到達匹配標準,則認為找到了有效的匹配結果,通過特征詞組1找到在系統業務數據庫中的對應業務,將該業務信息輸出給應用層程序接口。

②當概率計算未能到達匹配標準,查找下一條特征詞組然后重復1操作。

③當已經完成對特征庫中所有特征詞組的概率計算依然未能找到任何的有效匹配結果,則認為該關鍵特征詞組沒有對應業務。系統返回未找到匹配結果,并將該關鍵特征詞組加入至詞組迭代庫中。

④模式匹配

接受特征提取中的信息,根據規則數據庫中的規則,按照某種相似度計算算法計算信息與實際需求的相關性,在達到一定的閥值后,輸出過濾的結果。

信息表示:提供對過濾后的短信的瀏覽,以及對過濾效果的評價。

以上過程主要應用于訓練器訓練各個分類及特征的對應關系建立過程,即特征庫的建立過程。

模式匹配階段分為兩個階段:訓練和測試。

訓練階段主要是訓練規則庫,提取目標短信(文本)和其他分類短信(文本)的特征;主要步驟如下:

測試階段是利用已訓練完成的規則庫,對短信進行判斷。并向用戶提交結果。

對于新的短信,先進行分詞,提取短信的特征,通常是最能代表短信內容的若干個特征,通過計算這條新短信的聯合概率。如果短信的聯合概率超過某個閥值,就判此短信為目標分類的短信,其他的為其他分類,然后再進入下一個目標分類的判斷。在建立分類和文本訓練的過程中,建立了短信與業務的聯系,通過對后驗概率的不斷求解和反復迭代,使得系統具備近義詞和同義詞匹配功能,同時也具備了一定的糾錯能力。

根據貝葉斯公式,按照短信營業廳具體不同業務進行分類,目的是將用戶上行短信歸到具體某一項或某幾項分類中。此處假設Bi(i=1…N<其中N代表具體的業務>),此處A代表用戶上行的短信進行中文分詞后得到的特征值,Bi代表某一項業務,其業務指令有,我們的目的就是求出短信A歸入某一分類Bi的概率P(Bi|A),根據以下貝葉斯公式:

P(Bi|A)=■=■=■■P(■),其中P(ABi)可以求出,故P(Bi|A)是可知的。同時選定P(Bi|A)值最大的或超過設定閥值的作為有效匹配項,將其在Bi分類中未出現的特征值加入預處理庫中,再由系統管理員決定是否需要將特征值作為業務的指令項。

2.4.6 智能學習 系統特征庫是匹配成功率的依據,越完善的系統特征庫將具有越高的匹配成功率,所以系統特征庫的自動維護是系統具有學習功能的根據。當某詞組在詞組迭代庫出現次數達到一定數量后將提示用戶將該語句關聯后加入系統特征庫中。當某詞組由詞組迭代庫中關聯進入系統特征庫后,系統自動刪除詞組迭代庫中類似詞組,如果用戶認為該詞組無法進行有效匹配即該詞組為無效數據系統也將自動刪除詞組迭代庫中類似詞組。

3 結束語

本文采用方式,經過實踐證明不失為當前一種切實可行的用戶交互語義解析及業務搜索辦理的解決方案。本系統采用基于多重迭代貝葉斯算法對輸入短信文本進行分類過濾的新型算法,其適用范圍相比關鍵字匹配或其他同類算法更廣,同時也實現了系統自學習提高的訓練迭代過程,從而隨著系統不斷使用和反復訓練,其對用戶與系統交互過程中的自然語言理解能力將逐漸提高,業務搜索范圍將不斷擴大,業務搜索命中率也會得到改善,從而達到事半功倍的效果。

參考文獻:

[1]李寶敏,張娜.基于領域本體的語義智能檢索研究,西安工業大學計算機學院2007.12.

[2]顧德訪.語義Web環境下基于ontology的語義檢索應用研究,2005.

[3]曹志松,曹文君.基于語義Web實理有效Web信息檢索的研究,復旦大學學報,2004.06.

[4]李健康.專業化的語義智能搜索引擎GoPubMed,南方醫科大學圖書館,2009.12.

[5]劉永丹,曾海泉,李榮陸,胡運發.基于語義分析的傾向性文本過濾,計算機與信息技術系,2004.7.

[6]宋雯斐,王洋.自然語言檢索中的概念語義控制,黑龍江科技學院計算機與信息工程學院,2011.2.

[7]徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識別機制,大連理工大學,2007.1.

[8]程顯毅,楊天明,朱倩,蔡月紅.基于語義傾向性的文本過濾研究,江蘇大學,2009.12.

[9]何偉業.短信營業廳的設計與實現,北京郵電大學,2007.

作者簡介:

董宇(1985-),男,最高學歷:本科,最高學位:碩士,政治面貌:共產黨員,中國移動貴州公司業務支撐系統部電渠業務開發管理,研究方向:語義解析搜索系統的應用研究。

主站蜘蛛池模板: 国产成人免费手机在线观看视频| 欧美成a人片在线观看| 久久精品人人做人人爽| 国产区成人精品视频| 在线亚洲小视频| 亚洲男人的天堂久久香蕉| 这里只有精品在线| 亚洲伊人电影| 免费aa毛片| 婷婷在线网站| 国产成人一区在线播放| 99久久精品无码专区免费| 国产在线观看91精品亚瑟| 精品福利视频网| 91最新精品视频发布页| 18黑白丝水手服自慰喷水网站| 免费国产不卡午夜福在线观看| 国产制服丝袜无码视频| 国产白浆视频| 五月天福利视频| 野花国产精品入口| 亚洲va在线∨a天堂va欧美va| 久久免费视频播放| a级毛片免费看| 久久semm亚洲国产| 国产精品综合久久久| 亚洲天堂在线免费| 自拍亚洲欧美精品| 久久这里只有精品国产99| 婷婷成人综合| 日韩AV无码一区| 欧美成人综合在线| 九色在线观看视频| 国产一线在线| 五月婷婷综合网| 国产精品性| 99精品免费欧美成人小视频 | 无码人中文字幕| 国产成人精品免费视频大全五级| 国产成人精品一区二区不卡| 在线精品亚洲一区二区古装| 成人在线不卡视频| 国产亚洲精品97在线观看| 又粗又大又爽又紧免费视频| 五月婷婷综合色| 国产无码高清视频不卡| 国产精品伦视频观看免费| 九色综合伊人久久富二代| 无码电影在线观看| 欧美在线伊人| 国产精品页| 亚洲日韩第九十九页| 一本久道热中字伊人| 91精品啪在线观看国产| 欧美黄网在线| 日韩在线第三页| 中文字幕av一区二区三区欲色| 婷婷激情亚洲| 午夜国产小视频| 久久99国产视频| 香蕉视频在线观看www| 国产精品亚洲天堂| 91丨九色丨首页在线播放| 成年人国产网站| 国产欧美网站| 亚洲男人的天堂网| 国产性猛交XXXX免费看| 日韩国产亚洲一区二区在线观看| 一本大道无码日韩精品影视| 99在线视频网站| 天堂在线www网亚洲| 日韩无码黄色网站| 亚洲aaa视频| 亚洲第一视频免费在线| 国产成人亚洲无码淙合青草| 亚洲国产一区在线观看| 在线观看网站国产| 国产美女人喷水在线观看| 毛片免费在线| 久久国产精品77777| 欧美亚洲激情| 中文字幕1区2区|