999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非結構化生產信息的向量表示提取方法

2018-01-18 10:06:24蘇興華
中國管理信息化 2018年23期
關鍵詞:數據庫

蘇興華

[摘 要] 對于組織較隨意、內容也不盡相同的生產信息,處理方式不同于數據庫中定義明確的結構化數據,所以引入人工智能和模式識別領域中的向量表示法用于描述非結構化數據;采用基于TF-IWF的關鍵詞提取算法,將每個短信用向量的形式描述出來,以此來實現了非結構化數據的語義檢索。該文創造了一種基于語義相似度的信息檢索算法,用以解決非結構化文本信息無法直接采用傳統的SQL語句進行檢索的問題,實踐應用表明該方法具有較高的準確性。

[關鍵詞] 非結構化;向量;數據庫;檢索

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 23. 067

[中圖分類號] G203 [文獻標識碼] A [文章編號] 1673 - 0194(2018)23- 0159- 03

0 前 言

川慶鉆探長慶鉆井總公司的鉆井隊大多地處偏遠,通過電腦及時上傳井隊工況比較困難,常用手段是鉆井隊長或信息員通過短信方式向主管領導匯報井隊工況,領導再通過短信或電話方式對井隊的問題進行具體批示。只要鉆井隊所處地區有手機信號即可,實用性較強,但面臨的主要問題是短信內容的非結構化特性,短信內容發送后只能保存在發送者和接收者的手機中,不利于信息共享及日后的檢索和查證。當前信息化發展進入大數據時代,大量企業知識和成功案例蘊含在井隊用戶的匯報和領導批示的交流短信中,因此很有必要將這些短信內容收集起來,整理入庫,實現規范化管理,便于信息共享、信息檢索、數據溯源,更進一步可以進行數據深度挖掘,總結和發現數據中蘊含的知識,固化已有的工作經驗,為以后的工作提供參考和指導,從而真正形成有效的企業數據資產。

通過搭建短信應用服務平臺,匯集現場工況短信信息;對于短信的非結構化特性,可以采用增強型樸素貝葉斯網絡算法,對垃圾、騷擾短信自動屏蔽;通過先進的語義分類技術對短信內容進行處理,用搜索技術實現了對非結構化短信數據的語義檢索;通過結合本領域的專業術語詞典,提出了改進的KNN分類算法;根據人工審核的結果進行機器學習,自適應的升級更新,改良分類效果。最后把正常的短信自動推送到相關領導的移動終端上,便于領導做出準確的判斷和科學的決策。

1 語義向量模型

傳統的向量空間模型(VSM)基本原理是在構造文檔向量和查詢向量的基礎上,利用匹配函數計算它們之間的相關程度即相似度。研究中借鑒傳統VSM的思想,根據本體自身特性,把文檔向量和查詢向量轉換成由本體概念和屬性組成的語義向量,并分別計算概念相似度和屬性相似度,在此基礎上實現語義相似度的檢索算法。

由于短信數據庫中存儲的是短信/彩信等非結構化數據,這在檢索時面臨的問題與以往關系型數據庫里存放的結構化數據檢索存在很大的區別,如果不能從語義的角度來表述和搜索文檔內容,單純簡單的采用SQL語句的實現方法則難以為用戶提供滿意的檢索結果。本文采用了一種基于語義相似度的信息檢索方法,在語義向量中考慮概念的屬性等信息,分別計算語義向量的概念和屬性相似度并進行綜合處理,以獲得向量間的語義相似度。實際應用結果表明此方法具有較理想的效果。

1.1 語義向量的查詢

常規檢索過程中, 搜索引擎對用戶輸入的查詢采用基于同義詞、近義詞以及用戶日志等方法進行擴展,在一定程度上能有效幫助檢索系統進一步定位用戶的查詢意圖,為檢索提供更多輔助信息。

用戶輸入的查詢一般包括多個關鍵字,它們是對用戶查詢意圖的描述,通常包含被檢索對象的關鍵字、關鍵屬性及其取值。例如用戶在查找時輸入“長慶鉆井總公司”,在抽取查詢語義向量時,提取用戶輸入的關鍵字, 對應到本體中的概念及屬性, 如“長慶鉆井”為本體概念“總公司”的屬性的取值。對用戶的查詢進行分析和語義擴展后,系統提供友好界面以交互的方式進一步協助用戶確定其查詢的明確語義, 這種方式可以縮短檢索時間,并提高檢索效率。用戶查詢擴展的語義向量如圖1所示。

2 短信語義處理

經典向量空間模型對文檔進行預處理時用多個索引詞組成的向量表示文檔對象。為提高檢索準確率,在此基礎上對數據庫中的短信進行語義預處理,包括提取每篇短信的語義特征向量、對短信進行語義分類以及建立語義索引。

2.1 短信語義特征向量抽取

對短信進行預處理時, 借鑒經典向量空間模型的思想,使用本體庫替代包含關鍵詞條的字典,利用文檔描述的概念及其屬性組成的語義向量替代文檔,對短信內容進行抽取和語義化。與用戶查詢的處理方法類似,每篇短信都有特定的內容,短信的每一部分也對某一概念實例進行描述,結合統計和語義分析的方法提取關鍵詞,使用本體中的概念及屬性進行抽象和概括。對每個概念實例而言,從短信中提取其屬性及屬性值,組成刻畫和描述短信內容的語義向量。

2.2 短信語義分類和索引

為了提高檢索效率, 對短信進行語義分類,以提供有效的短信組織和管理手段。在短信語義特征向量抽取結果的基礎上,以本體的層次概念樹為分類依據, 對已抽取語義特征向量的短信進行分類, 如圖2 所示。通常情況下每篇短信的語義特征向量都包含多個本體概念及其屬性,在每個概念對應的類中建立該短信的映射, 從邏輯上為短信庫建立與本體對應的層次管理結構,為短信語義索引提供依據。

為了便于檢索, 為已分類的短信建立語義索引。首先將本體概念放人索引文件, 按照字典序排列, 并建立一個有序鏈表指向包含該概念的短信語義特征向量。其次, 為索引文件中的概念建立指向實例鏈表的指針, 從而在檢索過程中通過該指針找到用戶檢索的對象而不必遍歷整個短信集合, 提高檢索效率。最后將該短信語義特征向量與其對應的短信鏈接起來。

3 基于語義相似度的短信檢索

在基于語義相似度的短信檢索中,使用向量空間模型的“部分匹配”策略,得到用戶查詢和短信的語義向量后,對向量中的概念和屬性分別進行處理。考慮不同概念實例以及概念的可比屬性之間的相關程度,分別計算其相似度,作為取舍短信的依據,完成語義檢索。

3.1 概念相似度

本體使用層次化的樹狀結構描述概念之間的邏輯關系,這種語義化的概念樹為檢索算法提供語義基礎。在檢索過程中不同的概念之間也有一定的相似性和相關性,因此需要處理概念樹中祖孫節點、兄弟節點等不同類型的關系,考慮用概念間的相似度對其進行描述和量化,以提高檢索的準確率。為了計算概念相似度, 做如下定義:

定義1 在本體概念的樹狀層次結構中, 如果概念A和概念B之間存在這樣的關系: A是B的祖先,則稱A和B為同支概念(Same-Branch Concepts)。概念A稱為A和B的最近根概念,記為R(A,B)。而A、B之間的距離d(A,B)=dep(B)-dep(A),其中dep(C)為概念C在層次結構中的深度。如圖3(a)所示。

定義2 在本體概念的樹狀層次結構中,如果概念A和概念B之間存在這樣的關系,A不是B的祖先且B不是A的祖先,則稱A和B為異支概念(Different-Branch Concepts)。 如果概念R是A和B共同的祖先,且是符合此條件的所有節點中距離概念樹根節點最遠的一個,則稱R為A和B的最近根概念,記為R(A,B),A、B之間的距離d(A,B)=d(A,R)+d(B,R),如圖3(b)所示。由此可知,本體概念樹中任意兩個概念的關系有且只有同支概念、異支概念以及相同概念3種情況。

定義3 概念C稱為概念A和B的語義相關概念, 當且僅當C滿足如下條件,當A、B為如圖3(a)所示的同支概念時,C在以A為根的子樹中且不在以B為根的子樹中;當A、B為如圖3(b)所示的異支概念時,C在以R為根的子樹中且不在以A或B為根的子樹中,如圖3(c)所示。

在計算概念相似度時,對同支或異支概念而言,隨著概念間距離的增大,兩個概念之間的關系越來越疏遠,概念相似度也越來越小,是關于概念間距離的減函數。兩個概念的最近根概念的深度越大,表示它們擁有的公共屬性越多,因此概念相似度也是關于最近根概念深度的增函數。

綜上所述,定義概念A和B之間的概念相似度如下:

Simp(P,Q)=

1- × × ,d(A,B)≠0,A,B如4(a) 1, d(A,B)≠01- × × ,d(A,B)≠0,A,B如4(b)

其中,dep(R(A,B))為A和B的最近根概念深度;d(A,B)為A和B之間的距離,取值均為非負整數;son(C)表示本體概念樹中以C為根的子樹的所有節點數;參數α、β調整dep(R(A,B))和d(A,B)的權重,取值范圍為(0,1];由專家根據相應的領域知識設定;司馬Simc(A,B)的取值范圍為[0,1]。

3.2 屬性相似度

每個本體概念都有多個不同的實例,它們的區別在于屬性取值的不同。不同概念的實例也可能包含相同的屬性,因此在比較兩個實例之間的相似性時,僅有概念相似度并不夠,還須考慮概念屬性之間的相似度。定義如下:

定義4 設本體概念C有實例I,其對應屬性P1的值為p1,…,對應屬性Pn的值為Pn,則表示該實例I=C[P],P為屬性向(p1,p2,p3,L,pn).

在計算屬性向量P=(p1,p2,p3,L,pn)和Q=(q1,q2,q3,L,qn)的相似度時, 只需要處理它們的公共屬性即可。首先把P和Q對應的屬性向量轉化為具有公共屬性的向量P′=(p1′,p2′,p3′,I)和Q′=(q1′,q2′,q3′,I) ,然后根據本體中屬性的定義及屬性值的相似度計算, 對 和 中的相應屬性值進行比較和計算, 得到屬性向量P和Q之間的相似度如下:

Simp(P,Q)=Simp(P′,Q′)= ×Simr(pr′+qr′)

3.3 語義相似度

計算語義向量的概念相似度和概念實例的屬性相似度后, 能夠得到語義向量間完整的語義相似度。設語義向量V1(A1[P1],A2[P2],A3[P3],L,Am[Pm]),V2(B1[Q1],B2[Q2],B3[Q3],L,Bn[Qn])在計算過程中,首先依次比較用戶查詢語義向量中的每個概念實例與被檢索的文本特征語義向量中所有概念實例, 取其中的最大值作為該概念與文檔特征語義向量的相似度。然后對語義向量中的各概念與文本特征語義向量的相似度取平均值,計算出用戶查詢語義向量V1和文檔特征語義向量V2的語義相似度。其中ω是表征概念相似度和屬性相似度的權重,取值范圍為[0,1]。

Simv(V1,V2)= (ω·SimC(Ai,Bj)+(1-ω)·Simp(Pi,Qj)) 整個過程的主要算法如下:

/基于語義相似度的檢索算法主要步驟描述

Begin/*Algorithm begin*/

Init(V1);Load(V1);//初始化并加載用戶查詢語義向量

Load(Selndex);//加載文檔語義索引文件

Init(V2);//并初始化語義向量V;

n=0;

//按索引文檔檢索

While not eof(Selndex)do

//對索引中第n條概念的每一個語義向量進行處理

for each V of Selndex[n]do

if log(V)=0then //該向量未被處理過

begin

V2=V;

/*計算V1,V2中任意兩個概念Ai和Bj的概念相似度*/

Get SimC (Sim(Ai,Bj));/*計算V1,V2中任意兩個概念Ai和Bj各自對應的屬性向量Pi和Qj的屬性相關度*/

GetSimP(Simp(Pi,Qj));

//計算V1,V2的語義相似度

GetSimV(SimV(V1,V2));

InsertTo(S);//按降序插入列表中

endif i=i+1; endwhile;

output(S,n);/輸出S中前n個作為檢索結果

End /* Algorithm end*/

主要參考文獻

[1]李庭春.生產企業管理信息系統的應用及其發展[J].企業改革與管理,2008(3).

[2]陳飛,李建,余一帆,等. 基于WEB的石油生產信息系統[J]. 中國科技信息,2006(1).

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 毛片久久网站小视频| 亚洲日韩AV无码一区二区三区人| 午夜精品久久久久久久无码软件| 麻豆国产在线观看一区二区| 亚洲欧美日韩色图| 成人年鲁鲁在线观看视频| 精品国产香蕉在线播出| 欧美区日韩区| 精品国产免费第一区二区三区日韩| 色哟哟国产精品| 国产成人亚洲综合a∨婷婷| 亚洲日韩国产精品综合在线观看 | 97精品国产高清久久久久蜜芽| 亚洲精品第一页不卡| 韩日午夜在线资源一区二区| 中文字幕亚洲综久久2021| 亚洲日本中文字幕乱码中文| 亚洲国产中文欧美在线人成大黄瓜| 欧美成人aⅴ| 亚洲日产2021三区在线| 91色爱欧美精品www| 狠狠色成人综合首页| 国产精品任我爽爆在线播放6080| 一区二区三区国产精品视频| 毛片最新网址| 亚洲三级成人| 青青草原国产av福利网站| 国产精品综合色区在线观看| 无码人妻免费| AV熟女乱| 搞黄网站免费观看| 91视频日本| 欧美亚洲第一页| 国产a网站| 91小视频在线| 国内精品久久九九国产精品| 国产交换配偶在线视频| 国产激情无码一区二区免费 | 新SSS无码手机在线观看| 嫩草在线视频| 99在线小视频| 一本大道无码日韩精品影视| 一级毛片在线播放| 毛片网站免费在线观看| 尤物亚洲最大AV无码网站| 国产福利2021最新在线观看| 欧美另类精品一区二区三区| 蜜桃臀无码内射一区二区三区| 热99精品视频| 久久综合亚洲色一区二区三区| 国产在线观看91精品亚瑟| 91外围女在线观看| 天天操精品| 久久一日本道色综合久久| 一本久道热中字伊人| 国产新AV天堂| 欧美午夜理伦三级在线观看| 精品国产一区二区三区在线观看| 亚洲 欧美 日韩综合一区| 啪啪免费视频一区二区| 国产美女无遮挡免费视频网站| 国产香蕉一区二区在线网站| 91精品免费久久久| 黄色片中文字幕| 欧美自慰一级看片免费| 99国产在线视频| 亚州AV秘 一区二区三区| 欧美久久网| 制服丝袜 91视频| 久久婷婷国产综合尤物精品| 国产区在线看| 激情综合网址| 亚洲午夜片| 亚洲天堂福利视频| 久久精品电影| 1024国产在线| 好吊日免费视频| 久久精品国产91久久综合麻豆自制| 国产91无码福利在线| 亚洲热线99精品视频| 亚洲精品免费网站| 亚洲有码在线播放|