李承桓, 張莉, 何學(xué)東, 常利建, 于喻
(1.國家電網(wǎng)有限公司客戶服務(wù)中心, 天津 300304;2.北京中電普華信息技術(shù)有限公司, 北京 100085)
供電公司是我國經(jīng)濟(jì)社會(huì)發(fā)展的能源保障,供電服務(wù)專業(yè)學(xué)生為供電公司提供人才支持,是供電公司的后備軍。供電服務(wù)專業(yè)屬于技術(shù)型專業(yè),需要采用先進(jìn)的教學(xué)手段,促使學(xué)生充分理解供電服務(wù)專業(yè)的知識(shí)。許多學(xué)者研究供電服務(wù)知識(shí)標(biāo)簽體系,因構(gòu)建知識(shí)標(biāo)簽的方法使用不當(dāng),導(dǎo)致學(xué)習(xí)效果一般[1]。
在構(gòu)建供電服務(wù)知識(shí)標(biāo)簽體系的過程中,銀宇堃等[2]提出了圖案的方法,以圖案為基礎(chǔ)實(shí)現(xiàn)知識(shí)標(biāo)簽體系構(gòu)建,該方法受圖像信噪比影響,導(dǎo)致標(biāo)簽呈現(xiàn)效果不佳;張璞等[3]提出了標(biāo)簽傳播構(gòu)建方法,采用選取種子詞與候選詞相結(jié)合的方法,實(shí)現(xiàn)知識(shí)標(biāo)簽體系構(gòu)建,由于計(jì)算過程復(fù)雜,導(dǎo)致知識(shí)標(biāo)簽體系構(gòu)建效率低。
以向量的衡量指標(biāo)為維度,多種維度一起生成的被稱為多維,而為了滿足不同人群的需求維度,將知識(shí)實(shí)施差異化維度分類,即可得出最優(yōu)的匹配維度。由于要保障不同主體知識(shí)需求,因此多維本體是構(gòu)建以多個(gè)本體為基礎(chǔ)的知識(shí)標(biāo)簽體系構(gòu)建方法,這種方法已廣泛應(yīng)用在各個(gè)領(lǐng)域。因此本文以多維本體驅(qū)動(dòng)為主構(gòu)建供電服務(wù)專業(yè)多維知識(shí)標(biāo)簽體系,增強(qiáng)供電服務(wù)專業(yè)知識(shí)框架的科學(xué)性,提高供電服務(wù)專業(yè)知識(shí)學(xué)習(xí)效率。
多維本體分為多語言、多領(lǐng)域、多層次的空間模型。領(lǐng)域知識(shí)、通用知識(shí)、動(dòng)態(tài)知識(shí)組成層次維,在層次維對(duì)供電服務(wù)專業(yè)知識(shí)實(shí)施本體建模,動(dòng)態(tài)知識(shí)表示實(shí)體對(duì)象的形式化[4],領(lǐng)域知識(shí)和通用知識(shí)表示靜態(tài)知識(shí)實(shí)施形式化處理,供電服務(wù)專業(yè)知識(shí)涵蓋多領(lǐng)域多語言的知識(shí)共享。在本體知識(shí)上構(gòu)建多維本體空間模型,如圖1所示。

圖1 多維本體空間模型
圖1中,3種本體的具體構(gòu)建方法如下。
(1) 依據(jù)用戶的實(shí)際需求構(gòu)建動(dòng)態(tài)知識(shí)的本體,采用以往網(wǎng)絡(luò)信息資源與知識(shí),由機(jī)器實(shí)現(xiàn)構(gòu)建。動(dòng)態(tài)知識(shí)的本體構(gòu)建過程,如圖2所示。

圖2 動(dòng)態(tài)知識(shí)的本體構(gòu)建過程
圖2中,按照需求得出關(guān)鍵詞集,在互聯(lián)網(wǎng)搜尋與之關(guān)聯(lián)的信息資源,在開放資源庫內(nèi)存入預(yù)處理后信息資源。在本體選擇中[5],采用中文分詞的方式完成語料切分,經(jīng)匹配語言模板獲取候選術(shù)語,并采用TFIDF技術(shù)求解領(lǐng)域相關(guān)性得出本體概念。
利用模板匹配方法得出預(yù)定義關(guān)系集,再與領(lǐng)域知識(shí)、通用知識(shí)相聯(lián)系構(gòu)建關(guān)系集[6]。通過任務(wù)對(duì)象完成對(duì)動(dòng)態(tài)知識(shí)的響應(yīng),提高動(dòng)態(tài)擴(kuò)展。
(2) 通用知識(shí)是供電服務(wù)專業(yè)中最基礎(chǔ)的概念知識(shí),可以提高特定場景和領(lǐng)域知識(shí)構(gòu)建效率。通用知識(shí)的適用性很強(qiáng)[7],從三大本體的通用概念知識(shí)體系中篩選通用概念。
(3) 領(lǐng)域知識(shí)是專業(yè)領(lǐng)域的知識(shí),各領(lǐng)域?qū)崿F(xiàn)共享。領(lǐng)域知識(shí)本體構(gòu)建,通過以往的敘詞表生成各領(lǐng)域的概念分類體系,結(jié)合網(wǎng)絡(luò)維基的頂層知識(shí)修正分類體系,選取網(wǎng)絡(luò)維基內(nèi)實(shí)例知識(shí),構(gòu)建包含大規(guī)模概念知識(shí)、實(shí)例知識(shí)、關(guān)系知識(shí)的各領(lǐng)域知識(shí)體系。
以三個(gè)多維主體為基礎(chǔ)構(gòu)建供電服務(wù)專業(yè)原始多維知識(shí)標(biāo)簽體系,如圖3所示。

圖3 原始多維標(biāo)簽體系結(jié)構(gòu)
由圖3可知,在明確頂層維度后,針對(duì)三大主體分析原始多維標(biāo)簽體系結(jié)構(gòu)。體系中包括領(lǐng)域知識(shí)需求、通用知識(shí)需求、動(dòng)態(tài)知識(shí)需求。動(dòng)態(tài)知識(shí)需求從組織維度、管理客體兩方面分析[8]。
為提高標(biāo)簽體系的精準(zhǔn)度,在多維本體驅(qū)動(dòng)下應(yīng)用在供電服務(wù)專業(yè)多維知識(shí)標(biāo)簽體系構(gòu)建方法,其標(biāo)簽體系構(gòu)建的流程,如圖4所示。

圖4 多維知識(shí)標(biāo)簽體系構(gòu)建方法的流程
由圖4可知,為了生成新的供電服務(wù)專業(yè)多維知識(shí)標(biāo)簽體系,將原始標(biāo)簽作為導(dǎo)航標(biāo)簽,經(jīng)數(shù)據(jù)處理得到標(biāo)簽網(wǎng)頁文本和豐富標(biāo)簽語義[9],分別采用上下位映射、等同映射篩選出標(biāo)簽集中相同標(biāo)簽,融合新的標(biāo)簽樹,完成新的知識(shí)標(biāo)簽體系構(gòu)建。
在數(shù)據(jù)處理環(huán)節(jié),采用逆文檔與詞頻匹配方法完成標(biāo)簽關(guān)鍵詞的提取。標(biāo)簽關(guān)鍵詞權(quán)重計(jì)算如式(1)所示:
wi=gidt×gti
(1)
其中,逆文檔頻率用gidt描述,候選詞i在文本里的詞頻用gti描述。
逆文檔頻率,如式(2)所示:
(2)
其中,候選詞i的文本數(shù)用Di描述,文本總數(shù)用D描述。
等同關(guān)系標(biāo)簽映射主要以附加語義的方法,判斷標(biāo)簽間的關(guān)系[10],用句子向量描述模型,將各標(biāo)簽相對(duì)的網(wǎng)頁標(biāo)題用k表示,標(biāo)簽向量經(jīng)網(wǎng)頁文本語義求出。各標(biāo)題的句子向量用x1,x2,…,xn描述,標(biāo)簽用式(3)描述:
(3)
其中,標(biāo)簽用Xlabel描述。
余弦相似度如式(4):
(4)
其中,基準(zhǔn)標(biāo)簽B的向量用XB描述,待融合標(biāo)簽A的向量用XA描述。兩者呈等同關(guān)系,在閾值小于余弦相似度的條件下呈現(xiàn)。
上下位標(biāo)簽映射用來判斷標(biāo)簽間的關(guān)系。求解全部XB、XA的相關(guān)性,兩者呈上下位關(guān)系是在閾值小于極大相關(guān)性。子標(biāo)簽的余弦相似度用C(XA,XB),C(XA,XB1),…,C(XA,XBn)描述,則標(biāo)簽AB相關(guān)性用式(5)描述:
(5)
標(biāo)簽判斷可通過網(wǎng)頁標(biāo)簽實(shí)現(xiàn),B表示基準(zhǔn)標(biāo)簽,網(wǎng)頁標(biāo)題個(gè)數(shù)用p描述,包含比例用式(6)描述:
(6)
其中,標(biāo)題用q描述。
A、B兩個(gè)標(biāo)簽有上下位關(guān)系,當(dāng)閾值小于包含率時(shí),提取具體關(guān)鍵詞,結(jié)合圖4,即可完成供電服務(wù)專業(yè)多維知識(shí)標(biāo)簽體系構(gòu)建。
本文以某高校供電服務(wù)專業(yè)課程為實(shí)驗(yàn)對(duì)象,構(gòu)建了其知識(shí)標(biāo)簽體系。在該高校原始標(biāo)簽體系內(nèi),選取多個(gè)不同類型供電服務(wù)專業(yè)知識(shí)標(biāo)簽實(shí)施分組,得出測試標(biāo)簽體系,供電服務(wù)專業(yè)知識(shí)標(biāo)簽類型分別用A、B、C、D、E表示,實(shí)驗(yàn)數(shù)據(jù)如表1所示。

表1 標(biāo)簽體系中原始及測試標(biāo)簽數(shù)
測試指標(biāo)如下。
(1) 標(biāo)簽樹枝數(shù)量用MT描述,上下位關(guān)系重合度用式(7)描述:
(7)
其中,測試標(biāo)簽體系中樹枝數(shù)量用MT描述,兩個(gè)體系內(nèi)相同的樹枝數(shù)量用Msame描述。
(2) 設(shè)置融合標(biāo)簽體系中標(biāo)簽數(shù)量用NL表示,標(biāo)簽內(nèi)容相似度指標(biāo)為標(biāo)簽重合度,如式(8)所示:
(8)
其中,相同的標(biāo)簽數(shù)量用Nsame描述。
實(shí)驗(yàn)對(duì)比方法為文獻(xiàn)[2]圖案標(biāo)簽體系構(gòu)建方法、文獻(xiàn)[3]標(biāo)簽傳播的構(gòu)建方法。在實(shí)驗(yàn)數(shù)據(jù)相同的條件下,測試3種方法的標(biāo)簽重構(gòu)性能,通過求解上述測試指標(biāo),比較本文構(gòu)建的測試標(biāo)簽體系即本文方法,比較結(jié)果如表2、表3所示。

表2 3種方法的測試指標(biāo)比較

表3 3種方法時(shí)間頻率比較 單位:s
由表3可知,3種方法的時(shí)間頻率沒有太大差異。由表2可知,與其他2種方法比較,本文方法性能較優(yōu),其標(biāo)簽重合度均值為91.66%、上下位重合度為92.44%,比其他2種方法的測試指標(biāo)分別高出10%、15%,說明本文方法的準(zhǔn)確性較高。
測試3種方法的本體特性,比較結(jié)果如表4所示。

表4 3種方法的本體特性
由表4可知,本文方法的本體特性明顯優(yōu)于其他2種方法,其概念規(guī)模最大、構(gòu)建方式比較靈活、適用度高、擴(kuò)展能力好、語言覆蓋范圍全面,說明本文方法的本體特性性能優(yōu)良。
比較3種方法隨標(biāo)簽數(shù)量變化的正確率變化情況,比較結(jié)果如圖5所示。

圖5 3種方法隨標(biāo)簽數(shù)量變化曲線
由圖5可知,文獻(xiàn)[2]方法隨標(biāo)簽數(shù)量變化正確率波動(dòng)較大,平均正確率為75%,文獻(xiàn)[3]方法隨標(biāo)簽數(shù)量變化正確率呈下降趨勢,而本文方法隨著標(biāo)簽數(shù)量增多,其正確率在92%以上且呈較穩(wěn)定趨勢,說明本文方法的魯棒性較優(yōu)。
將供電服務(wù)專業(yè)課程作為輸入文本,分別采用3種方法對(duì)候選標(biāo)簽詞匯實(shí)施標(biāo)簽關(guān)鍵詞提取,比較結(jié)果如表5所示。
由表5可知,本文方法的標(biāo)簽關(guān)鍵詞提取效果較好,因?yàn)槠鋵⒐╇姺?wù)專業(yè)課程按照關(guān)鍵詞的權(quán)重進(jìn)行優(yōu)化,選取并分類了重要的標(biāo)簽關(guān)鍵詞,對(duì)比諧波源與諧波2個(gè)候選詞,按照其逆文檔與詞頻匹配權(quán)重去除源字,保留諧波作為標(biāo)簽。

表5 3種方法的標(biāo)簽關(guān)鍵詞提取結(jié)果
本文構(gòu)建多語言、多領(lǐng)域、多層次的多維本體空間模型,以多維本體空間模型三個(gè)多維主體為基礎(chǔ),構(gòu)建供電服務(wù)專業(yè)原始多維知識(shí)標(biāo)簽體系,經(jīng)數(shù)據(jù)處理、標(biāo)簽映射、數(shù)據(jù)融合等方法實(shí)現(xiàn)新的知識(shí)體系構(gòu)建,其概念規(guī)模最大、構(gòu)建方式比較靈活、適用度高、擴(kuò)展能力好、語言覆蓋范圍全面,本體特性較好,標(biāo)簽構(gòu)建準(zhǔn)確性高。