馬占海,張俊超,田光欣
(國(guó)網(wǎng)青海省電力公司信息通信公司,青海西寧 810008)
人機(jī)對(duì)話系統(tǒng)是一種新型的計(jì)算機(jī)工作模式,用戶對(duì)象可通過(guò)終端顯示屏幕掌握核心計(jì)算機(jī)的運(yùn)轉(zhuǎn)情況,且二者之間始終以對(duì)話的方式進(jìn)行信息溝通。用戶對(duì)象不但可以借助計(jì)算機(jī)終端來(lái)使用機(jī)器,還能夠向核心網(wǎng)絡(luò)發(fā)出明確的指令要求。常見(jiàn)的對(duì)話語(yǔ)言編程方法包含LISP、APL、BASIC 等幾種形式,一般來(lái)說(shuō),由于所處文本環(huán)境的不同,主機(jī)元件所采取的編程模式也會(huì)有所不同[1-2]。電網(wǎng)人機(jī)對(duì)話系統(tǒng)是同時(shí)聯(lián)合電網(wǎng)主機(jī)與常規(guī)人機(jī)對(duì)話系統(tǒng)的文本信息處理體系,能夠準(zhǔn)確分析用戶對(duì)象所處的語(yǔ)言環(huán)境,并可以在電力主機(jī)元件的作用下,完成對(duì)數(shù)據(jù)信息參量的按需處理。
在電網(wǎng)人機(jī)對(duì)話系統(tǒng)中,隨著用戶對(duì)象所需信息的改變,與之相關(guān)的文本意圖傳輸行為也會(huì)不斷變化。這也是導(dǎo)致電量信號(hào)出現(xiàn)過(guò)度消耗情況的主要原因。傳統(tǒng)多級(jí)負(fù)荷聚類型識(shí)別方法通過(guò)分別查詢上下文信息參量的方式,對(duì)短文本用戶的行為意圖進(jìn)行分類。再借助關(guān)聯(lián)信道組織,將這些數(shù)據(jù)信息匹配至既定電力節(jié)點(diǎn)中,從而實(shí)現(xiàn)對(duì)用戶意圖的識(shí)別與處理[3]。然而該方法的實(shí)用能力有限,并不能解決現(xiàn)有的電量信號(hào)過(guò)度消耗的問(wèn)題。為避免上述情況的發(fā)生,設(shè)計(jì)一種新型的電網(wǎng)人機(jī)對(duì)話系統(tǒng)短文本用戶意圖自動(dòng)識(shí)別方法,并通過(guò)對(duì)比實(shí)驗(yàn)的方式,突出該方法的實(shí)際應(yīng)用價(jià)值。
電網(wǎng)人機(jī)對(duì)話系統(tǒng)以Hadoop 框架作為搭建基礎(chǔ),在短文本字符串的作用下,對(duì)短文本用戶的行為意圖進(jìn)行分析與處理。
Hadoop 框架作為電網(wǎng)人機(jī)對(duì)話系統(tǒng)的核心組成結(jié)構(gòu),可以在分析電力文本數(shù)據(jù)信息的同時(shí),借助多個(gè)用戶行為意圖節(jié)點(diǎn),對(duì)這些信息參量進(jìn)行分布處理,并能夠聯(lián)合既定電網(wǎng)人機(jī)對(duì)話組織,完成對(duì)短文本數(shù)據(jù)信息的準(zhǔn)確識(shí)別[4]。在電網(wǎng)人機(jī)對(duì)話系統(tǒng)中,與用戶對(duì)象相關(guān)的文本數(shù)據(jù)始終保持散亂分布的存在形式,且由于行為意圖節(jié)點(diǎn)的存在,這些文本數(shù)據(jù)在被整合處理的同時(shí),能夠繼續(xù)保持其原有傳輸形式,不但能夠滿足電網(wǎng)人機(jī)對(duì)話組織對(duì)于信息參量的分辨需求,還能使得最終所獲用戶意圖識(shí)別結(jié)果的準(zhǔn)確性水平大幅提升[5-6]。在Hadoop 框架中,電力文本數(shù)據(jù)的傳輸行為只能由用戶意圖節(jié)點(diǎn)指向電網(wǎng)人機(jī)對(duì)話組織。
由于信息與信息節(jié)點(diǎn)之間的供求關(guān)系不同,所以與短文本字符串相關(guān)的數(shù)據(jù)參量匹配結(jié)果也會(huì)有所不同[7]。設(shè)E1、E2、…、En表示n個(gè)不同的電網(wǎng)人機(jī)對(duì)話系統(tǒng)短文本信息定義項(xiàng),n表示數(shù)據(jù)信息參量的最大編碼次數(shù),在不考慮其他影響條件的情況下,E1≠E2≠…≠En的不等式條件恒成立。β表示既定的用戶意圖文本提取系數(shù),表示n個(gè)短文本信息定義項(xiàng)的均值結(jié)果。聯(lián)立上述物理量,可將電網(wǎng)人機(jī)對(duì)話系統(tǒng)中的短文本字符串匹配表達(dá)式定義為:
電量信號(hào)傳輸意圖分析也稱針對(duì)電網(wǎng)人機(jī)對(duì)話系統(tǒng)的短文本用戶意圖行為分析,在已知短文本字符串匹配結(jié)果的前提下,待處理文本信息的堆積量越大,電網(wǎng)主機(jī)中用戶行為意圖的表現(xiàn)情況也就越明顯[9-10]。規(guī)定u1、u2表示兩個(gè)隨機(jī)選取的電量信號(hào)節(jié)點(diǎn)編碼系數(shù),在電網(wǎng)人機(jī)對(duì)話系統(tǒng)中,u2>u1的不等式條件恒成立。s表示電網(wǎng)主機(jī)對(duì)于短文本用戶意圖信息的判別系數(shù),在實(shí)際應(yīng)用過(guò)程中,該項(xiàng)物理指標(biāo)的最小取值結(jié)果只能等于自然數(shù)1。在上述物理量的支持下,聯(lián)立式(1),可將電量信號(hào)的傳輸意圖分析結(jié)果表示為:
其中,表示電力信號(hào)的傳輸意圖趨向指標(biāo),d表示與電網(wǎng)人機(jī)對(duì)話系統(tǒng)匹配的傳輸意圖向量,ΔT表示電力用戶意圖信息的單位識(shí)別時(shí)長(zhǎng)。由于電網(wǎng)人機(jī)對(duì)話系統(tǒng)的負(fù)載能力有限,所以電量信號(hào)傳輸意圖的單次行為強(qiáng)度不宜過(guò)大。
在電網(wǎng)人機(jī)對(duì)話系統(tǒng)中,按照用戶意圖信息相關(guān)度估算、識(shí)別窗口寬度計(jì)算、長(zhǎng)度計(jì)算的處理流程,完成電網(wǎng)短文本用戶意圖自動(dòng)識(shí)別方法的設(shè)計(jì)與應(yīng)用。
用戶意圖信息相關(guān)度是指在電網(wǎng)人機(jī)對(duì)話系統(tǒng)中,兩個(gè)短文本用戶意圖行為數(shù)據(jù)之間出現(xiàn)完全相似的可能性[11]。對(duì)于自動(dòng)識(shí)別算法而言,兩個(gè)短文本用戶意圖行為數(shù)據(jù)之間的相似性程度越高,則表示電網(wǎng)人機(jī)對(duì)話系統(tǒng)中兩個(gè)用戶對(duì)象的行為意圖越相關(guān),因此該項(xiàng)指標(biāo)參量可作為衡量識(shí)別算法應(yīng)用能力的關(guān)鍵物理?xiàng)l件[12]。設(shè)λ表示基于電網(wǎng)人機(jī)對(duì)話系統(tǒng)的短文本意圖信息判別系數(shù),χ表示既定的信息參量標(biāo)度值,一般來(lái)說(shuō),指標(biāo)λ的取值結(jié)果恒大于指標(biāo)χ。表示短文本用戶意圖行為數(shù)據(jù)的識(shí)別標(biāo)量結(jié)果,δ表示既定的識(shí)別權(quán)限指標(biāo)。聯(lián)立上述物理量,可將用戶意圖信息相關(guān)度估算表達(dá)式定義為:
用戶意圖信息相關(guān)度估算結(jié)果可作為核心參考條件,為后續(xù)識(shí)別窗口寬度與長(zhǎng)度值的計(jì)算提供取值約束作用。
識(shí)別窗口是具有自動(dòng)化能力的短文本用戶意圖數(shù)據(jù)識(shí)別結(jié)構(gòu),其運(yùn)行能力完全符合電網(wǎng)人機(jī)對(duì)話系統(tǒng)的規(guī)劃標(biāo)準(zhǔn),能夠在保證數(shù)據(jù)信息傳輸完整性的同時(shí),獲得精準(zhǔn)的信息參量識(shí)別結(jié)果[13]。
識(shí)別窗口寬度是與識(shí)別窗口橫向覆蓋面積相關(guān)的物理系數(shù)項(xiàng)指標(biāo),一般來(lái)說(shuō),該項(xiàng)系數(shù)參量的取值結(jié)果越大,則表示識(shí)別窗口在單位時(shí)間內(nèi)所能容納的短文本用戶意圖數(shù)據(jù)越多,反之則越少[14]。
設(shè)→j表示識(shí)別窗口的寬度法向量,v1、v2表示兩個(gè)不同的窗口結(jié)構(gòu)體橫向移動(dòng)速率值,μ表示短文本用戶意圖數(shù)據(jù)的橫向識(shí)別標(biāo)度值,表示短文本用戶意圖數(shù)據(jù)的橫向分布特征值,γ表示橫向分布指標(biāo)。聯(lián)立上述物理量,可將識(shí)別窗口寬度計(jì)算表達(dá)式定義為:
電網(wǎng)人機(jī)對(duì)話系統(tǒng)短文本用戶意圖自動(dòng)識(shí)別指令的制定,必須參考識(shí)別窗口的寬度計(jì)算表達(dá)式。
識(shí)別窗口長(zhǎng)度是與識(shí)別窗口縱向覆蓋面積相關(guān)的物理系數(shù)項(xiàng)指標(biāo),一般來(lái)說(shuō),該項(xiàng)系數(shù)參量的取值結(jié)果越大,則表示識(shí)別窗口在單位時(shí)間內(nèi)所能容納的短文本用戶意圖數(shù)據(jù)標(biāo)度越長(zhǎng),反之則越短[15]。
設(shè)表示短文本用戶意圖數(shù)據(jù)的縱向分布特征值,γ2表示縱向分布指標(biāo),表示單位時(shí)間內(nèi)電網(wǎng)人機(jī)對(duì)話系統(tǒng)所能識(shí)別的短文本用戶意圖信息均值,ξ表示自動(dòng)化識(shí)別權(quán)限指征,表示待識(shí)別信息參量的標(biāo)度參量。在上述物理量的支持下,聯(lián)立式(3),可將識(shí)別窗口長(zhǎng)度計(jì)算表達(dá)式定義為:
在實(shí)際應(yīng)用過(guò)程中,識(shí)別窗口長(zhǎng)度值指標(biāo)與寬度指標(biāo)具有相同的約束作用能力,因此電網(wǎng)人機(jī)對(duì)話系統(tǒng)短文本用戶意圖自動(dòng)識(shí)別方法的設(shè)計(jì)必須對(duì)這兩項(xiàng)指標(biāo)參量進(jìn)行同時(shí)參考[16]。
為避免人機(jī)對(duì)話系統(tǒng)中的電量傳輸信號(hào)出現(xiàn)過(guò)度消耗的情況,按照如下步驟設(shè)計(jì)對(duì)比實(shí)驗(yàn):1)將新型短文本用戶意圖自動(dòng)識(shí)別方法的執(zhí)行指令輸入電網(wǎng)人機(jī)對(duì)話系統(tǒng)中,并將所得數(shù)據(jù)指標(biāo)作為實(shí)驗(yàn)組變量。2)將多級(jí)負(fù)荷聚類型識(shí)別方法的執(zhí)行指令輸入電網(wǎng)人機(jī)對(duì)話系統(tǒng)中,將所得數(shù)據(jù)指標(biāo)作為對(duì)照組變量。3)將實(shí)驗(yàn)組、對(duì)照組指標(biāo)參量與理想數(shù)值進(jìn)行對(duì)比。4)分析在實(shí)驗(yàn)組、對(duì)照組應(yīng)用方法作用下,相關(guān)實(shí)驗(yàn)指標(biāo)的具體數(shù)值變化情況。
在電網(wǎng)人機(jī)對(duì)話系統(tǒng)中,隨著用戶意圖行為的改變,電量信號(hào)的消耗水平會(huì)呈現(xiàn)出明顯的數(shù)值差異。一般來(lái)說(shuō),電量信號(hào)的消耗量越大,則表示用戶意圖行為數(shù)據(jù)的累積量越大,此時(shí)用戶主機(jī)所面臨的識(shí)別任務(wù)相對(duì)較為繁重,對(duì)于短文本信息的識(shí)別準(zhǔn)確性也就相對(duì)較低;相反,若電量信號(hào)的消耗量較小,則表示用戶意圖行為數(shù)據(jù)的累積量較小,此時(shí)用戶主機(jī)所面臨的識(shí)別任務(wù)相對(duì)較為輕松,對(duì)于短文本信息的識(shí)別準(zhǔn)確性也就相對(duì)較高。
圖1 反映了電量信號(hào)消耗水平的理想數(shù)值變化情況。

圖1 電量信號(hào)的理想消耗水平
分析圖1 可知,在10~30 min 的實(shí)驗(yàn)時(shí)間內(nèi),電信號(hào)理想消耗量呈現(xiàn)出不斷增大的數(shù)值變化狀態(tài);在30~40 min 的實(shí)驗(yàn)時(shí)間內(nèi),電信號(hào)理想消耗量則呈現(xiàn)出較為穩(wěn)定的數(shù)值存在狀態(tài);在40~50 min 的實(shí)驗(yàn)時(shí)間內(nèi),電信號(hào)理想消耗量雖然有一定程度的下降,但整體下降幅度較小,基本可以忽略不計(jì);在50~80 min 的實(shí)驗(yàn)時(shí)間內(nèi),電信號(hào)理想消耗量數(shù)值繼續(xù)增大;80~90 min 的實(shí)驗(yàn)時(shí)間內(nèi),電信號(hào)理想消耗量數(shù)值先呈現(xiàn)上升趨勢(shì),再小幅下降,整體變化趨勢(shì)呈現(xiàn)上升遠(yuǎn)大于下降的情況。
表1 記錄了實(shí)驗(yàn)組、對(duì)照組電量信號(hào)消耗水平的實(shí)際數(shù)值變化情況。

表1 電量信號(hào)的實(shí)際消耗水平
實(shí)驗(yàn)組:在整個(gè)實(shí)驗(yàn)過(guò)程中,實(shí)驗(yàn)組電信號(hào)消耗量的變化情況基本與理想數(shù)值變化趨勢(shì)保持一致,當(dāng)實(shí)驗(yàn)時(shí)間處于10~40 min 之間時(shí),實(shí)驗(yàn)組數(shù)值雖然略大于理想數(shù)值,但二者之間的差值水平極低;從第50 min 開(kāi)始,實(shí)驗(yàn)組電信號(hào)消耗量數(shù)值始終小于理想數(shù)值,直至實(shí)驗(yàn)結(jié)束,實(shí)驗(yàn)組電信號(hào)消耗量最大值也僅達(dá)到了105.8×107kW·h,與理想最大值110.2×107kW·h 相比,下降了4.4×107kW·h。
對(duì)照組:在整個(gè)實(shí)驗(yàn)過(guò)程中,對(duì)照組電信號(hào)消耗量始終保持不斷增大的數(shù)值變化趨勢(shì),初始數(shù)值25.0×107kW·h與理想初始數(shù)值22.3×107kW·h相比,上升了2.7×107kW·h;全局最大值115.9×107kW·h與理想最大值110.2×107kW·h 相比,上升了5.7×107kW·h,遠(yuǎn)高于實(shí)驗(yàn)組均值水平。
綜上可知該次實(shí)驗(yàn)結(jié)果如下:1)在新型短文本用戶意圖自動(dòng)識(shí)別方法的作用下,電網(wǎng)人機(jī)對(duì)話系統(tǒng)中的電量信號(hào)消耗情況得到了較好控制。2)與多級(jí)負(fù)荷聚類型識(shí)別方法相比,新型應(yīng)用方法能夠較好應(yīng)對(duì)用戶意圖,避免其用電行為出現(xiàn)過(guò)度表現(xiàn)的情況,這對(duì)于輔助用戶主機(jī)精準(zhǔn)識(shí)別短文本信息能夠起到較強(qiáng)的促進(jìn)性影響作用。
電網(wǎng)人機(jī)對(duì)話系統(tǒng)短文本用戶意圖自動(dòng)識(shí)別方法在傳統(tǒng)多級(jí)負(fù)荷聚類型識(shí)別方法的基礎(chǔ)上,聯(lián)合Hadoop 框架,對(duì)短文本字符串進(jìn)行匹配處理。又通過(guò)分析電量信號(hào)傳輸意圖的方式,確定信息參量之間的相關(guān)度水平,從而得到更為準(zhǔn)確的識(shí)別窗口寬度與長(zhǎng)度計(jì)算值結(jié)果。從對(duì)比實(shí)驗(yàn)的角度來(lái)看,對(duì)于電網(wǎng)人機(jī)對(duì)話系統(tǒng)而言,隨著用戶意圖行為的改變,電量信號(hào)的消耗水平得到了較好控制,能夠得到更為準(zhǔn)確的短文本信息意圖識(shí)別與分析結(jié)果。