從用戶需求語句建立問題可拓模型的研究

2015-02-24 01:44:34王定橋李衛(wèi)華楊春燕

智能系統(tǒng)學(xué)報(bào) 2015年6期

關(guān)鍵詞：用戶信息模型

王定橋，李衛(wèi)華，楊春燕

(1.廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東廣州 510006; 2.廣東工業(yè)大學(xué) 可拓學(xué)與創(chuàng)新方法研究所,廣東廣州 510006)

從用戶需求語句建立問題可拓模型的研究

王定橋1，李衛(wèi)華1，楊春燕2

(1.廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東廣州 510006; 2.廣東工業(yè)大學(xué) 可拓學(xué)與創(chuàng)新方法研究所,廣東廣州 510006)

摘要：準(zhǔn)確地建立待解決問題的可拓模型是可拓策略生成的關(guān)鍵步驟。目前的可拓策略生成系統(tǒng)在建立可拓模型時(shí)因自然語言理解的困難，未能充分理解用戶需求，所以較難自動(dòng)建立問題的可拓模型。提出了解析用戶自然語言需求語句、并自動(dòng)建立可拓模型的方法。該方法的核心包括4步：1)對用戶需求語句進(jìn)行組塊分析得到短語序列；2)對短語序列進(jìn)行分類；3)使用匹配規(guī)則抽取分類后的短語，得到便于計(jì)算機(jī)處理的需求信息；4)結(jié)合數(shù)據(jù)庫技術(shù)進(jìn)行可拓模型的建立。以租房問題為案例，實(shí)現(xiàn)了該方法。實(shí)驗(yàn)結(jié)果表明，該方法能較好地理解用戶需求信息并成功建立租房問題可拓模型。

關(guān)鍵詞：可拓學(xué)；可拓模型；可拓策略生成；信息抽取；分類在短語對應(yīng)的原文中獲取表達(dá)這類信息的，通過有限狀態(tài)機(jī)，即可獲取用戶真正要表達(dá)的量值。這種方法僅在用戶將關(guān)鍵詞混在多個(gè)量值之間，并且不加任何分隔符的情形下失效。在實(shí)際應(yīng)用中這種情形出現(xiàn)的概率很小。

中文引用格式：王定橋，李衛(wèi)華，楊春燕. 從用戶需求語句建立問題可拓模型的研究[J]. 智能系統(tǒng)學(xué)報(bào)， 2015, 10(6): 865-871.

矛盾問題是指在現(xiàn)有條件下無法實(shí)現(xiàn)人們要達(dá)到的目標(biāo)的問題。矛盾問題智能化處理的研究對現(xiàn)代科學(xué)的發(fā)展具有重要意義[1]。可拓學(xué)研究的矛盾問題主要分為不相容問題和對立問題，本文主要討論不相容問題。

解決不相容問題，一般包括6個(gè)步驟[1]，其中第1個(gè)步驟就是建立問題的可拓模型。因此，要借助計(jì)算機(jī)智能化地處理不相容問題，首要的任務(wù)是準(zhǔn)確地建立問題的可拓模型。

目前，建立可拓模型主要通過2種方式：1)在人充分理解問題的基礎(chǔ)上，利用形式化符號手工建立。這種方式主要由少數(shù)專家和研究人員使用，對可拓學(xué)專業(yè)知識要求較高，不適合廣大用戶；2)通過可拓策略生成系統(tǒng)的界面輸入問題相關(guān)的參數(shù)，來輔助系統(tǒng)建模。例如早期研究的自助游可拓策略生成系統(tǒng)[2]、租房可拓策略生成系統(tǒng)[3]、求職問題可拓策略生成系統(tǒng)[4]等都是采用這種方式。但使用這種方式時(shí)存在2個(gè)問題：1)當(dāng)參數(shù)過多時(shí)，輸入界面通用設(shè)計(jì)變得困難；2)如果輸入文字稍長，系統(tǒng)難以快速理解用戶問題，建模效率低。

1關(guān)鍵技術(shù)及解決思路

1.1問題可拓模型建立所涉及到的技術(shù)

建立不相容問題的可拓模型，實(shí)際上是一個(gè)收集與問題P相關(guān)的信息，然后界定問題的目標(biāo)G和條件L，形成可拓模型P = GL的過程。其中主要涉及到以下技術(shù)：

1)信息抽取技術(shù)

信息抽取技術(shù)是指從一段文本中抽取指定的事件、事實(shí)等信息，形成結(jié)構(gòu)化的數(shù)據(jù)并存入一個(gè)數(shù)據(jù)庫，供用戶查詢和使用的過程[5]。從用戶需求語句，抽取屬性及量值，實(shí)際上就是一個(gè)信息抽取的過程。

2)領(lǐng)域本體

領(lǐng)域本體是用于描述特定領(lǐng)域知識的一種專門本體。它給出了領(lǐng)域?qū)嶓w概念、領(lǐng)域?qū)傩愿拍睢㈩I(lǐng)域?qū)傩灾导跋嗷リP(guān)系，以及該領(lǐng)域所具有的特性和規(guī)律的一種形式化描述[6]。實(shí)際上在可拓策略生成系統(tǒng)整個(gè)過程中，都需要借助領(lǐng)域本體知識。在建立模型時(shí)領(lǐng)域本體能夠?yàn)槌槿傩缘姆N類、量值范圍、量值單位提供一致的指導(dǎo)。

3)數(shù)據(jù)庫技術(shù)

可拓策略生成系統(tǒng)需要借助數(shù)據(jù)庫技術(shù)，存儲(chǔ)基礎(chǔ)數(shù)據(jù)、知識庫、規(guī)則庫等內(nèi)容。在建立模型時(shí)用戶提供的需求語句可能只提供了目標(biāo)或條件之中的一個(gè)，或者提供了不完整的目標(biāo)和條件，這些情況下需要利用數(shù)據(jù)庫中數(shù)據(jù)對可拓模型進(jìn)行補(bǔ)充和完善。

1.2用戶需求語句信息抽取的主要內(nèi)容

當(dāng)前信息抽取還只是面向特定領(lǐng)域開展，能夠真正實(shí)現(xiàn)大規(guī)模應(yīng)用的信息抽取系統(tǒng)仍然未出現(xiàn)[7]。知網(wǎng)的中文信息語義處理技術(shù)[8]有一定的參考價(jià)值,但仍然不能直接用于建立可拓模型。在實(shí)際應(yīng)用中，用戶表達(dá)的語句通常會(huì)出現(xiàn)不完全合乎語法、信息省略、包含錯(cuò)別字、簡寫、歧義等情況，為信息抽取增加了難度。因此，結(jié)合實(shí)際問題需要，本文將從用戶需求語句主要抽取的信息分為4類，如下：

1)可量化的量值

這類信息是指，用戶表達(dá)的明確的屬性和量值。例如:

例1一個(gè)人想在沙坪壩租房，只租1個(gè)月，有空調(diào)、衛(wèi)生間，房租大概350元。

這個(gè)語句中用戶給出的區(qū)域、租金、租期和配套設(shè)施都屬于可量化的量值。

2)抽象的量值

自然語言表達(dá)中通常會(huì)不自覺地出現(xiàn)一些抽象描述，當(dāng)這些描述與可拓策略生成系統(tǒng)期望的量值類型不一致時(shí)，仍然需要抽取，以便做出更合理的決策。例如:

例2我要在大連市內(nèi)找工作，想租個(gè)房子,月租便宜點(diǎn)、交通方便點(diǎn)的。

這里用戶提供的租金描述為便宜的、交通狀況為方便的，都屬于抽象量值，而可拓策略生成系統(tǒng)實(shí)際需要的為數(shù)量值。

3)優(yōu)先級信息

用戶語句中很可能通過“必須”、“一定要”、“最好”等關(guān)鍵字,來表達(dá)他的特殊需求，例如:

例3想在濱州市新北中附近租房。便宜點(diǎn)的，合租也可以。一定要有暖氣。

用戶表達(dá)的需求“一定要有暖氣”可作為可拓策略生成的一個(gè)篩選條件。

4)邏輯關(guān)系信息

邏輯關(guān)系，主要包括用戶表達(dá)的并列、或者、否定、反義等邏輯關(guān)系。例如:

例4我要在南寧市內(nèi)租房，一室或者二室都可以,500元以內(nèi),不要中介的,安全的。

第1類信息的抽取，是一個(gè)命名實(shí)體識別的過程。命名實(shí)體識別 (named entity recognition, NER)的主要任務(wù)是識別出文本中的人名、地名等專有名稱和有意義的時(shí)間、日期等數(shù)量短語并加以歸類[9]。實(shí)際研究中，命名實(shí)體識別的對象根據(jù)不同應(yīng)用而有所改變，例如在醫(yī)學(xué)文本中識別生物命名實(shí)體[10]、中文旅游景點(diǎn)的識別[11]等。目前命名實(shí)體識別主要的方法包括:基于規(guī)則和詞典的方法、基于統(tǒng)計(jì)的方法、二者混合的方法。文獻(xiàn)[12]對比并指出了各個(gè)方法的優(yōu)點(diǎn)和局限。

上述第2類信息的抽取是一個(gè)分類的過程。對于用戶提供的不夠具體的量值，首先確定其描述的內(nèi)容屬于什么屬性，然后可以按2種方式處理。一種是為抽象描述提供預(yù)設(shè)值，例如為租金構(gòu)造離散函數(shù)，根據(jù)值域分為便宜、一般、高價(jià)3個(gè)等級，這樣用戶提供的抽象值也可以量化。另一種是利用抽取的抽象值，指導(dǎo)后續(xù)的人機(jī)交互過程。

上述第3類和第4類信息，主要是在確定了屬性和量值后，在這個(gè)量值所在的上下文環(huán)境中，通過有限狀態(tài)機(jī)實(shí)現(xiàn)。構(gòu)造一個(gè)包含表達(dá)優(yōu)先級、反義這類信息的關(guān)鍵詞的詞典，通過有限狀態(tài)機(jī)中狀態(tài)之間轉(zhuǎn)移來實(shí)現(xiàn)。例如量詞短語“1 000元”所在上下文為“租金超過1 000元的就不要了”,首先獲取的量值1 000元，通過輸入單詞“超過”和“不要”，量值轉(zhuǎn)換為最終的區(qū)間值[0,1 000]。

1.3問題解決思路

在處理具體問題的用戶需求語句時(shí)，時(shí)間、貨幣、日期等實(shí)體占據(jù)很大比例，其識別比較簡單，可以在分類后采用模式匹配方式實(shí)現(xiàn)；而其他實(shí)體類數(shù)量比較少，識別比較困難。針對這一情況，本文決定采用混合的方法，即分類和規(guī)則匹配結(jié)合的方法來完成屬性和量值的抽取。文獻(xiàn)[13]中采用混合的方法提高了命名實(shí)體識別的準(zhǔn)確率和召回率。受到此方法的啟示，本文從用戶需求語句中提取信息時(shí),先對用戶語句進(jìn)行組塊分析獲取短語序列；然后對短語序列進(jìn)行分類，通過對分類后的短語使用規(guī)則匹配獲取屬性和量值；最后，使用這些屬性和量值并結(jié)合數(shù)據(jù)庫技術(shù)建立問題的可拓模型。

2建立可拓模型的步驟

建立可拓模型的處理流程如圖1所示。

圖1　建立可拓模型的流程圖Fig.1　Steps to build extension model

2.1預(yù)處理

預(yù)處理的主要目的是為了簡化后續(xù)處理。這一階段完成工作包括:過濾、替換、數(shù)據(jù)格式調(diào)整、分詞。過濾主要是過濾客氣詞(例如“請問”)、語氣詞(例如“急求”)、詢問相關(guān)詞(例如“有沒有”)。替換包括錯(cuò)別字替換(例如“500一下”替換為“500以下”)和同義詞替換(例如“旁邊”、“周圍”等替換為“附近”)。數(shù)據(jù)格式調(diào)整，包括數(shù)值都使用數(shù)字表示，數(shù)值范圍調(diào)整為統(tǒng)一格式。分詞時(shí)保留原句中的逗號等分隔符，將長語句分割為短語句，得到多個(gè)短語句的分詞序列。

2.2組塊分析

組塊是一種語法結(jié)構(gòu),是符合一定語法功能的非遞歸短語[14]。組塊分析包括組塊的劃分和識別，也就是識別出語句中像動(dòng)詞短語、形容詞短語這類短語的過程。本文借助Stanford Parser來完成組塊分析。Stanford Parser中文解析器是基于Chinese Treebank的，具體的組塊標(biāo)記可參考文獻(xiàn)[15]。

在實(shí)驗(yàn)的過程中，發(fā)現(xiàn)組塊切分的粒度，對于抽取的信息數(shù)量有較大影響，尤其是當(dāng)用戶語句中量值信息密度較大時(shí)。

例52個(gè)800塊以內(nèi)的單間。

預(yù)處理后形成的語義樹，如圖2所示。在此片段中，需要抽取包括房間數(shù)量(兩間)，租金(800塊以內(nèi))以及房子樣式(單間)在內(nèi)的3個(gè)屬性和量值。如果僅切分為一個(gè)NP短語，那么后續(xù)階段處理時(shí)可能漏掉屬性；而切分為QP、DNP和NP，借助上下文信息，則能很好地捕獲3個(gè)屬性信息。

圖2　例5對應(yīng)的語法樹Fig.2　The parse tree of the fifth example

Chinese Treebank提供了17個(gè)短語標(biāo)記，其中CP、IP和UCP粒度過大，需要處理其內(nèi)部節(jié)點(diǎn)；PRN、LST和DP一般不出現(xiàn)在用戶需求語句中，不予處理；CLP類型需要處理其上級QP短語，VP、DNP、DVP需要處理其內(nèi)部節(jié)點(diǎn)；FRAG是不能構(gòu)建完整結(jié)構(gòu)的片段元素，也需要處理其內(nèi)部節(jié)點(diǎn)；主要處理的類型包括PP、QP、NP、LCP、ADJP、ADVP 6種短語。

6種主要短語中，最復(fù)雜的是NP。NP分為簡單名詞短語和復(fù)合名詞短語。簡單名詞短語由單個(gè)普通名詞NN、專有NR、時(shí)間名詞NT構(gòu)成；復(fù)和名詞短語的情況主要包括5種情況，QP-NN復(fù)合(例如“一個(gè)月”)、NN-NN復(fù)合(例如“個(gè)人房源”)、NN-CC-NN復(fù)合(例如“空調(diào)和洗衣機(jī)”)、多個(gè)時(shí)間名詞復(fù)合(例如“3月29日”)，以及NR與若干個(gè)NN復(fù)合(例如“北京海淀區(qū)附近”)。

根據(jù)上述分析，采用自底向上的搜索方法來獲取短語序列，實(shí)現(xiàn)偽代碼如下所示：

getPhraseList(Tree root,List phList) {

root = pruneTree(root);leaves = root.leaves;

while(!leaves.isEmpty()) {

curLeave, tNode = leaves[0], null

p2= curLeave.ancestor(2, root);

switch(p2.label) {

case "QP":

tNode=handleQP(root,p2,phList);break;

case "NP":

tNode=handleNP(root,p2, phList);break;

case "LCP":

tNode=handleLCP(root,p2, phList);break;

case "ADJP","PP","ADVP":

phList.add(chToStr(p2.label,p2);

tNode=p2;break;

default:

handleDefault();break;

}

if(tNode!=null)

leaves.remove(tNode.getLeaves());

else leaves.remove(curLeave);

其中pruneTree完成語法樹的剪枝工作，移除SP、PN、PU等標(biāo)記的節(jié)點(diǎn)，移除一些常見動(dòng)詞(例如“想”)，副詞AD和形容詞JJ僅保留詞典中存在的詞；ancestor為從當(dāng)前節(jié)點(diǎn)向上獲取父節(jié)點(diǎn)，參數(shù)為向上查找層數(shù)。handelDefault處理的是默認(rèn)情況，默認(rèn)情況下僅處理包括動(dòng)詞VV，形容詞VA，名詞NN這些單詞。對于這類詞，不使用包含它們的父節(jié)點(diǎn)類型標(biāo)記它們，而是直接使用它的詞性作為標(biāo)記，將他們作為其他短語的上下文環(huán)境保留起來，以便于后續(xù)的分類工作。handleQP、handleNP、handleLCP3個(gè)函數(shù)分別處理QP、NP、LCP短語。給定例句：

例6一個(gè)人想在鄭州中央商務(wù)區(qū)附近租個(gè)350塊左右單間。

得到短語序列：[QP:一個(gè)/CD, NN:人/NN, PP:在/P 鄭州/NR 中央/NN 商務(wù)區(qū)/NN, VV:租/VV, QP:個(gè)/M, LCP:350/CD 塊/M 左右/LC, NN:單間/NN]。

2.3 分類

使用分類算法的關(guān)鍵是找到有效的特征向量。本文選取的特征包括：短語類型，包含測試特征，以及詞或者詞性特征。包含測試特征是對短語是否包含某類詞，進(jìn)行測試而得到的整型值。不同短語測試后的特征個(gè)數(shù)也不統(tǒng)一，因此把包含測試特征附加到短語類型上，作為一個(gè)特征。共選取了6個(gè)特征用于分類，如表1所示。

表1　用于分類的特征向量

包含測試特征中，連詞是指標(biāo)記為CC的單詞，序數(shù)詞是標(biāo)記為OD的單詞,時(shí)間是指標(biāo)記為NT的單詞，數(shù)詞是指CD或者OD的單詞。包含地址測試需要借助分詞系統(tǒng)完成，使用單詞的詞性測試其是否屬于地址類詞性。

需要注意，某些單個(gè)NN(例如“單間”)、VA(例如“便宜”)、VV(例如“合租”)本身就能表達(dá)一個(gè)量值，用戶很可能單獨(dú)使用它們來表達(dá)需求，因此，需要將這類詞記錄在詞典中。在遇到這類詞時(shí)，將其添加到分類任務(wù)中，這類單詞的特征列在表1的末尾3行。

PP短語中，如果末尾詞是普通名詞則使用單詞本身，否則使用其詞性。包含單個(gè)NN的NP，將以NN標(biāo)記獨(dú)立處理。對于其他NP，如果包含地址或日期，名詞1和名詞2置為空。對于不包含地址或日期的復(fù)合名詞短語，需要特別處理。2.2節(jié)中提到的NN-NN和NN-CC-NN類短語，將其2個(gè)NN作為名詞1和名詞2填充；NR與若干NN復(fù)合的情形，將NR與NN連成一個(gè)詞，作為名詞1填充，名詞2置為空。

在有監(jiān)督的分類器訓(xùn)練的過程中，根據(jù)問題和關(guān)注的屬性，使用不同的標(biāo)簽。與問題無關(guān)的短語或詞，統(tǒng)一標(biāo)記為無關(guān)類，在后期過濾掉這些內(nèi)容。使用訓(xùn)練后得到的分類器，對短語序列分類，并合并相鄰的同類標(biāo)簽，得到最終分類后的短語序列。

2.4 量值提取

對分類后的短語，針對每一類別，建立一系列匹配規(guī)則來抽取量值。匹配時(shí)間和數(shù)字類表達(dá)式的規(guī)則比較通用；對于名詞、動(dòng)詞、形容詞等可以根據(jù)分類結(jié)果，借助詞典來更準(zhǔn)確地確定邊界。

例如租房問題中，匹配區(qū)域的規(guī)則,用正則表達(dá)式書寫并按照優(yōu)先級列出如下:

rule 1:(在?)(.*)(附近)

rule 2:(在|靠近)?(.*)(租)

rule 3:(離|靠|距)(.*)(近)

rule 4:(在?)(.*)(環(huán))

rule 5:(在?)(地鐵|公交)(.*)(線|路)

rule 6: 拼接詞性表示地點(diǎn)的單詞

除了匹配外，還需進(jìn)行3項(xiàng)工作:

1)理解優(yōu)先級、邏輯關(guān)系

2)同類合并和歧義消解

對于集合類型的量值，需要對量值進(jìn)行歸并；對于單一類型的量值，需要根據(jù)量值特點(diǎn)，進(jìn)行歧義消解。例如用戶首先提供了一個(gè)范圍比較大的地址，接著又補(bǔ)充了一個(gè)小范圍地址，可以使用大地址后加上小地址的方式，準(zhǔn)確定位地址。

3)量值標(biāo)準(zhǔn)化

同一屬性的不同量值需要轉(zhuǎn)換為單位統(tǒng)一的量值，以便于處理。例如租房問題中用戶提供租期屬性的量值，可能是“半個(gè)月”,“半年”,“一個(gè)星期”等可以統(tǒng)一調(diào)整到以月為單位的數(shù)量值。

經(jīng)過這一階段的處理，得到了最終的屬性字典。例6最終得到屬性字典如下:

{區(qū)域:鄭州中央商務(wù)區(qū), 租金:[0,350], 樣式:單間, 住戶人數(shù):1, 租房數(shù)量:1}

2.5模型填充

這一階段，使用上一階段獲取的屬性字典，并結(jié)合數(shù)據(jù)庫技術(shù)，建立可拓模型。首先將屬性字典中各個(gè)屬性和量值填充到目標(biāo)或者條件基元中去。對于目標(biāo)或者條件基元中缺少的部分，則需要根據(jù)領(lǐng)域本體，借助數(shù)據(jù)庫或者人機(jī)交互來補(bǔ)充。

經(jīng)過上述流程的5個(gè)階段，最終從用戶語句建立了可拓模型。

3實(shí)現(xiàn)案例

3.1案例介紹

文獻(xiàn)[3]給出了一個(gè)租房問題，下面以此問題為背景來展開實(shí)驗(yàn)。實(shí)際語料中用戶表達(dá)的屬性通常都有多個(gè)，本文一共關(guān)注了16個(gè)屬性，表2給出了部分屬性的示例。

表2租房問題中用戶表達(dá)的屬性示例

Table 2User expressed attributes in tenement question

屬性量值類型量值單位量值示例區(qū)域字符串無番禺大學(xué)城租金整數(shù)元800塊面積整數(shù)平方米80平米樣式字符串廳,室兩室一廳樓層整數(shù)樓,層10樓房源字符串無個(gè)人

一般地，上述多個(gè)屬性，可以根據(jù)實(shí)際應(yīng)用情況，為每個(gè)屬性分配不同的權(quán)重用于指導(dǎo)可拓策略的生成和評價(jià)過程。

在實(shí)驗(yàn)過程中使用的資源包括:

1)語料資源，在百度和好搜兩大網(wǎng)絡(luò)平臺(tái)，使用爬蟲程序抓取到與租房問題相關(guān)的語句；

2)分詞系統(tǒng)，使用哈工大訊飛語言云服務(wù)；

3)組塊分析，使用斯坦福中文解析器；

4)分類器，使用張樂博士maxent工具箱；

5)詞表，手工編制了2個(gè)詞表，預(yù)處理詞表大小為600，匹配使用的詞表大小為140；

6)數(shù)據(jù)庫，修改了文獻(xiàn)[3]中爬蟲程序，獲取了租房信息的數(shù)據(jù)并存貯在數(shù)據(jù)庫中；

7)條件隨機(jī)場，使用CRF++工具箱。

3.2實(shí)驗(yàn)結(jié)果及分析

按照慣例，使用信息抽取任務(wù)中的準(zhǔn)確率P、召回率R以及F值來評測系統(tǒng)性能。作為對比試驗(yàn)，選取文獻(xiàn)[16]中用于識別微博命名實(shí)體的條件隨機(jī)場方法，并使用了文中的特征模板。采用4-tag(B、M、E、S)對每個(gè)屬性進(jìn)行標(biāo)注，利用CRF++工具進(jìn)行了實(shí)際抽取工作。在處理的語句中，采用10-cross validation驗(yàn)證方法，得到的平均正確率P、召回率R、F值，如下表3所示。

上述結(jié)果表明，本文方法同CRF方法相比，性能有所提高。其中，準(zhǔn)確率的提高在于使用了匹配規(guī)則抽取分類后的短語；召回率的提高在于使用組塊分析后，對短語進(jìn)行分類。CRF對樣本依賴比較大，當(dāng)樣本容量較小時(shí)，本文方法更具優(yōu)勢。

文獻(xiàn)[3]中策略系統(tǒng)只考慮了區(qū)域、租金、交通狀況和面積4個(gè)屬性。利用本文方法，不僅能獲取更多的屬性，還能理解抽象量值、優(yōu)先級關(guān)系和邏輯關(guān)系，從而能更容易地為用戶生成理想的策略。

對用戶語句進(jìn)行信息提取后，結(jié)合數(shù)據(jù)庫檢索技術(shù)，就能建立最終的可拓模型。例如對于語句：

例7廣州大學(xué)旁求租房！不想通過中介，3月29號左右可以入住，擬租時(shí)間3個(gè)月以上，希望有一室一衛(wèi)的公寓，能連接寬帶，月租不超過600都可以。通過上述方法，從用戶需求語句，獲取了目標(biāo)物元M；并從數(shù)據(jù)庫中查找到一條最接近用戶目標(biāo)的房子，確定為條件物元L。則最終確定了問題的可拓模型表示為

在完整的可拓策略生成系統(tǒng)中，下一步工作就是由可拓模型，求出核問題模型。當(dāng)核問題模型中的條件滿足目標(biāo)的要求時(shí)，就不是不相容問題，不需要解決，說明系統(tǒng)幫用戶找到了所需要的房子。當(dāng)核問題模型中的條件不滿足目標(biāo)的要求時(shí)，就是不相容問題，需要利用可拓策略生成系統(tǒng)，首先判斷問題不相容的程度，然后通過拓展、變換和評價(jià)，生成解決不相容問題的策略。策略生成的詳細(xì)步驟參見文獻(xiàn)[3]。

4結(jié)束語

本文通過對用戶需求語句進(jìn)行組塊分析后得到的短語序列進(jìn)行分類，并結(jié)合匹配規(guī)則進(jìn)行信息抽取，得到了計(jì)算機(jī)較容易識別的需求信息。這種方法有效實(shí)現(xiàn)了從用戶需求語句到可拓模型的轉(zhuǎn)換，減輕了人的勞動(dòng)，提高了可拓模型建立的效率和質(zhì)量，為可拓模型的建立提供了新的方法。

試驗(yàn)表明本文的方法已經(jīng)得到比較滿意的結(jié)果。今后還可以通過2種方式進(jìn)一步完善：1) 針對特定問題，在分詞時(shí)使用用戶字典，提高分詞的準(zhǔn)確率；2) 使用實(shí)際語料訓(xùn)練Stanford Parser，提高它詞性標(biāo)注和句法分析的準(zhǔn)確率。

另外，限于目前本項(xiàng)目還沒有建立通用的問題語料庫，本文僅實(shí)現(xiàn)了租房問題案例。下一步工作是建立其他問題的語料庫并進(jìn)行相關(guān)測試，以利于開發(fā)較為通用的可拓策略生成系統(tǒng)。

參考文獻(xiàn):

[1]楊春燕, 蔡文. 可拓學(xué)[M]. 北京: 科學(xué)出版社, 2014: 1-250.

YANG Chunyan, CAI Wen. Extenics[M]. Beijing: Science Press, 2014: 1-250.

[2]方卓君, 李衛(wèi)華, 李承曉. 自助游可拓策略生成系統(tǒng)的研究與實(shí)現(xiàn)[J]. 廣東工業(yè)大學(xué)學(xué)報(bào), 2009, 26(2): 83-89.

FANG Zhuojun, LI Weihua, LI Chengxiao. Research and realization of extension strategy generating system for independent travel[J]. Journal of Guangdong University of Technology, 2009, 26(2): 83-89.

[3]李承曉, 李衛(wèi)華. 租房可拓策略生成系統(tǒng)[J]. 智能系統(tǒng)學(xué)報(bào), 2011, 6(3): 272-278.

LI Chengxiao, LI Weihua. Research on a tenement extension strategy generation system[J]. CAAI Transactions on Intelligent Systems, 2011, 6(3): 272-278.

[4]陳亞男, 李衛(wèi)華. 求職問題可拓策略生成系統(tǒng)的研究與實(shí)現(xiàn)[J]. 廣東工業(yè)大學(xué)學(xué)報(bào), 2012, 29(1): 88-93.

CHEN Yanan, LI Weihua. Research on the extension strategy generating system for job-seeking problems[J]. Journal of Guangdong University of Technology, 2012, 29(1): 88-93.

[5]劉遷, 焦慧, 賈惠波. 信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2007, 24(7): 6-9.

LIU Qian, JIAO Hui, JIA Huibo. Research on approaches of information extraction system[J]. Application Research of Computers, 2007, 24(7): 6-9.

[6]于江德, 李學(xué)鈺, 樊孝忠. 信息抽取中領(lǐng)域本體的設(shè)計(jì)和實(shí)現(xiàn)[J]. 電子科技大學(xué)學(xué)報(bào), 2008, 37(5): 746-749.

YU Jiangde, LI Xueyu, FAN Xiaozhong. Design and implementation of domain ontology for information extraction[J]. Journal of University of Electronic Science and Technology of China, 2008, 37(5): 746-749.

[7]郭喜躍, 何婷婷. 信息抽取研究綜述[J]. 計(jì)算機(jī)科學(xué), 2015, 42(2): 14-17, 38.

GUO Xiyue, HE Tingting. Survey about research on information extraction[J]. Computer Science, 2015, 42(2): 14-17, 38.

[8]董振東, 董強(qiáng), 郝長伶. 知網(wǎng)的理論發(fā)現(xiàn)[J]. 中文信息學(xué)報(bào), 2007, 21(4): 3-9.

DONG Zhendong, DONG Qiang, HAO Changling. Theoretical findings of HowNet[J]. Journal of Chinese Information Processing, 2007, 21(4): 3-9.

[9]CHINCHOR N. MUC-7 Named entity task definition[C]//Proceedings of 7th Message Understanding Conference. Virginia, USA, 1998.

[10]張向喆, 王明輝, 趙洪波, 等. 生物醫(yī)學(xué)文本中命名實(shí)體識別研究[J]. 上海交通大學(xué)學(xué)報(bào)：農(nóng)業(yè)科學(xué)版, 2010, 28(2): 132-137.

ZHANG Xiangzhe, WANG Minghui, ZHAO Hongbo, et al. Research on named entity recognition from biomedical liter

ature[J]. Journal of Shanghai Jiao Tong University： Agricultural Science, 2010, 28(2): 132-137.

[11]薛征山, 郭劍毅, 余正濤, 等. 基于HMM中文旅游景點(diǎn)的識別[J]. 昆明理工大學(xué)學(xué)報(bào)：理工版, 2009, 34(6): 44-48.

XUE Zhengshan, GUO Jianyi, YU Zhenftao, et al. Recognition of HMM-based Chinese tourist attractions[J]. Journal of Kunming University of Science and Technology： Science and Technology, 2009, 34(6): 44-48.

[12]孫鎮(zhèn), 王惠臨. 命名實(shí)體識別研究進(jìn)展綜述[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2010, 26(6): 42-47.

SUN Zhen, WANG Huilin. Overview on the advance of the research on named entity recognition[J]. New Technology of Library and Information Service, 2010, 26 (6): 42-47.

[13]LIN Yifeng, TSAI T H, CHOU Wenchi, et al. A maximum entropy approach to biomedical named entity recognition[C]//Proceedings of the 4th ACM SIGKDD Workshop on Data Mining in Bioinformatics. Seattle, Washington, USA, 2004.

[14]李素建, 劉群, 楊志峰. 基于最大熵模型的組塊分析[J]. 計(jì)算機(jī)學(xué)報(bào), 2003, 26(12): 1722-1727.

LI Sujian, LIU Qun, YANG Zhifeng. Chunk parsing with maximum entropy principle[J]. Chinese Journal of Computers, 2003, 26(12): 1722-1727.

[15]XUE Naiwen, XIA Fei, CHIOU Fudong, et al. The Penn Chinese Treebank: phrase structure annotation of a large corpus[J]. Natural Language Engineering, 11(2): 207-238.

[16]邱泉清, 苗奪謙, 張志飛. 中文微博命名實(shí)體識別[J]. 計(jì)算機(jī)科學(xué), 2013, 40(6): 196-198.

QIU Quanqing, MIAO Duoqian, ZHANG Zhifei. Named entity recognition on Chinese microblog[J]. Computer Science, 2013, 40(6): 196-198.

王定橋,男,1988年生,碩士研究生,主要研究方向?yàn)橹悄苘浖?/p>

李衛(wèi)華,女,1957 年生,教授,碩士生導(dǎo)師，主要研究方向?yàn)槊嫦駻gent計(jì)算、網(wǎng)絡(luò)信息系統(tǒng)、智能軟件，發(fā)表學(xué)術(shù)論文40 余篇。

網(wǎng)絡(luò)出版地址：http://www.cnki.net/kcms/detail/23.1538.tp.20151111.1633.004.html

英文引用格式：WANG Dingqiao, LI Weihua, YANG Chunyan. Research on building an extension model from user requirements[J]. CAAI Transactions on Intelligent Systems, 2015, 10(6): 865-871.

Research on building an extension model from user requirements

WANG Dingqiao1, LI Weihua1, YANG Chunyan2

(1.School of Computer, Guangdong University of Technology, Guangzhou 510006， China; 2. Research Institute of Extenics and Innovation Methods, Guangdong University of Technology, Guangzhou 510006， China)

Abstract：Building an effective extension model to solve a problem is a key step in generating an extension strategy. Due to the complexity of natural language processing, the current extension strategy generation system is insufficiently clear with respect to user requirements, so it is hard to automatically build an extension model. In this paper, we propose a method for parsing the user requirement sentence in order to then automatically build the extension model. This method contains four core steps. First, chunk parsing is performed on the sentence containing the user requirements to obtain the phrase sequence. Secondly, the phrase sequence is classified with a classifier. Thirdly, based on the matching rule, information is extracted from the classified phrase to obtain the information required for computer processing. Next, database technology is used to build the extension model. Using a tenement building as an example, we implemented and tested our proposed method. Based on our experimental results, we proved that the proposed method is effective for understanding user requirements in order to build an extension model.

Keywords：extenics; extension model; extension strategy generation; information extraction; classification

作者簡介：

通信作者：王定橋. E-mail: wangdingqiao2012@qq.com.

基金項(xiàng)目：國家自然科學(xué)基金資助項(xiàng)目 (61273306).

收稿日期：2015-07-23. 網(wǎng)絡(luò)出版日期：2015-11-11.

中圖分類號：TP391

文獻(xiàn)標(biāo)志碼：A

文章編號：1673-4785(2015)06-0865-07

DOI:10.11992/tis.201507038