于皓,張杰,吳明輝,吳信東
(明略科技集團(tuán),北京 110000)
近年來(lái),無(wú)論是政府或是企業(yè)對(duì)于數(shù)據(jù)處理和數(shù)據(jù)價(jià)值挖掘都十分重視,但由于數(shù)據(jù)總量大且呈現(xiàn)類型多樣化等特點(diǎn),使許多關(guān)鍵數(shù)據(jù)背后的隱性知識(shí)并不能很好地被發(fā)現(xiàn)以及利用。知識(shí)圖譜是連接大數(shù)據(jù)和人工智能的技術(shù)紐帶,是從感知智能到認(rèn)知智能的基石,在復(fù)雜度高的行業(yè)場(chǎng)景中,領(lǐng)域知識(shí)圖譜將借助于其天然的知識(shí)可解釋性和推理等技術(shù)方向的優(yōu)勢(shì),在解決實(shí)際業(yè)務(wù)問(wèn)題、輔助智能決策方向上發(fā)揮巨大作用。知識(shí)圖譜技術(shù)在產(chǎn)業(yè)界正經(jīng)歷著應(yīng)用的高速增長(zhǎng)。然而,研發(fā)領(lǐng)域知識(shí)圖譜,并在實(shí)際應(yīng)用場(chǎng)景中部署和使用仍面臨著:1)構(gòu)建前,復(fù)雜領(lǐng)域場(chǎng)景涉及到的知識(shí)維度廣,業(yè)務(wù)專家短時(shí)間內(nèi)難以構(gòu)建出完備的領(lǐng)域schema;2)構(gòu)建中,業(yè)務(wù)專家和技術(shù)專家深度耦合,圖譜構(gòu)建緩慢,難以適應(yīng)業(yè)務(wù)快速發(fā)展需求;3)構(gòu)建后,圖譜應(yīng)用嚴(yán)重依賴技術(shù)人員開發(fā),業(yè)務(wù)專家無(wú)法自主進(jìn)行領(lǐng)域知識(shí)圖譜在業(yè)務(wù)問(wèn)題解決方案中的探索。
本文立足于將知識(shí)圖譜相關(guān)前沿技術(shù)成果應(yīng)用落地,設(shè)計(jì)開發(fā)了面向領(lǐng)域的知識(shí)圖譜快速構(gòu)建和應(yīng)用框架,主旨是利用知識(shí)圖譜相關(guān)技術(shù),從異構(gòu)多源數(shù)據(jù)中提取知識(shí),快速構(gòu)建出領(lǐng)域知識(shí)圖譜,并持續(xù)將碎片化知識(shí)融合到領(lǐng)域知識(shí)圖譜,形成體系化的領(lǐng)域知識(shí)。通過(guò)知識(shí)圖譜向量化方法對(duì)領(lǐng)域知識(shí)進(jìn)行豐富和深層次的領(lǐng)域語(yǔ)義表示,突破傳統(tǒng)的基于字符串匹配的淺層語(yǔ)義,更加高效地輔助用戶發(fā)現(xiàn)潛在領(lǐng)域知識(shí)價(jià)值,在應(yīng)用于搜索、推薦、推理等傳統(tǒng)任務(wù)之外,其將在領(lǐng)域流程優(yōu)化、輔助決策、預(yù)測(cè)分析等應(yīng)用服務(wù)發(fā)揮更大空間。該框架已成功應(yīng)用在公共安全、金融、工業(yè)、廣告營(yíng)銷等領(lǐng)域,發(fā)揮出巨大的商業(yè)價(jià)值和社會(huì)價(jià)值,在該框架中集成了KBQA的快速構(gòu)建落地方法,以對(duì)話的形式降低人工智能產(chǎn)品使用門檻,高效提供業(yè)務(wù)決策支持,有效降低知識(shí)勞動(dòng)力成本,提高知識(shí)轉(zhuǎn)化為企業(yè)競(jìng)爭(zhēng)力的效率。
HAO(human intelligence, artificial intelligence,organizational intelligence)智能理論[1]是大數(shù)據(jù)到大智慧的理論框架,如圖1所示,通過(guò)對(duì)人類智能(human intelligence,HI)、機(jī)器智能(artificial intelligence,AI)和組織智能(organizational intelligence,OI)三位一體的集成,構(gòu)建了新的人工智能理論。在未來(lái)萬(wàn)物互聯(lián)的時(shí)代,只有打通感知智能與認(rèn)知智能,將深度學(xué)習(xí)與行業(yè)知識(shí)圖譜相結(jié)合,才能擴(kuò)大行業(yè)人工智能的應(yīng)用領(lǐng)域,加速人工智能技術(shù)商業(yè)化落地。行業(yè)人工智能的應(yīng)用領(lǐng)域,加速人工智能技術(shù)商業(yè)化落地。

圖1 HAO智能Fig.1 HAO intelligence
HAO智能通過(guò)打通感知、認(rèn)知、行動(dòng)系統(tǒng),幫助組織進(jìn)行分析決策,實(shí)現(xiàn)AI閉環(huán)落地,其中機(jī)器智能需要人類智能進(jìn)行大量的語(yǔ)料標(biāo)注,以使機(jī)器智能不斷地學(xué)習(xí),提升機(jī)器智能的水平,機(jī)器智能為人類提供的知識(shí)而非數(shù)據(jù),標(biāo)注的語(yǔ)料作為人類智能的載體傳遞給機(jī)器,機(jī)器通過(guò)對(duì)標(biāo)注數(shù)據(jù)的學(xué)習(xí)產(chǎn)生機(jī)器智能,然后分析挖掘新的知識(shí)輸出給人類進(jìn)行學(xué)習(xí),以優(yōu)化人類智能,從而產(chǎn)生人類智能和機(jī)器智能的協(xié)同優(yōu)化升級(jí),人和機(jī)器通過(guò)該框架打造成一個(gè)統(tǒng)一的有機(jī)組織,通過(guò)將專家知識(shí)和使用者的知識(shí)數(shù)字化,使最終的人類智能和機(jī)器智能在組織中不斷迭代優(yōu)化,將目前人工智能模型無(wú)法解決的復(fù)雜問(wèn)題,通過(guò)人類的智慧在組織智能中協(xié)同解決,形成最終AI閉環(huán),從而產(chǎn)生最大化的應(yīng)用價(jià)值。
1) 實(shí)體識(shí)別
命名實(shí)體識(shí)別(named entity recognition,NER)旨在從預(yù)定義好語(yǔ)義類型(例如人、位置、組織等)的文本中識(shí)別出相應(yīng)實(shí)體類型的提及詞[2]。1996年在第6次信息理解會(huì)議[3]上NER作為從文本中提取人員、地名、貨幣、時(shí)間和百分比等信息的任務(wù)而被首次使用。自此,人們對(duì)NER的興趣不斷增加,投入了大量的精力進(jìn)行研究。早期的NER采用基于規(guī)則和字典的方法,隨著機(jī)器學(xué)的發(fā)展,人們開始嘗試將一些機(jī)器學(xué)習(xí)的方法用于NER中,例如:隱馬爾可夫模型(hidden markov model,HMM)[4]、決策樹[5]、最大熵模型(maximum entropy models,ME)[6]、支持向量機(jī)[7]、條件隨機(jī)場(chǎng)(conditional random field, CRF)[8],其中,CRF是最有效的NER算法之一。后來(lái),隨著深度學(xué)習(xí)的快速發(fā)展,很多工作都提出利用神經(jīng)網(wǎng)絡(luò)完成NER任務(wù),Lample[9]提出了提出了長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory networks, LSTM)和CRF組合的神經(jīng)網(wǎng)絡(luò)模型LSTM-CRF,利用雙向LSTM對(duì)輸入文本進(jìn)行表征學(xué)習(xí),然后將其輸入到CRF中,對(duì)句子中的每個(gè)詞進(jìn)行分類,最終輸出分類結(jié)果,完成實(shí)體識(shí)別。Zhang[10]對(duì)LSTM做了進(jìn)一步的改進(jìn),提出了Lattice-LSTM以融合詞匯信息。Devlin等[11]提出了基于Transformer的預(yù)訓(xùn)練模型BERT(bidirectional encoder representations from transformers),刷新了多項(xiàng)NLP(natural language processing)任務(wù)的記錄,并在CoNLL-2003 的NER數(shù)據(jù)集僅僅通過(guò)fine-tuning就得到了接近state-of-the-art的成績(jī)。在此之后,很多研究都是基于Transformer來(lái)展開的。Zhang[12]將知識(shí)庫(kù)信息與Bert語(yǔ)言模型進(jìn)行融合,使得模型掌握更多的先驗(yàn)知識(shí),提高模型表達(dá)效果。Li等[13]提出了FLAT(flat-lattice transformer for Chinese NER)模型,基于Transformer設(shè)計(jì)了一種巧妙位置編碼結(jié)構(gòu)來(lái)融合Lattice結(jié)構(gòu),從而引入詞匯信息,在MSRA(microsoft research)-NER任務(wù)中,F(xiàn)LAT+BERT實(shí)現(xiàn)了最新的SOTA(state of the art)。
2) 關(guān)系抽取
在缺少標(biāo)注數(shù)據(jù)的場(chǎng)景下,半監(jiān)督的方法能夠取得一定的效果。Ye等[14]提出一種Intra-Bag&Inter-Bag Attention的遠(yuǎn)程監(jiān)督方法,在bag內(nèi)的句子以及每個(gè)bag都添加Attention機(jī)制,來(lái)減少錯(cuò)誤標(biāo)注數(shù)據(jù)對(duì)關(guān)系分類模型的影響。Qin等[15]提出度強(qiáng)化學(xué)習(xí)方法識(shí)別遠(yuǎn)程監(jiān)督方法中錯(cuò)誤的樣本,他們認(rèn)為Attention機(jī)制并不是最優(yōu)的選擇,標(biāo)注樣本的錯(cuò)誤數(shù)據(jù)始終是模型的瓶頸。Alt等[16]提出將預(yù)訓(xùn)練模型應(yīng)用到遠(yuǎn)程監(jiān)督中,預(yù)訓(xùn)練模型能夠更好地捕捉句子的語(yǔ)義和語(yǔ)法信息,以解決在關(guān)系分類中的長(zhǎng)尾現(xiàn)象,但是預(yù)訓(xùn)練模型對(duì)硬件要求高,在工業(yè)場(chǎng)景下落地較困難。Ye等[17]提出了MLMAN(multi-level matching and aggregation network)結(jié)構(gòu)的小樣本學(xué)習(xí)方法,該方法采用原型網(wǎng)絡(luò)[18]思想,分別計(jì)算查詢實(shí)例的嵌入向量和各支持集的原型向量。但是在實(shí)際應(yīng)用場(chǎng)景中,每個(gè)關(guān)系類別的標(biāo)注實(shí)例很可能是極度不均勻的,少樣本典型的N-way Kshot場(chǎng)景可能并不完全適用。
實(shí)體鏈接任務(wù)旨在研究如何將文本中對(duì)實(shí)體有歧義的“提及”鏈接到目標(biāo)知識(shí)庫(kù)所對(duì)應(yīng)的實(shí)體上。在研究方法上,實(shí)體鏈接任務(wù)經(jīng)歷了從傳統(tǒng)的基于特征工程的方法到目前基于神經(jīng)網(wǎng)絡(luò)的端到端方法的過(guò)渡。Shen等[19]梳理了深度學(xué)習(xí)時(shí)代當(dāng)中基于傳統(tǒng)機(jī)器學(xué)習(xí)算法的實(shí)體鏈指技術(shù),包括候選實(shí)體生成、候選實(shí)體排序等。伴隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,實(shí)體鏈指技術(shù)引入了基于大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的表征算法以及注意力網(wǎng)絡(luò)來(lái)捕捉提及、實(shí)體以及二者的相似度,繼而大幅提高鏈指精度[20]。而近年來(lái),鏈指當(dāng)中的不可鏈接預(yù)測(cè)NIL、標(biāo)準(zhǔn)數(shù)據(jù)不足的問(wèn)題成為當(dāng)下的研究熱點(diǎn),Gu等[21]提出利用多輪閱讀理解MRC(machine reading comprehension)框架,并設(shè)計(jì)不可鏈接預(yù)測(cè)驗(yàn)證和門控機(jī)制,通過(guò)輪詢已識(shí)別提及對(duì)應(yīng)的實(shí)體描述信息優(yōu)化對(duì)后續(xù)提及的判別,設(shè)計(jì)新穎;Wu等[22]提出兩步的zero-shot模型,提出cross-encoder將提及上下文和候選描述融合,并實(shí)現(xiàn)知識(shí)蒸餾,驗(yàn)證了低資源鏈指的可行性。
受限于業(yè)務(wù)語(yǔ)料規(guī)模,領(lǐng)域知識(shí)圖譜存在不完備性問(wèn)題。知識(shí)補(bǔ)全方法通過(guò)預(yù)測(cè)三元組缺失部分,可對(duì)領(lǐng)域知識(shí)圖譜進(jìn)行有效補(bǔ)充?;谄揭凭嚯x的方法TransE[23], TransH[24]和TransR[25]等,僅依賴于網(wǎng)絡(luò)結(jié)構(gòu),對(duì)于只有少量關(guān)系的實(shí)體表現(xiàn)不佳。Shi[26]提出了ConMask算法,將實(shí)體描述信息嵌入到模型,豐富了語(yǔ)義表示。知識(shí)表示無(wú)法解決復(fù)雜路徑問(wèn)題,為此Gardner[27]基于路徑排序算法PRA(path ranking algorithm)[28],提出了將向量相似性計(jì)算與隨機(jī)游走結(jié)合。然而隨機(jī)游走的搜索空間過(guò)大,DeepPath[29]首次將強(qiáng)化學(xué)習(xí)應(yīng)用于鏈接預(yù)測(cè)中。知識(shí)補(bǔ)全的另一大痛點(diǎn)是長(zhǎng)尾問(wèn)題,許多關(guān)系出現(xiàn)的頻次很低,卻更需要補(bǔ)全。GMatching[30]結(jié)合實(shí)體嵌入式表示和局部網(wǎng)絡(luò)結(jié)構(gòu)信息,提出了基于度量的小樣本學(xué)習(xí)方法。
傳統(tǒng)的KBQA(knowledge base question answering)模型可以大致分為兩種類別,即基于語(yǔ)義分析[31-33]和基于信息檢索[34-36]的方法。之前的模型著重于將問(wèn)題映射到其形式邏輯表達(dá)形式以便于在知識(shí)圖譜上進(jìn)行查詢。相反,近些年的模型主要研究問(wèn)題文本與知識(shí)圖譜中三元組的語(yǔ)義相似性。例如:Dong等[35]使用多列卷積神經(jīng)網(wǎng)絡(luò)嵌入文本而無(wú)需使用任何人工特征和詞典,利用CNN(convolutional neural networks)模型捕捉問(wèn)句與答案屬性間的字面關(guān)聯(lián)性,驗(yàn)證了字面關(guān)聯(lián)性能帶來(lái)效果上的提升。Zhang等[36]提出了利用注意力(Attention)機(jī)制來(lái)解決字符級(jí)別的語(yǔ)義匹配問(wèn)題,通過(guò)對(duì)候選答案的不同維度表示增強(qiáng)了對(duì)問(wèn)題的動(dòng)態(tài)表示能力。隨著深度學(xué)習(xí)能力的提高,基于SimpleQuestions數(shù)據(jù)集的回答性能已接近上限,此后的研究向基于多條件、多跳推理的復(fù)雜問(wèn)題轉(zhuǎn)移[37-38],多元關(guān)系推理和知識(shí)庫(kù)的結(jié)構(gòu)表示被逐漸重視起來(lái)。
為解決復(fù)雜業(yè)務(wù)問(wèn)題構(gòu)建的領(lǐng)域知識(shí)圖譜,需要建立在業(yè)務(wù)知識(shí)的框架下,否則很難將領(lǐng)域知識(shí)圖譜應(yīng)用到實(shí)際的問(wèn)題解決中,自上而下的schema設(shè)計(jì)和自下而上的知識(shí)抽取相融合的模式是構(gòu)建領(lǐng)域知識(shí)圖譜重要方法。復(fù)雜領(lǐng)域場(chǎng)景涉及到的知識(shí)維度廣,需要業(yè)務(wù)各方向的專家參與制定領(lǐng)域schema,一方面,行業(yè)專家對(duì)構(gòu)建知識(shí)圖譜的技術(shù)了解較少,需要時(shí)間進(jìn)行學(xué)習(xí),另一方面,需要行業(yè)專家協(xié)同構(gòu)建體系化的領(lǐng)域schema。目前缺少有效工具幫助其協(xié)同開發(fā),因此導(dǎo)致領(lǐng)域?qū)<叶虝r(shí)間內(nèi)難以構(gòu)建出完備的領(lǐng)域schema。為了有效提高領(lǐng)域?qū)<蚁到y(tǒng)構(gòu)建領(lǐng)域schema的效率,本文在領(lǐng)域知識(shí)圖譜構(gòu)建框架中,設(shè)計(jì)了多人協(xié)作構(gòu)建領(lǐng)域schema方法。
多人協(xié)作構(gòu)建領(lǐng)域schema存在諸多問(wèn)題:schema術(shù)語(yǔ)多樣性難以統(tǒng)一、領(lǐng)域?qū)<覙?gòu)建的schema存在業(yè)務(wù)邊界難以融合體系化、構(gòu)建的領(lǐng)域schema存在缺失、領(lǐng)域schema和底層數(shù)據(jù)無(wú)關(guān)聯(lián)性難以維護(hù)?;谝陨蠁?wèn)題,在該框架中,設(shè)計(jì)了權(quán)限管理、協(xié)作模式、schema融合、schema推理、融合日志和抽取器功能模塊。
1)權(quán)限管理
根據(jù)不同的領(lǐng)域知識(shí)圖譜角色,在協(xié)同開發(fā)領(lǐng)域schema的過(guò)程中,分配角色不同的協(xié)同權(quán)限,其目的是保證全域的schema具有權(quán)威性,從而保證底層的數(shù)據(jù)可以較準(zhǔn)確地映射到業(yè)務(wù)層面的知識(shí)體系中。
2)協(xié)作模式
在協(xié)作構(gòu)建過(guò)程中,設(shè)計(jì)的概念實(shí)體需要滿足規(guī)范性、完全性、一致性、可擴(kuò)展性和語(yǔ)義區(qū)分性,領(lǐng)域?qū)<铱梢元?dú)立構(gòu)建其領(lǐng)域schema子圖,再通過(guò)schema融合,形成全域的行業(yè)知識(shí)圖譜,也可在一個(gè)領(lǐng)域schema圖中構(gòu)建全域知識(shí)schema。
3) schema融合
為了提高協(xié)同構(gòu)建概念圖譜的效率,框架中預(yù)設(shè)通用域和特定域的知識(shí)圖譜,用戶可以檢索相應(yīng)的本體概念,將相應(yīng)的子分支下的概念體系融合到正設(shè)計(jì)的概念維度,也可在已有的概念圖譜中申請(qǐng)協(xié)作開發(fā),形成最新的圖譜schema。
4) schema推理
在復(fù)雜的領(lǐng)域知識(shí)圖譜的schema設(shè)計(jì)中,容易遺漏概念間的隱性關(guān)系,在該框架中,設(shè)計(jì)了基于規(guī)則的推理技術(shù),通過(guò)設(shè)定領(lǐng)域概念規(guī)則,可以通過(guò)推理的方式發(fā)現(xiàn)新的關(guān)系,對(duì)領(lǐng)域schema進(jìn)行有效的知識(shí)補(bǔ)全。
5)日志
協(xié)同開發(fā)過(guò)程中面臨著對(duì)概念認(rèn)知不一致的情況,從而導(dǎo)致在構(gòu)建領(lǐng)域schema的過(guò)程中,存在概念實(shí)體的分歧,通過(guò)保存所有參與用戶的操作日志,可以幫助協(xié)同人員對(duì)分歧的概念實(shí)體進(jìn)行討論確定,以達(dá)到共識(shí),避免在下層的數(shù)據(jù)層面出現(xiàn)分歧點(diǎn)。
6)抽取器
在概念圖譜構(gòu)建之后,就建立了從上層的業(yè)務(wù)到業(yè)務(wù)知識(shí)的映射,為了打通從底層的大數(shù)據(jù)到業(yè)務(wù)知識(shí)的映射,該框架設(shè)計(jì)了基于圖譜schema構(gòu)建抽取器進(jìn)行映射,通過(guò)在圖譜schema中構(gòu)建相應(yīng)的抽取器,實(shí)現(xiàn)從底層數(shù)據(jù)到業(yè)務(wù)知識(shí)的無(wú)縫隙映射。
在復(fù)雜業(yè)務(wù)場(chǎng)景中,構(gòu)建領(lǐng)域知識(shí)圖譜周期較長(zhǎng),通常以半年周期倍數(shù)計(jì)算,具體建設(shè)周期和領(lǐng)域業(yè)務(wù)復(fù)雜度、底層數(shù)據(jù)質(zhì)量和投入的資源等方面相關(guān),而在一些特定領(lǐng)域,業(yè)務(wù)發(fā)展速度快,對(duì)領(lǐng)域圖譜的構(gòu)建需要以周為周期,否則難以適應(yīng)業(yè)務(wù)發(fā)展速度,構(gòu)建的領(lǐng)域知識(shí)圖譜具有較大的延遲性,無(wú)法滿足對(duì)業(yè)務(wù)的支撐,為了解決企業(yè)對(duì)快速構(gòu)建領(lǐng)域知識(shí)圖譜的需求,本文設(shè)計(jì)了基于抽取器的快速構(gòu)建知識(shí)圖譜的框架,業(yè)務(wù)專家依據(jù)業(yè)務(wù)需求選擇相應(yīng)的抽取器靈活構(gòu)建知識(shí)圖譜,該框架有效降低了知識(shí)圖譜構(gòu)建的技術(shù)門檻,大幅提升領(lǐng)域知識(shí)圖譜的構(gòu)建效率。
在本文設(shè)計(jì)的框架中,將領(lǐng)域知識(shí)圖譜的構(gòu)建進(jìn)行模塊化,主要分為數(shù)據(jù)層、語(yǔ)料層、算法層、組件層、抽取器層,如圖2所示,對(duì)每層的功能點(diǎn)進(jìn)行封裝,從而形成了從數(shù)據(jù)層到業(yè)務(wù)層的組裝式映射,為業(yè)務(wù)專家提供靈活的領(lǐng)域知識(shí)選擇,快速生成滿足業(yè)務(wù)需求的精簡(jiǎn)的領(lǐng)域知識(shí)圖譜,避免大而全的領(lǐng)域知識(shí)圖譜所產(chǎn)生的噪音、效率低等問(wèn)題。

圖2 領(lǐng)域知識(shí)圖譜快速構(gòu)建框架Fig.2 Construction framework for domain knowledge graphs
在企業(yè)內(nèi)主要存在兩種數(shù)據(jù)類型:1) 業(yè)務(wù)相關(guān)的結(jié)構(gòu)化數(shù)據(jù);2) 從互聯(lián)網(wǎng)獲取的公開數(shù)據(jù)。業(yè)務(wù)數(shù)據(jù)在知識(shí)層面更深,開放數(shù)據(jù)在知識(shí)層面更廣,兩者可以互相補(bǔ)充,形成較完備的領(lǐng)域知識(shí)。通過(guò)將領(lǐng)域業(yè)務(wù)數(shù)據(jù)和公開數(shù)據(jù)融合構(gòu)建領(lǐng)域知識(shí)圖譜,是目前行業(yè)通用的模式,企業(yè)積累的結(jié)構(gòu)化數(shù)據(jù)是基于業(yè)務(wù)邏輯關(guān)聯(lián)的,可以和領(lǐng)域schema有效融合,通過(guò)簡(jiǎn)單的映射,就可以將業(yè)務(wù)結(jié)構(gòu)化數(shù)據(jù)映射到領(lǐng)域schema知識(shí)體系中,這部分的知識(shí)抽取相對(duì)簡(jiǎn)單,而對(duì)于公開的非結(jié)構(gòu)數(shù)據(jù),如何映射到領(lǐng)域知識(shí)圖譜中是難點(diǎn):1)可以在領(lǐng)域schema的規(guī)范下進(jìn)行人工標(biāo)注,生成領(lǐng)域的非結(jié)構(gòu)化語(yǔ)料,優(yōu)點(diǎn)是可以形成高質(zhì)量的訓(xùn)練數(shù)據(jù),為后期算法訓(xùn)練提供良好的數(shù)據(jù)條件,缺點(diǎn)是需要耗費(fèi)大量的人力;2) 借助通用知識(shí)庫(kù)或者遠(yuǎn)程監(jiān)督等技術(shù)手段,半自動(dòng)生成標(biāo)注語(yǔ)料,優(yōu)點(diǎn)是可以快速生成深度學(xué)習(xí)需要的語(yǔ)料,節(jié)省人力成本,缺點(diǎn)是標(biāo)注的語(yǔ)料存在一定程度的錯(cuò)誤,會(huì)影響后期算法訓(xùn)練的模型效果。
從數(shù)據(jù)層到人機(jī)協(xié)同層,將數(shù)據(jù)的信息借助于人力智能,形成了機(jī)器可學(xué)習(xí)的語(yǔ)料。通過(guò)選擇相應(yīng)的算法進(jìn)行訓(xùn)練,可以將數(shù)據(jù)空間映射到業(yè)務(wù)知識(shí)空間。在算法層中,框架集成了近幾年主流的監(jiān)督、半監(jiān)督和無(wú)監(jiān)督的知識(shí)圖譜構(gòu)建相關(guān)的技術(shù)體系,封裝算法接口,為構(gòu)建知識(shí)圖譜的組件提供算法調(diào)用。
知識(shí)圖譜的構(gòu)建流程主要分為知識(shí)抽取、知識(shí)融合、知識(shí)表示和知識(shí)優(yōu)化,知識(shí)抽取主要是借助于算法層的實(shí)體抽取算法、關(guān)系抽取算法、屬性抽取算法或者聯(lián)合抽取算法,對(duì)標(biāo)注好的語(yǔ)料數(shù)據(jù)進(jìn)行模型訓(xùn)練,生成相應(yīng)知識(shí)抽取組件。知識(shí)融合主要解決在知識(shí)抽取過(guò)程后的知識(shí)對(duì)齊和屬性融合問(wèn)題,形成一致性較好的領(lǐng)域知識(shí)圖譜,在知識(shí)構(gòu)建之后建立符號(hào)化和向量化的表述組件,滿足不同的業(yè)務(wù)知識(shí)表示需求。知識(shí)優(yōu)化則為了在構(gòu)建的領(lǐng)域知識(shí)圖譜進(jìn)行知識(shí)質(zhì)量的優(yōu)化提升,挖掘領(lǐng)域知識(shí)圖譜中隱漏的領(lǐng)域知識(shí),發(fā)現(xiàn)知識(shí)沖突并對(duì)領(lǐng)域知識(shí)進(jìn)行更新,從而形成了一整套的知識(shí)圖譜構(gòu)建組件。
在組件層通過(guò)算法構(gòu)建了從底層數(shù)據(jù)中學(xué)到業(yè)務(wù)語(yǔ)義知識(shí)識(shí)別模型,將模型進(jìn)行服務(wù)化的封裝生成抽取器。將模型的輸入、輸出以及對(duì)輸入數(shù)據(jù)的預(yù)處理等功能模塊封裝為可獨(dú)立運(yùn)行的抽取器。抽取器配置相應(yīng)的業(yè)務(wù)功能說(shuō)明,業(yè)務(wù)專家在這個(gè)層面可以根據(jù)業(yè)務(wù)問(wèn)題,選擇相應(yīng)的抽取器自主構(gòu)建領(lǐng)域知識(shí)圖譜。這樣做的優(yōu)點(diǎn)是借助于業(yè)務(wù)專家對(duì)業(yè)務(wù)的了解,生成實(shí)際可解決業(yè)務(wù)問(wèn)題的知識(shí)圖譜,防止技術(shù)人員缺乏業(yè)務(wù)知識(shí),生成的領(lǐng)域知識(shí)圖譜難以和業(yè)務(wù)有效結(jié)合的缺點(diǎn),技術(shù)人員和業(yè)務(wù)人員在構(gòu)建領(lǐng)域知識(shí)圖譜的過(guò)程中分工明確,各司其職,減少兩者協(xié)調(diào)工作的復(fù)雜度。
本文框架設(shè)計(jì)主旨是為業(yè)務(wù)專家提供高效的領(lǐng)域知識(shí)圖譜構(gòu)建方法,將企業(yè)中業(yè)務(wù)專家和技術(shù)專家既聯(lián)合又分割,在對(duì)數(shù)據(jù)分析時(shí)技術(shù)專家需要業(yè)務(wù)專家協(xié)助,在構(gòu)建領(lǐng)域知識(shí)圖譜時(shí),業(yè)務(wù)專家需要技術(shù)專家指導(dǎo)。在領(lǐng)域知識(shí)圖譜構(gòu)建的整個(gè)流程,兩種角色相對(duì)獨(dú)立,技術(shù)專家負(fù)責(zé)從數(shù)據(jù)到抽取器的構(gòu)建,而業(yè)務(wù)專家負(fù)責(zé)從業(yè)務(wù)問(wèn)題選擇相應(yīng)的抽取器構(gòu)建領(lǐng)域知識(shí)圖譜。詳細(xì)的領(lǐng)域知識(shí)圖譜構(gòu)建流程如圖3所示。

圖3 領(lǐng)域知識(shí)圖譜構(gòu)建流程Fig.3 Construction processes for domain knowledge graphs
目前,領(lǐng)域知識(shí)圖譜構(gòu)建之后,主要應(yīng)用于搜素、推薦、問(wèn)答和以可視化方式進(jìn)行人機(jī)交互,為解決業(yè)務(wù)問(wèn)題提供可解釋和輔助決策的支撐,這個(gè)過(guò)程需要AI工程師的深度參與,難以以統(tǒng)一的形式賦能下游的實(shí)際業(yè)務(wù)問(wèn)題。業(yè)務(wù)專家無(wú)法獨(dú)立完成領(lǐng)域知識(shí)圖譜到業(yè)務(wù)應(yīng)用的轉(zhuǎn)化,本文提出了SA-KBQA幫助業(yè)務(wù)專家自主構(gòu)建領(lǐng)域知識(shí)圖譜之后,可配置將領(lǐng)域知識(shí)圖譜應(yīng)用到對(duì)話,用來(lái)解決業(yè)務(wù)問(wèn)題,詳細(xì)的構(gòu)建流程如圖4所示。首先業(yè)務(wù)專家根據(jù)要解決的業(yè)務(wù)問(wèn)題,依據(jù)設(shè)計(jì)的領(lǐng)域schema進(jìn)行業(yè)務(wù)問(wèn)題配置,框架根據(jù)配置文件,自動(dòng)生成問(wèn)題模式集合,然后將問(wèn)題集合自動(dòng)生成標(biāo)準(zhǔn)化的查詢語(yǔ)句,從而構(gòu)建了從業(yè)務(wù)問(wèn)題到領(lǐng)域知識(shí)圖譜查詢的完整流程,在這個(gè)過(guò)程中完全由業(yè)務(wù)專家進(jìn)行操作和制定。在問(wèn)答系統(tǒng)應(yīng)用階段,通過(guò)業(yè)務(wù)專家配置的命名實(shí)體識(shí)別和實(shí)體鏈指等抽取器將問(wèn)句中的關(guān)鍵實(shí)體映射到領(lǐng)域知識(shí)圖譜中的標(biāo)準(zhǔn)實(shí)體,然后通過(guò)圖譜schema結(jié)構(gòu)對(duì)當(dāng)前關(guān)鍵實(shí)體的所有路徑生成候選的查詢語(yǔ)句,對(duì)部分不符合查詢規(guī)范或者無(wú)查詢結(jié)果的語(yǔ)句進(jìn)行剪枝,最后將問(wèn)句、查詢語(yǔ)句和結(jié)果進(jìn)行排序,獲得最佳結(jié)果輸出。通過(guò)schema結(jié)構(gòu)對(duì)實(shí)體查詢語(yǔ)句的召回方式可以實(shí)現(xiàn)多跳問(wèn)題的查詢,提升了解決領(lǐng)域問(wèn)題的難度。

圖4 SA-KBQA構(gòu)建流程Fig.4 Construction processes for SA-KBQA
美妝行業(yè)品牌眾多、品類豐富、產(chǎn)品繁雜,對(duì)于消費(fèi)者面臨琳瑯滿目的產(chǎn)品,無(wú)法選擇合適產(chǎn)品,而對(duì)于化妝品銷售員,無(wú)法對(duì)所有產(chǎn)品清晰熟知,面對(duì)消費(fèi)者具有多條件和深層跨域知識(shí)維度的提問(wèn)時(shí),銷售顧問(wèn)無(wú)法給出令消費(fèi)者滿意的答案,而知識(shí)圖譜可以將美妝領(lǐng)域的所有品牌、品類、產(chǎn)品、成分、功效等實(shí)體有機(jī)關(guān)聯(lián),形成系統(tǒng)化、全域性的美妝知識(shí)體系,再借助于知識(shí)圖譜在推理方面的優(yōu)勢(shì),可以有效解決上述的業(yè)務(wù)痛點(diǎn)問(wèn)題。除此之外,基于網(wǎng)絡(luò)社交場(chǎng)景美妝營(yíng)銷數(shù)據(jù),分析用戶對(duì)美妝行業(yè)的品牌、產(chǎn)品的評(píng)價(jià),從而幫助企業(yè)對(duì)產(chǎn)品進(jìn)行改進(jìn),提高用戶的滿意度,另外通過(guò)大數(shù)據(jù)分析用戶的需求,給產(chǎn)品研發(fā)提供客觀的數(shù)據(jù)支撐,幫助企業(yè)更全面了解消費(fèi)者的需求。
以往構(gòu)建領(lǐng)域知識(shí)圖譜需要經(jīng)過(guò)業(yè)務(wù)專家和技術(shù)專家數(shù)周甚至數(shù)月時(shí)間構(gòu)建領(lǐng)域schema,借助于本文提出的多人協(xié)作構(gòu)建領(lǐng)域schema的方法,在實(shí)際項(xiàng)目中僅用7天時(shí)間完成全部美妝領(lǐng)域schema的構(gòu)建。
1)多人協(xié)作快速構(gòu)建美妝schema
構(gòu)建美妝知識(shí)圖譜的業(yè)務(wù)目標(biāo),是將大數(shù)據(jù)底層的信息抽取出美妝產(chǎn)品知識(shí),幫助企業(yè)進(jìn)行產(chǎn)品運(yùn)營(yíng)和創(chuàng)新,業(yè)務(wù)專家從領(lǐng)域問(wèn)題出發(fā)多人協(xié)作快速構(gòu)建美妝概念:品牌、品類、產(chǎn)品、成分、包裝、場(chǎng)景等29類,如圖5所示。AI工程師結(jié)合專家上層設(shè)計(jì)對(duì)網(wǎng)絡(luò)社交數(shù)據(jù)例如微博、小紅書等數(shù)據(jù)分析,確定底層數(shù)據(jù)對(duì)美妝實(shí)體和關(guān)系抽取的可行性,最終確定美妝領(lǐng)域知識(shí)圖譜的schema,美妝業(yè)務(wù)專家和技術(shù)專家分別從業(yè)務(wù)頂層和數(shù)據(jù)底層兩個(gè)角度協(xié)同開發(fā),即確保從底層數(shù)據(jù)到頂層的業(yè)務(wù)知識(shí)可以無(wú)縫隙打通,又加快了美妝schema的構(gòu)建效率。

圖5 美妝schema設(shè)計(jì)Fig.5 Makeup schema design
2)美妝知識(shí)圖譜快速構(gòu)建流程
首先美妝行業(yè)知識(shí)官和AI工程師兩種角色多人協(xié)同快速完成美妝領(lǐng)域知識(shí)圖譜的schema設(shè)計(jì),然后AI工程師從兩個(gè)方面構(gòu)建底層的數(shù)據(jù)映射到美妝的業(yè)務(wù)知識(shí)層面的抽取器。對(duì)于結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識(shí)映射,而對(duì)于非結(jié)構(gòu)化數(shù)據(jù),通過(guò)調(diào)用框架集成知識(shí)抽取算法pipeline進(jìn)行知識(shí)抽取,構(gòu)建知識(shí)圖譜組件,封裝成美妝知識(shí)抽取器?;谏缃粩?shù)據(jù)提取的美妝知識(shí)缺乏大量知識(shí),例如產(chǎn)品的功效,社交對(duì)產(chǎn)品的功效的交互主要集中在產(chǎn)品功效的優(yōu)缺點(diǎn),對(duì)于沒(méi)有鮮明對(duì)比優(yōu)勢(shì)的功效很少提及,因此需要通過(guò)知識(shí)補(bǔ)全技術(shù)。對(duì)產(chǎn)品的功效等知識(shí)進(jìn)行補(bǔ)全,構(gòu)建了美妝知識(shí)補(bǔ)全抽取器,從而形成了從美妝數(shù)據(jù)到美妝領(lǐng)域schema的語(yǔ)義空間映射,AI工程師負(fù)責(zé)將底層數(shù)據(jù)構(gòu)建成美妝抽取器,美妝業(yè)務(wù)專家根據(jù)業(yè)務(wù)需要,可靈活、快捷選擇相應(yīng)的美妝抽取器,快速建立美妝領(lǐng)域知識(shí)圖譜,其詳細(xì)流程如圖6所示。

圖6 美妝知識(shí)圖譜構(gòu)建流程Fig.6 Construction processes for makeup knowledge graphs
3)知識(shí)管理
在自動(dòng)化構(gòu)建的美妝知識(shí)圖譜中,無(wú)法保證抽取的美妝知識(shí)的完全準(zhǔn)確性,在框架中集成人機(jī)交互的模式對(duì)美妝知識(shí)進(jìn)行修正和補(bǔ)充,美妝知識(shí)官通過(guò)知識(shí)管理模塊對(duì)知識(shí)圖譜進(jìn)行管理,如圖7所示,即可以幫助其從美妝整體維度審查領(lǐng)域知識(shí)的完備性,又可以輔助其進(jìn)行局部的知識(shí)管理以及在解決業(yè)務(wù)問(wèn)題方面的輔助洞察功能,例如幫助行業(yè)知識(shí)官了解其產(chǎn)品的受眾群體的用戶畫像等。

圖7 美妝知識(shí)管理Fig.7 Makeup knowledge management
4)美妝知識(shí)圖譜快速應(yīng)用
為了提高美妝行業(yè)知識(shí)圖譜的快速構(gòu)建和落地,降低行業(yè)知識(shí)圖譜構(gòu)建的技術(shù)門檻,框架集成了基于對(duì)話問(wèn)答模式的行業(yè)知識(shí)圖譜模式,通過(guò)輸入“打開知識(shí)流程”對(duì)話,如圖8所示,問(wèn)答機(jī)器人會(huì)提供完整的行業(yè)知識(shí)圖譜構(gòu)建流程,行業(yè)專家可以按照標(biāo)準(zhǔn)化的流程創(chuàng)建領(lǐng)域知識(shí)圖譜,具體的后臺(tái)構(gòu)建流程如圖9所示。

圖8 美妝知識(shí)圖譜構(gòu)建Fig.8 Construction makeup knowledge graph

圖9 美妝知識(shí)圖譜構(gòu)建流程Fig.9 Construction processes for makeup knowledge graph
美妝知識(shí)圖譜構(gòu)建完成后,基于SA-KBQA框架,可以迅速構(gòu)建領(lǐng)域的知識(shí)問(wèn)答,針對(duì)領(lǐng)域知識(shí)圖譜已有知識(shí),對(duì)用戶提出的問(wèn)題進(jìn)行回答,同時(shí)該框架中集成了推理功能,對(duì)用戶的問(wèn)題,給出相應(yīng)的答案推理路徑如圖10所示。

圖10 美妝知識(shí)圖譜問(wèn)答案例Fig.10 Case of makeup KBQA
若回答的問(wèn)題錯(cuò)誤,同時(shí)提供人機(jī)交互的方式,以完善行業(yè)知識(shí)圖譜的知識(shí)。通過(guò)該框架,實(shí)際美妝知識(shí)圖譜項(xiàng)目落地應(yīng)用周期縮短40%,客戶對(duì)銷售顧問(wèn)的滿意度提升23%,同時(shí)在營(yíng)銷洞察方面有效提升企業(yè)對(duì)消費(fèi)者的痛點(diǎn)感知,在優(yōu)化美妝產(chǎn)品和提升企業(yè)產(chǎn)品質(zhì)量方面發(fā)揮了較大作用。
汽車領(lǐng)域?qū)儆谥R(shí)密集型產(chǎn)業(yè),汽車產(chǎn)品眾多、功能繁雜,消費(fèi)者難以抉擇。而銷售顧問(wèn)一方面無(wú)法掌握全域的汽車知識(shí),另一方面對(duì)消費(fèi)者的推薦產(chǎn)品往往存在一定的主觀意愿,無(wú)法從消費(fèi)者的實(shí)際需求提供最佳的產(chǎn)品推介,從而降低了對(duì)消費(fèi)者的服務(wù)質(zhì)量,阻礙了汽車企業(yè)的快速發(fā)展。因此通過(guò)科技手段賦能汽車銷售顧問(wèn),幫助其對(duì)自己的銷售過(guò)程進(jìn)行回盤,自動(dòng)化分析其在銷售過(guò)程中的細(xì)節(jié),借鑒優(yōu)秀汽車銷售人員的整套服務(wù)過(guò)程細(xì)節(jié),可以有效幫助其提升業(yè)務(wù)銷售能力,同時(shí)對(duì)消費(fèi)者的深度洞察,幫助汽車企業(yè)進(jìn)產(chǎn)品優(yōu)化,滿足消費(fèi)者對(duì)汽車的更高要求。
借助于本文提出的多人協(xié)作構(gòu)建領(lǐng)域schema的方法,汽車銷售專家從領(lǐng)域問(wèn)題出發(fā),自上而下設(shè)計(jì)了汽車領(lǐng)域schema,AI工程師結(jié)合車企內(nèi)部數(shù)據(jù)和互聯(lián)網(wǎng)公開數(shù)據(jù),將底層數(shù)據(jù)抽取的實(shí)體和關(guān)系映射到業(yè)務(wù)專家設(shè)計(jì)的汽車schema中,并將知識(shí)抽取和知識(shí)補(bǔ)全兩個(gè)維度封裝為多個(gè)抽取器,企業(yè)銷售業(yè)務(wù)專家根據(jù)實(shí)際業(yè)務(wù)需求,快速構(gòu)建了汽車領(lǐng)域知識(shí)圖譜,其目的是拓展汽車消費(fèi)顧問(wèn)的知識(shí)邊界,同時(shí)將銷售過(guò)程中的話題基于時(shí)間序列構(gòu)建事理圖譜,幫助銷售顧問(wèn)了解銷售過(guò)程的細(xì)節(jié),以發(fā)現(xiàn)其銷售過(guò)程的缺點(diǎn),進(jìn)行銷售過(guò)程優(yōu)化,銷售過(guò)程框架如圖11所示。

圖11 汽車銷售過(guò)程數(shù)字化Fig.11 Digital management platform for automobile sales
汽車銷售業(yè)務(wù)專家可自主、便捷選擇基于車企內(nèi)部數(shù)據(jù)和網(wǎng)絡(luò)社交數(shù)據(jù)封裝的各類抽取器快速構(gòu)建汽車領(lǐng)域知識(shí)圖譜,如圖12所示。該圖譜的目的是幫助汽車銷售顧問(wèn)全面、細(xì)致了解汽車產(chǎn)品間在基本參數(shù)的差異以及消費(fèi)者在社交平臺(tái)上對(duì)汽車的評(píng)價(jià)信息,從而幫助汽車銷售顧問(wèn)熟悉產(chǎn)品在消費(fèi)者中的真實(shí)感受,以幫助其在銷售過(guò)程對(duì)消費(fèi)者進(jìn)行個(gè)性化服務(wù),不斷提升業(yè)務(wù)銷售能力,提高消費(fèi)者對(duì)服務(wù)的滿意度。

圖12 汽車領(lǐng)域知識(shí)圖譜Fig.12 Automobile knowledge graphs
汽車銷售顧問(wèn)對(duì)顧客的銷售,在整個(gè)汽車銷售過(guò)程中起到了非常重要的作用,通過(guò)事例圖譜將汽車銷售過(guò)程進(jìn)行數(shù)字化,可以幫助銷售顧問(wèn)對(duì)自己的銷售問(wèn)題追因,幫助其改進(jìn)銷售過(guò)程,在該事例圖譜中,將銷售過(guò)程進(jìn)行話題標(biāo)簽識(shí)別,在此基礎(chǔ)上基于時(shí)間序列,生成銷售話題標(biāo)簽的轉(zhuǎn)移矩陣,形成完整的銷售過(guò)程話題事理圖譜如圖13所示,為后期企業(yè)對(duì)銷售過(guò)程的優(yōu)化和新人培訓(xùn)等業(yè)務(wù)場(chǎng)景問(wèn)題提供科學(xué)的知識(shí)輔助。

圖13 汽車銷售事例圖譜Fig.13 Event evolutionary graph for automobile sales
該項(xiàng)目中的領(lǐng)域知識(shí)圖譜構(gòu)建和銷售過(guò)程的話題實(shí)例圖譜的構(gòu)建相比計(jì)劃提前30%,整個(gè)項(xiàng)目部署應(yīng)用之后,銷售顧問(wèn)的銷售技能得到有效提升,其表現(xiàn)在消費(fèi)者的滿意度和銷售業(yè)績(jī)以良好的態(tài)勢(shì)在逐步提升。
知識(shí)圖譜已成為探索從感知智能到認(rèn)知智能的重要途徑,為解決企業(yè)對(duì)領(lǐng)域知識(shí)圖譜的快速構(gòu)建和應(yīng)用需求,本文研發(fā)了領(lǐng)域知識(shí)圖譜快速構(gòu)建和應(yīng)用框架,設(shè)計(jì)了多人協(xié)作模式構(gòu)建領(lǐng)域schema方法,解決行業(yè)知識(shí)的復(fù)雜性導(dǎo)致的圖譜構(gòu)建過(guò)程緩慢問(wèn)題,通過(guò)解耦合業(yè)務(wù)專家和技術(shù)專家,賦能業(yè)務(wù)專家依據(jù)業(yè)務(wù)問(wèn)題靈活配置構(gòu)建領(lǐng)域知識(shí)圖譜,通過(guò)建立基于行業(yè)schema的SAKBQA解決行業(yè)知識(shí)圖譜在知識(shí)問(wèn)答方向的快速落地問(wèn)題,最后通過(guò)美妝和汽車領(lǐng)域?qū)嶋H項(xiàng)目驗(yàn)證了該框架可以有效加快行業(yè)知識(shí)圖譜的落地和應(yīng)用。同時(shí),在領(lǐng)域知識(shí)圖譜構(gòu)建的過(guò)程中,如何將通用領(lǐng)域的知識(shí)圖譜和領(lǐng)域知識(shí)圖譜進(jìn)行有效結(jié)合、基于小樣本的知識(shí)抽取以及領(lǐng)域間的知識(shí)圖譜的遷移是未來(lái)該框架繼續(xù)研究的方向。