999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

供需信息跨語言檢索算法研究

2017-09-01 15:54:43姚寒冰王麗清徐永躍
關(guān)鍵詞:語言服務(wù)信息

姚寒冰,王麗清,徐永躍

(云南大學(xué) 信息學(xué)院 云南省高校數(shù)字媒體技術(shù)重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650223)

供需信息跨語言檢索算法研究

姚寒冰,王麗清,徐永躍

(云南大學(xué) 信息學(xué)院 云南省高校數(shù)字媒體技術(shù)重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650223)

經(jīng)濟(jì)全球化促進(jìn)了互聯(lián)網(wǎng)電子商務(wù)的快速發(fā)展,跨境電商因其巨大的發(fā)展?jié)摿Τ蔀樾碌馁Q(mào)易增長點(diǎn)。由于貿(mào)易的基礎(chǔ)與前提是供需雙方信息的高效共享和溝通,而跨境電商因涉及不同語言之間的互譯,使得信息交流的及時性、準(zhǔn)確性不足,導(dǎo)致喪失貿(mào)易時機(jī),甚至導(dǎo)致貿(mào)易失敗。為此,提出了一種基于自然語言的跨語言協(xié)同機(jī)器翻譯的信息檢索算法。該算法可使供給方可根據(jù)所提供商品服務(wù)的特點(diǎn)進(jìn)行靈活的擴(kuò)展描述,并為需求方提供自然語言描述方法,需求方可使用不同的語言進(jìn)行輸入,完成跨語言的檢索。為驗(yàn)證協(xié)同機(jī)器翻譯的自然語言實(shí)現(xiàn)供需信息的檢索和自動匹配能力,進(jìn)行了相關(guān)驗(yàn)證實(shí)驗(yàn)測試。實(shí)驗(yàn)測試結(jié)果表明,所提出的算法可滿足供給方對自身商品或服務(wù)進(jìn)行特有屬性擴(kuò)展描述的需求,同時具有多語種拓展?jié)摿Γ兄谙┬桦p方的語言障礙。

跨語種;供需;自然語言;檢索

0 引 言

近年來,對于供需自動檢索的方法和跨語言信息檢索已有很多研究。最常見的檢索方式是對供給方的商品或服務(wù),進(jìn)行樹狀目錄分級,由需求方逐級進(jìn)行人工選擇。這種方式操作方便,但是存在供給方的商品或服務(wù)只能套入固定模式的樹狀目錄分級結(jié)構(gòu)、難以擴(kuò)展某些獨(dú)特商品或服務(wù)的特色,以及需求方不一定對于該樹狀目錄分級結(jié)構(gòu)很清楚等弊端。另外,還有基于多目標(biāo)離散差分進(jìn)化算法的交易檢索方法[1]、基于B2B電子交易環(huán)境的供需匹配概念框架[2]、基于圖論的商品自動匹配系統(tǒng)[3]、基于商品本體結(jié)構(gòu)語義相似度匹配算法[4]、基于電子中介下商品交易為背景的方法[5]等。但是以上方法,都沒有解決跨語種供需信息自動匹配檢索的問題,導(dǎo)致不同語種環(huán)境下的應(yīng)用存在局限。

自然語言檢索方面的研究包括面向自然語言檢索的標(biāo)引技術(shù)、自然語言提問分析與處理、自然語言檢索的匹配過程及概念控制[6]、基于有限狀態(tài)方法模型的自然語言處理[7]、基于語義的自然語言檢索方法[8]等;多語種信息組織與檢索方面的研究包括多語言本體構(gòu)建與協(xié)調(diào)、基于關(guān)聯(lián)數(shù)據(jù)的多語言語義網(wǎng)建設(shè)、跨語種語言資源和知識組織系統(tǒng)互操作、多語言文本分類與聚類、交互式多語言信息檢索[9]、基于聚類的個性化跨語言信息檢索方法[10]、基于知識源、雙語詞典和機(jī)器翻譯的跨語言檢索[11]、在語境單元框架上的匹配和生成機(jī)制實(shí)現(xiàn)跨語言檢索[12]、基于可對比語料庫訓(xùn)練的跨語言信息檢索模型[13]等,還有基于語義網(wǎng)的多語種自然語言查詢方法[14]等。

為此,提出了一種基于語義分析的信息檢索算法,即由需求方輸入一段自然語言描述需求信息,并與供給信息進(jìn)行比對。該算法在對需求方的自然語言提問進(jìn)行語義分析處理、對多語種結(jié)構(gòu)組織的信息庫進(jìn)行匹配檢索、對中間庫和同義詞庫進(jìn)行共同檢索的基礎(chǔ)上,按照權(quán)重算法進(jìn)行共有特征(包括顏色、重量、價格等商品特有屬性)的檢索比對,借助人工/機(jī)器翻譯機(jī)制,建立多語種的供求商品或服務(wù)信息庫,該庫作為跨語言檢索的中間庫,同時構(gòu)建同義詞庫提供比對。

1 設(shè)計與實(shí)現(xiàn)

1.1 供求商品或服務(wù)信息庫設(shè)計

供求商品或服務(wù)信息庫用于提供供方商品或服務(wù)的有關(guān)信息,由以下幾部分組成:

(1)供給信息描述。

每一大類商品或服務(wù),設(shè)置相對固定的一系列屬性,即固定屬性。對于每一單獨(dú)的商品或服務(wù),另可各自擴(kuò)展一系列不確定總數(shù)的屬性,稱為自定義屬性,由多個可準(zhǔn)確描述商品或服務(wù)的獨(dú)具特點(diǎn)的詞匯構(gòu)成。屬性分為文本類型和數(shù)值類型,數(shù)值類型的屬性,還需提供單位名稱,并可有上下限。文本類型的屬性值、單位名稱,由人工/機(jī)器翻譯機(jī)制取得多語言結(jié)果并完成存儲。

(2)自定義屬性。

自定義屬性,如果由每一單獨(dú)商品或服務(wù)各自分散存儲,結(jié)果將極大地增加數(shù)據(jù)庫冗余,進(jìn)而降低檢索算法的效率,惡化用戶體驗(yàn)。因此,在實(shí)現(xiàn)中進(jìn)行集中存儲,即多個相同的自定義屬性值,只存儲一條。

自定義屬性與商品或服務(wù)之間構(gòu)成多對多的關(guān)聯(lián)關(guān)系。1種商品或服務(wù)可具有1條或多條自定義屬性,1條自定義屬性值可歸屬于1種或多種不同商品或服務(wù)。

(3)權(quán)重。

對于固定屬性和自定義屬性,都具有不同的權(quán)重值。對于固定屬性,預(yù)先設(shè)置相對固定的權(quán)重值。對于自定義屬性,預(yù)設(shè)權(quán)重值隨系統(tǒng)平臺提供的商品服務(wù)的不斷變化而動態(tài)變化,表示該自定義屬性的稀有程度,越稀有的自定義屬性,權(quán)重值越高。

權(quán)重值的生成是指該商品服務(wù)類別中的自定義屬性總數(shù)與該自定義屬性所屬商品或服務(wù)數(shù)量之間的比值。

(4)同義詞表。

同義詞表用于完成含義相似、相近詞的檢索,獲取一致的結(jié)果。

在一個語種中,一組含義相同或相近的詞匯可構(gòu)成一組同義詞。基于各語種的同義詞典,以及相關(guān)商品或服務(wù)領(lǐng)域的專業(yè)知識,構(gòu)建同義詞表。

1.2 庫生成和更新

供求商品或服務(wù)信息庫的生成和更新,由不同角色協(xié)同完成,如圖1所示。

如圖1所示,新入庫的商品或服務(wù),由供給方人工錄入其固定屬性和自定義屬性;系統(tǒng)后臺自動根據(jù)當(dāng)前語種檢索同義詞典,歸并同義屬性,并計算權(quán)重值;系統(tǒng)后臺自動由機(jī)器翻譯得到其他語種對應(yīng)屬性值;系統(tǒng)后臺自動對所有已錄入的自定義屬性定期掃描以重新設(shè)置權(quán)重值;系統(tǒng)管理維護(hù)人員不定期人工檢查機(jī)器翻譯得到的屬性值,并進(jìn)行人工翻譯校正。

供求商品或服務(wù)信息庫的構(gòu)建,以中文為主。信息庫構(gòu)建完成后,便可根據(jù)一種語種的檢索匹配,迅速找到所有已有語種的對應(yīng)信息庫內(nèi)容,為供給方-需求方語言不通情況下的供需匹配提供一定的便利。通過數(shù)據(jù)庫表擴(kuò)展字段,即可支持新語種的加入。實(shí)現(xiàn)了跨語種和可擴(kuò)展的特性。并通過關(guān)鍵詞和同義詞的關(guān)聯(lián)關(guān)系,提高檢索匹配信息庫內(nèi)容的準(zhǔn)確性和兼容性。

1.3 跨語言信息檢索算法

當(dāng)需求方提出需求信息時,由跨語言信息檢索算法對供求商品或服務(wù)信息庫進(jìn)行檢索,實(shí)現(xiàn)供需匹配。算法實(shí)現(xiàn)的主要思路是:需求方輸入的需求信息,與供求信息庫中的商品或服務(wù)的屬性值進(jìn)行比對,命中的屬性權(quán)重值總和,超過一定閾值時,即為匹配成功。按權(quán)重總和由高到低進(jìn)行排列,表示匹配程度的吻合度。

在計算過程中,根據(jù)屬性不同的值類型,有不同的命中定義。

(1)對于文本類型的屬性,當(dāng)需求信息包含該屬性值,或者此屬性值的同義詞時,即為命中。

(2)對于數(shù)值類型的屬性,根據(jù)不同語言的不同表達(dá)方式構(gòu)建不同的正則表達(dá)式,形成正則表達(dá)式庫,并附加該屬性的單位,對需求信息進(jìn)行語義分析,取得數(shù)值范圍。例如:“300到500元”、“400元左右”,正則表達(dá)式分別為^-?[1-9]d*到-?[1-9]d*元$、^-?[1-9]d元左右$。

(3)對于數(shù)值類型的屬性,對需求信息中不同形式的單位描述,設(shè)置單位換算規(guī)則,如需求信息描述與供應(yīng)信息所使用的單位不符時,可進(jìn)行換算。

(4)當(dāng)取得具有上下限的數(shù)值范圍時,屬性值處于該范圍之內(nèi),即為命中。

(5)當(dāng)只取得一個數(shù)值時,浮動上下30%并取整,作為上下限。

這樣,需求信息與供給信息匹配程度的吻合度,與命中屬性總數(shù)、命中屬性的稀有性成正比,并能適應(yīng)自然語言中的不同表達(dá)。

具體示例:如權(quán)重值總和的閾值為1 000,供給商品或服務(wù)信息庫中有某種蘋果具有以下固定屬性:產(chǎn)地:市(權(quán)重值600);品種:紅富士(權(quán)重值350);果徑:80~85 mm(權(quán)重值200);是否有機(jī)食品:否(權(quán)重值50);規(guī)格:4 000 g(權(quán)重值50);數(shù)量:15個(權(quán)重值50);價格:65元(權(quán)重值400)。具有以下自定義屬性:套袋防蟲(權(quán)重值700)。

當(dāng)有需求方提交需求信息:“A市產(chǎn)的有套袋防蟲的紅富士蘋果,每公斤15元左右。”A市、紅富士、套袋防蟲3個屬性由于被文本包含而命中,并由語義分析獲得價格需求:15元、單位:公斤,供求信息中的規(guī)格為4 000 g,根據(jù)單位換位規(guī)則得到需求方的價格需求為60元,在商品價格屬性浮動范圍內(nèi),也命中。因此,共命中產(chǎn)地、品種、價格、套袋防蟲4個屬性,權(quán)重值總和為2 050,超過閾值,供給信息和需求信息檢索命中,獲得了匹配。

當(dāng)有需求方提交英文信息:“Red fuji apple in A-City,15 Yuan per kg。”也可通過英文關(guān)鍵詞Red apple、A-City、Yuan、kg命中有關(guān)屬性,從而獲得檢索匹配,這樣就可實(shí)現(xiàn)跨語種檢索,在一定程度上克服供給方、需求方之間的語言障礙。

2 結(jié)果分析

算法實(shí)現(xiàn)的實(shí)際效果,主要依賴于供求商品或服務(wù)信息庫的建設(shè)質(zhì)量,由以下因素構(gòu)成:商品或服務(wù)信息的總量、商品或服務(wù)的屬性描述的準(zhǔn)確性、同義詞庫的準(zhǔn)確性、商品或服務(wù)信息的翻譯質(zhì)量。其中,總量、翻譯質(zhì)量可以用量化指標(biāo)表示,翻譯質(zhì)量以機(jī)器翻譯所占的比例代表,比例越高,翻譯質(zhì)量越低。

在應(yīng)用系統(tǒng)中,基于以上指標(biāo),對算法效果進(jìn)行了測試。測試樣例,分別基于中、英、泰三個語種,使用100條自然語言描述的需求信息對供給信息庫進(jìn)行匹配檢索。

測試前,分別抽取20條需求信息樣本,人工在供給信息庫中逐條分析是否含可匹配的供給信息,得到期待匹配比例,用于與應(yīng)用系統(tǒng)實(shí)際得到的匹配結(jié)果的比例進(jìn)行對比。另外,測試表明檢索平均耗時不大于10 ms,可以滿足用戶體驗(yàn)要求。

檢索得到的匹配結(jié)果對比如表1所示。

表1 應(yīng)用系統(tǒng)匹配效果測試結(jié)果 %

由測試結(jié)果可以得出,信息庫的建設(shè)質(zhì)量對檢索效率有較大影響,通過信息庫的不斷完善,可以滿足并改善用戶體驗(yàn)。具體方法有增加商品或服務(wù)信息的總量,加快人工翻譯的進(jìn)度,增強(qiáng)人工翻譯的質(zhì)量,增加同義詞庫的容量和準(zhǔn)確性,通過系統(tǒng)界面信息或系統(tǒng)后臺人員與供給方的互動溝通等方式引導(dǎo)供給方增強(qiáng)商品或服務(wù)信息的準(zhǔn)確性。

3 結(jié)束語

為解決自然語言實(shí)現(xiàn)供需信息的檢索和自動匹配,滿足供給方對自身商品或服務(wù)的特有屬性擴(kuò)展進(jìn)行描述的需求,提出了一種基于可擴(kuò)展多語種供求商品或服務(wù)信息庫和協(xié)同機(jī)器翻譯自然語言的供需信息跨語言信息檢索算法。測試結(jié)果表明,該算法一定程度上滿足了供需信息檢索與自動匹配的需求,彌補(bǔ)了傳統(tǒng)供需檢索匹配方式在自然語言和特性描述支持上的不足,可方便地進(jìn)行多語種的擴(kuò)展,使得供需雙方的語言障礙在一定程度上得以克服,并獲得了較好的用戶體驗(yàn)效果。

[1] 蔣忠中,樊治平,汪定偉,等.具模糊信息的多數(shù)量多屬性電子交易匹配問題[J].管理科學(xué)學(xué)報,2014,17(5):52-65.

[2] Alpar F Z.Matchmaking framework for B2B e-marketplaces[J].Informatica Economica Journal,2010,14(4):164-170.

[3] 陳 向,劉 義,柴躍廷.基于圖論的電子易貨商品自動匹配系統(tǒng)[J].計算機(jī)工程,2009,35(17):283-284.

[4] 陳冬林,聶規(guī)劃,劉平峰.基于本體的B2B電子商務(wù)MAS模型及商品匹配算法[J].計算機(jī)工程與應(yīng)用,2007,43(10):199-201.

[5] 梁海明,姜艷萍.一種考慮中介交易態(tài)度的買賣雙邊匹配決策方法[J].運(yùn)籌與管理,2013,22(5):128-133.

[6] 耿 騫,賴茂生.自然語言檢索的實(shí)現(xiàn)及其關(guān)鍵問題[J].情報科學(xué),2007,25(5):733-741.

[7] Anssi Y J, Andras K, Jacques S.Finite-state methods and models in natural language processing[J].Natural Language Engineering,2011,17(2):141-144.

[8] 謝文亮,王石榴.基于語義Web的科技期刊網(wǎng)絡(luò)信息檢索及其應(yīng)用[J].科技管理研究,2015,35(2):196-200.

[9] 司 莉,莊曉喆,賈 歡.近10年來國外多語言信息組織與檢索研究進(jìn)展與啟示[J].中國圖書館學(xué)報,2015,41(4):112-126.

[10] 龐觀松,張黎莎,蔣盛益.個性化跨語言學(xué)術(shù)搜索技術(shù)研究[J].情報學(xué)報,2011,30(8):870-874.

[11] 張玥杰,郭依昆,連 理,等.基于英漢機(jī)譯實(shí)現(xiàn)跨語言信息檢索[J].小型微型計算機(jī)系統(tǒng),2004,25(7):1135-1140.

[12] 吳 晨,繆建明,張 全.跨語種信息檢索中的文本比較及結(jié)果生成算法[J].計算機(jī)工程與應(yīng)用,2005,41(29):11-15.

[13] Vulic I,Smet W,Moens M F.Cross-language information retrieval models based on latent topic models trained with document-aligned comparable corpora[J].Information Retrieval,2013,16(3):331-368.

[14] Al-Nazer A,Albukhitan S,Helmy T.Cross-domain semantic web model for understanding multilingual natural language queries:english/arabic health/food domain use case[J].Procedia Computer Science,2016,83:607-614.

Research on Automatic Retrieving Algorithm of Cross-language Supply and Demand Information

YAO Han-bing,WANG Li-qing,XU Yong-yue

(Key Lab of Digital Media Technology of Universities in Yunnan Province,School of Information Science and Engineering of Yunnan University,Kunming 650223,China)

Economic globalization has promoted the rapid development of Internet e-commerce.And the cross-border e-commerce suppliers have become a new growth point of trade due to its huge potential of development.Since basis and prerequisite of trade are efficient sharing and communication of information between supplier and demander,cross-border e-commerce involves translation between different languages,which results in lack of the real-time and accuracy in information exchanges as well as miss of trade opportunities or even failure in trade.To solve this problem a cross-language information retrieval algorithm based on natural language and collaborated with machine translation is proposed,which enable supplier to describe the characteristics of the goods or services flexibly and provide demander for different natural language to describe its own demand for completion of retrieval of cross-language.In order to verify ability of retrieval and automatic matching of supplier and demander information collaborated with machine translation,the verification experiment has been conducted and its results show that the proposed algorithm has met demands of the supplier to depict unique attributes of their goods or services and has owned potentials for multilingual development,which can help to eliminate the language barrier between the supplier and demander.

cross-language;supply and demand;natural language;retrieval

2016-08-18

2016-11-23 網(wǎng)絡(luò)出版時間:2017-07-05

云南省科技創(chuàng)新強(qiáng)省資助項(xiàng)目(2014AB021)

姚寒冰(1978-),男,工程師,碩士,研究方向?yàn)樾畔⑾到y(tǒng);王麗清,通信作者,副研究員,碩士生導(dǎo)師,研究方向?yàn)樾畔⑾到y(tǒng)與檢索、電子商務(wù)等。

http://kns.cnki.net/kcms/detail/61.1450.TP.20170705.1650.038.html

TP391

A

1673-629X(2017)08-0152-04

10.3969/j.issn.1673-629X.2017.08.032

猜你喜歡
語言服務(wù)信息
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
服務(wù)在身邊 健康每一天
服務(wù)在身邊 健康每一天
服務(wù)在身邊 健康每一天
讓語言描寫搖曳多姿
招行30年:從“滿意服務(wù)”到“感動服務(wù)”
商周刊(2017年9期)2017-08-22 02:57:56
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
累積動態(tài)分析下的同聲傳譯語言壓縮
我有我語言
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产精品19p| 日韩毛片免费观看| 欧美一级在线| 手机在线看片不卡中文字幕| 中文字幕在线视频免费| 中国国产A一级毛片| 亚洲色图欧美激情| 国产福利大秀91| 久久综合伊人 六十路| 91精品国产综合久久香蕉922| 国产超碰一区二区三区| 91亚洲国产视频| 欧美另类第一页| 欧美激情第一欧美在线| 91在线播放国产| 国产主播喷水| 亚洲成A人V欧美综合天堂| 国产欧美视频一区二区三区| 极品私人尤物在线精品首页| 国产99精品久久| 免费看黄片一区二区三区| 在线观看免费人成视频色快速| AV不卡无码免费一区二区三区| 自慰网址在线观看| 日本欧美一二三区色视频| 精品三级网站| 97久久超碰极品视觉盛宴| 女同久久精品国产99国| 欧美成人日韩| 午夜电影在线观看国产1区| 亚洲男人天堂久久| 无码一区18禁| 国产成在线观看免费视频| 国产亚洲欧美日韩在线一区| 中文字幕精品一区二区三区视频| 国产亚洲欧美日韩在线一区| 九九久久99精品| 一本大道东京热无码av| 久久亚洲国产视频| 国产亚卅精品无码| 国产香蕉国产精品偷在线观看 | 久久黄色一级视频| 真实国产乱子伦视频| 欧美国产综合色视频| 亚洲精品第五页| 亚洲无码高清免费视频亚洲| 99精品一区二区免费视频| 亚洲精品国产成人7777| 色综合久久综合网| 日韩无码黄色| 呦女亚洲一区精品| 激情午夜婷婷| 亚洲清纯自偷自拍另类专区| 一级黄色片网| 日韩AV无码一区| 日本高清有码人妻| 在线欧美一区| 亚洲精品在线影院| 高清不卡毛片| 丰满的少妇人妻无码区| 欧美一区福利| 亚洲第一黄片大全| 最新国产在线| 午夜视频日本| 久久毛片基地| 欧美精品在线免费| 国产噜噜在线视频观看| 一本大道在线一本久道| 亚洲精品在线观看91| 国产精品自在在线午夜| 免费在线国产一区二区三区精品| 亚洲国产高清精品线久久| 91视频青青草| 亚洲中文精品人人永久免费| 女人18一级毛片免费观看| 中文字幕日韩久久综合影院| 国产精品黑色丝袜的老师| 黄片一区二区三区| 欧美福利在线| 国产精品黑色丝袜的老师| 国产中文一区二区苍井空| 激情无码字幕综合|