王嬋娟
摘 要:本文首先介紹了淘寶寶貝標題分詞的意義和常用方法,然后闡述了深度學習的分詞技術,通過深度學習的分詞技術提高寶貝標題分詞的準確性,最后通過對相似的熱銷寶貝的標題分詞對比,進一步提高寶貝標題的搜索有效性。
關鍵詞:深度學習;分詞技術;標題優化
一、深度學習分詞技術介紹
深度學習的概念源于人工神經網絡的研究。人工神經網絡思想來源于大腦機制的探索,即對大腦思維能力的研究和模仿。神經網絡理論與相關技術就是為了實現思維的認識機能而發展出來的,長久以來,它都是這門學科的基本任務。
自2006年以來,Geoffrey Hinton在深度學習上獲得了重大突破,他與他的深度學習理論將人工智能帶入了一個新的時代:認知計算。認知計算的目標不再是尋求顯示問題的最優解或在給定的數據結構上進一步提高搜索性能,而是把算法領域擴展到了探索大腦的深度機制—認知機制方面。
含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發現數據的分布式特征表示。
深度學習是機器學習中一種基于對數據進行表征學習的方法。觀測值(例如一幅圖像)可以使用多種方式來表示,如每個像素強度值的向量,或者更抽象地表示成一系列邊、特定形狀的區域等。而使用某些特定的表示方法更容易從實例中學習任務(例如,人臉識別或面部表情識別)。深度學習的好處是用非監督式或半監督式的特征學習和分層特征提取高效算法來替代手工獲取特征。
這些新生的算法在自然語言處理領域同樣獲得了巨大的成功。
中文分詞是個比較經典的問題,一般工業界中文分詞方案都是基于規則。
1.基于規則的常見的就是最大正/反向匹配,以及雙向匹配。
2.規則里糅合一定的統計規則,會采用動態規劃計算最大的概率路徑的分詞
以上說起來很簡單,其中還有很多細節,比如詞法規則的高效匹配編譯,詞庫的索引結構等。
深度學習方法為分詞技術帶來了新的思路,直接以最基本的向量化原子特征作為輸入,經過多層非線性變換,輸出層就可以很好的預測當前字的標記或下一個動作。在深度學習的框架下,仍然可以采用基于子序列標注的方式,或基于轉移的方式,以及半馬爾科夫條件隨機場。深度學習主要有兩點優勢:
1.深度學習可以通過優化最終目標,有效學習原子特征和上下文的表示;
2.基于深層網絡如 CNN、 NN、 LSTM等,深度學習可以更有效的刻畫長距離句子信息。
二、 淘寶搜索與寶貝關鍵詞:優化
買家使用淘寶應用,往往使用搜索框查找希望購買的商品,淘寶搜索是連接商家與消費者的核心,是賣家需要關注的重點。淘寶SEO全稱“淘寶搜索引擎優化”,是指按照淘寶搜索引擎的規則,來設置優化寶貝,從而使得寶貝排名靠前,進而獲取更多流量的一種技術。
淘寶SEO的核心內容是關鍵詞:搜索優化。商品標題的關鍵詞:優化是重點,寶貝的標題是與買家搜索關鍵詞:聯系最大且最直接的一個,買家輸入的關鍵詞:,會在寶貝標題中進行匹配,一個優秀的寶貝標題可以帶來更多的搜索展現。
寶貝關鍵詞:優化需要注意的點和常用方法包括如下內容:
1.在書寫淘寶寶貝標題的時候,一定要符合寶貝真實屬性,避免堆砌關鍵詞:,講求實事求是。標題中所包含的關鍵詞:,一定是在寶貝屬性中真實具有的。比如:標題中寫“中長款”,在商品屬性中“短”就屬于屬性不相關。
2.一般來說一個寶貝標題最多支持60個字符,總共包含30個漢字。在搜索關鍵詞:時,系統首先對輸入的關鍵詞:切詞,比如搜索“新款休閑褲”,淘寶系統會將這個詞切分成:“新款休閑”,“休閑褲”,“褲”,“休閑”,“新款休閑褲”,“新款 休閑褲”。被切分后,系統將切分的詞與系統數據庫中的字典比較。原則上只要標題中含有切分后的詞,在搜索時都有可能被展現。
3.將關鍵詞:放到淘寶指數里面,查看其搜索指數。
4.關鍵詞:還可以包含類目主關鍵詞:,屬性關鍵詞:,長尾關鍵詞:,如何挖掘關鍵詞:還包括從淘寶搜索下拉框挑選一些推薦的搜索熱詞,使用生意參謀市場行情中的搜索詞查詢,或者使用淘寶指數來了解淘寶搜索熱點,定位消費人群,研究細分市場。淘寶指數包括通過市場趨勢,市場細分,排行榜來了解關鍵詞:排名及變化情況。或者從直通車關鍵詞:詞典里面挑選關鍵詞:。
5.有了關鍵詞:,需要有序地排列這些關鍵詞:,構造合適的標題。一般來說包括標題包括營銷詞+類目詞+屬性詞+核心關鍵詞:。
三、深度學習分詞技術應用到標題優化
淘寶后臺當前越來越多地使用深度學習算法來搜索用戶感興趣的寶貝,因此使用深度學習分析過的標題能夠更好地匹配淘寶后臺的搜索算法,提高寶貝展現率。
主要通過兩個方面來優化:
1.分詞準確性
采用深度學習后,相比傳統的分詞,能夠極大提高分詞的準確性,貼近詞語在句子中的合適位置。本文采用了兩種采用了分詞技術的系統來對標題進行切分。一個是百度人工智能自然語言詞法分析工具[1]。
以淘寶中一款寶貝[2]為例,其寶貝標題如下:
kumayes 秋季韓版寬松圓領套頭撞色愛心針織毛衫愛心減齡毛衣女
使用百度詞法分析工具對該寶貝標題分詞后,分詞詞性如圖1所示。
另一個分詞工具是哈工大的語言技術平臺[3],用其對同一款寶貝標題進行分詞得到的結果如圖2所示。
從上面的百度和哈工大語言平臺可以看到,兩個工具對詞語的分詞效果結果一致。其中“愛心”出現了兩次,寶貝管理人員可以考慮優化標題,只保留一個“愛心”關鍵詞:。
2.同相似寶貝標題的分詞對比(以百度平臺的為例)
淘寶寶貝[4]標題如下:
標題:2018秋季韓版學生寬松圓領套頭撞色甜美針織毛衫女愛心減齡毛衣潮
對該標題進行分詞分析如3所示。
根據淘寶中競品的情況,尤其是一些熱銷品,看看他們的標題命名是怎樣的。使用分詞分析平臺,可以對每個詞進行詞性分析,例如名詞,動詞,形容詞。通過向熱銷品參考,達到優化標題的目的。
以下通過兩個競品寶貝進行分析對比。
競品1[5]:
kumayes 秋季韓版寬松圓領套頭撞色愛心針織毛衫愛心減齡毛衣女
其在百度平臺的分詞結果如圖1所示。
競品2[6]:
標題:2018秋冬新款韓版女式平面純色高翻領針織打底毛衫修身套頭毛衣
百度分詞工具分析結果如圖4所示。
其中,在分詞詞性中,m表示數量詞,t表示時間名詞,n表示名詞,a表示形容詞,v表示普通動詞,vn表示名動詞。通過對比自擬的寶貝標題和競品的寶貝標題詞性,可以通過優化詞性,來達到標題優化的目的。
四、總結
由上文可知,利用深度學習分詞技術為寶貝標題分析及SEO中的標題優化提供了新的分析手段,可以通過進一步的研究分析如何根據爆款標題指導制作標題。
參考文獻:
[1]百度人工智能自然語言詞法分析工具:https://cloud.baidu.com/product/nlp/lexical
[2]淘寶寶貝:https://item.taobao.com/item.htm?spm=a219r.lmn002.14.6.4cd75b624FbMAw&id=576354597258&ns=1&abbucket=7#detail
[3]哈工大語言技術平臺:http://ltp.ai/demo.html
[4]淘寶寶貝:https://item.taobao.com/item.htm?spm=a230r.1.14.34.185e2fc7pCCtyc&id=578189753845&ns=1&abbucket=7#detail
[5]競品1寶貝:https://detail.tmall.com/item.htm?spm=a230r.1.14.6.34d4466fN5OkeJ&id=577399581385&cm_id=140105335569ed55e27b&abbucket=16&sku_properties=20509:28383
[6]競品2寶貝:https://detail.tmall.com/item.htm?spm=a230r.1.14.10.5da225b5rypyKZ&id=575633483211&ad_id=&am_id=&cm_id=140105335569ed55e27b&pm_id=&abbucket=7