李小敏
(國家知識產權局專利局專利審查協作四川中心,四川 成都 610213)
本文主要對基于數據挖掘技術的商品推薦技術做一個梳理, 比較三類商品推薦技術的特點, 對各種方法的技術發展路線進行整理。 在專利數據庫對幾種商品推薦方法在國內外的專利申請數量和時間分布進行一定的分析, 研究技術發展動向, 分析該領域的重點數據挖掘算法, 以及各個算法在具體專利申請技術方案中的運用。
基于數據挖掘的商品推薦技術發展依托于數據挖掘技術的發展, 早期的數據挖掘技術在應用到商品推薦的電子商務領域之后, 取得了豐碩的商業成果。 在近年來,又結合云計算、大數據等新的技術,展開了新的探索。 基于上述技術原理的學習和專利文獻以及非專利文獻的檢索, 對數據挖掘技術在商品推薦領域的發展進行分析和梳理,作出以下發展路線的歸納:

圖1 基于數據挖掘的商品推薦方法技術演進路線
為了進一步分析基于數據挖掘方法的商品推薦技術領域的專利申請情況, 在本節中基于關鍵詞和分類號等檢索方法在專利庫DWPI 對中外專利申請情況進行檢索,得到以下統計結果。 圖2 給出了自1998 年以來中國和全球每年的該領域專利申請數量

圖2 領域歷年專利申請量
從上圖可以看出, 關于商品推薦的技術特別是早期的算法理論起步較早, 但由于電商的發展和起步,基于數據挖掘的商品推薦在2000 年以前處于起步階段,而國內由于起步較晚,06 年以前仍處于起步階段;進入2005 年以后, 由于電子商務技術的飛速發展,帶動了商品推薦領域技術的不斷進步, 該領域的專利申請量不斷提升, 在2013 年前后達到頂峰, 在08 年以后, 國內的電商得到了快速的發展, 由于具有后發優勢,整個行業發展迅速,專利的申請量也急劇增長。

圖3 全球各個國家申請量所占比例
圖3 展示了作為技術原創國申請專利數量占全球專利數量的份額比例, 從上圖分布可以看出, 作為最早的技術起源地, 美國的專利申請數量達到了一半以上; 由于近年來電子商務技術在國內的蓬勃發展,中國內地的專利申請數量緊隨其后, 占據了較大份額;此外, 日本、 韓國等國家在該領域的專利申請量也較高。

圖4 領域重要申請人申請專利數量
圖4 給出了領域重要申請人的申請數量,其中IBM作為最早研究關聯規則等數據挖掘方法的商業巨頭,在領域的申請數量較大, 此外, 亞馬遜也是對基于數據挖掘的商品推薦應用較廣且較早的商業公司, 其申請量也較高,也正印證了其發布的數據顯示“2010 年前后, 由于數據挖掘技術的作用, 使得亞馬遜公司的收益提升了30%”。 在國內的申請人中,阿里巴巴和京東由于其商業平臺的巨大成功, 在數據挖掘領域也投入了較大的精力,其申請量在國內居于首位。
協同過濾的方法與傳統的基于內容過濾直接分析內容進行推薦不同, 協同過濾分析用戶興趣, 在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對某一信息的評價, 形成系統對該指定用戶對此信息的喜好程度預測。
索 尼 公 司 于 2005 年 提 出 的 PCT 專 利 申 請WO2006037139 針對一般協同過濾方法的冷開始問題和推薦主要集中在部分內容的問題, 提出了一種基于協同過濾的推薦方法。 其中, 首先對待處理的對象進行一個聚類預處理, 使用分層聚類的方法, 對每個層次設置一個每個集群層和集群層中每個集群的特征的關鍵詞;以及聚類DB,用于保持樂曲的聚類結果。 盡管對于聚類可以使用任何方法, 但是為每個集群層選擇最佳聚類方法和距離測量。 接下來定義歐幾里德距離等距離測量,然后進行聚類。
基于關聯規則的數據挖掘方法最早由IBM 的團隊研究應用, 關聯規則最重要的就是發現共現關系 (挖掘 頻 繁 項 目 集), 經 典 算 法 有 Apriori 算 法、FP -GROWTH 算法。
IBM 公司于1997 年提出的國際申請PCT/GB98/02928 是一種早期的基于在線的關聯規則挖掘的方法。 和通常的關聯規則挖掘算法一樣, 該方法也是分為兩個階段:預處理階段,以生成頻繁項目集;在線規則生成階段, 根據預處理階段獲取的規則數據, 生成樹形規則結構。 該方法同樣根據對大量數據設定多個定量和分類項目,用于提供定量相關規則。
基 于 內 容 的 推 薦 算 法 Content -based Recommendations (CB),根據物品或內容的元數據,發現物品或內容的相關性, 然后基于用戶以前的喜好記錄推薦給用戶相似的物品。
阿里巴巴2010 年的專利(CN102479366A)公開了一種商品推薦方法, 該方法通過獲取用戶的行為數據,即用戶的點擊、 搜索等行為記錄來分析用戶可能關心的商品的種類和標簽。 在此基礎之上, 對商品進行分析確定類別,以確定要向用戶推薦的商品。
三種方法都有不同的特點: 關聯規則挖掘方法易于發現較為隱秘的間接關系, 但對于不常見的低頻數據不能有效的進行推薦; 基于內容的推薦方法開始的時候對其他用戶的數據具有較小的依賴性, 但需要其本身結構具有較好的結構性; 基于協同過濾的方法能夠處理較為復雜的內容, 但在用戶的評價較為稀疏時,表現較差,依賴于用戶對商品的評價。 由于各有優缺點, 因此, 在許多商品推薦的具體應用場景中并不只是使用單一的一種方法, 同時, 幾種方法之間也并沒有絕對的界限, 許多基于以上三種基本推薦方法的改進方法也都結合了多種商品推薦方法來進行數據挖掘和商品推薦的。