汪 欣 張銘毅 劉亞萍
隨著信息化步伐的加快,海量化的信息內容和便捷的獲取方式正在逐漸改變人們的內容閱讀習慣。但是在如此龐大的信息量背后,信息過載帶來的信息龐雜和無序經常使得用戶無法快速、準確地獲取個人最關心的內容, 以至于陷入信息焦慮之中。因此如何精準地將內容和用戶匹配起來,建立個性化的內容推薦系統,幫助用戶快速地找到最關心內容,成為媒體行業亟待解決的問題。個性化的內容推薦越來越成為內容行業的共識。
將內容和用戶精準匹配的過程主要是將用戶和內容看作推薦系統的兩端,通過精確的推薦方法,將內容精準匹配用戶,獲得用戶反饋后再進一步完善推薦方法[1]。整個精準推薦的工作邏輯共包含四個步驟(見圖1):

圖1 精準推薦技術的工作邏輯圖
首先是內容分類和結構化處理。內容文本通常包含著豐富的信息,但它們并非結構化的文本,因此要進行結構化處理并做好分類,確定好備選的推薦內容。其次是用戶分類和畫像建模。用戶是精準匹配的目標,根據用戶的反饋和興趣進行分類和建模, 形成全面真實的用戶畫像。用戶的反饋包括主動表現的顯性反饋和依據網絡痕跡建立的隱性反饋,用戶興趣則包括用戶真實的長期興趣以及隨著熱點內容不斷變化的短期興趣。 再次是推薦引擎選擇。如果將內容和用戶看作精準匹配的兩個端點,推薦引擎就是連接二者的橋梁。它的目標在于將所有備選的內容進行符合用戶興趣的排序,進而依次推薦給用戶主體。不同的推薦方式會生成不同的推薦列表,從而直接影響推薦效果。最后是用戶終端設計。在完成內容推薦后,還需在用戶終端進行設計以全面完成個性匹配過程。用戶的終端接口承擔著兩個方面的工作,一方面,用戶的接口需要承載推薦的內容;另一方面,需要收集用戶的反饋以進一步精進推薦引擎,促進用戶和內容更好地精準匹配。
如何對內容進行分類處理是推薦技術的第一步,目前對內容的處理包括對純文本內容的處理和對圖片、視頻內容的處理。
對純文本的處理主要使用的方法是自然語言處理,其本質在于試圖讓計算機來分析人類的語言,而這一過程需要輸入與存儲、統計計算、機器學習等技術,實現文本分析、處理等操作。以自然語言處理在文本情感分析領域內的應用為例,自然語言處理的流程可以分為以下幾個步驟[2]:
第一步,文本預處理,由分詞和命名體識別組成。在實際應用中很多語氣助詞和人稱代詞是不需要關心的,需要建立一個停用詞詞典,在最終結果中將其過濾以降低對內容提取的影響。命名體識別是一種信息抽取技術,指在從原始的文本信息當中提煉出結構化信息。
第二步,文本情感分析。通過建立情感詞典,獲取文檔中特定詞匯的情感值,加以公式計算的方式來核定內容的情感態度[3]。這種方式的優點非常突出,計算簡單,結果明確直白。如果詞典足夠豐富,理論上能獲得非常好的分析效果,同時情感詞典本身在不斷更新和進步,除了文本內容外,網絡熱詞、顏文字、表情包等等都加入了情感詞典的分析之中,推動了情感詞典分析法的進步。
隨著媒體傳播形式的日漸豐富,除了文本內容之外,更為關鍵的是對視頻和圖片內容的處理,主要運用的方法是視頻目標檢測方法。該方法是為了解決在每一個視頻幀中出現的目標定位和識別問題[4]。對于特殊視頻內容的識別是視頻目標檢測的重要應用領域。隨著網絡流量的視頻化,網絡視頻內容變得魚龍混雜,而想要在源頭控制視頻內容難度較大,通過視頻檢測的方式建立內容分類過濾系統可能更加有效。盡管針對不同視頻所使用的算法有差異,但是工作邏輯大體相同,主要由視頻內容描述模型、算法測試庫、算法評判標準等組成。
繪制用戶畫像指根據使用者的諸多信息抽象出用戶模型,關鍵在于給用戶貼上象征不同特征標識的標簽[5]。這是推薦技術中的關鍵一步,為精準匹配技術找到目標用戶奠定基礎。
在給用戶貼標簽之前首先要搜集大量的用戶行為數據。目前最重要的三種數據來源分別是用戶的顯性數據、隱性數據和混合數據。[6]
最常見的顯性數據為用戶注冊賬號時輸入的本人信息。例如當使用者要注冊某APP賬號時,常被問及自己的身份(如職務、工作等)、居住地址和感興趣的內容等。但此類信息并不完全準確。導致不準確的原因可能包括用戶出于自我保護的心理而故意填寫錯誤的信息。也可能由于部分軟件設置問題過多,導致用戶隨意作答或直接放棄填寫。這些因素都會導致顯性的用戶數據充滿噪音,從而影響用戶畫像的建構。
隱性的用戶數據恰恰彌補了這一缺憾。完全不同于顯性的數據,隱性數據不需要受眾自己專門填寫,它重視的是用戶的使用行為如信息的搜索、對內容的點贊、評論、拉黑,以及在內容上的停留時間等。在這些數據中隱藏著用戶的使用習慣和興趣愛好。通過對用戶一段時間的隱性數據的分析,能夠更加全面真實地了解用戶。目前,獲取用戶隱性數據的方式逐步進化到機器學習的階段,獲取到的信息也相對更加客觀準確,能夠有效降低其他干擾因素的影響。
混合型數據吸納了顯性數據和隱性數據的優點。它能夠高效地獲得用戶的顯性信息,再通過用戶的隱性數據得到客觀準確的用戶信息,并不斷地進行更新迭代。避免了單純依賴用戶顯性數據導致的偏差,同時大幅度提高搜集用戶數據的效率。目前主流的精準推薦的方式基本都會采用用戶的混合型數據。
完成用戶數據搜集的目的是為了繪制用戶畫像。現實生活里每一個用戶的信息都是復雜多樣的,用戶畫像就是要把這些復雜的信息簡單化、抽象化。用戶畫像的本質就是貼標簽,其目的就是為了將用戶的標簽和現實的場景結合起來,因此刻畫用戶畫像一定要有現實意義。用戶畫像的構建方法有三種,分別是基于統計學習的用戶畫像構建方法、基于加權關鍵字的向量空間用戶畫像構建方法以及基于神經網絡的用戶畫像構建方法。[5]
基于統計學習的方法構建用戶畫像表示依據用戶數據的分布情況、數字特點和相關變量之間的聯系性,使用數字統計和數據分析來評估并且解釋使用者相關的行為。例如針對短視頻APP的使用者,統計他的點擊記錄、瀏覽時長、轉發、拉黑、點贊、評論等行為數據特點進行分析。統計學習的方式主要是用來調查用戶的行為軌跡,但并不具備預測用戶未來行為趨勢的能力,僅僅能夠調查使用者過去的行為。
基于加權關鍵字的向量空間用戶畫像構建方法是基于二十世紀四五十年代提出的向量空間模型生成的,其核心是根據文章內容中的每個關鍵詞匯出現的頻率,計算對應的權重來產生關于文字內容的特征表達公式。這一方法在許多領域中已經得到了應用,例如,從某軟件的用戶評論中提取關鍵詞匯和關鍵信息,利用這些關鍵詞匯加權綜合計算得到該用戶的特征信息,而在這些關鍵詞匯中通常會隱藏著用戶對軟件的使用興趣,以此來建立軟件內容和用戶之間的聯系,從而繪制用戶畫像。這種方式的優點是計算結果相對準確,可信程度也較高。但是它的缺點也非常明顯,如果建立的模型或者運算所使用的公式過于簡單,則很難充分地利用好關鍵詞匯中所包含的隱性用戶信息。所以對于加權關鍵字來建立用戶模型的方式而言,最重要的是處理好文本特征工程,建立最合適的表達公式。
在大數據時代,面對日益增多且復雜的用戶數據如何更好地繪制用戶畫像是個難題。使用基于神經網絡的用戶畫像構建方法優勢在于神經網絡的記憶功能特別強大,它可以用來表示用戶與內容之間復雜的多變關系。神經網絡方法能夠模擬人類生理的神經元系統,因此具有了一些獨有的特質,包括分布式存儲、高容錯、并行計算等。由于具備了上述諸多特質,神經網絡的用戶畫像繪制方法在很多領域內得到了廣泛的應用。
將處理好的信息和它最適應的受眾連接起來的橋梁就是推薦引擎,因此推薦引擎成了精準匹配流程中的核心部分。傳統的方式有基于內容的推薦和協同過濾推薦,但是在大數據時代,為了更好地處理混雜且量大的內容信息,基于深度學習的方法開始流行[1]。
基于內容的推薦是最常見也是用戶感知度最高的推薦方式,它主要是根據軟件使用者平常的使用習慣以及瀏覽內容的過往行為進行推薦,計算備選的推薦內容和使用者瀏覽歷史記錄內容兩者之間的關系和相似程度,進行相似程度的排名,進而得到推薦列表。這種方法通常可以分為兩類,一類是計算問題,一類是分類問題。計算問題是指分別抽取使用者的用戶行為和預備推薦內容的特征向量,計算二者之間的相似程度。向每一位使用者推薦相似程度最高的內容或大于閾值的內容。分類問題是指以該用戶瀏覽內容的歷史記錄作為基礎數據,將精準匹配的推薦轉化為二分法:即喜歡或不喜歡。基于內容的推薦方法的優點是不需要其他人的使用數據而且推薦效率和可信度都比較高。缺點包括分析淺顯,無法考慮內容的豐富性對結果的影響;推薦結果缺乏創新,只能根據過去的內容進行推薦,而無法關注到用戶可能有興趣的新內容。
為了彌補上述方法不足,協同過濾推薦應運而生。協同過濾推薦的關鍵在于用戶的評分數據,和被推薦的內容之間沒有關系。[7]例如在瀏覽歷史中對所閱讀的內容評分相似的軟件用戶,被默認為在將來的打分中也會高度相似。這樣一來就把精準匹配的推薦問題轉換為了評分計算的問題。協同過濾推薦也包括多種實現形式,比如基于記憶的推薦方式或者基于模型的推薦方式。
總體而言,協同過濾推薦最重要的優點在于能夠使用其他人的經驗,能夠盡量避免內容分析的不完全性,推薦的個性化、自動化程度也更高,更重要的是能夠實現對新用戶的推薦。當然,它的缺點也很明顯,存在著內容初始推薦效果不好、內容和用戶匹配不佳的問題,而且沒有考慮用戶自身的特點,容易推薦熱門內容。
隨著大數據時代的到來,數據越來越復雜多樣,傳統的推薦方法所使用的淺層模型的預測方式開始逐漸落伍,因為此類方式太過依賴人工特征的提取。這樣一來很難高效、有價值地學習到深層次的用戶和內容的表示。在這種情況下,基于深度學習的推薦方法逐漸被大家所認同。基于深層神經網絡所構建起來的內容預測模型能夠非常好地表現出新聞內容和讀者用戶之間的關系,特別是不能用數學方法描述的結構特征。使用深度學習模型進行推薦的范圍更廣泛,推薦精度也更高。
目前精準匹配的個性化推薦已經廣泛應用于移動端的新聞推薦和精準廣告投放等領域之中,在幫助用戶節省搜索時間的同時,也為內容生產端尋求用戶提供了便利。
新聞傳播是互聯網的經典應用,無論在互聯網時代還是現在的移動互聯網時代,獲取新聞資訊都是網民的主要需求。互聯網時代下的新聞傳播早已經超越了傳統媒體的傳播速度,與此同時海量的新聞來源也將用戶帶入新聞焦慮的泥潭之中。在移動互聯網時代,隨著移動智能終端的普及,隨時隨地地獲取新聞已經成為人們進行新聞閱讀的常態。因此新聞推薦系統也正式進入了移動新聞推薦時代。相較于傳統PC端的新聞推薦,移動端的新聞推薦限制更多,情況更復雜。移動端的新聞推薦必須考慮不同型號、不同尺寸、不同系統下內容呈現的效果,相應的移動新聞推薦也要符合移動性、實時性、個性化的內容獲取特點。
總體而言,移動端的新聞推薦和傳統的內容推薦算法底層邏輯相似,但是由于移動新聞推薦受到網絡環境和移動設備自身限制的影響,移動端的新聞推薦思路又有著其自身的特征。目前移動端的新聞推薦方法有基于上下文感知的移動新聞推薦、基于社會化網絡的移動新聞推薦等。盡管目前新聞推薦方法已經有了扎實的研究和較為成熟的成果,但目前移動端的新聞推薦作為新聞推薦的前沿應用還存在著眾多亟須解決的難題,如用戶的隱私安全保護、數據收集困難、計算難度大等。
推薦系統的算法工作邏輯并不復雜,但是達到的效果是驚人的。隨著算法系統的日益精進,推薦系統日趨完善,人們已經越來越習慣依據算法的推薦做出內容的選擇。在新聞推薦、廣告投放等諸多領域之中,算法推薦系統已經成為中流砥柱。