文/謝華平
在海量信息充斥的時代,用戶對優質、有價值信息的需求日益突顯。為提高新媒體平臺內容的有效供給,增強媒體平臺的影響力,各新媒體平臺日益重視優質內容的生產,與此同時,算法推薦也被推崇到前所未有的高度。
新媒體優質內容的判定標準。一是原創程度。一類是在網上搜索資料作為背景補充,或者對已知內容進行分析后,提煉出自己的觀點,能界定特別是標題、圖片、文章內容的重合度較少的是一類原創;另一類則是通過一套相關版權系統,進行梳理比對,通過技術鑒別全網鑒定誰是首次發布,重復度有多少,以此確定原創程度。二是垂直深度。目前很多內容是通過RSS(簡易信息聚合內容包裝及投遞協議)抓取方式接入的。首先,按照稿源內容深度對其進行優劣評級,按照優劣級別決定內容分發的比例權重。其次,除了明確優劣之外,還有很重要的一點就是能否更精準地分發。如果定義得非常精準,那么推薦文章時就非常精準,就可以把相關內容精準地推送給對它感興趣的人,這就大大增加了文章的點擊率。三是活躍程度。某個賬號在一段時間內發文的數量和點擊率就是活躍度。但更為精細化的運營,要對比與各個平臺上的發文數、發文質量以及發文時間、發文點擊率的差距。這種精細化運營活躍度的觀念方法,一定要貫穿到新媒體內容的每一個環節。四是受關注度。所謂受關注度,是指某個新媒體的用戶訂閱數量,以及用戶訂閱之后,這個號與用戶之間的關系有多密切。用戶訂閱之后,推送新內容時會給用戶很明確的提示,以吸引用戶的關注。五是作者的知名程度。知名程度是新媒體作者的影響力度。新媒體內容作者可分為三類:名人、達人、普通人。名人是指具備社會知名度的人;達人指在某個領域具備知名度,影響力僅限于專業圈。這兩類人在內容的分發上是要加權的。同樣質量的文章,要優先分發名人撰寫的。同時要特別重視把平臺上的普通人培養為達人、名人。六是用戶體驗。優質的新媒體內容必須有良好的用戶體驗。用戶體驗是一個系統工程,需要內容、布局、設計、瀏覽速度等的綜合支撐。要對用戶進行精準的數據分析,不斷發現問題和解決問題,才能持續提高用戶體驗。
新媒體優質內容的生產方法。一是充分利用爬蟲工具抓取內容材料。通常新媒體內容很大一部分來源于其他媒體門戶網站,新媒體內容制作重點是通過爬蟲工具來抓取素材,這是新媒體內容制作的基礎。二是建立用戶平臺。讓用戶在新媒體平臺的基礎上建立自己的平臺,上傳自己創作的內容。今日頭條在這方面的嘗試取得了很大成效。三是大力發展短視頻創作。近年來短視頻發展迅猛,成為用戶最喜歡的內容接收形式,新媒體優質內容要重點開發和生產短視頻。抖音支持新媒體短視頻創作,并已成為規模較大的新媒體短視頻分發平臺,因此新媒體內容生產可以借助抖音這一重要渠道。四是補貼優質內容生產。很多新媒體平臺為了獲得更多優質內容,推出了很多補貼方案。今日頭條為了能持續地生產新媒體內容,開展了補貼計劃,設立內容創投基金,建立新媒體實驗室等,重點為短視頻生產提供補貼。
新媒體優質內容推薦算法采用的是一個綜合性的評估判斷機制。這套機制通過反饋用戶的一系列行為來提升改進系統平臺的各項性能,提高用戶的體驗滿意度,以此使系統平臺形成一個自適應的良性循環生態系統。
優質內容的推薦機制持續自我進化。系統的推薦算法在初期不可能是完美的,有著自身的局限性。因此其需要另外一種分發手段來彌補算法的不足或弊端,這個分發手段就是粉絲分發,也可以叫社交分發。這種分發手段已不僅僅限于推薦算法,它綜合了推薦算法、社交互動、搜索抓取和用戶問答等多種手段。推薦算法的價值同時還體現在即便是小眾人群也可能獲得較好的推薦,也能獲得對其有價值的信息。例如,一些小眾化的影視節目,20世紀六七十年代的胡同照片,大學里的邊角資訊,這些原本散落在網絡某些角落的信息,被收納進某個推薦系統,也會根據需要推薦到用戶眼前。在內容推薦機制中不僅僅用算法為用戶推薦感興趣的內容,也不是只有算法推薦的內容。總之,內容推薦機制還是要綜合運用對數據流量的理解、對平臺的運營思維所形成的復合能力,盡管算法很重要,但其也只是其中的一個環節。
推薦算法并不是用戶喜歡什么就推什么。傳播學里面有個回音室效應概念,是指在某一個較為封閉的場景里,一些相似或相近的意見、觀點不斷重復, 甚至以夸張的或扭曲的方式反復、持續地進行,令在這個較為封閉環境中的人們誤以為這些扭曲、夸張的內容就是全部的事實。現在內容推薦機制會盡可能地降低這種回音室效應,盡量避免用戶喜歡什么就給他推薦什么。正如社會心理學上的“貝勃定律”,從心理感受的角度來說,對于相同的兩次刺激,通常第二次的刺激反應會小于第一次的刺激反應。實際上,推薦算法中采用了一種打散用戶興趣偏好的機制,不向用戶連續推薦相似度極高的內容。再者,一個人的興趣愛好不可能總是不變。因此,從滿足用戶需求的方面來說,推薦系統也不允許一直不變地推送雷同內容。
推薦算法自身具有探索能力。推薦算法不是機械的、簡單的算術,它有不斷學習的能力,能夠持續性地迭代,進行自適應性的進化。推薦算法里的協同推薦,是指除新媒體內容本身之外,還考慮用戶的推薦,通過分析一些用戶之間的屬性、行為的相關性、相似性,不斷拓展系統推薦的學習能力。例如,一些用戶喜歡科技、財經、體育,其中一些用戶也喜歡健康內容,那么推薦算法就會嘗試將健康內容推送給以上所有相關用戶。因為在推薦系統看來,用戶A和用戶B是相似的人。
推薦算法更容易突破固化的圈層。朋友圈具有較大的“回音壁”效應,因為朋友圈里的有關信息,完全由圈內用戶定制,由于內容是圈內的用戶按照自己的喜好篩選出來的,所以在朋友圈里和自己相左的觀點和意見就非常少,這就很可能形成這一類人的偏見。而算法推薦機制可以推薦多種觀點。
今日頭條對推薦系統的運用包括三個維度,即推薦內容的分析、網絡用戶的標簽設置與評估、新媒體內容的安全防范機制等。
今日頭條推薦系統的內容要素特征。一是標簽內容之間的相關性,用于估測新媒體內容的屬性能否和用戶特征匹配。一些內容要素,如關鍵詞、主題等可以直接匹配。模型中還有一些隱性的匹配,例如,可以測算用戶向量與內容的距離。二是其環境特征,包括時間、地點等。這些既是相關性特征,也能以此構建一些匹配特征。三是內容要素的熱度。在今日頭條推薦系統中,新媒體內容的熱度信息在用戶初始啟動的時候影響非常明顯,其中包括主題詞、關鍵詞、來源、分類等。四是內容要素的協同性,這種協同性可以快速解決在某些程度上信息越推越窄的問題。用戶標簽具有的協同性并不是分析用戶活動的過往,而是分析用戶之間活動的相似性,如分析內容主題詞的相似性、興趣的相似性,或者向量的相似性等,通過這些協同性分析來擴展推薦系統的探索能力。
新媒體推薦內容的分析。今日頭條經常遇到的問題就是為什么系統總是重復推薦內容。這個問題的解決難點在于,人們對重復的含義理解是不一致的。要解決這個問題,需根據相似文章的特征,如主題、行文內容等進行分析。新媒體內容的分析包括文本分析、圖片分析和視頻分析。在今日頭條推薦系統中,文本分析可用于用戶的興趣建模。如果缺少文本內容,自然無法具體地設置用戶興趣標簽。例如,推薦系統通過分析用戶,讀取并標注了互聯網標簽的文章內容,就能確定用戶具有了互聯網標簽。分析文本的內容可以提高系統的推薦效率,例如通過分析抖音的有關內容就可以推送給關注抖音的用戶,這是應用了用戶標簽的文本特征匹配機制。如果在主頻道上推薦的效果不甚理想,出現了推薦窄化的現象,系統可以在具體的頻道中推薦給用戶閱讀,這樣系統的推薦效果會變得更好。在子頻道上探索空間比較小,這樣更容易滿足用戶的需求。
用戶標簽的設置與評估。今日頭條推薦系統把用戶的性別、年齡、籍貫等基本信息,用戶的興趣愛好,以及用戶經常搜索的關鍵詞等標注為用戶標簽。用戶的性別信息可以根據第三方社交賬號登錄信息獲得,常駐地可以從用戶的授權訪問位置信息獲得。在此基礎上結合其他信息,就能估測用戶的活動地點等。這些標簽就非常有利于新媒體內容的推薦。
首先,建立評估體系要兼顧短期指標與長期指標。很多策略在短期內用戶可能覺得新鮮,可是從長期來看實質上并沒有明顯的助益。其次,推薦系統的評估體系還要兼顧用戶指標與生態指標。既要讓內容創作者獲得有價值的系統推薦的內容,有尊嚴地進行內容創作,也要有義務盡可能地滿足用戶的實際需求,這兩者要兼顧平衡。此外,一些廣告主的利益也得要考慮在其中,這就形成了多方博弈及兼顧多方的平衡。一個完備的體系需要多個指標綜合衡量,僅看點擊率、停留時長是遠遠不夠的,在實際評估過程中要參考多維評估指標。很多公司在這方面做得不夠好,這并不是相關工程師們的能力不夠,而是評估模型需要一個功能強大的實驗性平臺,通過便捷的平臺分析工具,就可以使推薦系統智能化、自動化地分析新媒體內容指標體系的置信度。當同時在線的實驗很多的時候,實驗平臺就可以自動分配數據流量,不需要人工溝通,而且實驗結束后數據流量會立即回收,這樣就加快了算法的迭代效應,提高了推薦系統的管理效率,降低了推薦系統的分析成本,使得整個推薦系統的算法優化工作迅速流暢地運行。
新媒體內容的安全防范機制。今日頭條作為行業領導者之一,越來越重視自身的社會責任。他們盡力優化推薦系統,盡可能地消除不當內容的推薦與分發。今日頭條的新媒體內容一方面來源于專業生產內容(PGC)平臺,依托它具有了成熟內容生產能力;另一方面來源于微頭條、用戶問答、內容評論等用戶提供內容。這兩部分的內容推薦與分發都要經過推薦系統的內容審核機制統一處理。如專業生產內容平臺生產的數量相對較少,就會直接進入風險審核處理程序,審核的結果若沒有問題,推薦系統則會在大范圍內予以推薦及分發。用戶生產內容(UGC)會經過風險模型的內容過濾,存在問題的就會進入二次風險審核。只有審核結果確認通過后,該內容才會進入推薦系統的推薦與分發階段。如果這些新媒體內容得到限定量以上的負面評論或者遭到舉報反饋,就會對該內容重新審核,問題嚴重者則被下架。今日頭條在風險內容識別技術方面建立了鑒黃模型、低俗模型和謾罵模型。這三種模型利用的是深度學習算法進行持續訓練,建立的樣本數據庫非常大,可以對圖片和文本同時進行分析。這些模型比較注重召回率,準確率方面相對來說可以降低一些。鑒黃模型的召回率可達99%,低俗模型召回率高達90%,準確率可超80%。謾罵模型召回率也很高,可達95%,準確率可超80%。