韓璐媛
(遼寧大學 新聞與傳播學院,遼寧 沈陽 110036)
在維克托·邁爾·舍恩伯格的《大數據時代》一書中提到,“大數據”這一概念最初是指需要處理的信息量過大,已超出一般電腦處理數據時使用的內存量,因此需要改進處理數據的工具。這里說的“大數據”著重體現了數據的海量性,即巨大的數據量。
中國人民大學喻國明教授認為:“大數據的真正價值不在于它的大,而在于它的全——空間維度上的多角度、多層次信息的交叉復現,時間維度上的與人或社會有機體的活動相關聯的信息的持續呈現。”因此,在大數據時代,怎樣有效地運用大數據使其發揮出最大價值,將是各個領域尤其是新聞傳播領域值得關注的問題。
大數據時代的到來及移動互聯網的迅速發展,為移動新聞客戶端的誕生以及新聞客戶端實現個性化新聞推送提供了可能。例如,今日頭條、一點資訊這一類由技術公司為運營主體的移動新聞客戶端,其主要不是生產新聞,而是聚合其他媒體的新聞資訊,以實現新聞資源的有效整合。這些移動新聞客戶端都在不同程度上通過搜集用戶的行為記錄,實現有針對性的個性化新聞推送。
在數據海量的背景下,用戶的注意力便成了各商業機構及各家媒體爭相搶奪的資源。對于用戶而言,迫切需要過濾無關冗雜的信息,在眾多信息中獲得有價值和自己喜歡的信息。對于信息生產者和傳播者而言,怎樣才能讓自己的信息具有吸引力,進而將用戶的注意力進行二次售賣實現經濟獲利,這些都變得越發重要。
2012年3月,今日頭條誕生,其創辦宗旨是“你關心的,才是頭條”。今日頭條以微博、微信、網易等賬號實現一鍵登錄,來獲取用戶的行為記錄。為用戶私人定制新聞信息,幫助用戶在海量的新聞信息中獲取自己感興趣的話題和信息,增強用戶黏性,提升用戶的使用體驗。今日頭條構建了一個用戶主導的閱讀環境,而用戶接收到的新聞內容推薦是基于剖析用戶行為二產生的。
實現個性化新聞推送的前提是有足夠的新聞資訊可供選擇,這樣才可以通過算法推薦將不同的信息推送給不同的用戶,以滿足用戶的不同喜好需求。
今日頭條實際上是一所具備媒體屬性的科技公司,本身不生產新聞內容,如何做到新聞內容的抓取聚合便是其最重要的問題。通過資料查詢,今日頭條的新聞來源主要來自兩個方面:一方面是通過網絡爬蟲技術從各大新聞媒體門戶網站中抓取新聞;另一方面則是今日頭條為各大新聞媒體、國家機構,包括自媒體在內提供的新聞發布平臺——“頭條號”。
今日頭條的網絡爬蟲技術以互聯網中的超鏈接網絡為運用基礎,在互聯網網頁中存在超多的超鏈接,而互聯網中的巨大超鏈接網絡正是由這些超鏈接將各網頁鏈接在一起之后形成的。網絡爬蟲就是從某一網頁開始,找到存在于網頁中的超鏈接,然后進行訪問,如此循環往復。通過不斷點擊超鏈接來為今日頭條抓取海量的新聞信息內容,為用戶制定個性化的信息推送打下數據基礎。而另一類新聞來源就顯得更為簡單直觀,作為今日頭條原創內容的生產源——“頭條號”成為今日頭條繼網絡爬蟲技術之后的又一重要內容整合工具。
網絡爬蟲技術和頭條號為今日頭條獲取大量新聞資訊,如何定位用戶個人的喜好將信息推送出去便是另一個關鍵問題,也是今日頭條能夠在眾多新聞聚合分發平臺中脫穎而出并且持久發力的關鍵之處。
今日頭條的用戶用已有的如微信、QQ等社交賬號進行一鍵登錄,方便后臺機器人分析用戶的社交數據、行為記錄,對用戶進行前期的信息推送。這種第三方賬號登錄的注冊方式,避免了產品前期因用戶數據太少不能準確推送信息而導致用戶流失的問題。但用戶的興趣圖譜并不是一成不變的,且圖譜的建立需要一個長時間的持續探索,需要今日頭條通過不斷記憶與分析用戶的操作行為,才能做到對用戶的精準推送。
判斷用戶對于一條新聞資訊是否喜愛,今日頭條的后臺機器人可以通過分析用戶的閱讀記錄以及對資訊的點擊評論、收藏等操作行為來實現。比如,用戶較長時間地瀏覽一條資訊,且持續下拉到了資訊的底部,則一般表明用戶對此類資訊感興趣,那么在下一次推送中可能就會盡可能推送此類的信息。而且這種類似新聞資訊的推送并不是延遲性的,而是實時性的。比如,筆者在使用今日頭條時,點擊并收藏了有關考研的內容,在經過幾分鐘的閱讀之后,再次刷新推薦頁面,就多了幾條考研方面的內容。
雖然今日頭條和部分新聞網站簽訂爬蟲協議合法抓取新聞資訊內容,但由于互聯網強大的超鏈接網絡,網絡爬蟲在不斷訪問各個網頁的超鏈接時,勢必會抓取到那些未簽訂爬蟲協議的網站內容,并由此構成對其他媒體的侵權。自2014年以來,廣州日報等多家媒體都曾經聲稱今日頭條侵犯版權。2017年5月2日,南方日報也發表公告稱今日頭條竊取自家新聞2000多條。朱巍認為:“‘今日頭條’所提供的新聞并非是用戶直接通過搜索引擎得來,而是‘今日頭條’事先通過爬蟲技術對新聞進行整理、歸類排行和大數據算法之后,對新聞的二次加工,這種二次加工的新聞如果未經作者授權而轉載是構成侵權的。”
基于大數據的算法推送關注的并不是行為之間的因果關系,而更多的是相關關系。這種對相關關系的關注勢必會導致對受眾興趣的錯誤解讀。這也是人工智能不及人工推送之處。筆者對今日頭條進行了使用體驗,對其推薦的內容進行點擊閱讀和點贊收藏。在點擊閱讀并收藏文章《異性之間,做了這4件事,關系肯定“不一般”》之后,又點擊閱讀了《女人愿意送你這4樣東西,說明她今生只愛你一個人》,之后刷新了頭條首頁,首頁便出現了約60%的有關女性的話題,其內容中含有大量“性暗示”的內容。這種由于一時興起而得到的點擊量,算法是否能真正了解用戶的真實喜好,還有待考究。
今日頭條的算法推薦雖然能夠幫助用戶篩選出自己喜愛的新聞信息,但同時也會將人們的某些愛好偏差無限放大,進而不斷強調這種偏差,用戶“信息繭房”的產生成為必然。而且強調某些偏差的同時,也極易出現與社會主義主流價值觀相悖的新聞推薦。2017年以來,北京市網信辦先后兩次就今日頭條涉嫌違規提供涉黃內容問題進行約談。人民網在2017年下半年也曾連發《不能讓算法決定內容》《別被算法困在“信息繭房”》《警惕算法走向創新的反面》3篇文章,矛頭直指今日頭條的算法推薦問題。文章稱,客戶端僅依靠揣摩人們的瀏覽點擊,不斷地推薦低質量內容,只能讓人生厭,算法和技術不應該成為限制媒體的工具。
[1]喻國明.大數據方法與新聞傳播創新:從理論定義到操作路線[J].江淮論壇,2014(4):5-7.
[2]林楚方.今日頭條如何玩轉大數據[J].新聞與寫作,2015(11):19-21.
[3]朱巍.網絡版權侵權認定與法律適從——以“今日頭條”版權糾紛說起[J].青年記者,2014(22):17-19.