999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

推薦系統中公平性問題研究現狀與展望

2023-03-22 04:38:31李文俊LIWenjun
價值工程 2023年5期
關鍵詞:定義用戶模型

李文俊 LI Wen-jun

(蘇州工業職業技術學院,蘇州 215000)

0 引言

在數字經濟快速發展的背景下,網絡數據的規模也急劇擴大,我們越來越依賴于以數據為驅動的算法系統。例如,從選擇餐廳和商品,到交友和求職,推薦系統已經滲透進在線生活的各領域。盡管推薦系統已經得到廣泛的社會和商業認可,但進一步改進的一個關鍵方面是推薦對參與者的有用性。一個推薦系統通常服務于兩類參與者,用戶和商品提供者/生產者,因此推薦的有用性也應該是雙重的。一方面,推薦系統為用戶提供他們潛在的興趣項目,緩解信息過載給用戶帶來的困擾,強化用戶在平臺上的粘性;另一方面,推薦系統也應該幫助商品提供者增加商品的銷售量,特別是暫時不受歡迎的商品,為其創造價值。

推薦系統的有效性通常是通過準確性指標來進行評估,但是現在很多研究也從其他不同的角度來衡量推薦結果的質量,最常用的非精度指標包括多樣性、新穎性、驚喜性、可解釋性,以及近年來廣受關注的公平性[1-5]。相關研究認為,決策支持系統會在無意中對已有的用戶偏見進行建模或引入新的偏見[6],而推薦算法的不公平問題將對長尾弱勢商家或特定用戶造成傷害。例如,音樂平臺可能會根據歷史收聽數據從而過多地曝光男性藝術家創作的音樂作品[7],社交平臺會不成比例的向男性和女性展示某些類型的招聘廣告[8]。隨著相關領域研究不斷的發展,公平性在推薦算法的研究仍存在許多挑戰需要探索。因此,本文從推薦算法公平性問題的定義、研究現狀和關鍵技術進行了總結和分析。

1 公平性問題產生的來源

推薦系統不公平問題的來源主要有兩個方面:偏見和歧視。

偏見可以分為兩類,一類是數據偏見,數據在生成、收集和存儲的過程中都有可能引入偏見。例如,采用了帶偏見的采樣策略收集數據,使用模型對數據進行訓練時,模型很可能會學習那些代表性過高的群體樣本,在排名結果中將其排在前列,最終導致某些弱勢群體的曝光度變低。另一類偏見是算法模型導致的。例如,算法會進一步增強訓練數據中已有的偏見和偏態分布。流行度偏見是比較著名的例子,越活躍的用戶交互的越多的商品將被更加頻繁的出現在推薦結果中,獲得更多的曝光量。雖然流行商品可能可以較好的匹配用戶的偏好,提高系統的預測精確度,但是用戶通常并不認為它們是非常有用的推薦,因為他們很容易從其他地方獲取到這些流行商品的信息,例如銷售排行榜、廣告或者朋友圈。

除了偏見以外,歧視也是一個因為人類有意無意的導致不公平問題的原因,例如對特定種族、性別和宗教等因素的敏感程度。

2 推薦系統中公平性問題的定義

2.1 關于公平的一般定義

大多數關于公平性問題的算法都將公平解釋為“缺乏歧視”[9],要求算法不應該根據與當前任務無關的屬性來歧視不同的輸入對象。這類屬性被稱為受保護或者敏感屬性,通常包括性別、宗教、年齡、性取向和種族等。例如,在招聘網站中,JAVA程序員的崗位應該等比例的同時推薦給男性和女性求職者。

推薦系統的目的是根據用戶的個人資料和歷史記錄為用戶檢索感興趣的商品。根據不同的應用程序和推薦場景,歷史記錄可能是對商品的顯性用戶評分或者是隱性的商品選擇(例如查看或點擊行為)。推薦系統會為用戶u和商品i評估一個分數,這個分數反映了用戶u對商品i的偏好程度,或者稱為商品i對用戶u的相關性。最終,系統為用戶u形成一個推薦列表I,其中包括對用戶u評估分數最高的若干商品。對于推薦系統,這些評估分數可以被視為效用分數。抽象的說,如果用戶或商品的受保護屬性不會影響推薦結果的輸出,則該推薦系統被視為是“公平”的。

2.2 公平定義的分類

公平是一個復雜的概念,可以從不同的角度進行定義,尤其是在推薦場景中,情況將變的更加復雜。公平性的概念可以從四個角度進行定義,分別是個體公平和群體公平、消費者公平和生產者公平、關聯公平和因果公平以及靜態公平和動態公平。

個體公平vs群體公平。

個體公平假設類似的實體應該受到類似的對待,即相似的用戶應該收到相似的推薦列表。衡量類似的一種方式是基于距離,給定兩個實體之間的距離測量d和算法輸出之間的距離測量D。在公平的推薦系統上,當兩個實體的距離d很小時,希望算法輸出的距離D也很小。

群體公平指在通過受保護屬性劃分的群體間,平均評價指標應該相同。根據上述定義,研究人員提出了許多平均指標,例如機會均等、平均賠率、人口平等。例如根據訓練集中用戶交互的商品數量將用戶分為活躍用戶組和非活躍用戶組,要求不同的用戶組應獲得類似的推薦質量,如F1和NDCG指標。

消費者公平vs生產者公平。

考慮到推薦系統中的公平需求可能來自不同的利益相關者,推薦系統中的公平也可以分為用戶(消費者)一方的公平和商品(生產者)一方的公平。此外,還有一些情況下,系統可能要求對消費者和生產者都公平。

消費者公平性衡量的是對不同消費者用戶組的不同推薦影響。用戶組通過受保護屬性進行分組,如種族、性別屬性等,也可以是主觀賦予的屬性。有研究根據用戶與推薦系統的交互頻率對用戶進行分組,發現只有一小部分(5%)的活躍用戶享有比其他用戶(95%)高得多的推薦質量。

生產者公平性考慮了商品和商品生產者在推薦系統中的公平,目的是確保市場公平,避免壟斷支配或馬太效應。例如,商品受歡迎程度普遍存在著偏見,受歡迎的商品(頻繁評級、點擊或購買的商品)得到不成比例的更多曝光,而不太受歡迎的商品很少被推薦。

關聯公平vs因果公平。

在推薦場景下,現有的大多數工作都是考慮關聯(或稱基于相關性)的公平性概念。然而,最近一些工作發現,僅僅基于關聯概念不能很好地評估公平性,因為這樣的公平性定義不能推導導致不公平的潛在因果機制。

關聯公平也被稱為基于相關性/統計的公平,它衡量個體或者子集之間的統計差異,如平等機會,平均賠率和人口平等。

因果公平不僅僅是建立在數據的基礎上,還考慮了對整體結構的因果模型的額外知識。它的研究重點是在受保護屬性與模型輸出之間的因果關系,而不僅僅是關聯關系。

靜態公平vs動態公平。

大多數機器學習中的公平性主要是在靜態環境中研究的,沒有考慮決策如何隨著時間的推移而改變數據。然而,推薦中的公平性需要考慮系統的動態特性,因為許多特征會隨著時間的推移而變化,比如用戶的偏好和商品的流行程度。

靜態公平性提供了一種基于公平約束優化的一次性公平性解決方案,重點研究在靜態或者一次性上下文中決策的公平性定義。現有的公平性推薦研究都是置于靜態環境中的。

動態公平性需要考慮環境中的動態因素,并學習適應這種動態的公平策略。例如,GE研究了推薦系統中商品曝光的動態公平性。這些商品根據訓練數據中暴露的數量分為流行組和長尾組。這項工作的直覺是,在基于推薦策略和用戶反饋的推薦過程中,商品受歡迎程度可能會發生變化,導致底層組標簽隨著時間的推移而變化,也就是說,一個曾經不受歡迎的商品現在可能變得受歡迎,反之亦然。為了解決這個問題,作者將這個問題表述為一個帶有項目曝光時間變化的公平性約束的馬可夫決策過程CMDP,并使用約束型策略優化算法CPO來解決這個問題。

3 推薦系統中公平性算法

現有的公平性推薦主要集中在三個方面:①公平量化,在各種公平定義下提出量化指標來衡量算法的公平性;②公平性推薦算法建模,開發算法或者模型來提高輸出的公平性;③公平評估,開發可解釋的算法來識別模型不公平的原因,從而解釋模型為什么是公平或不公平的。

公平量化旨在開發和研究量化指標,衡量排名或者推薦中的算法差異。關于公平量化的工作集中在推薦中定義各種類型的不公平概念,例如性別和年齡等敏感特征的不公平,受歡迎和不受歡迎商品的不公平,用戶推薦質量的不公平。

公平推薦模型側重于基于一定的公平定義輸出公平的推薦結果,該類算法大致可以分為三類:預處理方法,中處理方法和后處理方法。

由于用戶交互數據是觀察數據,用戶交互數據庫的不平衡成為造成偏差的主要因素之一。預處理方式通常旨在改變訓練推薦算法的數據來減少這種偏差,再對模型進行訓練。因此,當可以接觸原始數據時,可以采用預處理方法。這類方法并不顯示地包含在模型輸出定義的公平性度量上。最具代表性的預處理方法包括:①數據收集過程中的基于公平感知的采樣技術,以覆蓋所有群體的商品;②平衡技術,以增加少數群體的覆蓋面,以及修復技術以確保標簽正確性。

中處理方法旨在通過修改現有模型或引入新模型來消除模型訓練過程中的偏見[10,11]。一種通用的方法是將公平性要求編碼為目標函數的一部分,通常作為正則化項,其優化策略除了最小化原始損失函數之外必須最小化不公平程度。這種方法還試圖在推薦的準確性和公平性之間找到一個平衡點。例如Ge研究了推薦場景中公平-效用的平衡關系,并提出了一個基于多目標強化學習的公平感知推薦框架,該框架能夠在公平和效用之間的所有可能偏好空間上學習最優推薦策略的單個參數表示。

后處理方法通常旨在對已經生成的推薦列表進行重新排序,或者根據一些特定的約束創建一個新的推薦列表。這類方法是減輕偏見的最常用方法,因為它們可以很容易地應用于任何推薦算法的輸出上。

公平評估側重于回答一個更基本的問題:什么是導致模型不公平的原因?人工智能領域已經有一些開創性的工作,試圖推導出模型公平性的解釋。例如,Begley利用Shapley值將特征貢獻歸因于模型差異,從而產生解釋[8]。他提出的方法估計來自輸入特征的個體貢獻的總和,從而理解哪個特征對模型差異貢獻最大。雖然這種方法可以解釋模型間的差異,但由于推薦系統中的商品/用戶特征空間較大,不適用于推薦系統。為了解決這個問題,Ge設計了一個基于學習的反事實推理方法來發現顯著影響公平-效用平衡的關鍵特征,并將它們用作黑盒特征感知推薦系統的公平解釋。

4 結束語

隨著數字經濟在國內迅速發展,越來越多的內容創作者在互聯網上提供了越來越多的在線商品,用戶對商品的個性化需求也日益膨脹,推薦系統在在線平臺上的作用也日趨重要。能否向用戶和商家提供公平的推薦內容和推薦機會,將是在線平臺長期生存下去留住用戶和商家的重要因素。本文遵循系統和結構化的方法來簡述了公平性問題的各個方面和方法。首先歸納了推薦系統場景下公平性問題產生的來源,從不同視角闡述了公平性的定義,總結了解決公平性問題的模型方法,并提出了目前存在的問題和未來的可能研究方向。希望相關內容能夠為研究人員在該領域的嘗試提供幫助。

5 展望

到目前為止,研究人員已經意識到了在推薦系統中改善公平性的重要意義,并且開始了相關研究的探索。但是,相關領域的研究仍然相對有限,許多重要的問題仍需解決。

首先,在公平性研究領域最大的問題就是沒有一個通用的公平性定義。如上文所述,在不同的場景下,公平性考慮的視角相差很大,對公平性的定義也就不統一,甚至有些定義是不能同時滿足的。

其次,缺乏支撐公平性研究的數據。公平性研究目前遇到的一個重要挑戰就是缺乏數據的支持,現有數據十分有限。大部分實驗數據都是通過研究人員獨立獲得的,收集更多通用數據將可以發現更多的偏見類型和內在規律。

然后,公平約束的長期影響。盡管一些現有的研究表明,某些公平性和效用指標可能在短期內相互平衡,但推薦中公平性的好處應該在動態和長期的背景下考慮。這是因為從長遠來看,如果使用者和生產者感到他們受到該系統的公平對待,他們對該系統的留存、興趣、信任和參與將會增加,這反過來有助于在該平臺上創造和培育一個可持續的經濟生態系統。

推薦系統涉及用戶、內容創作者和商品三類群體,需要兼顧考慮的問題涉及很多。在信息化、智能控制高度發展的今天,工業界系統中為解決公平性問題,需要考慮以下幾個方面:①需要構建一個可控的公平系統。推薦系統的精準性、多樣性、新穎性、公平性等指標在理論上被證明是不可能同時滿足最優的。同時,多種類型的公平性也無法同時滿足。為了能夠在現實中的系統上應用公平性研究成果,需要構建一個可控的公平系統,使得用戶和生產者可以選擇他們最關心的公平類型和性能指標,以此滿足不同群體的使用需求,實現千人千面。②除了考慮改進個性化推薦算法模型,還需要融合經濟學和社會科學的理論和知識,例如經濟學的帕累托優化方法、邊際效益、最低工資、嫉妒公平等理論、社會學的基尼系數、壟斷指數等[5]。文獻[2]從帕累托視角出發,通過曝光的負采樣策略在一定程度上平衡了用戶和物品的雙重公平性,并且提高了系統準確率。③需要了解現實系統中不同利益相關者的各種公平要求之間的差異和關系,以及將面向開發者的知識轉化為面向用戶的,從而直接造福于用戶也是非常重要的一面。工業界公平性模型的應用大致可以分為兩類,面向用戶的和面向開發人員的。面向用戶的應用側重于向真實用戶提供公平性推薦結果,從而直接影響用戶的服務,而面向開發者的應用主要是幫助開發者了解系統的不公平性。例如,LinkedIn是一個面向用戶應用的典型例子,他們開發了一個大規模應用框架,以確保照片領域的公平性,在人才搜索的時候實現候選人排名中的機會均等和人口平等等公平標準。TikTok的視頻推薦也是一個面向用戶的應用[5],他們在視頻推薦中確保非知名博主的新作品與網紅明顯的視頻一樣有機會被廣大用戶所看到。Amazon SageMaker Clarify則是一個面向開發者的應用,它為開發者提供了可解釋工具包并部署在AWS云上。基于這些工具包,世界各地的開發者可以容易地檢測自己的數據和模型是否存在偏差,以及他們的結構是否公平。

猜你喜歡
定義用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
主站蜘蛛池模板: 就去色综合| 天天躁夜夜躁狠狠躁图片| 无码高潮喷水在线观看| 99精品在线视频观看| 色综合成人| 欧美在线精品一区二区三区| 国产成人啪视频一区二区三区 | V一区无码内射国产| 国产性爱网站| 亚洲人成在线免费观看| 国产成人高清在线精品| 狠狠色丁香婷婷综合| 亚洲另类色| 亚洲国产日韩视频观看| 欧美精品二区| 久久国产成人精品国产成人亚洲| 中文字幕亚洲第一| 亚洲最大福利网站| 国产一二三区视频| 极品国产在线| 在线视频亚洲色图| 亚洲天堂精品在线观看| 国产真实乱子伦视频播放| 国产特级毛片aaaaaa| 欧洲熟妇精品视频| 97久久人人超碰国产精品| 免费人成又黄又爽的视频网站| 日韩精品一区二区三区大桥未久| 久久国产精品娇妻素人| 日本a级免费| 亚洲国产成人精品青青草原| 亚洲第一页在线观看| 免费A∨中文乱码专区| 九九线精品视频在线观看| 一本色道久久88| 国产视频一区二区在线观看| 日本久久网站| 国产亚洲精品自在久久不卡 | 久久人妻系列无码一区| 欧美日韩在线观看一区二区三区| 欧洲高清无码在线| 日韩a在线观看免费观看| 亚洲区一区| 欧美伦理一区| 精品国产免费观看| 国产小视频在线高清播放| 国产成人精品亚洲77美色| 69av免费视频| 亚洲另类色| 亚洲无码高清一区二区| 亚洲中文字幕无码爆乳| 91尤物国产尤物福利在线| 福利在线一区| 日韩成人午夜| 嫩草国产在线| 中文字幕免费在线视频| 国产综合色在线视频播放线视| 久久精品视频一| 91视频99| 美女被操91视频| 欧美成人午夜在线全部免费| 97久久精品人人| 三上悠亚精品二区在线观看| 国内自拍久第一页| 69国产精品视频免费| 国内自拍久第一页| av在线手机播放| 国内精品手机在线观看视频| 国产AV无码专区亚洲A∨毛片| 午夜视频www| 亚洲一区二区三区国产精品 | 久久国产精品影院| 久久婷婷五月综合色一区二区| 日韩成人在线网站| 在线观看亚洲天堂| 狠狠色丁香婷婷综合| 亚洲精品国产乱码不卡| 一区二区午夜| 无码综合天天久久综合网| 国产精选自拍| 免费不卡在线观看av| 国产精品毛片一区|