999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于學術論文的共同研究興趣人員的推薦

2021-08-26 03:29:36張智強侯愛琴杜娜娜甘大廣
物聯(lián)網技術 2021年8期
關鍵詞:用戶研究

張智強,侯愛琴,杜娜娜,甘大廣

(1.西北大學 信息科學與技術學院,陜西 西安 710127;2.北京萬方軟件股份有限公司,北京 100038)

0 引 言

目前海量文獻資料大多數是通過數字圖書、電子文檔的形式獲取,為信息共享提供方便的同時,可能會導致信息過載。各種推薦系統(tǒng)是解決信息過載的一種有效方法。推薦系統(tǒng)根據用戶之前的行為信息發(fā)現其需求,從而對用戶感興趣的信息進行推送[1]。其中,協(xié)同過濾推薦算法是目前應用于各電商最廣泛的個性化推薦算法。基于用戶行為信息的協(xié)同過濾算法可有針對性地推薦新的項目,因此得到了廣泛應用[2]。然而,該類算法僅考慮到用戶間評分信息,卻忽略了用戶本身的屬性特點,存在很多局限性,很難保證推薦質量。新用戶的冷啟動、數據稀疏性和推薦準確性依舊是目前亟待解決的難題。綜上,本文提出一種基于用戶特征的共同研究興趣人員的混合推薦算法。

1 相關工作

1.1 協(xié)同過濾

在協(xié)同過濾領域,Herlocker[3]和Breese都為協(xié)同過濾(Collaborative Filtering, CF)算法的評估提供了概述和框架。除了原來的K近鄰算法[4]之外,還有很多算法被提出并用于協(xié)同過濾。其中包括基于項目的算法和基于模型的算法[5],如貝葉斯網絡和聚類。

ReferralWeb將協(xié)同過濾、搜索、社交網絡相結合,創(chuàng)建了一個推薦系統(tǒng),在一個已經存在的社交網絡中,將具有共同興趣的人推薦給彼此。筆者的工作是在ReferralWeb基礎上做了擴展,探索了將CF直接應用到社交網絡的方法。

大多數CF應用領域推薦的條目彼此之間的關系相關性不大,而研究論文方面的推薦,論文之間存在復雜的引用關系網絡。要成功地將CF應用到這個領域,需要對算法進行修改,以有效地解釋引文網絡數據。

1.2 引文索引

自動引文索引可提供一種通過引文鏈接檢索文獻的方式,ResearchIndex能夠快速創(chuàng)建一個計算機科學論文的大型在線引文網絡。通過使用協(xié)同過濾等技術,可以大大提高如ResearchIndex這樣的引文索引系統(tǒng)的檢索速度。

Woodruf等人提出一種推薦算法,可以融合文本和引文數據進行推薦。這種混合過濾算法結合了語義信息和協(xié)同信息,在研究論文領城有很大的應用潛力。單獨使用研究論文引文,忽略研究論文的內容進行推薦,可能會導致不正確的結果。例如,一些研究人員在參考文獻部分引用了一篇論文,卻沒有在論文的主要內容中實際使用它們。

1.3 引文作者網絡

利用學術論文的參考文獻,可以創(chuàng)建反映學者之間研究興趣相關性的引文網絡。多年來,圖書館員和信息專業(yè)人員一直在研究學術論文作者之間關聯(lián)網絡的創(chuàng)建和索引方法[6-7]。

Waleed Reafee等人提出一種推薦引用的方法。他們的方法是應用協(xié)同過濾(CF)方法,通過研究論文之間的引用創(chuàng)建一個作者之間引用關系圖表。這些數據可以映射到CF的框架中,并用于克服冷啟動問題。Caragea等在假設論文作者具有一定背景知識的前提下,使用奇異值分解(Singular Value Decomposition, SVD)來提供更好的引文推薦。然而,為了體現作者的背景知識,用戶需要準備與作者的研究主題相關的引文的初始集合。

2 基于學術論文的共同研究興趣人員推薦算法

為了更好地利用用戶本身的屬性特點,本文使用用戶過去發(fā)表的論文及其引文以檔案的形式為用戶背景建模,并利用信任關系的可傳遞性,通過直接信任和間接信任兩種方式為研究人員推薦相似用戶,幫助其找到與自己研究興趣相同的研究者。其算法流程如圖1所示。

圖1 基于學術論文的共同研究興趣人員推薦流程

2.1 建立用戶配置文件向量

首先將研究人員分為初級研究人員和高級研究人員,這是因為這兩種類型的研究人員的論文列表的特性不同。初級研究人員為只有少量發(fā)表的論文,尚未引證(即沒有引文);高級研究人員是指有大量論文發(fā)表且已被引證。

本文利用論文的摘要及其引文網絡,來建立該論文的引用文檔。用戶配置文件的表示是基于以特征向量表示的論文。每個研究人員發(fā)表的每一篇論文,都將轉化成一個個特征向量,如下:

式中TF(tk, p)是p中tk項出現的頻率。因為研究人員發(fā)表的論文數量較少,可能會對IDF評分的計算產生不利影響,所以采用TF而不采用標準的TF-IDF方案。

基于論文特征向量fp的集合,可以通過每個研究人員發(fā)表的論文與其引文、參考文獻來構建初級研究人員和高級研究人員的配置文件。

本文采用余弦相似度作為論文之間的權重。根據式(1),分別讓fu和fv作為論文u和論文v的特征向量。然后根據式(3)可以計算出2個向量之間的相似性sim(fu, fv)作為論文之間的權重wpu→v。

這種方法通過強調其引文與參考文獻之間的相似性增強了研究人員論文中的信息。

(1)初級研究人員配置文件向量

本文選取只有一篇論文發(fā)表的初級研究人員,且該論文尚未被引證(即沒有引文,只有參考文獻)。根據文獻[8],初級研究人員配置文件向量Puser的定義如下:

(2)高級研究人員配置文件向量

根據以上分析,計算高級用戶配置文件向量Puser,公式如下:

2.2 基于信任關系的相似興趣用戶推薦

信任度是指在為用戶做推薦時,其他用戶的參考程度。對一個用戶越信任,其參考程度越大;若兩個用戶屬性比較相近,則可以認為其喜好具有較高的相似性。因此,本文考慮基于用戶信任關系的相似性構建用戶信任網絡。結合信任關系的推薦系統(tǒng)可以有效地緩解傳統(tǒng)協(xié)同過濾算法中存在的數據稀疏問題,并為每個用戶提供可信且準確的推薦。信任度分為直接信任度和間接信任度。直接信任度表示有直接關聯(lián)的用戶相似性,間接信任度表示沒有直接關聯(lián)卻存在相似度的用戶相似性[9]。

2.2.1 直接信任推薦

直接信任是指兩個用戶在某些行為方面表現為直接相關,并且通過直接相關的行為對對方產生直接信任關系。具體過程為:利用二分K-Means算法對用戶聚類,可以得到所選用戶的候選用戶集群,再利用Top-K算法,選取與該用戶相似性較高的前K個用戶作為最佳用戶進行推薦,如圖2所示。

圖2 直接信任關系模型

2.2.2 間接信任推薦

間接信任是指兩個用戶沒有直接關系,而根據信任的傳遞性,信任從一個用戶傳遞到下一個用戶,經過不止一次的傳遞到達指定的用戶,兩個用戶之間需要其他用戶的搭橋后才能信任傳遞。設用戶u和用戶v沒有直接信任度,但用戶u和用戶w有直接信任度,用戶w和用戶v有直接信任度,那么就可以說用戶u和用戶v通過用戶w建立了間接信任關系。

圖3 間接信任關系模型

3 實 驗

3.1 實驗數據集

本實驗采用科技情報大數據挖掘與服務系統(tǒng)平臺AMiner中的數據集,選用其中的DBLP-Citation-network V11數據集,包含4 107 340篇論文和36 624 464條引用關系。為建立用戶配置文件、獲得準確的推薦結果提供了保障。

本文獲得萬方數據的支持,通過數據接口選取其中的30位用戶及其引文網絡作為本文的測試數據集并進行了實驗驗證。

3.2 評價指標

本文研究人員相似度計算采用了余弦相似度計算公式,如下:

式中Pu,Pv分別為用戶u、用戶v的配置文件向量。

3.3 實驗結果

本文分別采用AMiner數據集和萬方數據進行直接信任和間接信任兩種方式的推薦,兩個數據集實驗結論一致。下面以AMiner數據集為例進行實驗說明。

3.3.1 初級研究人員推薦

(1)直接信任推薦

隨機選取了數據集中的15位初級研究人員(只有一篇最近發(fā)表的論文,尚未引證,即沒有引文),并為其生成配置文件。對每一位研究者,采用直接信任方式分別計算了前3位、5位、7位、10位相似研究者的余弦相似度,如圖4所示。

圖4 直接信任研究者(初級)間余弦相似度

從圖中可以看出,隨著推薦相似研究人員的增多,研究人員間的相似性也越來越低。研究者4推薦的前3位研究人員和前5位研究人員,經過查證都只發(fā)表了一篇論文且均為這篇文章的共同作者,所以相似度為1。

(2)間接信任推薦

對間接信任方式,實驗中仍采用上述直接信任實驗選取的數據集中的15位初級研究人員,根據信任可以在信任網絡中傳播的原理,分別取傳遞距離為3,5,7,10,15,20進行了對比實驗。間接信任研究者間余弦相似度實驗結果如圖5所示。

圖5 間接信任研究者(初級)間相似度

從圖中可以看出,信任傳遞距離越遠,研究人員間的相似性越低。在推薦研究人員從3位增長到5位時,相似度驟減,這也是因為對初級研究者推薦的研究人員中,前3位可能是同一篇文章的共同作者,前5位由于間接信任傳遞距離的增長相似度降低。對任意一個用戶,間接信任與直接信任方式相比,推薦人數相同的情況下,間接信任研究人員間的相似性略低于直接信任。此外,隨著間接信任傳遞距離的增長,其相似性降低幅度較小。

3.3.2 高級研究人員推薦

本文選取數據集中發(fā)表文章相對較多的15位高級研究人員(有一系列論文,過去發(fā)表的論文有被引證),并根據研究人員最近5年論文列表為其生成配置文件并通過二分K-Means算法對用戶進行聚類。大量研究指出:使用研究者最近5年的論文列表基本可代表該研究者的研究方向。如果使用該作者的全部論文列表,則向量會很大,而且其研究方向可能有改變;而如果使用較少的論文列表則不能更好地代表其研究方向。

(1)直接信任推薦

取數據集中發(fā)表文章相對較多的15位高級研究人員,根據研究者最近5年的出版物列表生成其配置文件進行匹配,直接信任研究人員間的余弦相似度實驗結果見表1和圖6所列。對于同一研究者,根據余弦相似度高低排序進行推薦。從圖6中可以看出,隨著推薦人數的增多,雖然相似性有所下降,但下降的幅度很小。總體來說,推薦前5位相似研究興趣人員時,比推薦前3位時的相似度變化值平均僅為2.39%;推薦前7位時,比推薦前3位時的相似度變化值平均為4.16%;推薦前10位時,比推薦前3位時的相似度變化值平均為6.18%,其相似度也僅僅平均變化了0.044 2。

表1 直接信任研究者間相似度表

圖6 直接信任研究者(高級)間余弦相似度

(2)間接信任推薦

仍取上述數據集中的15位高級研究人員,計算間接信任研究者間余弦相似度見表2及圖7所列。同樣地,對于同一研究者,按余弦相似度高低排序進行推薦。從圖7可見,同一研究者信任傳遞距離越遠,相似性有所下降。總體來說,推薦前5位相似研究興趣人員時,比推薦前3位時的相似度變化值平均僅為5.77%;推薦前7位時,比推薦前3位時相似度變化值平均為8.88%;推薦前10位時,比推薦前3位時相似度變化值平均為12.4%,其相似度變化平均為0.203 3;推薦前15位時,相似度變化值平均為15.8%,比推薦前3位時其相似度變化平均僅為0.232 2;推薦前20位時,比推薦前3位時相似度變化值平均為18.9%,其相似度變化也平均僅為0.294 6。所以,隨著間接信任傳遞距離的增長,雖然相似性在減小,但減小的幅度并不大,這樣就極大地擴展了推薦用戶列表。

表2 間接信任研究者間余弦相似度表

圖7 間接信任研究者(高級)間余弦相似度

4 結 語

本文使用研究人員過去的論文列表建立用戶配置文件,分別對初級研究人員和高級研究人員通過直接信任和間接信任的方式對其進行相似研究人員的推薦。結果表明,通過直接信任方式和間接信任方式推薦均可找出相似度高的研究人員,直接信任方式比間接信任方式推薦相似度略高。通過間接信任方式不僅為該研究者找出相似度較高的研究人員,而且能夠極大可能地推薦更多相似興趣的人員。本文基于內容的用戶興趣關系網的推薦方法也緩解了推薦系統(tǒng)的稀疏性和冷啟動等問題。

猜你喜歡
用戶研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統(tǒng)研究
新版C-NCAP側面碰撞假人損傷研究
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
主站蜘蛛池模板: 另类专区亚洲| 亚洲天堂免费观看| 99久视频| 亚洲成人www| 久草性视频| 亚洲色偷偷偷鲁综合| 国产情精品嫩草影院88av| 亚洲第一页在线观看| 国产亚洲欧美另类一区二区| 亚洲男人天堂2018| 国产玖玖视频| 精品人妻系列无码专区久久| 国产在线观看一区二区三区| 一本大道视频精品人妻 | 国产在线精品美女观看| 四虎综合网| 青青草原国产av福利网站| 伊人精品成人久久综合| 强奷白丝美女在线观看| 99久久精品免费观看国产| 成人91在线| 日本欧美一二三区色视频| 国产视频欧美| 99视频精品在线观看| 国内精品伊人久久久久7777人| 亚洲欧洲日韩久久狠狠爱| 精品无码人妻一区二区| 久青草国产高清在线视频| 国产欧美视频在线观看| 亚洲国产成人无码AV在线影院L| 伊人成人在线视频| 亚洲精品在线91| 亚洲日本韩在线观看| 91午夜福利在线观看精品| 91久久夜色精品国产网站| 九一九色国产| 亚洲欧美综合另类图片小说区| 97国产精品视频人人做人人爱| 亚洲一区二区三区香蕉| 亚洲精品不卡午夜精品| 日韩视频福利| 国产xx在线观看| 尤物成AV人片在线观看| 成人国产一区二区三区| 四虎国产永久在线观看| 欧美a在线视频| 欧美人与牲动交a欧美精品| 在线综合亚洲欧美网站| 欧美精品亚洲精品日韩专区va| 国产成人乱无码视频| 国产精品无码久久久久久| 久久婷婷国产综合尤物精品| 国产麻豆va精品视频| 在线精品欧美日韩| 久操中文在线| 国产xxxxx免费视频| 日韩成人在线网站| 国产精品午夜电影| 黑色丝袜高跟国产在线91| 中文成人在线| 成人国产精品2021| 97综合久久| 99激情网| 亚洲最大福利网站| 亚洲 日韩 激情 无码 中出| 四虎成人免费毛片| 在线观看国产小视频| 99在线观看精品视频| 18禁不卡免费网站| a亚洲天堂| 成年女人18毛片毛片免费| www.91中文字幕| 无码内射中文字幕岛国片| 国产福利观看| 尤物午夜福利视频| 国产成年无码AⅤ片在线| 久久久久无码国产精品不卡| 亚洲精品欧美日本中文字幕| 亚洲一区网站| 精品人妻一区二区三区蜜桃AⅤ| 欧美亚洲一区二区三区在线| 久久黄色视频影|