曹滔宇,熊永平,史夢(mèng)潔,徐會(huì)芳,谷紀(jì)亭
1(北京郵電大學(xué) 網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100876)
2(中國(guó)電力科學(xué)研究院有限公司 人工智能應(yīng)用研究所,北京 102209)
3(國(guó)網(wǎng)浙江省電力有限公司 經(jīng)濟(jì)技術(shù)研究院,杭州 310001)
近些年來(lái),從國(guó)家到地方,各領(lǐng)域各企事業(yè)單位都投入大量人力、物力開(kāi)展科研和產(chǎn)業(yè)建設(shè),在項(xiàng)目招標(biāo)、申報(bào)、實(shí)施、驗(yàn)收等階段,都離不開(kāi)遴選出相關(guān)專(zhuān)家進(jìn)行評(píng)審.隨著國(guó)家經(jīng)濟(jì)發(fā)展和科技管理水平的提高,各級(jí)單位每年立項(xiàng)的科技項(xiàng)目數(shù)量快速增加,以自然基金委的科研項(xiàng)目為例,僅在2019年國(guó)家自然科學(xué)基金項(xiàng)目申請(qǐng)集中接收期間,國(guó)家自然科學(xué)基金委員會(huì)共計(jì)接收項(xiàng)目申請(qǐng)達(dá)到了240 711 項(xiàng),而國(guó)家電網(wǎng)總公司每年立項(xiàng)的科技項(xiàng)目也有300 余項(xiàng),可見(jiàn)在短時(shí)間內(nèi)對(duì)科技項(xiàng)目展開(kāi)評(píng)審工作的任務(wù)量是極為繁重的.
隨著項(xiàng)目管理流程的日益規(guī)范化,如今在項(xiàng)目的立項(xiàng)論證、中期檢查、成果驗(yàn)收、成果評(píng)價(jià)等多個(gè)環(huán)節(jié)都需要組織相關(guān)專(zhuān)家進(jìn)行會(huì)審.為了提高項(xiàng)目評(píng)審的效率,目前各公司及單位普遍采用分組評(píng)審的策略,但由于技術(shù)領(lǐng)域的日益細(xì)分和跨學(xué)科技術(shù)的廣泛應(yīng)用,導(dǎo)致從業(yè)務(wù)和管理維度進(jìn)行分組評(píng)審?fù)鶗?huì)使每個(gè)組的項(xiàng)目跨越較多的技術(shù)領(lǐng)域,因此必須遴選出一組契合這些技術(shù)領(lǐng)域的專(zhuān)家才能實(shí)現(xiàn)對(duì)該組項(xiàng)目的有效評(píng)審.
目前傳統(tǒng)專(zhuān)家遴選的方式普遍由人工作業(yè)完成,在成千上萬(wàn)的專(zhuān)家?guī)熘袡z索出合適的專(zhuān)家組合十分具有挑戰(zhàn)性.由于候選專(zhuān)家排列組合的方案數(shù)巨大,因此在有限時(shí)間內(nèi)找出合適的專(zhuān)家團(tuán)體變得十分困難,亟需找到一種能合理為科技項(xiàng)目評(píng)審工作匹配出評(píng)審專(zhuān)家組合的解決方案,以克服人工遴選專(zhuān)家方式所帶來(lái)的種種弊端.
考慮到在分組項(xiàng)目評(píng)審過(guò)程中往往同時(shí)有多個(gè)項(xiàng)目和多位專(zhuān)家,應(yīng)為科技項(xiàng)目選出有限數(shù)量的評(píng)審專(zhuān)家,使得這些專(zhuān)家組合成的評(píng)審團(tuán)體可以較好地契合項(xiàng)目所涉及的各個(gè)相關(guān)領(lǐng)域.本文首先將該問(wèn)題建模為一個(gè)典型的組合優(yōu)化問(wèn)題,通過(guò)將項(xiàng)目和專(zhuān)家映射到技術(shù)領(lǐng)域建立起科技項(xiàng)目和評(píng)審專(zhuān)家所對(duì)應(yīng)于專(zhuān)業(yè)領(lǐng)域上的離散分布,進(jìn)而基于余弦相似度函數(shù)來(lái)量化評(píng)價(jià)該組科技項(xiàng)目和評(píng)審專(zhuān)家組之間的匹配度.鑒于該類(lèi)組合優(yōu)化問(wèn)題往往在多項(xiàng)式級(jí)時(shí)間復(fù)雜度上無(wú)法有效求解,因此本文提出了基于貪心迭代搜索的GIS算法,該算法主要采用了多輪迭代搜索最優(yōu)部分解來(lái)組合形成全局最優(yōu)解的策略以實(shí)現(xiàn)找出最優(yōu)專(zhuān)家組合的目的.本文最終將GIS 算法分別在國(guó)家電網(wǎng)專(zhuān)家?guī)旒捌錃v史立項(xiàng)科技項(xiàng)目真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,并研究了專(zhuān)家?guī)齑笮 ㈩I(lǐng)域數(shù)量、項(xiàng)目數(shù)量等不同因素對(duì)算法的影響,結(jié)果表明本文提出的GIS 算法能在較短的時(shí)間內(nèi)找到較優(yōu)的評(píng)審專(zhuān)家組合方案.
近些年來(lái),已有不少相關(guān)學(xué)者對(duì)專(zhuān)家推薦問(wèn)題進(jìn)行過(guò)深入的研究,其中也不乏一些十分具有代表性的專(zhuān)家推薦方法,目前的專(zhuān)家推薦方法大體可分為兩類(lèi):第一類(lèi)是針對(duì)專(zhuān)家獨(dú)立推薦的研究,其主要思想是在推薦一位或多位專(zhuān)家時(shí),主要考慮將專(zhuān)家以獨(dú)立個(gè)體的方式推薦得出,即每位專(zhuān)家都與當(dāng)前待評(píng)審項(xiàng)目存在一定程度上的強(qiáng)相關(guān)關(guān)系,但不考慮所推薦專(zhuān)家形成組合后的整體情況;第二類(lèi)則是針對(duì)專(zhuān)家組合推薦的研究,一般是在限定若干約束條件的情況下推薦出由多位專(zhuān)家組成的專(zhuān)家團(tuán)體,該專(zhuān)家團(tuán)體實(shí)現(xiàn)了對(duì)于當(dāng)前待評(píng)審項(xiàng)目能達(dá)到組合最優(yōu)的評(píng)審效果,但其中每位專(zhuān)家則不必精通每個(gè)待評(píng)審項(xiàng)目,下面簡(jiǎn)要介紹在基于上述兩種研究思路下當(dāng)前已有的相關(guān)工作.
基于專(zhuān)家獨(dú)立推薦的研究:文獻(xiàn)[1–5]均通過(guò)提出一種科技項(xiàng)目評(píng)審專(zhuān)家推薦系統(tǒng)模型,該模型在挖掘文本信息的基礎(chǔ)上運(yùn)用關(guān)鍵詞提取、特征權(quán)重計(jì)算等相關(guān)算法,得到科技項(xiàng)目的多維度特征信息,然后通過(guò)計(jì)算其與專(zhuān)家在詞條上的相似度,并綜合專(zhuān)家參評(píng)項(xiàng)目經(jīng)驗(yàn)及專(zhuān)家業(yè)務(wù)能力等因素,最終使用基于內(nèi)容推薦、協(xié)同過(guò)濾推薦以及專(zhuān)家評(píng)分加權(quán)因子相融合的混合推薦模型,計(jì)算出每位專(zhuān)家的綜合評(píng)分,再根據(jù)設(shè)定的閾值以及推薦指數(shù)從高到低產(chǎn)生推薦專(zhuān)家名單實(shí)現(xiàn)了對(duì)科技專(zhuān)家的高效遴選;文獻(xiàn)[6–11]均通過(guò)提出了一種基于文本分類(lèi)模型的方式來(lái)實(shí)現(xiàn)專(zhuān)家自動(dòng)推薦的效果,主要借助有監(jiān)督或無(wú)監(jiān)督的方式建立起專(zhuān)家知識(shí)模型來(lái)判斷出評(píng)審專(zhuān)家的主要研究領(lǐng)域和評(píng)審項(xiàng)目的專(zhuān)業(yè)領(lǐng)域,再將評(píng)審項(xiàng)目的專(zhuān)業(yè)領(lǐng)域與評(píng)審專(zhuān)家的研究領(lǐng)域按相似性自動(dòng)匹配,最終達(dá)到對(duì)評(píng)審專(zhuān)家精準(zhǔn)推薦的目的;文獻(xiàn)[12–14]主要提出了一種基于主題模型的評(píng)審專(zhuān)家協(xié)同推薦方法,即借助隱含狄利克雷分布模型構(gòu)建主題特征空間,并利用特征提取算法分別獲得項(xiàng)目文檔與專(zhuān)家文檔的主題特征向量,計(jì)算項(xiàng)目與專(zhuān)家主題特征向量的相關(guān)度并取項(xiàng)目相關(guān)度較髙的專(zhuān)家作為推薦結(jié)果.
基于專(zhuān)家組合推薦的研究:文獻(xiàn)[15–18]主要通過(guò)將項(xiàng)目與專(zhuān)家抽象為二分圖網(wǎng)絡(luò)模型,由網(wǎng)絡(luò)節(jié)點(diǎn)的關(guān)聯(lián)性出發(fā),提出了一種基于相似度傳播的復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)匹配方法,通過(guò)借助圖論中的KM 算法、最大流匹配算法等方式實(shí)現(xiàn)節(jié)點(diǎn)間分組匹配的目的,最終設(shè)計(jì)出項(xiàng)目與專(zhuān)家的多重匹配算法;文獻(xiàn)[19]提出一種基于語(yǔ)義挖掘的科技項(xiàng)目評(píng)審專(zhuān)家智能推薦方法,為一個(gè)或多個(gè)項(xiàng)目自動(dòng)推薦生成候選專(zhuān)家列表;文獻(xiàn)[20]提出一種適用于求解通用最大權(quán)完美匹配的智能優(yōu)化方法,該方法能自適應(yīng)地從改進(jìn)的離散粒子群策略以及模擬退火策略中選擇適用于當(dāng)前演化過(guò)程的有效策略,并在保持種群穩(wěn)定進(jìn)化的同時(shí)促使種群快速收斂.
綜上所述,對(duì)于獨(dú)立推薦專(zhuān)家的方式來(lái)說(shuō),其主要關(guān)注點(diǎn)為挖掘?qū)<遗c項(xiàng)目的知識(shí)信息,并使用混合加權(quán)的方式來(lái)計(jì)算每個(gè)專(zhuān)家的綜合得分,最終基于該分?jǐn)?shù)實(shí)現(xiàn)推薦.但這種方式難以保證由多個(gè)高評(píng)分專(zhuān)家組合而成的團(tuán)體也能契合實(shí)際項(xiàng)目需求,具體來(lái)說(shuō),當(dāng)這些高評(píng)分專(zhuān)家均僅擅長(zhǎng)于特定領(lǐng)域且彼此相似時(shí),那么此時(shí)的專(zhuān)家組合雖能滿(mǎn)足每位專(zhuān)家最優(yōu),但卻無(wú)法保證該組合整體足夠適合于當(dāng)前項(xiàng)目的評(píng)審需求.而基于專(zhuān)家組合推薦的方式則避免了這種情況的發(fā)生,其實(shí)現(xiàn)方式主要是將項(xiàng)目和專(zhuān)家的關(guān)聯(lián)關(guān)系抽象成二部圖網(wǎng)絡(luò)模型,進(jìn)而考慮使用如完美匹配、最大流匹配等圖論算法實(shí)現(xiàn)專(zhuān)家遴選,但這類(lèi)算法常常由于具有較高的時(shí)間復(fù)雜度而難以將其應(yīng)用到大規(guī)模數(shù)據(jù)集上.為此基于上述考慮,本文設(shè)計(jì)了一種拋棄傳統(tǒng)二部圖網(wǎng)絡(luò)結(jié)構(gòu)的專(zhuān)家組合推薦策略,并最終將其運(yùn)用到較大的數(shù)據(jù)集上實(shí)現(xiàn)了科技項(xiàng)目與評(píng)審專(zhuān)家的多重匹配.
本文在考慮實(shí)際分組項(xiàng)目評(píng)審的情況下將該匹配問(wèn)題進(jìn)一步抽象描述如下:
當(dāng)前共有n個(gè)待審批科技項(xiàng)目,用集合P={P1,P2,···,Pi,···,Pn}來(lái)表示;專(zhuān)家?guī)熘泄灿衜位專(zhuān)家,用集合E={E1,E2,···,Ei,···,Em}來(lái)表示;項(xiàng)目集合P與專(zhuān)家集合E共涉及l(fā)個(gè)專(zhuān)業(yè)領(lǐng)域,用集合F={F1,F2,···,Fi,···,Fl}來(lái)表示.
由于任意一個(gè)科技項(xiàng)目Pi都與若干專(zhuān)業(yè)領(lǐng)域有一定的相關(guān)性,這里記矩陣WPF來(lái)表示項(xiàng)目集合P與領(lǐng)域集合F的相關(guān)性矩陣,其中WPF中的第i行j列的元素wij表示科技項(xiàng)目Pi與專(zhuān)業(yè)領(lǐng)域Fj之間的相關(guān)度,特別地,當(dāng)wij的值為零時(shí)表示科技項(xiàng)目Pi與專(zhuān)業(yè)領(lǐng)域Fj之間沒(méi)有關(guān)聯(lián)關(guān)系.

同理,因?yàn)槿我庖幻蜻x專(zhuān)家Ei都有其所擅長(zhǎng)的研究領(lǐng)域,所以仍可以得到矩陣WEF來(lái)表示專(zhuān)家集合E與領(lǐng)域集合F的相關(guān)性,矩陣WEF表示如下:

假設(shè)每個(gè)科技項(xiàng)目Pi都有其所關(guān)聯(lián)的專(zhuān)業(yè)領(lǐng)域FPi={Fx1,Fx2,···},對(duì)應(yīng)于WPF中第i行數(shù)據(jù)WiPF=(wi1,wi2,···,wil),那么對(duì)于當(dāng)前待評(píng)審的項(xiàng)目集合P={P1,P2,···,Pi,···,Pn}來(lái)說(shuō),該組項(xiàng)目所關(guān)聯(lián)的專(zhuān)業(yè)領(lǐng)域FP可表示為對(duì)應(yīng)到矩陣WPF即可得到能反映出項(xiàng)目集合所關(guān)聯(lián)專(zhuān)業(yè)領(lǐng)域的離散分布,記該離散分布為D(P),則其計(jì)算方式可定義為:

同理,若對(duì)已選出的k位專(zhuān)家所組成的集合E(k)={Ex1,Ex2,···,Exk}進(jìn)行考慮,其中每位專(zhuān)家Ei所擅長(zhǎng)的專(zhuān)業(yè)領(lǐng)域FEi={Fx1,Fx2,···},那么同樣可以找到能反映該專(zhuān)家團(tuán)體E(k)主 要研究方向的離散分布D(E(k)),其計(jì)算方法如下所示:

為了定義所遴選出的專(zhuān)家與待評(píng)審項(xiàng)目的匹配程度,本文提出了一種評(píng)價(jià)函數(shù)S(P,E(k))來(lái)衡量當(dāng)前選出的專(zhuān)家子集E(k)對(duì)項(xiàng)目集合P的匹配度.該評(píng)價(jià)函數(shù)能夠滿(mǎn)足:當(dāng)項(xiàng)目集合P所涉及專(zhuān)業(yè)領(lǐng)域與專(zhuān)家子集E(k)研究方向足夠契合時(shí),S(P,E(k))始終能給出較高的評(píng)價(jià),反之則會(huì)給出較低的評(píng)價(jià),這樣即可認(rèn)為選定專(zhuān)家子集E(k)來(lái)評(píng)審該組科技項(xiàng)目是比較合適的.
因此可以借助前文所定義的離散分布D(E(k))來(lái)表示專(zhuān)家子集E(k)的專(zhuān)業(yè)能力分布,D(P)用來(lái)表示項(xiàng)目集合P所涉及到的研究領(lǐng)域分布,這樣通過(guò)將兩者信息映射到共同的專(zhuān)業(yè)領(lǐng)域維度上之后,便可以進(jìn)一步分析D(E(k))與D(P)兩個(gè)離散分布間的匹配度.顯然當(dāng)兩個(gè)離散分布越“相似”時(shí)匹配度應(yīng)當(dāng)越高,但考慮到用于衡量D(E(k))和D(P)兩個(gè)離散分布相似性的方式有很多,如基于歐氏距離、交叉熵、余弦相似度等函數(shù),然而對(duì)于描述了專(zhuān)家子集E(k)專(zhuān) 業(yè)能力和項(xiàng)目集合P研究領(lǐng)域的兩個(gè)離散分布來(lái)說(shuō),D(E(k))和D(P)之間的差異不應(yīng)受到其具體數(shù)值大小的影響,而應(yīng)該側(cè)重關(guān)注于兩分布間整體趨勢(shì)及結(jié)構(gòu)上的相似性,那么選用余弦相似度來(lái)定義此需求下兩種離散分布的相似性是較為合適的.因?yàn)楦鶕?jù)余弦相似度函數(shù)的特性可知,當(dāng)把兩個(gè)離散分布映射成高維空間上的向量后,此時(shí)這兩個(gè)向量的相似性將不再受到自身模值的影響,而僅僅取決于其夾角的大小.反映到離散分布上而言,只有當(dāng)兩個(gè)分布的整體趨勢(shì)及結(jié)構(gòu)足夠相似時(shí),即使兩個(gè)分布之間具體數(shù)值可能相差若干倍,但在余弦相似度函數(shù)的度量下,仍會(huì)認(rèn)為這兩個(gè)離散分布是相似的,這樣也就限制了評(píng)價(jià)函數(shù)將側(cè)重關(guān)注專(zhuān)家子集E(k)的所包含的主要研究領(lǐng)域與項(xiàng)目集合P所涉及的研究方向的契合性,以便能保證選定該專(zhuān)家團(tuán)體來(lái)評(píng)審當(dāng)前科技項(xiàng)目是完全合適的,而若采用如歐氏距離、交叉熵等作為評(píng)價(jià)函數(shù)時(shí)則無(wú)法滿(mǎn)足此項(xiàng)特性.故綜合上述考慮,本文最終定義用于衡量當(dāng)前選出的專(zhuān)家子集E(k)與項(xiàng)目集合P之間匹配度的評(píng)價(jià)函數(shù)S(P,E(k))為:

離散分布間結(jié)構(gòu)相似性的度量方式如圖1.

圖1 離散分布間結(jié)構(gòu)相似性的度量方式
通過(guò)上一節(jié)的定義,顯然能計(jì)算出任意一組科技項(xiàng)目與評(píng)審專(zhuān)家集之間的匹配度大小,那么E(k)便可以通過(guò)枚舉E的所有k元素子集并代入評(píng)價(jià)函數(shù)S(P,E(k))中以找到最優(yōu)的匹配方案.但這樣做其實(shí)在實(shí)際應(yīng)用中是無(wú)法實(shí)現(xiàn)的,因?yàn)橥ㄟ^(guò)窮舉集集合E的所有k元素子集E(k)其 解的數(shù)量便高達(dá)種,而現(xiàn)實(shí)評(píng)審狀況則往往是專(zhuān)家?guī)靸?nèi)候選評(píng)審專(zhuān)家數(shù)目m是比較大的,同時(shí)也需要選出一定數(shù)量的專(zhuān)家構(gòu)成最終的評(píng)審專(zhuān)家團(tuán)體,那么上述方案將無(wú)法在可接受的時(shí)間范圍內(nèi)求解,對(duì)此本節(jié)將介紹一種貪心迭代搜索算法(Greedy Iterative Search,GIS)以實(shí)現(xiàn)最優(yōu)專(zhuān)家組合的高效遴選.
假設(shè)本組待審的科技項(xiàng)目集合記為P,候選專(zhuān)家?guī)靸?nèi)所有評(píng)審專(zhuān)家集合記為E,最終需要在E中匹配到一個(gè)包含k名評(píng)審專(zhuān)家的組合E(k)來(lái)完成本期科技項(xiàng)目的評(píng)審工作.GIS 算法的主要思想則是找出某個(gè)專(zhuān)家團(tuán)體E(k)使得S(P,E(k))最大,在保證當(dāng)前所選出的評(píng)審專(zhuān)家團(tuán)體能達(dá)到較高匹配度的前提下,算法每輪都會(huì)從未選擇的專(zhuān)家?guī)熘刑暨x出若干名專(zhuān)家加入到當(dāng)前的評(píng)審專(zhuān)家團(tuán)體中,并從中刪去評(píng)價(jià)較低的專(zhuān)家組合方案,下一輪將繼續(xù)在本輪更新后的解集中繼續(xù)加入更多的專(zhuān)家實(shí)現(xiàn)評(píng)審團(tuán)體的擴(kuò)充,以此類(lèi)推不斷迭代直至產(chǎn)生出若干組評(píng)價(jià)較高且人數(shù)符合預(yù)期的評(píng)審專(zhuān)家組合,最終GIS 算法將在該集合中選出最優(yōu)的專(zhuān)家團(tuán)體E(k)來(lái)作為其所找出的評(píng)審專(zhuān)家團(tuán)體.
由此定義GIS 算法的具體實(shí)現(xiàn)步驟如算法1.

算法1.貪心迭代搜索算法topKG0={E(0)1,E(0)2,···,E(0)topK}1)定義搜索參數(shù),初始化當(dāng)前解集集合 ;G E(t)ie,(e?E(t)i )E(t)i →E(t+1)iE(t+1)i S(P,E(t+1)i )topKGt+1 2)遍歷解集集合,對(duì)每個(gè)專(zhuān)家團(tuán)體 嘗試加入專(zhuān)家,使得發(fā)生的轉(zhuǎn)變,并對(duì)當(dāng)前得到的所有新專(zhuān)家團(tuán)體 計(jì)算,并取其中評(píng)價(jià)最高的組加入到集合中;E(t)iE(t+1)i Gt+1 Gt+1={E(t+1)11,E(t+1)12,···,E(t+1)1topK,···,E(t+1)topK1,E(t+1)topK2,···,E(t+1)topKtopK}3)重復(fù)步驟2)使得所有專(zhuān)家團(tuán)體 都求出相應(yīng)的并將其全部加入集合中,最終將得到;S(P,E(t+1))Gt+1 topK 4)根據(jù)的評(píng)價(jià)進(jìn)一步削減集合的大小,使該解集集合所包含可能解的數(shù)量仍為最優(yōu)的組;Gt→Gt+1 G0→G1→···→Gk 5)至此由上述步驟已完成了一輪的轉(zhuǎn)變,算法將繼續(xù)迭代直到產(chǎn)生 ;GkS(P,E(k))E(k)=Max(Gk)E(k)6)在集合中找出能使 評(píng)價(jià)最高的專(zhuān)家團(tuán)體,此專(zhuān)家團(tuán)體 即為GIS 算法的最終輸出.
分析GIS 算法的執(zhí)行流程可知,該算法的主要運(yùn)算成本集中在步驟2)~5)上,其中步驟2)將會(huì)迭代topK次,步驟3)和步驟4)迭代m次,步驟5)迭代k次,故GIS 算法整體的平均復(fù)雜度為O (topK×m×k),該復(fù)雜度遠(yuǎn)小于枚舉法的時(shí)間復(fù)雜度(約為O (mk)).考慮到在實(shí)際的分組項(xiàng)目評(píng)審需求背景下,一般m的范圍是104量級(jí),k的實(shí)際取值最大不會(huì)超過(guò)50,topK的可選區(qū)間亦一般不超過(guò)102量級(jí),故本文提出的GIS 算法在極端條件下的運(yùn)算成本約為107~108次,這在目前的計(jì)算設(shè)備下普遍可以在分鐘內(nèi)完成,已經(jīng)具有一定的實(shí)際可行性.
為了驗(yàn)證GIS 算法的有效性,本文使用了真實(shí)的電力行業(yè)科技項(xiàng)目評(píng)審數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).圖2是GIS算法的搜索過(guò)程.該數(shù)據(jù)集共包含有8364 名電力行業(yè)資深專(zhuān)家,涉及127個(gè)電力行業(yè)相關(guān)研究領(lǐng)域,項(xiàng)目數(shù)據(jù)包含過(guò)去3年內(nèi)國(guó)家電網(wǎng)總公司立項(xiàng)的科技項(xiàng)目共912 項(xiàng),其中科技項(xiàng)目共分為90 組,每組包含的項(xiàng)目從5個(gè)到20個(gè)不等,每個(gè)項(xiàng)目所涉及的專(zhuān)業(yè)領(lǐng)域也均在上述127個(gè)電力行業(yè)研究領(lǐng)域之內(nèi).本節(jié)將通過(guò)使用該數(shù)據(jù)集來(lái)測(cè)試GIS 算法對(duì)于解決專(zhuān)家遴選問(wèn)題的表現(xiàn),并結(jié)合蠻力搜索算法、RandomSelect 算法和GradualSubtract 算法作為baseline 構(gòu)成對(duì)比實(shí)驗(yàn)以綜合分析出GIS 算法的有效性.其中RandomSelect 算法的基本思想是每次從專(zhuān)家?guī)熘须S機(jī)挑選一名專(zhuān)家,使得該專(zhuān)家加入當(dāng)前專(zhuān)家團(tuán)體后,專(zhuān)家團(tuán)體的評(píng)價(jià)分?jǐn)?shù)能得到提升,依此原則不斷地挑選出指定數(shù)目的專(zhuān)家即可;GradualSubtract 算法的主要思想則是每次都會(huì)從當(dāng)前未被選擇的專(zhuān)家中找出一名研究領(lǐng)域最多覆蓋于當(dāng)前項(xiàng)目的專(zhuān)家,并將其加入到評(píng)審專(zhuān)家團(tuán)體中,然后從項(xiàng)目中刪除這些技術(shù)領(lǐng)域,接下來(lái)再重復(fù)地尋找下一位專(zhuān)家,直至構(gòu)建出最終的評(píng)審專(zhuān)家團(tuán)體.

圖2 GIS 算法的搜索過(guò)程
本節(jié)通過(guò)使用蠻力搜索算法(Brute Force Search,BFS)構(gòu)成對(duì)比實(shí)驗(yàn),分析其與本文提出的GIS 算法應(yīng)用在真實(shí)場(chǎng)景下的可行性.鑒于BFS 算法在專(zhuān)家總量稍大時(shí)便會(huì)帶來(lái)巨大的耗時(shí),所以本次實(shí)驗(yàn)僅選取了150 位專(zhuān)家為全部候選專(zhuān)家,測(cè)試其在面對(duì)包含1 至10個(gè)科技項(xiàng)目的評(píng)審工作時(shí),BFS 算法和GIS 算法所能達(dá)到的匹配度及耗時(shí)情況.特別地,由于分組評(píng)審工作中所需的評(píng)審專(zhuān)家數(shù)目與其所包含的科技項(xiàng)目數(shù)目一般為1:1 配置,所以本章所進(jìn)行的實(shí)驗(yàn)也將默認(rèn)采取這種設(shè)定.
圖3和圖4展示了在逐漸改變實(shí)驗(yàn)中每組評(píng)審工作中所包含的科技項(xiàng)目數(shù)量的情況下,BFS 算法和GIS算法各自的耗時(shí)及匹配度表現(xiàn).不難發(fā)現(xiàn)當(dāng)采用BFS算法后,雖候選專(zhuān)家的總量?jī)H有150個(gè),但面對(duì)包含4個(gè)科技項(xiàng)目的評(píng)審需求時(shí),便難以在可接受的時(shí)間尺度上找出一種合適的評(píng)審專(zhuān)家組合方案;相比之下,本文提出的GIS 算法則能保證在盡量少的耗時(shí)下達(dá)到與BFS 算法一致的匹配度表現(xiàn),可見(jiàn)該算法有處理較大數(shù)據(jù)集的潛力,能應(yīng)用于現(xiàn)實(shí)情景下的實(shí)際需求.

圖3 BFS 算法和GIS 算法的耗時(shí)對(duì)比

圖4 BFS 算法和GIS 算法的匹配度對(duì)比
本節(jié)將測(cè)試在逐漸改變專(zhuān)家?guī)齑笮〉那闆r下,分析GIS 算法對(duì)于包含20個(gè)科技項(xiàng)目的評(píng)審工作需求時(shí)的表現(xiàn)情況,圖5和圖6記錄了實(shí)驗(yàn)過(guò)程中RandomSelect算法、GradualSubtract 算法和GIS 算法的匹配度及耗時(shí)表現(xiàn).通過(guò)對(duì)比不難分析出當(dāng)專(zhuān)家總量逐漸增大時(shí),GIS 算法所找出的專(zhuān)家組合方案的匹配度會(huì)逐漸升高,直至專(zhuān)家總量達(dá)到2000 左右時(shí)趨于穩(wěn)定;相比之下,RandomSelect 算法與GradualSubtract 算法的匹配度表現(xiàn)則較差,其中RandomSelect 算法的匹配度一直處于0.5 到0.6的范圍內(nèi)上下波動(dòng),而GradualSubtract 算法的匹配度雖在不斷升高,但其提升速度及穩(wěn)定上限相比于GIS 算法仍有一定差距.
考慮算法的運(yùn)行時(shí)間而言,當(dāng)K值為30 時(shí)GIS 算法的耗時(shí)最多,而將K值下調(diào)至5 后GIS 算法的整體耗時(shí)便能顯著下降.值得注意的是,雖然此時(shí)GIS 算法的整體耗時(shí)仍略多于RandomSelect 算法和GradualSubtract算法,但不難發(fā)現(xiàn)其匹配度表現(xiàn)已經(jīng)有了較大幅度的提升.

圖5 改變專(zhuān)家?guī)齑笮r(shí)GIS 算法的匹配度表現(xiàn)

圖6 改變專(zhuān)家?guī)齑笮r(shí)GIS 算法的耗時(shí)表現(xiàn)
本節(jié)將通過(guò)調(diào)整每組評(píng)審工作中包含的20個(gè)科技項(xiàng)目所涉及專(zhuān)業(yè)領(lǐng)域的數(shù)目,探究領(lǐng)域數(shù)量對(duì)于本文所提出的GIS 算法的影響,如圖7和圖8.由實(shí)驗(yàn)中匹配度曲線(xiàn)和耗時(shí)曲線(xiàn)不難看出,當(dāng)逐漸增大項(xiàng)目所涉及的領(lǐng)域數(shù)量后,RandomSelect 算法、GradualSubtract算法和GIS 算法的耗時(shí)曲線(xiàn)基本處于穩(wěn)定狀態(tài),雖個(gè)別情況下有小范圍的波動(dòng),但總體上這3 種算法的耗時(shí)表現(xiàn)均不會(huì)受領(lǐng)域數(shù)量變化的影響.
同時(shí)根據(jù)匹配度曲線(xiàn)亦可以發(fā)現(xiàn),RandomSelect算法的匹配度表現(xiàn)會(huì)隨著領(lǐng)域數(shù)量的增多而出現(xiàn)明顯下降,GradualSubtract 算法的表現(xiàn)則相對(duì)穩(wěn)定,其匹配度曲線(xiàn)在發(fā)展趨勢(shì)上并未出現(xiàn)明顯變化.相比之下,本文提出的GIS 算法的表現(xiàn)最好,其匹配度曲線(xiàn)始終能保持在較高位且整個(gè)過(guò)程中十分穩(wěn)定,所以本實(shí)驗(yàn)證實(shí)了通過(guò)改變領(lǐng)域數(shù)量不會(huì)對(duì)GIS 算法的匹配度表現(xiàn)產(chǎn)生根本性影響.

圖7 改變領(lǐng)域數(shù)目時(shí)GIS 算法的耗時(shí)表現(xiàn)

圖8 改變領(lǐng)域數(shù)目時(shí)GIS 算法的匹配度表現(xiàn)
本節(jié)最后將通過(guò)改變每期評(píng)審工作中所包含科技項(xiàng)目的數(shù)量測(cè)試其對(duì)GIS 算法的影響,圖9和圖10記錄了實(shí)驗(yàn)過(guò)程中在逐漸增大項(xiàng)目數(shù)量后RandomSelect算法、GradualSubtract 算法和GIS 算法的表現(xiàn).不難看出當(dāng)項(xiàng)目數(shù)量逐漸增大時(shí),RandomSelect算法和GradualSubtract 算法的耗時(shí)相對(duì)較少,而K值為5的GIS 算法耗時(shí)則略多,且隨著科技項(xiàng)目數(shù)量的增加,K值設(shè)置的越大GIS 算法的耗時(shí)增長(zhǎng)越為迅速.
同樣對(duì)比這3 種算法的匹配度曲線(xiàn)可知,GIS 算法相比于RandomSelect 算法和GradualSubtract 算法的表現(xiàn)更好,且增大K值后GIS 算法的表現(xiàn)仍會(huì)有小幅提升.其中GradualSubtract 算法的匹配度表現(xiàn)最高時(shí)可達(dá)到0.88的匹配度,而RandomSelect 算法最高時(shí)僅達(dá)到0.66的匹配度,且其整體表現(xiàn)較不穩(wěn)定;相比之下GIS 算法的匹配度表現(xiàn)則更加穩(wěn)定且優(yōu)異,其匹配度始終能保持在0.95 左右.

圖9 改變項(xiàng)目數(shù)量時(shí)GIS 算法的耗時(shí)表現(xiàn)

圖10 改變項(xiàng)目數(shù)量時(shí)GIS 算法的匹配度表現(xiàn)
本文提出了在分組項(xiàng)目評(píng)審的背景下求解最優(yōu)評(píng)審專(zhuān)家組合的GIS 算法,該算法主要通過(guò)約束貪心算法的搜索空間,多輪迭代后找出契合本期項(xiàng)目評(píng)審需求的專(zhuān)家團(tuán)體.通過(guò)借助電力行業(yè)數(shù)據(jù)集對(duì)該分組項(xiàng)目評(píng)審專(zhuān)家遴選問(wèn)題進(jìn)行實(shí)驗(yàn)分析,結(jié)果表明本文提出的GIS 算法在計(jì)算耗時(shí)和計(jì)算效果上均有較好的表現(xiàn),可以將其應(yīng)用到實(shí)際的科技項(xiàng)目評(píng)審工作之中.