跨數據源論文集成

2018-10-19 03:13:54張帆進顧曉韜姚沛然

中文信息學報 2018年9期

張帆進，顧曉韜，姚沛然，唐杰

(清華大學計算機科學與技術系，北京 100084)

0 引言

在大數據時代，有很多實體分布在不同的數據源中。比如,很多學者分布在不同的研究者社交網絡中，如 Google Scholar、MAG 等；同一論文可能分布在不同的數據源中，如DBLP、arXiv等。由此，一個自然的問題是：如何把不同數據源中的數據集成起來？

具體地，本文研究異構數據源的論文集成問題，旨在利用論文的不同屬性，將不同數據源中的同一實體匹配起來。集成不同數據源的數據有很大的應用價值，如可以擴充數據庫或者進一步地將數據集成的結果應用于問答系統或信息檢索等應用中。

然而，該研究面臨著以下幾方面挑戰：

?數據異構[1]。由于論文數據分布在不同數據源，可能面臨數據異構的問題。比如論文作者可能存在不同的格式，如Quoc Le和Le，Quoc。

?同名消歧問題[2-4]。同一名字可以表示多個實體，這也給數據集成帶來了很大困難。不同論文可能有相同的題目，如Data、data everywhere可對應多篇文章。

?數據規模大。由于數據爆炸式增長，也要求數據集成能夠有比較快的速度。以學術出版物為例，著名的出版集團Elsevier在過去的150年出版了大量學術刊物。據他們在數據庫Scopus上的統計，從1996年至2014年，學術出版物的數量實現了翻倍，由此可見數據的快速增長。在大規模數據集成任務中，從外來數據源輸入一個實體，要求能夠在線匹配到可能的結果，同時還要保持較高的匹配準確率。

盡管現在已經有很多關于數據集成的工作，但是由于數據集成面臨各種挑戰，集成的準確率和速度仍然有很大的提升的空間。本文中我們對論文集成問題設計了針對性的算法來達到較高的準確率或速度。此外，我們設計了一個用于大規模論文匹配的原型系統。本文的貢獻總結如下：

(1) 提出了兩個論文匹配算法MHash和MCNN。MHash利用哈希算法將論文映射到低維的漢明空間，能夠快速實現論文匹配。在結合論文的各種屬性后，MHash能夠達到較高的匹配準確率(93%+)。而MCNN把論文匹配問題看成計算兩個文本相似度的問題，首先構造了基于詞語相似度的相似矩陣，然后利用卷積神經網絡來計算精細的匹配模式，最終得到相似度。MCNN可以達到非常高的匹配準確率(98%+)。

(2) 探討了大規模論文匹配的問題。我們設計了一個基于論文題目的異步搜索框架。實驗結果表示：該框架可以在15天內完成64 639 608篇論文的匹配。

本文的剩余部分組織如下，第一節調研數據集成的相關工作。第二節提出論文集成的問題定義。第三節和第四節介紹兩個論文匹配算法。第五節展示上述論文匹配算法的方法評測和實驗結果。接著，第六節介紹論文數據集成的實際應用，包括我們設計的適用于大規模論文匹配的原型系統和公開數據集介紹。最后，第七節總結全文。

1 相關工作

本節介紹數據集成方面的相關工作。數據集成是數據挖掘領域的一個經典問題，它與實體匹配、數據庫去重、同名消歧等問題密切相關。數據集成從根本上來講是實體匹配問題，是要判斷不同數據源中兩個實體是否本質上是同一個實體。關于數據集成的綜述可以參見文獻[5-6]。下面，我們分類介紹數據集成方法。

1.1 基于規則的方法

基于規則的匹配方法是指：根據人類專家設計或訓練數據生成的多條匹配規則，對其進行組合(如邏輯操作、優先級設定等)，來構造復雜的匹配條件，根據匹配條件得到最終的結果。

舉一個簡單的例子，下面的偽代碼展示了根據姓名(name)和機構(aff)兩種規則匹配專家的方法。

FORALL(e1,e2)in EXPERTS IF e1.name=e2. name AND e1.aff is similar to e2. aff THEN r1 matches r2 ELSE r1 doesnt match r2

Li等人[7]用基于規則的方法來解決實體識別的問題。他們認為，用基于相似度的方法來判別兩個實體是否為同一個實體在實際應用中不一定奏效，由于數據異構等問題，實際上為同一個實體的兩個實體不一定能計算出比較高的相似度。因此，他們采用基于規則的方法并且提出了一個高效的規則發現算法。

人工參與規則設計和規則組合需要較高的人力成本，因此，更加實用且可擴展性強的方式是采用由數據生成的匹配規則，然后自動調整為合適的規則組合方式。

1.2 監督/半監督學習方法

監督學習方法要求訓練數據集中的數據為有標注數據，即已知哪些實體是匹配的，哪些實體是不匹配的，如Tang等人[8]將實體匹配問題轉化為最小化貝葉斯決策風險的問題，能夠得到一對一或者一對多的匹配結果。

然而，實際應用中難以找到大量的標注數據，因此，有些方法同時利用了訓練數據集中的標注數據和未標注數據，采用半監督學習方法來學習匹配模型。如，Rong等人[9]把實體匹配問題轉化為實體對的二分類問題。他們還利用了遷移學習的方法，充分利用已有的匹配好的實體對，來減少需要標注的數據。具體方法如下： ①預匹配：采用關鍵詞過濾一些不可能匹配的實體對，得到待匹配的實體對。②計算相似度向量：計算實體對各屬性之間的相似度，相似度向量中包含了不直接對應的屬性之間的相似度，捕捉了它們語義上可能的相似性。③訓練分類器：利用遷移學習的方法，對相似度向量訓練分類器進行預測。

1.3 無監督學習方法

無監督學習方法不需要對數據集中實體是否匹配進行標注，往往可以適應更多的數據集成場景。如Liu等人[10]巧妙地利用人名的唯一性度量函數作為弱監督信息，將用戶屬性、用戶生成的文檔，以及用戶在不同網絡中的活動集成到一個學習框架中，提出了一個跨網絡實體匹配的無監督算法。

1.4 利用神經網絡的方法

近來，有一些實體匹配的工作利用了神經網絡來提升匹配效果[11-12]。Sun等人[13]利用神經網絡來研究實體消歧問題，他們將描述實體的變長字符串編碼在一個連續的向量空間中。Hu等人[14]研究兩個句子語義上的匹配問題。他們利用了卷積神經網絡來建模兩個句子的相似性。該模型可以表示出句子的語法結構，以及盡可能捕捉到句子間豐富的匹配模式。

2 問題定義

令G1={V1,R1}，G2={V2,R2}表示兩個不同數據源的論文網絡(比如DBLP和ACM Digital Library)其中，V1={v1,v2,…,vN1}和V2={u1,u2,…,uN2} 代表論文集合。R1和R2代表論文的屬性矩陣，包括論文題目、作者列表等屬性。

論文匹配算法有兩個設計目標：快速而準確。在下面兩節中，我們提出了兩個論文匹配算法，第一個算法MHash利用哈希算法來加速匹配過程，該算法可以適應大規模論文匹配場景；第二個算法MCNN利用卷積神經網絡(CNN)來提高匹配準確率，它可以克服不同數據源數據異構的問題。

3 基于哈希學習的論文匹配算法(MHash)

本節介紹一個快速的論文匹配算法(MHash)，它可以用于在線匹配論文。該算法是一個無監督算法，它包括兩個步驟：特征構造和哈希算法。算法流程如圖1所示。

3.1 特征構造

特征構造的目標是把輸入的文本數值化，具體地，我們的目標是將長度變化的文本轉化為固定長度的特征向量。同時，這些特征向量要能捕捉到文本的結構和語義信息。為方便起見，在下文中，我們將該步驟構造的特征稱之為中間特征。在匹配過程中，我們用到的論文屬性有：論文題目、作者列表、發表會議(或期刊)、發表年份。下面，我們將各屬性簡稱為：題目、作者列表、會議、年份。表1總結了不同屬性的特征構造方法，下面我們依次詳細地介紹各屬性的特征構造方法。

圖1 基于哈希學習的論文匹配算法流程圖

表1 中間特征構造

題目是最富有變化的論文屬性，因為它的長度和內容都可以有較大的變化。題目特征的構造采用了Doc2Vec[15]。它可以把變化長度的文本轉化為固定長度的向量表示。Doc2Vec是由Word2Vec衍生而來。Word2Vec是一個兩層(淺層)的神經網絡模型，它利用單詞的上下文關系來學習單詞的向量表示。因此，語義上相近的兩個單詞，若它們的上下文通常是相同的單詞，則它們的向量表示會很相近。比如，“via”的向量表示可能和“by”相近。在Doc2Vec模型中，每個文檔(doc)會額外引入一個“文檔向量”。它可以被看作是文檔中潛在的一個具有代表性的單詞，或者說是文檔的主題?！拔臋n向量”和文檔中的單詞向量被一起輸入神經網絡。Doc2Vec適合于構造論文題目特征，因為在不同數據源中同一篇論文的題目經常有絕大部分單詞是相同的，而Doc2Vec可以捕捉題目中單詞的語義信息。在該步驟后，我們用T=[τ1,τ2,…,τN]T∈RN×d1來表示論文題目的中間特征。

對于論文的其他特征，輸出的中間特征是二值編碼。在表1的第2～3行，二值編碼的每一位映射到字母“a”到“z”，若該字母出現過，則對應位置為1，否則為0。在最后一行，所得的差代表二值編碼中從右往左連續出現的“1”的個數，二值編碼最右端均為1，最左端均為0。這些二值特征忽略了原始文本中單詞的順序，因為文本中單詞的順序是可以改變的。例如，作者姓名有多種不同的表示方式。Tomas Mikolov和Mikolov，T這兩種表示即改變了單詞順序。同時，這種提取特征的方法捕捉了屬性中最重要的信息，比如，對于會議來說，提取大寫字母解決了會議名稱縮寫帶來的數據異構問題。我們用A∈{-1,+1}N×b2，V∈{-1,+1}N×b3y∈{-1,+1}N×b4，來表示作者列表,會議，年份的間特征。

3.2 哈希算法

題目的中間特征是高維的實值向量。實值向量的缺點有：計算復雜度高和存儲開銷大。因此，我們利用哈希算法來把實值向量轉化為二值編碼，以此來減少計算開銷和存儲開銷。

哈希算法分為兩類：數據獨立方法和數據依賴方法(即哈希學習方法)[16]。它們都是把數據從原始的高維空間通過哈希函數映射到低維的漢明空間。對于數據獨立方法，哈希函數是隨機產生或者手工構造的，所以說哈希函數和數據是獨立的。對于數據依賴方法，哈希函數是根據原始數據學習得到的，不同的原始數據可能學習出不同的哈希函數。

局部敏感哈希(LSH)[17]是一種數據獨立方法。它已經廣泛應用于高效的近似最近鄰搜索問題(ANN)中。它所采用的哈希函數是隨機產生的，能夠保證：如果兩個向量在原始空間是相近的，那么它們有很大概率被映射到同一個二值編碼。

LSH可以保持數據在原空間的相似度，我們首先定義度量原空間相似度的方法為余弦相似度(cosine similarity),如式(1)所示。

(1)

研究表明隨機投影能夠保持向量的余弦相似度[18]。在實驗部分5.2節中也會展示這一點：題目中間特征的相似度可以被LSH保持。我們將哈希函數定義如式(2)所示。

h(τ)=sign(τ·W)

(2)

在這里，W∈Rd1×b1是投影矩陣，矩陣中的每個元素獨立從高斯分布中采樣得到。經過哈希之后，矩陣T被轉換為C=[h(τ1)，h(τ2)，…，h(τN)]∈{-1,+1}N×b1。此外，我們還可以使用不同的哈希算法，比如數據依賴方法。哈希算法的目標是將中間的實值向量轉化為二值編碼，并盡可能保持實值向量的相似性，數據獨立方法和數據依賴方法都可以達到這個目標。除LSH外，我們還嘗試了無監督的數據依賴方法SGH[19]。

下面我們考慮如何結合論文的各個屬性。由于我們獲得了論文各屬性的二值編碼，一個直觀的辦法是將它們拼接起來，作為論文的二值編碼。實驗證明結合后的論文編碼匹配效果優于只使用單個屬性的效果。于是，我們得到了基于哈希算法的無監督論文匹配算法。

4 基于卷積神經網絡的論文匹配算法(MCNN)

本節介紹基于卷積神經網絡的論文匹配算法，設計該算法的目的在于希望獲得較高的匹配準確率。該算法的思想是：將論文匹配問題看成是計算成對論文的相似度的問題。因此，可以將論文匹配分為兩個步驟： ①預匹配：過濾得到可能匹配的論文對。②計算論文對之間的相似度，進而得到匹配結果。

該算法需要進行預匹配的原因是：為了獲得較高的匹配準確率，需要更為精細地計算論文相似度。因此，計算每對論文的時間開銷較大。如果逐一計算兩個數據源中每對論文的相似度，對于平方級別O(|V1||V2|)的復雜度，總計算開銷會特別大。因此我們先進行預匹配，過濾掉大量匹配可能性很低的論文對。

對于相似度計算，受文獻[12]啟發，我們將兩篇論文u，v看成兩串文本text1，text2，不是直接計算出一個相似度得分，而是先根據兩個文本中單詞的相似度構造出一個相似度矩陣M，然后利用CNN捕捉文本間相似度的模式，最后輸出一個相似度得分。具體地，相似度計算可以分為以下三步。

4.1 構造相似度矩陣

首先，我們需要選擇構造相似度矩陣的文本。對于論文來說，可以選擇論文題目。同時，為了結合論文的各個屬性，可以添加作者列表、會議等屬性。在實驗部分5.2節可以看到，該算法可以比較容易結合各種屬性，利用論文的更多信息來計算出更準確的相似度得分。在本節中，我們以論文題目舉例。

我們截取論文題目的前l個單詞，設text1={α1，α2,…，αl}，text2={β1，β2,…，βl}。定義兩個單詞之間的相似度如式(3)所示。

sij=αi?βj

(3)

圖2 兩個文本的相似度矩陣M，網格中的顏色越接近白色，表示相似度值越大

4.2 CNN模型

卷積神經網絡(CNN)在圖像識別領域已經取得了巨大成功。和圖像類似，相似度矩陣也是一個二維矩陣。因此，我們將相似度矩陣M作為CNN模型的輸入z0=M。網絡的結構設計如下：第一層對輸入矩陣進行卷積操作。第一層的第n個神經元計算過濾器(filter)ω(1,k)和矩陣中各個小區域的卷積。然后將每個卷積得到的值用一個激活函數δ對特征進行非線性映射，如式(4)所示。

(4)

式(4)中，rn表示第n個過濾器的大小，θ(1,n)表示第n個過濾器的偏置項。在該層中，我們使用多個過濾器來捕捉不同模式的相似度。比如，在圖3中，過濾器A可以捕捉兩個文本中單詞順序的相似度，如“(cat likes dog)-(cat enjoys dog)”，然而過濾器B可以捕捉兩個文本中單詞亂序的相似度，如“(cat and log)-(dog and cat)”。

第二層對第一層的輸出z(1,n)進行池化(pool-ing)操作，用來減少特征表示的大小和參數的數量。池化操作對第一層每個神經元的輸出獨立進行操作，這里采用的池化操作是最大化操作。形式上，第二層網絡的輸出z(2,n)可以表示為式(5)。

(5)

式(5)中，rn表示第n個池化過濾器的大小。在經過前兩層處理后，我們繼續進行多層卷積和池化操作，來捕捉更高階的特征。

圖3 示例

在卷積層利用不同的過濾器(filter)，可以捕捉不同模式的相似度。左邊的相似矩陣M和圖2中的矩陣相同。

(6)

(7)

在式(6)中，ck代表第k層過濾器的個數。

我們使用多層感知機(MLP)來輸出最終的相似度得分。具體地，我們使用了兩個全連接層來得到相似度向量，如式(8)所示。

(s0,s1)T=W2δ(W1·z+θ1)+θ2

(8)

在這里s0表示不相似度，s1表示相似度。Wi和θi是第i個全連接層的過濾器和偏置項，δ表示激活函數。在實驗中，我們采用ReLU[21]作為所有卷積層和全連接層的激活函數。ReLU比sigmoid，tanh等激活函數能產生更準確的結果，而且收斂更快。整個網絡的結構可參見圖4。

4.3 訓練方法

我們用softmax來表示屬于每一類(匹配或不匹配)的概率，以及用交叉熵作為優化的目標函數。因此，優化目標可以寫成式(9)。

(9)

式(9)中，y(i)表示第i對訓練樣本的標簽。

我們用反向傳播算法(back-propagation)來求解神經網絡的參數。訓練方法采用了隨機梯度下降的變體Adagrad[22]和mini-batch策略。在網絡的倒數第二層，我們采用了dropout來避免隱層神經元的互相適應。

圖4 CNN模型網絡結構圖

5 方法評測和實驗結果

5.1 實驗設置

數據集：在現實應用中，很難在不同數據源找到大量匹配的(有標記的)論文對。此外，在真實匹配的例子中，大部分論文各屬性都比較相似。因此，為了更好地評估我們的方法，我們人工構造了兩個數據集，原始論文集和噪聲論文集。原始數據集大小為5萬篇，從AMiner論文庫中收集得到，每篇論文保留了四個屬性：題目、作者列表、會議和年份。噪聲數據集是對原始數據集中的每篇論文加噪聲生成的。從而，加噪聲前后的論文自然形成了一對匹配的論文，避免了人工標注。我們首先統計了已知匹配論文的匹配難點，加噪聲的方法是根據統計結果設計的。匹配難點有：論文題目中的多個單詞被錯誤結合成一個單詞，作者姓名的格式有全名和縮寫姓名等。

對比方法

?Keywords(KeyII)。該方法基于題目的關鍵詞和作者列表相似度找匹配的論文。實現時取論文題目的前w個單詞構建倒排索引。根據論文題目索引到關鍵詞相同的論文列表后，將論文列表按照作者的相似度排序。計算作者相似度時，先將作者列表author_list連接為一個字符串str(author_list)，然后根據兩個字符串中共同出現的字母數量來計算，如式(10)所示。

(10)

?Doc2Vec。該方法我們在3.1小節介紹過。使用Doc2Vec時，我們采用Gensim[23]中的doc2vec模型訓練大量的論文語料[注]數據集可訪問https://aminer.org/citation.。在該方法中，我們使用了“論文題目”一個屬性。論文的相似度通過余弦相似度度量。

?MLSH。該方法先用Doc2Vec得到題目中間特征，然后用LSH將中間特征映射為二值編碼。論文的相似度通過漢明距離度量。

?MLSH++。該方法在MLSH的基礎上，結合了“題目”之外的其他屬性。

?MSGH。該方法先用Doc2Vec得到題目中間特征，然后用SGH將中間特征映射為二值編碼。

?MSGH++。該方法在MSGH的基礎上，結合了“題目”之外的其他屬性。

?MCNN。該方法的訓練語料和Doc2Vec相同，用Word2Vec模型訓練得到單詞的向量表示。訓練的正例為加噪聲前后的論文對，訓練的負例從不匹配的論文對中采樣生成。采樣方法是：根據各屬性(題目、作者等)，找到和論文u的某一屬性最相似且不匹配的論文u′。在CNN模型中，只利用了論文題目這個屬性，取題目的前7個單詞(l=7)構造相似度矩陣。

?MCNN++。該方法在MCNN的基礎上，增加了“作者列表”屬性。取一篇論文的前兩個作者，在他們的姓名中取姓和名的首字母作為特征。即構造大小為11×11的相似度矩陣(l=11)。

(11)

在式(11)中，‖表示指示函數。

5.2 評估結果

表2比較了各個論文匹配算法的準確率@topK。可以看出，相比于基于題目關鍵詞的方法KeyII，Doc2Vec能更好地、完整地保持題目的語義信息，從而匹配得到更好的結果?；诠５钠ヅ渌惴∕LSH，MSGH會損失一些匹配精度，但是可以提高匹配速度。在結合作者列表、會議等屬性后，MLSH++,MSGH++能夠有比較大的準確率提升。同時，可以發現，MLSH++，MSGH++的準確率非常接近，說明此時題目的重要性已經被弱化，作者列表、會議和年份等屬性對匹配起了非常重要的作用。對于Doc2Vec，MLSH，MSGH這幾個方法，題目完全相同的論文會被映射成為完全相同的特征，這也是它們比KeyII表現更好的原因之一。

對于基于CNN的匹配算法MCNN和MCNN++，他們的準確率比其他所有方法都高。可見，基于相似矩陣，這兩個算法利用CNN捕捉了論文之間更為精細的匹配模式，尤其是結合作者列表后，MCNN++可以得到非常高的準確率。但是基于CNN的方法由于需要構造相似矩陣，經過多層神經網絡的計算，計算開銷也是所有方法中最大的。

表2 論文匹配的準確率 @topK/%

6 原型系統與公開數據集

本節試圖把論文匹配的問題擴展到大規模場景，在真實場景下匹配兩個大規模論文庫。

6.1 論文匹配框架

為了較快地獲得大量論文的匹配結果，結合實際情況下目前我們對兩個論文庫所擁有的權限：G1中的論文可以通過API訪問，G2中的全部論文可以通過數據庫訪問，因此，我們設計了一個針對大規模論文匹配的異步搜索框架。下面我們分模塊對該框架進行介紹。

?數據庫讀取：由于論文總數達到上億級別，我們成塊(batch)從G2中讀取論文進行處理，在實驗中，每塊的數量batch_size=100 000。

?單篇論文搜索：對于G2中的每篇論文u，我們根據它的題目titleu在G1中用API進行搜索。我們發現G1中搜索論文題目的API有兩個，一個專門給用戶提供的API服務(稱為API-A)，另一個用于線上搜索(稱為API-B)。他們的性質如下：

使用這兩個API 時，我們先去除題目中的特殊字符，根據題目搜索到可能匹配的論文，返回每篇論文的題目、作者列表、會議、年份。由于這兩個API各有優劣，在G1中搜索G2的一篇論文時，我們先用API-A進行搜索，它能較快返回匹配結果；在API-A搜不到相應結果時，再用API-B搜索，API-B可以返回比較全的匹配結果。

?多篇論文搜索：我們對成塊讀取的論文批量進行搜索。由于對API的請求次數頻繁，我們設計了一個代理池，每篇論文用不同的代理進行請求，代理選擇方法是隨機從代理池中選擇。當一個代理失效時，它會從代理池中去除。當代理池中的代理數量小于初始數量的1/10時，更新代理池中代理的數量為初始數量。我們對不同的論文異步進行搜索，這樣可以使不同論文的匹配并行進行。

?匹配策略：該匹配策略非常嚴格，目的是產生一批高度匹配的論文對。具體地，我們將請求返回結果中各論文的題目、作者列表、年份和被搜索論文進行比較。當兩篇待匹配的論文有非常相似的題目、相同數量的作者、相似的作者名字及相同的發表年份時，認為兩者匹配。上述匹配條件中，模糊匹配通過編輯距離[注]https: //en.wikipedia.org/wiki/Levenshtein_distance.來實現。

6.2 方法評測和實驗結果

實驗設置：G2的論文庫來自AMiner經過論文去重后的數據庫，在經過簡單的預處理后(去除論文庫中的噪聲)，G2中待匹配的論文總數為： 154 771 162篇。G1的論文來自MAG。所有實驗用Python實現，實驗平臺為Intel(R) Xeon(R) CPU E5-4650 0@ 2.70GHz 32 cores and 500GB RAM Linux Server。

實驗結果：實驗使用了兩個版本的論文匹配框架同時進行匹配，在15天內遍歷了G2中論文數據庫一趟。得到64 639 608對論文匹配結果。我們隨機抽取了100 000對匹配結果進行人工標注，得到匹配正確的論文對有99 699對，匹配準確率為99.70%。同時，我們存儲了所有的論文查詢結果：共113 487 083條。實驗結果說明：有57.00%的論文可以通過嚴格的匹配策略匹配成功。此外，我們還記錄了請求有返回結果但是匹配失敗的論文：共38 651 737篇，這些論文的匹配存在三種情況： ①確實在G1中找不到匹配結果； ②請求API時出現異常，返回為空，實際可能存在匹配結果； ③查詢結果不為空，但是用當前的策略匹配不到結果，但實際上有匹配的論文。論文匹配結果已作為公開數據集發布。

6.3 公開數據集

該公開數據集[注]https://www.openacademic.ai/oag(https://aminer.org/open-academic-graph)包括來自AMiner和MAG的64 639 608對論文的匹配結果，以及AMiner和MAG的全部論文數據，共約300 000 000篇論文。具體包括154 771 162篇來自AMiner的論文和166 192 182篇來自MAG的論文。匹配數據給出了AMiner和MAG匹配論文ID的對應關系。論文數據涵蓋了全面的論文屬性，如論文題目、作者列表、摘要、引用關系等。該數據集可用于研究引用關系網絡、論文內容挖掘、大規模學術圖譜集成等。

7 結論和展望

本文研究異構數據源的論文集成問題。我們提出兩個論文匹配算法：第一個算法MHash利用哈希算法來加速論文匹配，第二個算法利用卷積神經網絡來提高匹配準確率。實驗結果表明：結合論文的各種屬性，MHash能夠同時得到較快的匹配速度和較高的匹配準確率(93%+)，而MCNN能夠得到非常高的匹配準確率(98%+)。同時，我們設計了一個大規模論文匹配原型系統：對于論文匹配，該系統在15天內得到了64 639 608對AMiner和MAG論文的匹配結果。匹配結果和AMiner、MAG的全部論文數據已作為公開數據集發布。

致謝本課題承蒙微軟亞洲研究院資助。