線性代數(shù)式檢索結(jié)果的相似度排序方法

2018-04-19 07:37:37

計算機工程 2018年4期

(河北大學計算機科學與技術學院,河北保定 071002)

0 概述

作為現(xiàn)代數(shù)學的一個重要研究課題,線性代數(shù)式廣泛應用于各種科技文獻,相對于普通公式和文本,線性代數(shù)式的結(jié)構更復雜。目前主流的搜索引擎多數(shù)是針對文本而設計,且部分針對數(shù)學公式設計的檢索系統(tǒng)也不能十分合理地完成線性代數(shù)式的搜索,因此,研究并設計具有線性代數(shù)式檢索功能的數(shù)學公式檢索系統(tǒng)具有重要意義。

目前,國內(nèi)外針對線性代數(shù)式檢索的研究并不多,而針對普通表達式的研究已取得一些成果,包括MathDex[1]、DLMF Search[2]、LeActiveMath[3-4]、EgoMath[5-7]、MathWebSearch[8-9]、Wikimirs[10-11]等。按照實現(xiàn)方法,可將上述成果分為改進文本搜索的數(shù)學檢索系統(tǒng)和為數(shù)學公式建立專門索引的數(shù)學檢索系統(tǒng),前者不支持數(shù)學公式內(nèi)容識別,而后者支持。隨著網(wǎng)絡數(shù)學資源的日漸豐富,用戶進行檢索時往往會返回大量的檢索結(jié)果,如何按檢索結(jié)果與查詢公式的相似度由高到低將其進行排序,以縮短查詢時間、提升工作效率,是實際應用中面臨的挑戰(zhàn)。

文獻[12]將數(shù)學公式用五元組(s,n,r,p,b)表示,利用距離公式計算待查詢式和結(jié)果式的五元組距離,得出相似度進而完成排序。文獻[13]提出一種基于結(jié)構相似度的數(shù)學檢索方法,其將不同形式的數(shù)學公式統(tǒng)一成Presentation MathML格式,采用“樹編輯距離”方法計算公式之間的相似度。文獻[14-15]定義“數(shù)據(jù)類型層級”“查詢覆蓋度”“匹配深度”等特征,利用對查詢表達式和獲取目標表達式的解析樹進行遞歸的相似距離分析,計算其之間的相似度。文獻[16-17]設計并實現(xiàn)數(shù)學公式檢索系統(tǒng)MASE和Lattice-based Math Search,前者采用被動攻擊的在線學習分類模型對檢索結(jié)果進行排序,后者建立數(shù)學概念格,在格中完成數(shù)學公式的相關排序。文獻[10]改進TF-IDF(Term Frequency-Inverse Document Frequency)算法,引入節(jié)點所處層次評價指標,計算每個節(jié)點的頻率和倒排公式頻率,完成相似度排序。文獻[11]改進文獻[10]方法,引入結(jié)果表達式中包含的與待查詢式相同的節(jié)點數(shù)目占待查詢式節(jié)點總數(shù)的比例,用其作為評價指標,優(yōu)化排序結(jié)果。文獻[18]采用加權算法形成權值分配矩陣,利用快速排序和優(yōu)化排序?qū)?shù)學公式進行相似度計算。

上述方法為線性代數(shù)式檢索結(jié)果排序提供了思路。由于線性代數(shù)式的結(jié)構、語法和語義的復雜性,只有選擇合理的理論及模型,從多視角研究線性代數(shù)式的特征,才能完成線性代數(shù)式檢索結(jié)果的相似度排序。本文將猶豫模糊集理論應用于線性代數(shù)式的相似度評價中,提出一種線性代數(shù)式檢索結(jié)果相似度排序方法。在線性代數(shù)式的局部屬性和整體屬性2個方面建立隸屬度函數(shù),應用距離相似度公式計算猶豫模糊集之間的距離,完成待查詢線性代數(shù)式與檢索結(jié)果式的相似度計算,并最終得到排序結(jié)果。

1 線性代數(shù)式相似度評價特征

1.1 線性代數(shù)式檢索模式

線性代數(shù)式種類較多,其變形和計算十分豐富,在設計檢索系統(tǒng)時,應根據(jù)用戶的實際需求設計不同的匹配模式。

定義1線性代數(shù)式中按照行列規(guī)則排列,既相互獨立又互有聯(lián)系的子表達式稱為子公式。

定義2Eq為一個m行n列的線性代數(shù)查詢式,Eq(i,j)(i=1,2,…,m;j=1,2,…,n)為其子公式,Erqt(t=1,2,…,h)為檢索結(jié)果集合中的h個c行d列線性代數(shù)式,Erqt(k,l)(k=1,2,…,c;l=1,2,…,d)為其子公式。

線性代數(shù)式的檢索功能覆蓋了矩陣、行列式和方程組匹配3種模式,它們均是在子式匹配的基礎上做了相應的改進。由于在匹配算法的設計時考慮到線性代數(shù)式的語法和語義變換問題,因此矩陣匹配結(jié)果中除包含與待查詢矩陣精確一致,或部分子式包含待查詢矩陣子式的矩陣外,還會包含查詢式的轉(zhuǎn)置、逆矩陣、增廣矩陣和伴隨矩陣等變換結(jié)果。因此,在矩陣檢索結(jié)果的相似度評價中,也將查詢式的轉(zhuǎn)置、逆矩陣、增廣矩陣和伴隨矩陣作為相似度評價的因素。類似地,在行列式匹配中涉及轉(zhuǎn)置變換和求值運算,而方程組匹配僅限于子式匹配。

子式匹配是將用戶輸入的待查詢式Eq的子式Eq(i,j)和檢索結(jié)果集Erqt的子式Erqt(k,l)看作一個獨立的數(shù)學公式,按行優(yōu)先原則遞歸地將Eq(i,j)和Erqt(k,l)進行包含匹配,即要求Eq(i,j)是Erqt(k,l)的一部分或兩者完全相同,當包含匹配成功時,將該Erqt(k,l)所對應的Erqt返回給用戶。子式匹配原理如圖1所示。

圖1 子式匹配原理

1.2 評價流程

對線性代數(shù)式進行相似度評價的流程分為3個步驟:特征提取,隸屬度計算,相似度計算。

圖2 線性代數(shù)式評價原理

在圖2中,一級屬性為局部屬性{A1,A2,…,Am},二級屬性為整體屬性{Am+1,Am+2,…,An},每個屬性包含一組評價標準,按每個屬性所對應的評價標準進行特征提取,首先提取局部屬性特征,并代入相應的隸屬度函數(shù)進行計算,再按相同的原理提取整體屬性特征,形成如圖2所示的局部猶豫模糊集和整體猶豫模糊集,最后根據(jù)針對線性代數(shù)式變型的廣義猶豫標準距離公式完成公式之間的相似度計算,該公式將在后文中給出詳細定義?；讵q豫模糊集的線性代數(shù)式評價流程如圖3所示。

圖3 線性代數(shù)式評價流程

1.3 評價屬性

本文從局部和整體2個部分進行線性代數(shù)式的相似度評價。綜合考慮多種因素,定義線性代數(shù)式的評價屬性如表1所示,其中針對不同的匹配模式,將個別屬性設置為1來表示該屬性值對該匹配模式的屬性評價無影響。

表1 線性代數(shù)式評價屬性

定義3calla[a,b]表示a與b的相似度。其中a,b表示代數(shù)式。

1.3.1 局部屬性

線性代數(shù)式是多個子公式的組合,子公式的結(jié)構、數(shù)量、位置和相對位置等都影響著線性代數(shù)式之間的相似程度。因此,進行線性代數(shù)式相似度評價時需考慮如下屬性:

1)結(jié)構屬性AF

(1)長度標準indlen

按行優(yōu)先原則考察Eq(i,j)與每一個以其為子式的Erqt(k,l)所包含的運算數(shù)和運算符的數(shù)目,兩者的數(shù)目越接近,其相似度就越大。

calla[Eq(1,1),Erq1(1,1)]

(1)

(2)層次標準indlev

圖4 線性代數(shù)式層次與相似度關系

(3)位置標準indloc

calla[Eq(1,1),Erq1(1,1)]>calla[Eq(1,1),Erq2(2,1)]

(2)

(4)起始位標準indsta

圖5 線性代數(shù)式起始位與相似度關系

(5)標志位標準indfla

圖6 線性代數(shù)式標志位與相似度關系

2)運算數(shù)屬性AO

按行優(yōu)先原則考察Eq(i,j)與以其為子式的Erqt(k,l)的運算數(shù)信息,設Eq(i,j)中包含若干運算數(shù){O1,O2,…,Os1},其中,s1表示Eq(i,j)所包含的運算數(shù)個數(shù),考察Om(m=1,2,…,s1)在Erqt(k,l)中出現(xiàn)的次數(shù)及重要程度,將其作為一個評價標準indopd。

3)運算符屬性AR

按行優(yōu)先原則考察Eq(i,j)與以其為子式的Erqt(k,l)的運算符信息,設Eq(i,j)中包含若干運算符{R1,R2,…,Rs2},其中,s2表示Eq(i,j)所包含的運算符個數(shù),考察Rn(n=1,2,…,s2)在Erqt(k,l)中出現(xiàn)的次數(shù)及重要程度,將其作為一個評價標準indopr。

1.3.2 整體屬性

線性代數(shù)式在整體角度有其獨特的特征,因此,在考察線性代數(shù)式間的相似度時應考慮其整體屬性,從而得出更準確的測評結(jié)果。

1)矩陣變換屬性AJ

考慮矩陣A的4種變形:轉(zhuǎn)置變換AT,逆矩陣變換A-1,增廣矩陣變換和伴隨矩陣變換A*。將Eq和Erqt的矩陣變換信息作為評價標準indjuz?？紤]到待查詢矩陣與經(jīng)過上述4種變換后矩陣的相似性,規(guī)定相似度排序為:原矩陣>轉(zhuǎn)置矩陣>增廣矩陣>逆矩陣>伴隨矩陣>普通矩陣。

2)行列式變換屬性AD

根據(jù)行列式的性質(zhì)可知:D=DT,即行列式與其轉(zhuǎn)置行列式相等,將行列式是否與原查詢式互為轉(zhuǎn)置作為評價標準indhal。

3)行列式的值屬性AK

行列式可以進行求值運算,依據(jù)行列式的性質(zhì)進行求值運算時,原行列式可能會發(fā)生變化,但其值不變,將行列式的值作為評價標準indkey。

4)規(guī)模屬性AS

calla(Eq,Erq1)>calla(Eq,Erq2)

(3)

5)相同子表達式數(shù)量屬性AN

設Eq中包含若干子表達式{N1,N2,…,Ns3},其中,s3為Eq所包含的子表達式個數(shù),將Erqt中每個子表達式Nd(d=1,2,…,s3)出現(xiàn)的個數(shù)及其所占的比例作為一個評價標準indnsu。

1.4 猶豫模糊隸屬度定義及參數(shù)設置

1.4.1 猶豫模糊隸屬度定義

定義4長度標準indlen的隸屬度函數(shù)為:

findlen[Eq(i,j),Erqt(k,l)]=lb(1+indlen)

(4)

定義5層次標準indlev的隸屬度函數(shù)為:

findlev[Eq(i,j),Erqt(k,l)]=eη·indlev

(5)

其中,indlev為子式Eq(i,j)在Erqt(k,l)中所處的層次,η為層次屬性權重系數(shù)。

定義6位置標準indloc的隸屬度函數(shù)為:

(6)

其中,rmin=min(i,k)表示Eq(i,j)和Erqt(k,l)所處行號中較小值,rmax=max(i,k),表示Eq(i,j)和Erqt(k,l)所處行號中較大值,cmin=min(j,l),表示Eq(i,j)和Erqt(k,l)所處列號中較小值,cmax=max(j,l),表示Eq(i,j)和Erqt(k,l)所處列號中較大值。

定義7起始位標準indsta的隸屬度函數(shù)為:

findsta[Eq(i,j),Erqt(k,l)]=e-μindsta

(7)

其中,indsta為子式Eq(i,j)在Erqt(k,l)中所處的水平位置(規(guī)定初始位置為0),μ為起始位屬性權重系數(shù)。

定義8標志位標準indfla的隸屬度函數(shù)如表2所示。本文將標志位信息內(nèi)部做了特殊處理,為區(qū)分各行,規(guī)定每行第1個子式的主基線標志位為6i,其中,i=1,2,…,表示行號。每行非第1個子式的主基線標志位為0。

表2 標志位g隸屬度值

定義9運算數(shù)標準indopd的隸屬度函數(shù)為:

(8)

定義10運算符標準indopr的隸屬度函數(shù)為:

(9)

定義11矩陣變換標準indjuz的隸屬度函數(shù)如表3所示。

表3 矩陣不同變換形式的隸屬度值

定義12行列式變換標準indhal的隸屬度函數(shù)為:

(10)

定義13行列式的值標準indkey的隸屬度函數(shù)為:

(11)

定義14規(guī)模標準indsiz的隸屬度函數(shù)為:

(12)

其中,Rmin=min(m,c)表示Eq和Erqt的行數(shù)中較小值,Rmax=max(m,c)表示Eq和Erqt的行數(shù)中較大值,Cmin=min(n,d)表示Eq和Erqt的列數(shù)中較小值,Cmax=max(n,d)表示Eq和Erqt的列數(shù)中較大值。

定義15相同子表達式個數(shù)標準indnsu的隸屬度函數(shù)為:

findnsu[Eq(i,j),Erqt(k,l)]=

(13)

其中,D=m×n表示Eq包含的子式總數(shù),cntq(i,j)表示Eq(i,j)與Erqt(k,l)完全相同的次數(shù),cntrqt(k,l)表示Erqt的子公式總數(shù)。

1.4.2 參數(shù)設定

隸屬度函數(shù)參數(shù)設定說明如下。

層次屬性權重系數(shù)η:通過統(tǒng)計數(shù)據(jù)庫中6 352個表達式的節(jié)點總數(shù)、層次信息以及處于該層的節(jié)點個數(shù),并將處于某層的節(jié)點個數(shù)歸一化,利用polyfit函數(shù)借助MATLAB軟件繪制圖像,最終確定η值為-0.113。

起始位屬性權重系數(shù)μ:通過統(tǒng)計數(shù)據(jù)庫中6 352個表達式的長度信息,找出最小長度、中間長度、最大長度和分布中心長度,統(tǒng)計在[LEN,LEN+10](LEN=最小長度,或中間長度,或最大長度,或分布中心長度)范圍內(nèi)的表達式個數(shù)并進行歸一化處理,將這4類長度與其加10后的長度進行取平均值處理,利用polyfit函數(shù)借助MATLAB軟件繪制圖像,最終確定μ值為0.56。

根據(jù)統(tǒng)計數(shù)據(jù)庫中不同g值所對應的表達式個數(shù)占表達式總數(shù)的比例,以及不同標志位所代表的典型運算的常見程度,進行g隸屬度的取值設定。

綜合考慮用戶的檢索需求及幾種不同矩陣的常見性,進行矩陣不同變換形式的隸屬度取值設定。

1.5 猶豫模糊集及線性代數(shù)式相似度計算

文獻[19]提出模糊集概念,之后一些學者又對其進行擴展,相繼提出直覺模糊集、Type2型模糊集、模糊多重集等,但在處理決策問題時其模糊不確定性方面存在缺陷,特別是在專家對某對象的某個屬性進行評價時出現(xiàn)猶豫的情況。對此文獻[20]提出猶豫模糊集的概念,用一個集合的形式給出某一對象屬于模糊集的程度,該方法不再需要專家對屬性值給定一個誤差范圍或幾個可能值的分布,就可以對決策中的不確定性進行有效刻畫,為數(shù)學公式檢索結(jié)果排序提供理論支撐。此后,區(qū)間值猶豫模糊集[21]及其相應的一些關聯(lián)度、距離及相似性測度、算子和相應的決策方法相繼被提出[22]。

1.5.1 猶豫模糊集相關概念

定義16設X是一個非空集合,則稱式(14)為猶豫模糊集。

E={|x∈X}

(14)

其中,hE(x)稱為猶豫模糊元素,是元素x對于集合E的幾個可能隸屬度的集合,該元素值在[0,1]區(qū)間內(nèi)分布[20]。

定義17設P和Q分別為非空集合X={x1,x2,…,xn}中的2個猶豫模糊集合,則P和Q的廣義猶豫標準距離表示為:

(15)

定義18P和Q的相似度表示為:

s(P,Q)=1-dghn(P,Q)

(16)

1.5.2 線性代數(shù)式相似度計算

線性代數(shù)式相似度計算分為3步:局部特征相似度計算,整體特征相似度計算和公式相似度計算。各步驟具體內(nèi)容如下:

步驟1設Eq(i,j)和Erqt(k,l)分別對應猶豫模糊集合Hfq(i,j)和Hfrqt(k,l),這2個集合所對應的猶豫模糊元素為Pq(i,j)(Aa)和Prqt(k,l)(Aa),其中Aa表示局部評價屬性,且a=1,2,3。根據(jù)式(15)得到局部特征猶豫模糊集合的廣義猶豫標準距離,再根據(jù)式(16)得出2個猶豫模糊集合的相似度。

s(Hfq(i,j),Hfrqt(k,l))=1-dghn(Hfq(i,j),Hfrqt(k,l))=

(17)

設srqt表示最終局部相似度,若同一個Erqt(k,l)有多個相似度值,就取最大值作為其相似度值。對同一個Erqt的每一個子式的最大相似度求平均值,即為Erqt的最終局部相似度。

(18)

步驟2設Eq和Erqt的整體評價屬性分別對應的猶豫模糊集合為Hfq和Hfrqt,這2個集合所對應的猶豫模糊元素為Pqw(Aw)和Prqwt(Aw),其中,Aw表示整體評價屬性,且w=1,2,3,4,5?？紤]到用戶的實際需求,每個整體評價標準對檢索結(jié)果相似度排序的影響程度不同,將式(15)適當變形,得出2個猶豫模糊集的相似度為:

s(Hfq,Hfrqt)=1-dghn(Hfq,Hfrqt)=

(19)

其中,在考慮大量用戶檢索需求的基礎上,經(jīng)過統(tǒng)計不同整體屬性所代表的典型線性代數(shù)式與待查詢式的邏輯相似性,進而進行θi值的設定(對不同匹配模式的相似度評價沒有影響的整體屬性對應的θi值設置為0)。例如:當用戶檢索式為某一矩陣時,用戶更想查詢出原矩陣及其轉(zhuǎn)置矩陣、增廣矩陣、逆矩陣等?；诖?每種匹配模式的整體評價屬性所對應的θi值如表4所示。

表4 各類匹配模式整體屬性所對應θi值

步驟3將上述2部分相似度取平均值,即得到2個公式的相似度。

(20)

2 線性代數(shù)式排序算法

不同匹配模式的排序算法,其原理大致相同,算法步驟如下:

輸入LaTeX形式的線性代數(shù)查詢式

輸出LaTeX形式的線性代數(shù)結(jié)果式排序結(jié)果

1)初始化數(shù)據(jù)表LaForm、SubForm、Whole、NodeInf、OpInf、Rt_end。

2)將待查詢式子式的subid、文件名subnam和字符串substr存入表SubForm中,對其進行解析,將特征存入表NodeInf、OpInf。

3)i=i+1,若i>待查詢線性代數(shù)式的子式總數(shù),執(zhí)行步驟5),否則執(zhí)行步驟4)。

4)查詢數(shù)據(jù)庫中SubForm表,若數(shù)據(jù)庫中表達式子式的字符串含有該查詢式的子式,則對其進行解析,存入表NodeInf、OpInf、Whole,計算局部相似度,存入表NodeInf;否則,算法結(jié)束。

5)將待查詢式的Eqid、文件名Eqfnam和字符串Eqstr存入表LaForm,對其進行解析,將特征存入表NodeInf、OpInf、Whole。

6)j=j+1,若j>數(shù)據(jù)庫中表達式總數(shù),執(zhí)行步驟8);否則,執(zhí)行步驟7)。

7)查詢數(shù)據(jù)庫中NodeInf表,并根據(jù)Formid在表達式表FORMULA中找到對應表達式,對其進行解析,并將特征存入表LaForm、SubForm、NodeInf、OpInf,計算整體屬性相似度,存入表Whole。

8)計算線性代數(shù)式的相似度并將最終結(jié)果寫入表Result_end,并把該表按s_end降序返回給用戶。

假設待查詢線性代數(shù)式的子公式總數(shù)為m1,數(shù)據(jù)庫中線性代數(shù)公式的總數(shù)為n,則數(shù)據(jù)庫中線性代數(shù)公式的子公式總數(shù)為m2×n,其中m2為數(shù)據(jù)庫中線性代數(shù)公式子公式個數(shù)的平均值。根據(jù)實驗數(shù)據(jù)可知:1≤m1<

表5 檢索結(jié)果所對應猶豫模糊集合

表6 結(jié)果表達式相似度計算結(jié)果

3 實驗結(jié)果與分析

采用C#進行編程,結(jié)合SQL2013,應用猶豫模糊集理論進行線性代數(shù)式檢索及結(jié)果排序。由于目前國內(nèi)外對此方面的研究并不多,相關數(shù)據(jù)集較少,因此本文選取線性代數(shù)課本和網(wǎng)絡上相關文獻的電子文檔,從中提取MathType格式的線性代數(shù)表達式并轉(zhuǎn)換成LaTeX形式,再通過解析程序?qū)⑵浯鎯τ跀?shù)據(jù)庫中,最終共得到6 352條用于實驗的線性代數(shù)式數(shù)據(jù)集。因為本文系統(tǒng)主要針對線性代數(shù)式,所以選擇與數(shù)學檢索系統(tǒng)SearchOnMath(http://searchonmath.com/,一個直接查詢數(shù)學內(nèi)容的搜索引擎,查詢結(jié)果包含給定數(shù)學公式的網(wǎng)頁,并給出其不同的相似性)進行對比,并引入斯皮爾曼秩次相關系數(shù)概念用以檢驗檢索結(jié)果的合理性,斯皮爾曼秩次相關系數(shù)定義如下:

定義19斯皮爾曼秩次相關系數(shù)[24]是反映2組變量之間聯(lián)系密切程度的統(tǒng)計分析指標,適用于2組無序數(shù)列相關性大小的計算,其值越大,表示相關性越高。斯皮爾曼秩次相關系數(shù)計算公式為:

(21)

其中,di表示2組無序序列按遞增或遞減排序后,每個數(shù)列元素位置變化的差值,n表示2個序列的長度。

表7 待查詢線性代數(shù)式

表8 排序結(jié)果對比

讓一組專家對表7中每個查詢表達式的檢索結(jié)果集合進行人工排序,將該排序結(jié)果作為評價標準,利用斯皮爾曼秩次相關系數(shù),分別計算本文方法和SearchOnMath方法的排序結(jié)果與人工排序結(jié)果的相關性,得到如圖7所示的相關性比較結(jié)果,其中,斯皮爾曼秩次相關系數(shù)越高,說明排序結(jié)果越符合用戶需求。

圖7 2種方法與人工排序結(jié)果的相關性比較

由圖7可以看出,本文方法的排序結(jié)果與人工排序結(jié)果更接近,因此,本文方法更能滿足用戶的查詢需求。

4 結(jié)束語

針對線性代數(shù)式的檢索及結(jié)果排序,本文從多角度分析并歸納線性代數(shù)式的特征,利用猶豫模糊集的相關理論建立相應的隸屬度函數(shù),對抽象的公式特征進行數(shù)量化,從而實現(xiàn)線性代數(shù)式的相似度評價,完成線性代數(shù)式檢索結(jié)果的合理排序。對比實驗驗證了該方法在線性代數(shù)式相似度評價上的合理性和有效性。但本文實驗在線性代數(shù)式的特征選取上還不夠全面,評價函數(shù)涉及的參數(shù)選擇還需優(yōu)化,下一步將對此進行研究。

[1] MINER R,MUNAVALLI R.An approach to mathematical search through query formulation and data normaliza-tion[C]//Proceedings of the 14th Symposium on Towards Mechanized Mathematical Assistants.Berlin,Germany:Springer,2007:342-355.

[2] MILLER B,YOUSSEF A.Technical aspects of the digital library of mathematical functions[J].Annals of Mathematics and Artificial Intelligence,2003,38(1):121-136.

[3] LIBBRECHT P,MELIS E.Semantic search in leactive-math[EB/OL].[2017-09-05].http://www.hoplahup.net/copy_left/Libbrecht-etal-Semant ic-Search-WebALT-06.pdf.

[4] LIBBRECHT P,MELIS E.Methods to access and retrieve mathematical content in active math[C]//Proceedings of 2006 Mathematical Software-ICMS.Berlin,Germany:Springer,2006:331-342.

[5] MISUTKA J,GALAMBOS L.Mathematical extension of full text search engine indexer[C]//Proceedings of the 3rd International Conference on Information and Communication Technologies.Washington D.C.,USA:IEEE Press,2008:1-6.

[7] MISUTKA J,GALAMBOS L.System description:EgoMath2 as a tool for mathematical searching on Wikipedia.org[C]//Proceedings of the 18th Calculemus and 10th International Conference on Intelligent Computer Mathematics.Berlin,Germany:Springer,2011:307-309.

[8] KOHLHASE M,SUCAN I.A search engine for mathematical formulae[C]//Proceedings of the 8th International Conference on Artificial Intelligence and Symbolic Computation.Berlin,Germany:Springer,2006:241-253.

[9] KOHLHASE M,ANCA S,JUCOVSCHI C,et al.MathWebSearch 0.4,a semantic search engine for mathematics[EB/OL].[2017-09-15].https://www.researchgate.net/publication/216797208_MathWebSearch_04_A_Semantic_Search_Engine_for_Mathematics.

[10] HU X,GAO L C,LIN X Y,et al.WikiMirs:a mathe-matical information retrieval system for Wikipedia[C]//Proceedings of the 13th ACM/IEEE-CS Joint Conference on Digital Libraries.New York,USA:ACM Press,2013:11-20.

[11] LIN X Y,GAO L C,HU X,et al.A mathematics retrieval system for formulae in layout presentations[C]//Proceedings of the 37th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM Press,2014:697-706.

[12] SCHELLENBERG T,YUAN B,ZANIBBI R.Layout-based substitution tree indexing and retrieval for mathematical expressions[J].Document Recognition and Retrieval XIX,2012,8297(2):263-271.

[13] KAMALI S,TOMPA F W.Structural similarity search for mathematics retrieval[C]//Proceedings of 2013 Inter-national Conference on Intelligent Computer Mathematics.Berlin,Germany:Springer,2013:246-262.

[14] ZHANG Q,YOUSSEF A.An approach to math-similarity search[C]//Proceedings of 2014 International Conference on Intelligent Computer Mathematics.Berlin,Germany:Springer,2014:404-418.

[15] 田學東,張凱歌,周南,等.一種數(shù)學表達式檢索結(jié)果相關排序算法[J].計算機工程,2017,43(3):204-212.

[16] NGUYEN T T,CHANG K,HUI S C.A math-aware search engine for math question answering system[C]//Proceedings of the 21st ACM International Conference on Information and knowledge Management.New York,USA:ACM Press,2012:724-733.

[17] NGUYEN T T,HUI S C,CHANG K.A lattice-based approach for mathematical search using formal concept analysis[J].Expert Systems with Applications,2012,39(5):5820-5828.

[18] 馬惠娟.數(shù)學搜索中索引模型研究[D].蘭州:蘭州大學,2013.

[19] ZADEH L A.Fuzzy sets[J].Information and Control,1965,8(3):338-353.

[20] TORRA V.Hesitant fuzzy sets[J].International Journal of Intelligent Systems,2010,25(6):529-539.

[21] 陳樹偉,蔡麗娜.區(qū)間值猶豫模糊集[J].模糊系統(tǒng)與數(shù)學,2013,27(6):38-44.

[22] 蔡麗娜.區(qū)間值猶豫模糊集及其在決策中的應用研究[D].鄭州:鄭州大學,2013.

[23] XU Z S,XIA M M.Distant and similarity measures for hesitant fuzzy sets[J].Information Sciences,2011,181(11):2128-2138.

[24] KENDALL M,GIBBONS J D.Rank correlation methods[M].New York,USA:Oxford University Press,1990.