[摘 要]單詞在句子中的交互不是隨機的,而是基于一定的規則,這種規則可以通過語言網絡進行研究。詞同現網絡是人類語言網絡的一種表現形式,它利用單詞在句子中的相鄰關系來確定一個連接。文中采用語言網絡分析的方法對論文進行甄別:將論文用詞同現網絡表示,計算網絡的特征參數并輸出一個向量來表征論文,然后運用支持向量機對論文進行分類。結果表明,使用該方法對高水平的論文和文本發生器產生的論文具有很好的甄別效果,對領域差別大的論文甄別效果也較顯著。
[關鍵詞]詞同現網絡;論文甄別;語言網絡分析;小世界網絡
DOI:10.3969/j.issn.1008-0821.2010.07.025
[中圖分類號]G434 [文獻標識碼]A [文章編號]1008-0821(2010)07-0087-06
Paper Discrimination Based-on Word Co-occurrence
Network and Support Vector MachineSun Wenjun Du Juan
(School of Management,Harbin Institute of Technology,Haerbin 150001,China)
[Abstract]Words in human language interact in sentences in non-random ways,but in a subtle manner that can be described in terms of a network of word interactions.Word co-occurrence network is a form of the human language complex network;it uses the co-occurrence of words in a sentence to define connections.This paper discriminates papers using language network analysis method:employ the word co-occurrence network of papers to represent them,then calculate the various parameters of the network and output a vector;finally, apply support vector machines to discriminate papers.The experimental results show that the classifier built by this method behaves well on high quality papers and unauthentic papers generated by text generators,and it also discriminates the papers which come from different area significantly.
[Keywords]language network analysis;word co-occurrence network;paper discrimination;small-world network
活躍在科研前線的學者們,不僅要自己花費許多時間撰寫論文及基金申請書,也要評審大量的論文投稿、學位論文或是基金及項目申請書。通常,學者們進行評審之前,有一個基本的前提假設:所評審的文本是有意義的。一位學者要在很短的時間內對自己并不是完全熟悉的論文做出盡量客觀全面的評價,這并不是很容易能夠實現的,誤判并不鮮見——將一篇好論文評為差,或者相反。有的時候,一篇論文盡管詞語晦澀,但只要符合格式規范、無語法錯誤,就會給評審人留下好印象,使之更傾向于認為這是一篇有意義有價值的論文;反之,如果一篇論文格式與語法錯誤連連,評審人就很難有耐心看下去,會傾向于認為這是一篇無價值的劣質論文。
但是,形式是具有欺騙性的。嚴謹的語法與中規中矩的格式并不能保證所傳達的信息是有意義和價值的。這方面最著名的例子,是語言學家喬姆斯基(Chomsky)構建的名句“無色的綠想法猛烈地睡”(“Colorless green ideas sleep furiously”)。這個句子在句法上沒有任何問題,但在語義上卻是毫無意義的。喬姆斯基創造這個句子是為了說明僅僅只是語法的正確無法保證其在語義上有意義。近年來上演的Sokal事件[1]、Dada Engine事件[2]、Bogdanov兄弟事件[3]以及SCIgen事件[4]等都是對此強有力的證明。以上事件中的偽學術論文,是被曝光了知名度高的,可以想象,有不少類似的劣質學術論文濫竽充數,浪費了審稿人時間、占據了學術發表資源、污染了人類的知識體系。
人工產生或是文本發生器自動生成的劣質論文,有一個共同特點——語法與規范上均無可挑剔,在語義上卻是晦澀難懂乃至毫無意義。這些偽論文,應該與嚴肅認真的、有學術價值的高水平論文有著本質的區別。
甄別偽論文,語言網絡分析應該可以起到重要的作用。一些研究者[5-6]將Barabasi和Albert的生長與優先連接動力學模型(簡稱BA模型)[7-8]應用到了語言網絡上,試圖解釋人類語言小世界網絡特征與無標度特征的演化起源,并取得了較好的結果。BA模型及其衍生模型表明,人類自然語言網絡的節點——詞匯或概念——之間并不是隨機任意連接的,而是在演化過程中新節點(也即新詞匯或概念)基本按照優先連接的方式與舊節點連接。所謂優先連接,就是一個新節點更傾向于與連接數(也稱為度)較高的舊節點相連。按此規則進行生長的網絡,就會得到一個具有無標度特征的小世界網絡。
通過仔細研究Dada Engine及SCIgen文本發生器的生成規則[2,6],可以得知這些文本發生器所生成論文中的核心概念(詞匯)是被隨機選擇的,概念之間的關系也是隨機生成的,論文的結構比較松散。而創作有學術價值的高水平論文時,必然要求作者邏輯思維嚴謹,論文中的內容圍繞待解決的問題和闡述的理論進行說明,其核心詞匯的選擇范圍是明確的,遣詞造句都是圍繞著一個中心問題展開,新加入的詞匯和概念更傾向于與核心詞匯發生關系,論文的結構更加緊湊。如果我們將論文的創作過程看作是一個網絡的生長過程,文本發生器產生的偽論文的生長過程與上面提到的BA模型及其衍生模型中的優先連接機制是不同的,而高水平的真論文的生長過程與之類似。一個合理的假設是,由Dada Engine及SCIgen之類文本發生器生成的偽論文,以及由人工產生的偽論文(如Sokal[1]和Bogdanoff兄弟[3]的文章)與高水平的真論文在語言網絡結構上有明顯的區別。
在本研究中,我們使用監督學習來區分真論文與偽論文,具體實現的方法為:將論文用語言網絡的形式表示,計算網絡的各種特征參數并輸出一個向量來表征文本的特征信息,然后運用支持向量機(Support Vector Machine SVM)來對論文進行分類。實驗結果表明,對于文本發生器產生的偽論文與高水平的真論文,使用這種方法是可以準確實現分類的,論文的水平差別越大,分類效果越好。這證明了我們的假設:偽論文與高水平的真論文在網絡結構上有明顯的區別。
1 相關工作
2006年美國Indiana University信息學學院的Mehmet M.Dalkilic等人開發出了偽論文探測器(Inauthentic Paper Detector)[9],它利用人類自然語言文本中的語義短程及長程重復,用可壓縮性的大小來表征一篇文章的特征,以這些特征來判定文章是否由機器隨機生成。它的出現引起了廣泛的注意,并取得了一定的成功,但也存在不少問題。比如,據[10]報道,該偽論文探測器將Sokal的偽論文[1]評為“偽,21%的幾率為真”,將SCIgen生成的某個文本評為“偽,21%的幾率為真”。但是,[10]還報道,一些由Dada Engine生成的偽論文,被偽論文探測器判為真,概率高達94.7%,84.8%,86.6%,95.4%和95.8%,而一些古典名著,卻被它判為偽。可見,盡管Indiana University的研究者們做了一次值得激賞的努力,他們的偽論文探測器及其背后的理論與方法在準確地甄別偽論文方面還有很長的一段路要走。
對論文進行甄別,本質上是一個對文本進行二分類的過程,即將論文分為真論文與偽論文兩類。國內外關于文本分類都有了較為深入的研究,從使用的文本特征來看,學者們進行了多種嘗試。對于英法德等語種,文本可以由單詞、優化合并后的單詞集、短語、優化合并后的短語集、n-gram和其它特征項進行表示,學者們對這些特征項進行仔細的對比研究后發現,使用優化合并后的單詞集作為特征項在文本分類中效果最好。在此我們不采用單詞集作為特征項有如下原因:(1)它對詞匯的順序不敏感:對真論文中的這些詞匯進行隨機的排列組合后生成的文本,使用基于該特征項的模型根本就分辯不出來。(2)標準的文本分類模型都是基于特定的類別(如:學術、新聞、應用、文學等),分類的成功與否依賴于對文本中的某些詞匯是否能正確識別。而真論文從語義上來看一般可能屬于多個文本類別,單純通過某些詞匯不一定能正確判定。(3)一般的文本分類模型需要基于大的標準語料庫,但標準語料庫似乎不能輕易收集到,而基于小的語料庫,卻不能準確地預測[9]。基于以上原因,我們選擇使用語言網絡分析的方法可能會更勝任論文甄別的任務。
人類語言是典型的復雜系統,它在詞法、句法、語義等層次上都表現出高度的復雜性[11],在不同的層次和角度去對語言進行研究,將會建立不同的語言復雜網絡。國外的學者們已在英語等語言上建立了不同的網絡進行研究,如:詞同現網、句法依存網、語義網、概念網、詞匯聯想網、辭典網如有基于Rogets Thesaurus、基于WordNet等。國內的學者們基于漢語本身的特點,研究了漢語特有的詞法網絡的特性[14]。
Cancho和Sole基于規模為107詞次的英語國家語料庫(British National Corpus BNC)建立了一個詞同現網絡,發現該網絡具有小世界效應(平均路徑長度小于3)和無標度特性(網絡中節點的度滿足冪律分布),并發現了人類語言存在一個數量級為103的核心詞典,其規模并不隨著語言進化而發生顯著變化,同時,還發現核心詞典在語言網絡中的度分布表現為兩個不同斜率的區段,其中一段度較大,構成了為語言使用者所共用的核心詞典,而另一段度相對較小,為特定領域所使用的詞匯[12]。Dorogovtsev和Mendes提出了模擬人類語言進化的優先連接算法,該算法從一個初始網絡開始,通過加入新詞來擴展之前的網絡。新詞與已有詞的連接、已有詞之間的連接按照與已有詞度的大小成正比的概率生成擴展隨機網絡,發現人類語言是一個演化中的由詞匯構成的無標度小世界網絡[13],他們的模型也驗證了Cancho和Sole的實證發現[12]。清華大學的劉知遠等基于北京大學《人民日報(1998年上半年)》1 300萬字左右的人工分詞語料庫和國家語委5 000萬字左右的人工分詞語料庫構建了漢語的詞同現網絡,發現了漢語的小世界網絡特性[14]。
在實證方面,基于海量語料庫發現了語言(及進化)網絡具有小世界特性;在理論方面,從網絡生長的動力學模型角度來模擬網絡的生長進化,解釋了實證研究的發現,說明符合人類語言表達規律的語料庫是具有小世界網絡特性的。不過目前還沒有學者從實證的角度來研究小規模語料(例如一篇論文)的網絡特征。一般認為的復雜網絡其結點數都是成千上萬的,雖然網絡的規模對網絡的平均路徑長度、聚集系數等的大小會有影響,但是根據[15],杜海峰、李樹茁等人研究發現網絡規模并不會影響小世界網絡、隨機網絡及規則網絡之間本質的差別,所以本文對一篇論文的網絡結構特性的研究是有意義的。在此我們提出使用語言網絡來表征一篇論文,并從語言網絡分析的角度來判斷論文的真偽。
2 方 法
2.1 詞同現網絡簡介
詞同現網絡是人類語言復雜網絡的一種表現形式,它利用單詞在句子中的相鄰關系來確定一個連接,構建方便且代表性強。詞同現網絡的構造規則很簡單[12]:文本中的每一個單詞對應著詞同現網絡的一個節點;如果一個句子中兩個單詞的間隔小于等于1,則認為網絡中相應的兩個結點之間存在連接。對論文中所有的句子進行上述處理,即可得到該論文的詞同現網絡。句子中兩個詞的鄰接相關是最常見的,雖然也存在一些間隔大于1的相關詞對,但如果在模型中考慮這種遠距離關聯,則會引入大量的無關詞對,降低詞同現網絡對論文表征的準確性。采取這個策略,一方面可較充分地反映詞與詞之間的上下文相關關系(可能是語法上、意義上或是約定成俗的),另一方面,又可使模型的復雜性得到較好的控制[14]。
2.2 語言網絡拓撲參數簡介
網絡的拓撲參數又稱為靜態幾何量,它們是研究網絡的基礎。平均路徑長度、聚集系數和度分布稱為復雜網絡的三大統計特性[16],它們較系統地反映了網絡中的節點位置、連接狀況、密度、節點間路徑遠近等各類結構特征。下面分別對它們作簡要介紹:
2.2.1 平均路徑長度
平均路徑長度是復雜網絡一個重要的全局幾何量,它描述了網絡中節點間的疏密程度,即網絡有多小。兩節點間的距離為連接兩者的最短路徑的邊的數目,所有節點對之間距離的平均值稱為網絡的平均路徑長度L:L=∑i≠j∈Gdijn(n-1)/2其中,n為網絡中節點的個數,dij為i,j兩節點間的距離。具有小世界特性的網絡其平均路徑長度會很短,遠小于網絡規模[17](因此稱這種網絡為“小世界”網絡)。對小世界網絡而言L≈ln(n)/ln(〈k〉)。
2.2.2 聚集系數
聚集系數C用來描述網絡中節點的平均聚集情況。比如在社會網絡中,你朋友的朋友可能也是你的朋友。C的計算方法為:假設節點i與其他ki個節點相連,如果這ki個節點都相互連接,則存在ki(ki-1)/2條邊,而ki個節點之間的實際邊數為mi條,則節點i的聚集系數為Ci=miki(ki-1)/2(0Ci1)。網絡的聚集系數就是整個網絡中所有節點聚集系數的平均:C=1n∑i∈GCi(0C1)。聚集系數越大,說明網絡越緊密。極端情況下,當網絡中所有節點均為孤立節點時,C=0;當網絡中每個節點均與其余n-1個節點連接時,C=1。對于隨機網絡而言,C≈〈k〉/n,遠小于1,而大規模的實際復雜網絡表現出顯著的聚集效應[18],表1[19]展示了3個真實網絡和同等規模隨機網絡的最短路徑長度和聚集系數,可以看出實際網絡的聚集系數是遠大于隨機網絡的。表1 3個真實網絡和同等規模隨機網絡的最短路徑長度和聚集系數
網 絡LLrandCCrand萬維網
3.13.350.10780.00023電力網
18.712.40.080.005演員合作網3.652.990.790.00027
2.2.3 度分布
度分布函數P(k)定義為在隨機情況下挑選出的節點其度為k的概率。節點的度分布刻畫了網絡中每個節點與其他節點連接的數量分布規律,是網絡結構的重要幾何特征。一個符合冪律分布的復雜網絡關鍵特征是網絡核心節點的存在,即少數節點度很大,而絕大多數節點度很小。不同的是,隨機網絡的度分布服從泊松分布,大多數網絡節點的度都集中于平均度附近,遠離峰值的節點數呈指數減小,隨著節點度數的增大或減小,其概率呈指數式遞減[16]。圖1是隨機網絡與小世界網絡節點度分布P(k)的比較。
圖1 隨機網絡與小世界網絡節點度分布的比較
其中實線是隨機網絡,虛線是小世界網絡。
左圖為線性坐標表示;右圖為對數-對數坐標表示。
2.3 數據來源
真論文樣本我們選取了3種期刊/會議錄用的論文:MIS Quarterly(MISQ)、夏威夷系統科學國際會議(HICSS)、某知名國際會議。這3種期刊接收投稿范圍較廣,具有多樣化和開放性的特點。我們在實際數據收集過程中通過Google scholar各下載了近百篇MISQ和HICSS的論文,由于搜索過程的隨機性,收集到的樣本不會只是局限于某個研究內容、某個年限或是某些作者的論文。此外,我們獲得了某國際會議從2004-2008年這5年所有的錄用與未錄用論文,實驗中隨機各選取了500篇作為樣本。
在偽論文樣本方面,由于未錄取的論文收集難度大,因此我們除了收集到某國際會議的未錄用論文外,沒有收集到其它期刊/會議的未錄用論文。為了發現文本發生器產生的偽論文與高水平論文的區別,我們在Dada Engine與SCIgen上各收集了350篇隨機生成的后現代論文及計算機領域的偽論文進行了實驗。
2.4 具體實現
對于任意一篇論文,首先做一些預處理:去除論文的作者與單位、致謝、參考文獻、文本中所有的圖表以及括號內解釋說明的內容及參考說明、對所有的數字進行歸一化處理等等。由于不同來源的論文其篇幅有著很大的差別,為了使網絡規模(一般指節點數)不影響實驗結果,我們將所有的樣本切割成某國際會議投稿平均大小的文本,用切割后的文本進行實驗。預處理之后構建論文的詞同現網絡,計算出它的結點數、邊數、平均度數、最大度數、平均路徑長度、網絡直徑、聚集系數等等,將這些參數組成一組向量來表征網絡的特征。在處理過程中,為了體現論文樣本與隨機網絡的差別,我們生成了與論文詞同現網絡同樣規模(結點數,平均度相等)的隨機網絡,計算出它的聚集系數、直徑、平均路徑長度等,使用樣本論文的網絡參數與它的差來體現它們之間的區別。最終輸出的向量各維度組成如下:(聚集系數之差(與同規模的隨機網絡),直徑之差,平均路徑長度之差,網絡結點數,有效的邊數,平均度數,最大度數)。
本文使用了支持向量機來構造分類器,支持向量機算法的主要目標是找出一個超平面,使得它能夠盡可能多的將兩類數據點正確的分開,同時使分開的兩類數據點距離分類面(超平面)最遠。具體實現時,我們使用了LibSVM軟件及其提供的工具包[20]來完成分類器的構造,實現步驟如下:
(1)標準化訓練集數據后在訓練集上做交叉驗證,通過網格搜索法對每個參數對做交叉驗證,選擇交叉驗證精度最高所對應的參數C和g;
(2)將得到的參數對在訓練集合上做模型訓練,將得到的模型保存;
(3)標準化測試集數據,用測試集對訓練得出的模型進行測試,輸出預測結果和識別率。
3 實驗與結果
表2列出了幾個由SCIgen與Dada Engine產生論文的聚集系數之差及平均路徑長度之差,可以看出,Dada Engine、SCI gen產生的論文與隨機網絡相比,聚集系數之差,均大于0;平均路徑長度相差不多,即論文詞同現網絡的聚集系數大于隨機網絡的聚集系數,平均路徑長度與隨機網絡的無明顯差別,這表明由Dada Engine與SCIgen生成的偽論文有一定的小世界網絡特性。這個結果并不奇怪,因為Dada Engine和SCI gen采用了計算機語言學中的遞歸躍遷網絡(recursive transition networks(RTN),是“語境獨立語法”的一種圖論表達)模型[2],可以按事先定義好的語法規則隨機產生論文。它們沒有拼寫和語法錯誤,符合人文學界和計算機領域學術論文的規范(包括標題、作者、摘要、引言、結論、參考文獻等),句子結構復雜。在Dada Engine的基礎上,SCI gen采用的是計算機領域的專有詞匯,還可以自動生成科學論文中常見的圖,令其生成的論文更具有欺騙性。可以看出,文本發生器生成的論文是受語法和一些其它規則約束的,因此它們會表現出一定的小世界特性。表2 由SCIgen與Dada Engine產生的部分樣本的
聚集系數之差及平均路徑長度之差
樣本來源C-CrandD-DrandSCI gen0.3410.00340.3290.020.3340.01960.3540.058Dada Engine0.290.0020.3160.05860.2260.0570.314-0.002
具體實驗說明如下:將MISQ、HICSS、某會議錄用論文、未錄用論文、SCI gen分別作為真論文樣本,將SCI gen、Dada Engine、某會議錄用論文、未錄用論文、HICSS作為偽文本樣本,進行了表3的實驗,每個組合實驗5次,表中識別率選取的是5次的平均值。實驗過程中, MISQ、HICSS、某會議錄用及未錄用論文、SCI gen網絡的結點數平均在550~600之間。一般情況下,識別率越高,說明兩種樣本的網絡結構差別越大。表3 不同類別樣本使用分類器分類的識別率(單位:%)
偽論文真
論
文MISQHICSS某會議
錄用某會議
未錄用SCI genSCI gen100100100100NADada Engine100100100100100某會議未錄用81.775.453NA100某會議錄用80.773.7NA53100HICSS64.5NA73.775.4100
通過表3的數據,我們可以觀察到如下結果:
(1)MISQ、HICSS和某會議的投稿對SCI gen 和Dada Engine產生的論文具有很好的識別效果(均達到了100%的識別率),說明人手工書寫的論文與文本發生器產生的論文在詞同現網絡結構上有著明顯的區別。一個合理的解釋是,MISQ、HICSS與某會議錄用的論文是被專家認可的,是人類知識體系中的一部分,因此,它們與文本發生器產生的垃圾信息是有著本質區別的。而投稿于某會議未用的論文,其作者都是經過縝密的思考,本著認真的態度完成論文的,因此,我們相信,即使是未錄用的論文,其語言網絡也是遵循人類語言網絡的基本特征和人類知識體系的結構規律,它與文本發生器產生的文本也是有本質區別的。
(2)當MISQ作為真文本時,按識別率從高到低排序,依次是SCI gen和Dada Engine(100%)、某會議未錄用論文(81.7%)、錄用論文(80.7%)、HICSS(64.5%),說明以上樣本與MISQ的差別越來越小。在此,我們只考慮3個來源于管理科學領域的樣本,如果將MISQ的論文質量看作最高,則可以推斷接下來按論文質量排序依次是HICSS、會議錄用論文、未錄用論文,這與事實相符,說明論文詞同現網絡結構之間的差異大小可以作為論文質量的一個參考。將HICSS作為真文本的實驗(與某會議錄用論文及未錄用論文的識別率分別為75.4%和73.7%)也在一定程度上證實了這一點。
(3)某會議錄用論文與未錄用論文的識別率僅為53%,說明投稿于該會議的論文在詞同現網絡結構上沒有明顯的區別,將MISQ、HICSS與該會議錄用論文及未錄用論文訓練建模時,其識別率差別不大(與MISQ區分時分別為81.7%和80.7%,與HICSS區分時分別為75.4%和73.7%),也驗證了這一結論。出現這種情況有二種解釋:第一,可能某會議的審稿過程具有一定的主觀性,錄用與未錄用比較隨機,所以本模型無法進行準確地判定。第二,可能是本模型存在缺陷,無法更進一步區分水平差別不大的論文。具體是哪種原因,還有待于我們進一步收集更多其它期刊與會議的數據進行驗證,同時,也需要對模型的輸入作進一步的改進,以使輸入更能代表一個文本。這將是我們以后研究的方向。
(4)SCI gen與Dada Engine這兩個生成機制類似的文生發生器產生的論文有著明顯的區別,它們能被本模型準確區分(識別率達到100%)。一個合理的解釋是:Dada Engine產生的論文是人文領域后現代主義風格的學術論文, 而SCI gen產生的文本是自然科學界計算機領域的學術論文,它們在領域、行文的風格及思路上有著極大的差別,這應該是它們產生區別的主要原因。
通過該實驗,我們可以得出的結論是,使用詞同網絡表征一個論文的方式建模所得到的分類器,對高水平的論文及文本發生器產生的文本具有很好的分類效果,但是對于水平差別不大的論文卻很難區分,不過可以通過定義參照論文,使用待判定論文與參照論文的識別率大小來判定論文的水平。最后,使用本模型可以區分來自于不同領域的論文。
4 討 論
本文使用語言網絡分析的方法來對真偽論文進行甄別,在國內外都屬首創。以文本發生器產生的偽論文作為樣本與高水平的真論文進行區分,主要是為了探討文本發生器產生的垃圾信息與人類大腦產生的知識描述是否存在質的差別,實驗結果驗證了我們的推斷。這種方法簡單易行,很容易在垃圾信息過濾及垃圾論文甄別中廣泛使用,在當前互聯網上信息爆炸、信息污染的情況下,具有極大的使用價值。
本文研究的目的是發現偽論文與真論文的詞同現網絡結構是否存在區別,用監督學習的支持向量機方法用來構建分類器,識別效果不錯。目前,支持向量機己經廣泛地運用到了文本分類上,而且經過學者們的研究,支持向量機是眾多分類模型中表現最好的模型之一,當然我們也可以使用其它方法構建分類器對真偽論文進行區分,這在以后的研究中可以嘗試。
一般來說,確定一個論文是否有意義是很困難的,在此,我們不敢說找到一種好的方法來區分有意義的論文和垃圾論文,我們只是強調使用語言網絡分析的方法可以找出文本發生器產生的論文或者與之類似的(如精神病人寫出來的)文本。可以區分它們一個可能的原因是,文本發生器產生的論文的語言網絡與按照人類正常的思維習慣認真撰寫的論文的語言網絡相比前者更接近于隨機網絡,真論文具有更強的中心性,遣詞造句更具有規則性,這有助于將問題闡述得更清楚。當然,對于一些模仿某種寫作風格杜撰出來的論文,即使它們并沒有表達出任何有意義的想法,目前我們的模型可能很難區分。對于人類知識表示的深層次規律還有待于我們進一步發現,以便將來進一步優化模型。
參考文獻
[1]Alan Sokal.Transgressing the Boundaries:Toward a Transformative Hermeneutics of Quantum Gravity.Social Text 46/47:217-252,1996.
[2]BULHAK,A.(1996):On the simulation of postmodernism and mental debility using recursive transition networks.Dept.of Computer Science,Monash Univ.TR 96/264.URL:http:∥www.elsewhere.org/pomo/
[3]http:∥math.ucr.edu/home/baez/bogdanoff/[EB].
[4]Ziming Zhuang,Ergin Elmacioglu,Dongwon Lee,C.Lee Giles.Measuring conference quality by mining program committee characteristics.Proceedings of the 7th ACM/IEEE-CS joint conference on Digital libraries,225-234,2007.URL:http:∥pdos.csail.mit.edu/scigen/
[5]Steyvers M,Tenenbaum J B.The large-scale structure of semantic networks:statistical analyses and a model of semantic growth[J].Cognitive Science:A Multidisciplinary Journal,2005,29(1):41-78.
[6]Sole R V,Murtra B C,Valverde S,et al.Language Networks:Their Structure,Function and Evolution[J].Trends in Cognitive Sciences,2006.
[7]Barabasi A L,Albert R.Emergence of scaling in random networks[J].Science,1999,286(5439):509-512.
[8]Albert R,Barabasi A L.Statistical Mechanics of Complex Networks[J].Reviews of Modern Physics,2002,74(1):47297.
[9]Mehmet M.Dalkilic,Wyatt T.Clark,James C.Costello,Predrag Radivojac.Using Compression to Identify Classes of Inauthentic Texts.604-608.Proceedings of the 2006 SIAM International Conference on Data Mining,2006.URL:http:∥montana.informatics.indiana.edu/fsi/about.html
[10]http:∥improbable.com/2006/07/22/inauthentic-paper-detector/
[11]Sole R V,Murtra B C,Valverde S,et al.Language Networks:Their Structure,Function and Evolution[J].Trends in Cognitive Sciences,2006.
[12]Cancho R F I,Sole R V.The Small World of Human Language[J].Proceedings of the Royal Society of London Series B-Biological Sciences,2001,268(1482):2261-2265.
[13]Dorogovtsev S N,Mendes J F F.Language as an Evolving Word Web[J].Proceedings of the Royal Society of London Series B-Biological Sciences,2001,268(1485):2603-2606.
[14]劉知遠,孫茂松.漢語詞同現網絡的小世界效應和無標度特性[J].中文信息學報,2007,21(6):52-58.
[15]杜海峰,李樹茁,等.小世界網絡與無標度網絡的社區結構研究[J].物理學報,2007,56(42).
[16]Wang Xiaofan.Recent Advances in Complex Networks[J].Journal of System Simulation,2002,11(14):1472-1478.
[17]Watts D J,Strogatz S H.Collective dynamics of‘small-world’networks[J].Nature,1998,393:440-442.
[18]Barabasi A L,Albert R.Emergence of scaling in random networks[J].Science,1999,286(5439):509-512.
[19]M.E.J.Newman Models of the Small World J.Stat.Phys.101,819-841(2000).
[20]http:∥www.csie.ntu.edu.tw/~cjlin/[EB].2010-02-02.