(西安天和防務技術股份有限公司 陜西 西安 710075)
學術性[1]是學術性網頁的基本屬性,也是學術性的網頁所應具有的鮮明特征。而如如何判斷網頁的學術性,要從學術網頁本身的內容來分析,一般從創新性、實驗性、理論性三點來分析網頁[2]。
首先創新性,網頁所表達的學術內容是否具備創新性,創新性是學術性論文的核心,學術性論文的創新性最集中地體現為它在多大程度上消除了不確定性。因為創新性可以反應出該論文是否是是作者的原創的學術工作,而不是對他人的論文的抄襲或者重復的機械工作。
其次實驗性,因為實驗性是對論文中作者提出的創新性的驗證,通過實驗性的驗證,可以很好的分析出作者提出的觀點是否正確,是否可以有效的被引用,必須強調的是,實驗性是對創新性的驗證,而不是對既定的正確的理論進行驗證的分析。
最后理論性。不論作者提出了什么創新或者驗證這個創新的可行性。但是依然需要對自己所做的上述的兩點內容進行總結概況,使其成為可以有效的,具有體系的理論知識。這一點可以使論文具有很好的學術借鑒性。
總之,關于有效的判斷一個網頁是否具有學術性,目前還沒有特別系統和有效的判定方法。
對于網頁是否具備學術性,需要對網頁本身進行分析,通過分析網頁的內容來判斷,是否該網頁具備學術性的特征[4],而一個網頁本身一般具有三個特征:分別是內容上的特征、網頁的結構上的特征和網頁外部的特征,所以對于網頁學術性的判斷需要從上面的三點出發進行判斷和分析:
1.網頁的內容特征
網頁的內容特征是指:網頁本身的主題內容所表達的主旨。而學術性網頁的往往是對一篇對應的學術文獻的總結或者大綱式的展示,它具有一般的學術性論文的大部分特征。所以在網頁的內容上的學術性分析,就等價于對這個網頁內容中存在的關鍵字的分析,分析這些關鍵字是否具備專業學術性的特征。例如:學術性網頁的標題的內容一般都是“基于…研究”,所我們就可以選取“基于”、“研究”作為判斷網頁學術性的關鍵字。
2.網頁結構特征
網頁結構特征是指:網頁在布局格式上是否具備學術性網站所具有的格式特征。由于學術性的網站大都是對一篇學術文獻的內容總結或者大綱展示,所以多數學術性網頁結構內容與一篇論文的目錄無異。例如在格式上就是:標題、指導老師、作者、摘要、關鍵字、分類號、引用次數、瀏覽次數等這樣分塊展示,以這樣的分塊分別對網頁所具有的學術性進行說明。
所以基于上述兩點,并且針對網頁的這兩點進行分析和判斷,基本上就可以得出一篇網頁是否具有學術性或者說這個網頁是否為一篇學術型的網頁。
由于目前并沒有一個全面的成熟的可以進行網頁學術性判斷的算法,因此本文提出了基于貝葉斯算法的網頁學術性判斷算法,而貝葉斯算法的基礎就是貝葉斯定理,同時貝葉斯算法也是實現網頁學術性判斷算法的基礎。
貝葉斯定理[7]使用理論統計學研究概率推論,它是根據已經發生的事件隨后預測將來可能發生的事件。在貝葉斯定理中有明確的描述:如果某事件的發生的結果是不確定性的,那么唯一的可以量化它的方式就是來描述這個事件發生的概率。
貝葉斯定理的數學表述如下:
假定存在兩個為事件A與B,且P(A)>0,在事件A已經發生的條件下,事件B發生的概率,稱為事件B在給定事件A的條件概率(也稱為后驗概率),條件概率表示為P(B|A)。P(B)可稱為無條件概率。條件概率的公式為:
(1.1)
由條件概率可得到乘法公式:
P(AB)=P(A)P(B|A)=P(B)P(A|B)
(1.2)
假設S為試驗E的樣本空間,A為E的事件,B1,B1,…Bn為S的一個劃分,且P(B)>0(i=0,1,2…n),則全概率公式為:

(1.3)
由條件概率公式和全概率公式可得如下的貝葉斯公式:
(1.4)
由貝葉斯公式求得后驗概率為:
(1.5)
一個網頁所包含信息是非常豐富的,但是對于這個網頁的主題信息而言,其實只有很少的一部分對用戶來講是有效的或者說只有一部分是關于這個網頁的主題信息的表述,需要對網頁信息進行篩選,選取能表示網頁主題的部分關鍵字,即找到該網頁的特征關鍵字。
對目標網頁進行特征提取[8]的算法是否優良,會直接影響到網頁分類的質量。如下表1所示,為常用網頁特征提取方法的比較。

表1 常用的網頁特征提取方法
關鍵字的特征頻率可以很好的反應關鍵字與文章主題之間的關系,并且易于計算,所以在本文中選取特征關鍵字的特征頻率(即不同的網頁中出現的某些詞組的頻率詞)作為我們算法的基礎參數,并使用各個特征關鍵字的特征頻率作為我們的網頁學術性判斷算法的基礎。
1.網頁學術性判別算法
依據貝葉斯定理,將總網頁的樣本用W={w1,w2,……,Wn}表示,而各個樣本網頁由多個關鍵字組成的,即各網頁樣本用H={h1,h2,……,hi}表示,P(h)表示各個不同的關鍵字在網頁中出現的概率,P(D)示將要觀察的網頁數據D在沒確定某一假設成立時D的概率;P(D|h)表示關鍵字(h)在網頁數據中出現概率。最后求得P(h|D),即給定一個訓練樣本數據D時h成立的概率。由貝葉斯公式求得后驗概率為;
(1.6)
由于在樣本集合中對于給定的W,存在的關鍵字是多個的并且相互獨立。則各個關鍵字的對應的概率求和相加,得到表示這個網頁的主題相關度的值K,如下:
(1.7)
由于W是不依賴于h的常數,所以上式可以簡化為:
(1.8)
在特定情況下,可以假設H中的任意假設hi和hj,都有P(hi)=P(hj),即它們的先驗概率相等,這樣就可以簡化上面的公式,最后只考慮P(D|h)來確定網頁主題的相關度閾值:
(1.9)
2.K值計算
第一步:選取樣本:
首先在網上抓取了3000個網頁作為測試數據,對這些測試數據進行人工分析,得出滿足學術性的網頁個數為176個。
第二步:計算機樣本K值:
對于樣本數據中的各個詞出現的頻率的統計,經過對樣本網頁的分析得出,有一部分關鍵字可以很好的對網頁的學術性進行準確說明,選取這些關鍵字作為網頁學術性特征的代表關鍵字,然后依靠貝葉斯算法求得各個關鍵字的特征頻率。
首先選取的樣本的代表關鍵字為:標題、基于、研究、引言、摘要、目錄、緒論、刊名、作者、機構、致謝、分類號、關鍵字、結束語、參考文獻、作者單位、瀏覽歷史、下載歷史、基金項目、文獻標識碼、所屬期刊欄目。
對于上述關鍵字的特征頻率的統計基本信息如下表2所示,第一列為網頁中的關鍵字的序號,第二列是網頁中的關鍵字名稱,第三列是網頁中出現的關鍵字的數量統計,第四列是對應網中出現的關鍵字的實際觀測概率。

表2 網頁信息統計
對于上面統計的關鍵字進行分析,發現對于網頁而言,出現頻率較大的詞語,即概率較大的關鍵字是大多數的網頁所共有的,并且這些關鍵字對于判定該網頁的學術性的判定是較低的。
反而一些概率較小的關鍵字對于判定該網頁是否具有學術性的判定則較高,所以選取一部分關鍵字作為判定網頁是否具有學術性的判定因子。
網頁特征選取的依據:在表2中發現網頁關鍵字的特征頻率的統計中,有的關鍵字依然不能對網頁主題的學術性有較好的說明,所以需要人工剔除一部分,選出可以代表和高度濃縮網頁主題的關鍵字,進而作為網頁學術性判斷定關鍵字。
選取的關鍵字有:刊名、文獻標識碼、所屬期刊欄、分類號、摘要、關鍵字、作者、作者單位、瀏覽歷史、下載歷史、基金項目。對于剩余的其他關鍵字我們不做選擇,由于剩余的關鍵字對網頁的主題的說明上不具備說服性和代表性。
由于上述這些關鍵字對應的特征頻率較小,采用取反的數學處理方式對其進行處理,即通過取反方法的提高了這些關鍵字的特征頻率的數值,便于程序后續對網頁是否具備的學術性進行排序。
學術算法中的選取的部分關鍵字列表如下表3所示:

表3 網頁關鍵字及其權值

K為網頁學術性的相關度閥值,隨后對于樣本數據進行處理,計算出每個網頁對應相關度,依據相關度從大到小排序。下圖1為截取的部分排序圖片:

圖1 經學術判定后的網頁信息
第三步:閾值選取分析:
前期在3000網頁樣本中,人工分析的學術網頁個數是176個。而在機器排序中,選取相關度閾值前176的網頁,然后人工分析這些網頁的學術性,第176個網頁的相關度閾值為:5.428。
由于相關性閾值為5.428處的網頁個數為3個,則選取的網頁個數為179。在179個網頁中,再次進行人工鑒別,這179個網頁中,具有學術性的網頁個數是145,其中不具備學術性的個數為34個。
查全率:145/176=0.8239
精準率:145/179=0.8101;
即學術網頁判定算法的精準率為81.01%。
而進行人工鑒別的時候,判斷出具有學術性的網頁個數為176個,再次對3000網頁的排序進行人工分析,觀察到第241個網頁時,找到了所有的具有學術性的網頁,而第248個網頁對應的閾值為:4.3263。其中不具備學術性的網頁個數為65個。
查全率:176/176=1
精準率:176/241=0.7302
即學術網頁判斷算法的查全率為:100%,而精準率為73.06%。
第四步:選取閾值:
經分析可得,查全率和精準率是無法同時滿足的,所以在使用時對閾值的選取十分重要,要以滿足自己的需求來選取閾值。在本算法中,要以精準率為首要考慮要求,所以選取精準率較高的閾值作為系統閾值,即:K=5.428。
本文提出的基于貝葉斯算法的網頁學術性判斷算法,與單純的貝葉斯算法進行比較,實現了貝葉斯算法有的新應用,由于目前還沒有一個較為完整的對于網頁學術性判斷的判定算法,本文結合貝葉斯算法提出的網頁學術性算法較好的完成了對于網頁學術性的分類,可以較為準確的和快速的判別出抓取的目標網頁是否具備學術性。