李淑霞,楊俊成
(河南工業職業技術學院電子信息工程學院,南陽 473000)
隨著Web 日益成為人們發布和獲取信息的主要渠道,Web 數據的質量變得尤為重要。目前,網絡中包含過時信息、存在時間不一致等普遍現象,是導致Web 數據質量低下的主要因素之一。這一現象較普遍存在于各級政府網站、企事業單位網站、門戶網站中。例如:①鏈接標題顯示“今日人民幣匯率突破6.3”,而實際上這可能已經是昨天的價格;②欄目標題是本周新聞,但由于沒有及時更新,欄目中包含有本周以前的信息;③招聘網站的信息欄目中包含有“最新”“急招”,但當用戶打開鏈接后發現有些已經過期失效;④政府網站的“最新公告欄”中包含早已過時的公告信息。以上問題極大地損害了政府及企事業單位形象,影響了用戶的體驗,浪費了用戶的瀏覽時間,更有甚者,可能會誤導決策行為,造成生產、生活中不必要的經濟損失。目前解決Web 過時信息的問題主要采用人工逐個排檢的方式。然而,面對不斷增長的互聯網海量數據,人工方式顯然難以勝任。因此,迫切需要自動發現Web 過時信息的理論系統、方法論及實用工具。
從以上問題可發現的共性科學問題是“保持Web 時態一致性”——即在當前情境下,Web 的各個時間要素不存在矛盾和歧義性,保持一致。目前國內外學者對Web 時態一致性還沒有開展系統的研究,更沒有形成這方面的理論和方法。因此,本文研究在Web 內容要素中加入時態要素的Web 時態對象模型,對站點、欄目、子欄目和頁面的內容及時態統一建模,以及各時態要素的自動提取和評估方法;研究Web 時態對象模型中時態向量一致性約束關系、推理機制和代數運算系統,從而得到Web 時態不一致的自動發現、分類和度量方法;建立Web 時態一致性理論體系,提出自動發現Web過時信息的方法和工具,填補國內外該方面的研究空白,具有重要的理論價值。同時,該理論的建立具有廣泛的應用前景。
近年來,時態Web 日漸成為學者們關注的焦點。Web 學術權威的國際會議WWW 在2011年專門設立了“時態Web”Workshop——TWAW。Omar 等[1]分析了文檔中時間信息的類型,時間的表述方式及形式化,時間的標注等內容,指出了時態網絡的研究方向,包括時空信息挖掘、時態檢索、時間相似度與實時搜索等。Meng等[2]對Web 時序特征進行分析,基于LSTM 這個深度學習模型,提取了網頁評論中的問答時間信息等。Rohoman 等[3]通過挖掘和利用隱含的時間特征構建了一個檢索系統,并在檢索系統中對相關的查詢進行簡單的分類。沈思等[4]分析了如何加入時間因素的檢索模型構建,同時研究時間如何提升檢索結果。張夢妮[5]引入網頁抽樣方法,通過選取少量具有代表性的網頁進行無障礙檢測,壓縮檢測內容,降低人力開銷,加快檢測過程。張鵬程等[6]定義了時間屬性序列圖的形式語法,給出基于時間Buchi自動機的形式操作語義,并用實時規約模式度量了時間屬性序列圖的表達力。時態Web 的相關成果為本論文的研究提供了理論基礎。
在網站質量的評價方面,劉凱鵬等[7]研究了利用網頁質量評價的新維度“社會性標注”以改進網頁檢索性能。王偉等[8]提出了一種網絡資源敏感的性能診斷方法。陳傳夫等[9]在采用層次分析法確定各級指標權重的過程中,構造了時效性指標的判斷矩陣。Na 等[10]利用網頁新鮮度來評估網頁質量,并從頁面本身及其鏈入頁面兩方面來度量網頁的新鮮度。Yang 等[11]將內容新鮮度的概念形式化,提出了用最少的網絡流量保持并優化內容新鮮度的方法。事實上,以上的測評指標均針對的是網站內容的整體質量和一般意義上的信息時效性,對于網頁的時間一致性并未進行建模和度量。
在時間感知的Web 網頁信息檢索方面,以PageRank 為代表的基于鏈接分析打分方法并未考慮網頁的時效性,故在時間感知搜索中,其排序存在一定的偏差[12]。因此,對已有的檢索模型的時間維度的擴展與深化成為必然。近年來,不斷出現基于時間信息的檢索系統的研究成果,王晶晶等[13]結合DBpedia特殊語義網提出支持隱式時間查詢的文檔排名方法。本論文將在現有工作基礎上,利用網頁時間不一致度量,建立時間感知的Web網頁信息檢索模型。
在Web 信息抽取方面,已有大量的研究工作。為了從網頁中快速獲得隱含的有用信息,白鈺潔[14]提出一種基于開始定界符的Web 信息抽取方法。為了更好地了解學術期刊或學術人物,劉子玉[15]提出基于Web 的異構學術信息抽取與聚合方法的自動化算法框架,從而幫助研究人員從互聯網大量的異構網頁中迅速挖掘所需信息。為了能夠幫助患者早日發現病情,為醫生確診提供數據支持,李利敏[16]設計了一個新的基于DOM 樹的Web 信息抽取模型。寇月等[17]分析了DeepWeb 結果頁面的特點,提出了基于DOM 樹的自動實體抽取策略。本文主要采用基于時態DOM 模型的Web 信息提取方法,有關時間的正則文法匹配,以及基于模式代數的方法和時間概念本體方法,抽取網頁多個時間維度。
Web 信息對時間的敏感性各不一樣,有的對時間十分敏感,如新聞與金融信息等;有的基本不敏感,如生活常識等。因此,需研究分析Web 中不同欄目網頁的時態敏感性特征及敏感程度的量化度量方法,對網頁進行過濾篩選。經分析,新聞、金融等對時間十分敏感的信息,具備如下特征:在信息發表后的短時間內,網頁訪問量大,訪問頻率高;該類信息欄目更新頻率高;信息中包含有大量時間信息。所以,本文依據以上特征,采用用戶的訪問模式、欄目更新模式和文本時間信息特征對Web 信息進行敏感性度量,從動態和靜態兩方面反映網頁的時態敏感性。
時態敏感度函數定義如以下公式所示:
其中:λ,ν,μ是權重函數,δ(ti)是隨時間ti變化的權重函數,Pv=( )pv(t1),…,pv(tn) 是用戶的訪問模式,是以網站欄目為單位,利用ti時刻欄目的整體訪問頻率vfs(ti)對ti時刻訪問頻率vfw(ti) 進行平滑,得到的平滑后訪問頻率Pv(ti)=α×vfs(ti)+β×vfw(ti)的時間序列。Pu=(pu(t1),…,pu(tn))是欄目的更新模式,是ti時刻的更新頻率pu(ti)隨時間變化的時間序列。θ(ti)是隨時間ti變化的權重函數。tw是文本時間信息特征函數,ftw為時間詞詞頻,stw(i)為時間詞i的位移,L為網頁文本長度。
采用層次樹的形式,對Web 信息內容和時態信息兩者統一建模,樹的根結點、中間節點和葉子節點分別代表網站、欄目或子欄目、網頁,每一個結點由二元組(VC,VT)表示,VC為文本向量,VT為時態向量。VC包括標題、網頁鏈接、網頁主題、網頁文本等維度,VT包含事件發生時間、發表時間、轉載時間和過期時間等維度,以及描述事件的將來時、過去時等時態信息。
Web 信息除包括文本內容信息外,還包含時態信息。現有方法對Web 建模一般只關注其內容及其內容挖掘,而忽略了時態信息。本文拓展現有模型,在Web 信息的內容要素中加入了時態要素,對網站、欄目、子欄目和網頁頁面進行抽象,在模型中將網站描述成一棵五層非空樹,網站主頁是根節點,欄目及其各級子欄目是中間結點,網頁頁面是葉子結點。根據SEO 的優化原則,每個網頁最多離網站首頁四次點擊就能到達,所以將網站描述成一棵五層非空樹,而且葉子結點的深度最大值為5。
在網站樹中,每一個結點用Nij表示,Nij由一個二元組(VC,VT)表示,VC為內容向量,VT為時態向量。其中,內容向量VC=(Ctitle,Vurl,Vtopic,Vtext)是一個關于網頁w與其描述的事件e的4 維向量,包括網頁標題Ctitle、網頁鏈接Curl、網頁主題Ctopic、網頁文本Ctext。對于根節點,其內容向量可表示為VC=(Ctitle,Curl,0,0),Ctitle為網站名,Curl為網站主頁鏈接;對于中間節點,Ctitle為欄目名稱,Curl為欄目主頁鏈接。時態向量VT=(Toccur,Tpublish,Tforward,Texpire)是一個關于網頁w與其描述的事件E的4維向量,包括事件發生時間Toccur、發表時間Tpublish、轉載時間Tforward和過期時間Texpire。
時間知識的時態層次模型用于時態向量的抽取和推理。時態層次模型用來描述時間實體的時間類型、時間表示、時態、描述事件等概念的層次關系,時間類型包括時間點、時間區間、時間頻率(比如兩周一次);時間表示包括顯式時間、隱含時間和相對時間;時態包括現在時、過去時、將來時等;描述的事件包括區間事件(如開會)、瞬時事件(如車禍)、周期事件(如:每周做一次報告)。
本文利用時態信息特征詞自動提取各時態要素,內容向量包括網頁鏈接、標題、主題和文本,在內容向量的抽取方面采用較為成熟的基于正則表達式、模式代數、DOM 樹、關鍵字匹配等方法進行抽取。文檔向量中的主題維度采用基于LDA 的主題模型或者采用基于概率的統計模型進行抽取。
與如上所述的策略三(2.3“將研究放置在相關文獻的背景與情境之下”)一脈相承的是,高質量的研究需要明確地闡述研究對所處領域的貢獻。這一部分往往體現在論文的“討論”環節。不少刊物的投稿指南,還明確要求作者逐一地列舉、闡述到底研究的哪些方面對現有文獻或理論做出了貢獻。這些貢獻可以是理論意義上的,也可以是方法論意義上的,也可以是二者兼具。但不論如何,作者都需要明確地找到并闡述所提交論文與現有文獻或理論的對話點,闡述論文的知識貢獻所在。當然,在嚴格遵循上述6個步驟之后,這一步自然是“水到渠成”。
時態向量根據時態層次模型進行抽取,首先將時間信息按照出現的形式分為顯式時間表示、隱含時間表示和相對時間表示,如2012 年1 月1 日為顯式時間表示,“上周一”為相對時間,而隱含時間一般為節日和重大事件的名稱,如“元旦節”;其次基于時間本體,通過參照時間和時間的時態信息,對時間信息進行統一的標準化;最后根據時間信息在文檔中出現的移位、標準化值、類型(如時間區間、時間點、時間頻率)推理出時間信息的語義,從而得到時態向量的每一個維度。
Web 時態信息抽取復雜度主要取決于涉及的領域和抽取的場景,一般的門戶網站涉及的領域較廣,有新聞、財經、娛樂、體育、科技、教育、女性、時尚等多個欄目,抽取場景包含公司并購、恐怖活動新聞、股票大盤走勢預測等。其評估主要是評估從Web 實體(網站、欄目、子欄目、網頁)中抽取內容VC、時態向量VT的時態分量值的抽取任務復雜度和抽取性能,性能評估指標主要采用精度和召回率,對于性能評估可以采用單指標和綜合指標評估方法,單指標即單獨采用精度和召回率進行性能評估,綜合指標評估即使用精度和召回率的綜合值。同時采用CNN 網絡學習數據的基本特征,根據數據與時序密切相關的特性,引入LSTM 網絡學習時態節點之間的時態約束關系,并根據已知節點的時間推理未知節點,將Attention 機制引入預測模型,對其賦予不同的關注度,形成具有特征偏好的模型,獲得更優的預測效果。
4.1.1 網頁內時態一致性約束機制
網頁的信息有些是沒有時效性的,比如一些文史類信息,對這類信息根據它的發布時間規定一個過期時間,因為隨著時間的增長它們會慢慢變得不新鮮,變成時態不一致。而對于有時效性的信息,通過結合時間的過去、現在、將來等屬性進行語義分析,將信息大致分為預測信息、實時報道信息、回顧報道信息三類,這些信息往往會在一段時間后失去價值,過期時間與網頁信息的時間敏感度息息相關,時間敏感度越高,過期時間越短。在相同的時間敏感度下,預測類信息的過期時間相對于信息發布時間最長,回顧報道信息的過期時間相對于信息發布時間最短。有些時效性很強的信息可能會因為發布延遲而在發布之時就過期了。
4.1.2 網頁與欄目之間時態一致性約束機制
4.1.3 同類網站相同欄目之間時態一致性約束機制
對于同類網站相同欄目的時間信息,它們經常會出現描述同一個事件的不同時間信息,可以對這些描述信息做時態一致性比較,另外也可以同時讀取同類網站相同欄目間的所有網頁,對欄目的時態一致性做比較,這些都可以為網站評價提供參考。
根據Web 時態一致性約束機制構建邏輯推理算子,以推斷時態信息和約束關系。
4.2.1 由Web已知時態分量值到未知維度時間值的推理
網頁的各時間維度之間具有一定的邏輯關系,據此可由已知時間維度信息推出未知時間維度信息。比如知道了事件已發生的時間和信息的發布時間,就可以推出事件的寫稿時間,因為寫稿時間在發生時間和發布時間之間。同理,閱讀時間在發布時間和轉發時間之間,知道發布時間和轉發時間后也可以推出大致的閱讀時間。另外,若知道參照事件的發生時間和關聯時間,就可以推出信息描述事件的發生時間。
4.2.2 相同主題網頁信息的時間一致性推理
相同主題的時態信息一般是近似的,當它們具備時態一致性時,時態關聯很明顯。通過研究相同主題網頁時態信息,可以推理未明確包含的時間信息。從一部分網頁推出的時態信息,往往可以當作相關網頁的相應未知時態信息。比如“今日新聞”欄目里的網頁發布時間往往是在同一天。另外網頁與它的父節點網頁和子節點網頁常常描述同一個主題,上層網頁的發布時間和過期時間均較下層網頁的發布時間更晚。相鄰兩層網頁或者同一層的相鄰網頁之間具有相似的時間維度。
4.2.3 不同網站的相同欄目的時態統計推理
對于一些大型的時態一致性非常好的網站,它們相同欄目的時態信息也有很大的相關性。通過不同網站的相同欄目的統計分析與比較,可以從已知的時態信息,推理得到未包含時間信息的網頁時態信息。比如同一事件的發生時間在不同網站相同欄目里可以當作是一致的,從而是可以互推的。另外通過比較它們的時態一致性,還可以得出不同網站的時效性排名。
4.2.4 Web時態一致性公理系統和代數運算系統
針對Web 時態對象模型中各節點(網站、欄目、子欄目、網頁)二元組(VC,VT)中時態向量VT的各時態分量值,及其各節點之間的約束與推理關系,包括節點自身各分量之間、父節點與子節點之間、兄弟節點之間、不同樹的節點之間的約束與推理關系,可分別定義若干運算算子;基于這些運算算子,可建立公理系統描述顯然成立的約束與推理知識,并討論該公理系統的完備性和有效性。同時,基于這些時態運算算子,可建立Web 時態代數運算系統,得到該代數系統的運算規則。基于這些運算規則,可以優化約束與推理運算。
本算法在Inter 酷睿i7 12700F CPU,內存32 GB,操作系統為ubuntu 12.04,GPU為GeForce RTX 3090 顯卡上測試,以NTDO(時態數據對象的數目)、RTDO(時態數據對象占全部數據對象的百分比),AET(單個數據操作的平均執行時間)作為測評指標,以TCHP?2PL 對比在實時方面的差異,測試不同的操作對性能的影響。在實時網頁上的性能比較如圖1所示。

圖1 三種實時并發控制協議在MDR上的比較
本文對欄目與網頁的時間敏感性特征進行分析,獲得欄目與網頁對時間敏感程度的度量方法,為Web 時態一致性建模提供基礎,提出加入時態信息要素的Web 時態對象模型,對Web 站點、欄目、子欄目和頁面層次樹抽象,提出時態向量的自動抽取方法,并研究Web 時態一致性約束機制和推理機制,在基于時間感知的搜索排序、網站質量排序等方面有著重要的應用前景。