徐 靜,楊小平
(1.中華女子學院 計算機系,北京 100101; 2.中國人民大學 信息學院,北京 100872)(*通信作者電子郵箱xujingtyt@126.com)
網絡的快速發展使得Web成為人們獲取信息的重要來源。面對日益增長的網頁數量,人們已不再滿足于從Web上獲取大量相關信息,而是希望能得到高質量、高可用性的Web信息。由于Web的開放性,使得Web信息本身具有海量、數據多來源、主題動態變化等特征,而這些特征引起的數據時效性問題是當前大數據時代下Web信息質量管理所關注的重要內容之一。
Web信息時效性是指Web站點發布的信息在某一特定時間內具有的價值和效應,它包含兩個方面的內容:一是Web信息發布的及時性,及時性是指從事實發生到實時信息發布的時間距離,通常情況下,時間距離越短,說明Web信息更新越及時;二是指Web信息所描述的客觀事實內容的新鮮性,內容新鮮性是指能夠為人們提供新的信息或信息發展的新情況。在信息時代的背景下,Web站點發布的大量信息是否能夠反映當前關注的熱點,是否能夠及時發布事件的最新進展情況,對Web站點的可用性有重大影響。
在大數據時代下,數據質量問題受到極大關注,而數據質量的各個維度中,時效性問題是影響數據可用性的重要因素之一。時效性差的數據會對企業決策和人們的日常生活產生許多不利影響,這使得判定數據的時效性成為必要。
當前的時效性判定研究大致分為兩類:一是基于時間戳的時效性判定[1-2],這類方法要求每個待判定的值都具備完整可用的時間戳,但在實際的應用數據庫中,往往會缺失一些有效、精確的時間戳; 二是基于規則的時效性判定[3-4],這類方法借助由領域知識得到的規則判斷同一實體的不同屬性值的時序關系,從而判定數據的時效性,這種方法無法判定某個值在給定的時間點是否失效。由此看來,當前數據質量領域對于時效性的判定研究已經有一些不同角度的較為成型的理論和方法,但受到Web信息這種半結構化數據的制約,當前的方法還不能完全應用于Web信息的時效性判定。
目前,針對Web信息時效性的相關工作都集中在對Web上的新聞發布時間的抽取研究[5-6]:文獻[7]通過從新聞搜索引擎返回的每個新聞片段中自動抽取其發布時間,以幫助判別兩個新聞內容是否指的是同一個事件;文獻[8]為了準確提取互聯網上信息報道的最早發布時間,提出鏈接分析法和多拷貝聯合推斷法以提高計算精度;文獻[9]針對網頁更新時間不穩定以至于較難預測新聞報道的更新時間的問題,提出了一個綜合預測方法,即結合指數平滑法和樸素貝葉斯模型對新聞的更新時間進行預測。上述方法都側重于信息報道的最早發布或更新時間的抽取,這種評價方法過于單一且不夠充分衡量信息的時效性。由于對Web信息內容中的事件屬性特征提取及事件發展演化研究得不充分,使得目前還沒有研究從語義內容上去考慮報道所描述的客觀事實的發生時間的時效性。
本文在利用條件隨機場(Conditional Random Field, CRF)模型識別主題線索句的基礎上,以時間詞為線索特征,從大量主題線索句集合中提取隱含的多條線索,并得到與Web信息相關的同一主題的線索發展趨勢[10]。利用線索發展趨勢推斷的主題線索時間區間能夠估計該Web信息的有效區間,將每個時間與相應的線索關聯起來,形成一個有邏輯關系的時間-線索片段。在此基礎上,結合Web信息的發布時間、核心事件發生時間,對其內容時效性進行自動化評價。
Web信息時效性評價模型需要經過文本內容預處理、時間-線索集提取、時效性區間計算和內容時效性評估幾個步驟完成。圖1給出了內容時效性評估方法的具體流程。

圖1 Web信息時效性評估框架
首先對從網絡上抽取到的新聞頁面進行預處理,主要包括新聞標題、正文內容的提取,并對正文內容進行中文分詞、詞性標注、句子切分等。
對于一個新聞專題,該專題有一組相關新聞文章,將一篇網絡新聞的正文看成是一篇文檔,可以表示成一個觀測到的句子序列S=(s1,s2,…,si,…,sm),m為句子的個數,將觀測序列中的相關特征(包括文本基本特征、詞典特征和語義特征)加入到CRF模型中,產生可識別主題線索句的標注序列。
利用條件隨機場(CRF)模型識別出每篇新聞文章的主題線索句,在此基礎上提取與主題相關的時間-線索集合。線索中最重要的部分是時間。主題線索句中的實詞(可稱為線索關鍵詞)在語義上也可表示線索與新聞主題的相關度, 因此,一條線索可以用與線索相關的時間和關鍵詞來表示。
考慮到主題相關的網絡新聞可能會被抽取出相似的主題線索句,進而形成冗余的線索, 因此,要將時間上一致、語義上相近的線索進行分析及合并處理。對于任意兩條線索,當Δt=ti-ti-1≤(tn-t1)/n時,采用歐氏距離對線索間的相似度進行計算:


(1)
其中:ti為線索OCi對應的時間,即該線索的發生時間,當任意兩條線索的時間間隔小于平均時間間隔時,對這兩條線索間的語義相似度進行計算;cωij表示線索OCi中的實詞wj的權重值。當dist(OCi,OCj)小于閾值α時,認為兩條線索OCi和OCj是相似的,可以對這兩條線索進行合并處理。
對于構建好的時間-線索集按照時間先后進行排序,并根據時間順序得到了該新聞的線索發展脈絡。為了更好地表征每條線索與主題的相關程度,利用線索的發生時間和其強度來表示主題線索的發展趨勢,線索的強度由每一條線索上所包含的關鍵詞權重平均值以及該線索來源的文本數量決定。線索OCi的強度VCi的計算公式如下:
(2)
其中:k為線索語義合并后剩下的線索個數;di表示線索OCi的來源文本數量,即該線索是經過多少條候選線索合并而成的。
Web信息的時效性從兩個方面進行評價:一是判斷此Web信息的主題內容發生時間在有效區間的相對位置; 二是判斷此Web信息的發布時間距離有效區間的時間長度。信息具有時效性的時間區間,稱為有效區間。一般地,處在該區間的Web信息內容是較新穎的。
利用與Web信息主題相關的線索發展脈絡可以獲得整個主題的線索時間區間{ct1,ct2,…,ctn},由此可知主題線索的最早發生時間為ct1,主題線索的最終結束時間為ctn,圖2給出了主題線索的時間軸。

圖2 主題線索時間軸
根據內容時效性的評價準則,將Web信息時效性評估結果分為以下3種情況:
1)發布不及時且內容新鮮度不好,即該Web信息的有效區間(et1,etm)處于主題線索時間軸的初始位置,說明Web信息描述的客觀事實是不新鮮的;而且發布時間pt和有效區間的距離較遠,說明Web信息發布不及時。這種情況屬于圖2中的情況1。
2)發布及時但內容新鮮度不好,即該Web信息的有效區間(et1,etm)處于主題線索時間軸的初始或中間位置,說明Web信息描述的客觀事實是不新鮮的;但是發布時間pt和有效區間的距離較近,說明Web信息發布及時。這種情況屬于圖2中的情況2。
3)發布及時且內容較新鮮的,即該Web信息的有效區間(et1,etm)處于主題線索時間軸的靠后或結束位置,說明Web信息描述的客觀事實是較新鮮的;而且發布時間pt和有效區間的距離較近,說明Web信息發布及時。這種情況屬于圖2中的情況3。
通過借助區間估計理論,在主題線索時間軸上確定Web信息的有效區間。根據線索時間區間{ct1,ct2,…,ctn},確定θ1=θ1(ct1,ct2,…,ctn),θ2=θ2(ct1,ct2,…,ctn),其中θ1<θ2,[θ1,θ2]為Web信息有效區間。設θ是Web信息主題線索中的一個中心線索時間,若存在[θ1,θ2],對于給定的0<α<1,若滿足P{θ1≤θ≤θ2}=1-α,稱[θ1,θ2]是θ的置信度為1-α的有效區間,θ1和θ2分別為有效區間的時間下限和時間上限,1-α為置信度。一般地,認為Web信息的中心線索必然落在主題線索時間區間內,因此給定置信度1-α=0.95。


(3)

則:
1-α
(4)
借助2.3節的方法,可以得到與Web信息同一主題的整個線索發展情況,因此就可獲得整個主題的線索時間區間{ct1,ct2,…,ctn},而Web信息的有效區間必定是被包含在這個時間區間中的。對于Web信息的時效性,可以從兩個方面進行衡量:一是Web信息發布的及時性,判斷此Web信息的發布時間距離有效區間的時間長度,一般情況下,這個時間距離越短,說明Web信息更新越及時;二是Web信息內容的新鮮性,判斷此Web信息的中心線索在主題線索時間區間中的相對位置。
為了獲得Web信息的中心線索,通過計算Web信息有效區間中的每一條線索與主題線索發展趨勢中每條線索的語義距離。在計算語義距離的過程中,選取文本相似度和時間差兩個維度計算語義距離。一般來說,選取語義上與Web信息比較相關,時間差也較小的主題線索。采用歐幾里得距離函數來計算線索間的語義距離CD:
(5)
其中:Δs=(1-s)表示Web信息線索間的差距,s為線索之間的相似度,Δt2表示時間差值,ω表示權重系數。可以看出CD越小,線索之間的語義距離越小,線索之間的關聯程度也就越大。
將關聯程度最大的線索作為Web信息的中心線索,從Web信息有效區間中找到中心線索及其對應的時間,并利用式(6)對Web信息時效性參考值進行計算:
(6)
其中:ctn表示線索時間區間的結束時間,ct1表示線索時間區間的開始時間;eti表示中心線索的發生時間,etm表示Web信息有效區間的結束時間,pt表示Web信息的發布時間。

通過上述方法對Web信息內容時效性進行量化,并根據量化后的參考值給Web信息內容時效性進行評價:
1)當0.8≤V(t)≤1,認為Web信息時效性良好,不僅描述的客觀事實內容較新鮮,發布也很及時。
2)當0.5≤V(t)<0.8,認為Web信息時效性中等,雖然描述的客觀事實內容新鮮度不好,但能夠發布及時。
3)當0≤V(t)<0.5,認為Web信息時效性較差,不僅描述的客觀事實內容不新鮮,且發布也不及時。
Web信息內容時效性評估方法以構建自動生成Web信息有效區間為核心,利用線索發展趨勢推斷的主題線索時間區間估計該Web信息的有效區間,結合Web信息的發布時間和核心事件發生時間對其內容時效性進行定量分析。依據提出的Web信息時效性等級劃分規則,對所有正確提取文本內容的Web信息進行分級,最后獲得總體評價效果。
為了驗證本文算法的有效性,從新浪新聞、網易新聞、新華報業網、廣西新聞網和首都之窗5個網站隨機抽取了共10 889個網頁作為實驗語料,進行Web信息內容時效性驗證。
由于人工標注的局限性,僅對新浪新聞、網易新聞中的專題新聞“人民幣匯率持續貶值”“烏克蘭局勢動蕩”“四川雅安7.0級地震”“敘利亞局勢持續動蕩”以及首都之窗“2018高考”共5個主題2 720篇新聞進行主題線索句識別的實驗驗證。實驗前先手工標注出這些新聞的主題線索句,且實驗中假設這些標注全部為正確標注。將所有語料分為兩部分,其中2 040篇作為訓練語料,其余680篇作為測試數據集合。在數據預處理部分對文本分詞、詞性標注等使用了中國科學院的分詞工具ICTCLAS,并運用 CRF++v0.53進行主題線索句的識別。
對于識別性能進行評測時,采用準確率(P)、召回率(R)、綜合指標F1值(F1)三個指標來進行評價。在訓練CRF模型進行主題線索句識別時,選用了多個特征組合的復合特征模板。為了驗證CRF模型識別主題線索句的有效性,以文獻[11]為baseline,baseline的方法是結合中文新聞句子的詞頻、長度、位置以及與標題的相似度等特征計算句子的重要性,并進一步提取出新聞的主題句。表1給出了本文方法和文獻[11]方法的對比情況。

表1 兩種方法在不同主題語料下的實驗結果對比
為了獲取內容新鮮度和發布及時性兩個指標對于Web信息時效性評價的影響大小,對影響因子α和β的值作了不同的設置并進行實驗驗證。由于之前沒有其他工作給出針對Web信息時效性評價的算法,所以本節實驗中對篩選出的時效性較差的網頁進行人工對比驗證。表2是當內容新鮮度和發布及時性的影響因子在不同設置下的對比結果,采用準確率(P)、召回率(R)、綜合指標F1值(F1)三個指標來進行評價。

表2 不同影響因子時實驗結果對比
通過上述實驗,可以認為內容新鮮度和發布及時性對于Web信息時效性評估具有同樣重要的作用,因此在后面實驗中設定α=β=0.5。
對新浪新聞、網易新聞、新華報業網、廣西新聞網和首都之窗5個網站隨機抽取的網頁進行內容時效性驗證,評估結果如表3所示。

表3 網站時效性評估結果
根據實驗結果得到的時效性良好(指位于0.8~1.0區間)的Web信息所占的數量比對評價量化值進行等級劃分,見表4。

表4 內容時效性評價等級劃分
從實驗結果可以看出這5個網站中有9 583個網頁新聞的內容時效性良好,占正確評估新聞總數的87%, 這是因為實驗選擇的大部分新聞是來自專業的新聞發布網站和知名門戶網站,這些網站的新聞發布和更新都比較及時,能夠準確地反映當前社會關注熱點和事件的最新發展情況。而時效性為0的新聞網頁有379個,占總數的3.5%,這是由于選取了首都之窗網站中教育培訓欄目下的321條新聞作為部分語料,而該欄目下的很多新聞都是未及時更新的,有些甚至是5年前的新聞,故時效性很差,導致時效性為0的網頁所占的總體比例稍大。總體來說,得到的評估結果符合先前估計和實際的情況,基本能夠正確反映網頁新聞及其發布網站的時效性狀況。
從評估結果來看,專業新聞網站如新華報業,新聞信息的時效性最好,網站發布的新聞基本為當前關注的熱點。主流的門戶網站如新浪網和網易提供的新聞時效性良好,絕大多數網頁都有很好的時效性,能夠為用戶提供熱點新聞和有效信息。中小型新聞網站如廣西新聞網則有讓人滿意的時效性,這類網站可以為用戶提供時事熱點新聞,但又存在著一些沒有及時更新的新聞,在一定程度上影響了網站的整體時效性等級,進而影響其Web可用性。政府類網站如首都之窗,則時效性較差,網站上存在的過時信息很多,同時還有很多無效鏈接; 這些問題嚴重影響了Web可用性,導致用戶使用電子政務網站的意愿不強。
本文針對Web站點發布的信息時效性進行研究,提出了一種基于線索特征的Web信息時效性評價方法,解決了目前無法從語義上去判斷Web上發布的信息報道的時效性問題。實驗結果表明該方法能對Web信息內容的時效特征進行評估,能夠有效評價Web信息的價值,為提高Web可用性作出相應指導。但是仍有需要進一步研究的地方,包括:1)在利用CRF模型識別主題線索句時,要擴大訓練語料庫的規模,并進一步完善語義特征,以改進模型的效率,提高識別的準確率;2)在語料選取上考慮收集多來源即多個網站上的Web信息,使時效性評價方法研究更加完善。