對全世界的新聞數據進行收錄,既要讓結果簡單易讀,且形式豐富,又要讓用戶搞清楚某一事件于歷史上的來龍去脈。這就是新聞搜索能實現的事。
在互聯網時代,全家人圍坐在電視機前看《新司聯播》的景象已經一去不返了。隨著傳播技術和手段的不斷提升,媒體渠道的泛濫,信息正在變得越來越碎片化,人們閱讀新聞的途徑也不而足。越來越雜亂的新司需要一個統一歸納的入口,這便是新聞搜索引擎存在的意義所在。
但傳統的新聞搜索引擎常會暴露一些缺陷。當用戶輸入某一關鍵字查找與之相關的新聞線索時,通常會獲得一堆雜亂無章的多條新聞鏈接。這些結果是按照時間進行排序的,用戶很難了解到某一事件歷史上的來龍去脈。除非這位用戶對該領域的事件事先已有所知曉,否則將很難在眾多條類似新聞中找到頭緒,而且由于結果都是近期發生的事件,很容易得到一個以偏概全的結論。
微軟亞洲研究院正在研究一項有趣的新聞搜索技術。這項技術想要達到的目標是,對全世界的新聞數據進行收錄,既要讓結果簡單易讀,且形式豐富,又要讓用戶搞清楚某一事件于歷史上的來龍去脈。當用戶查找某一新聞關鍵字時,系統會為其按照時間軸線索列出事件發展的關鍵新聞點,并以多媒體的形式予以展現。
比如,當我們搜索“空難”字樣時,系統會把世界范圍內互聯網上有記錄的空難事件全部顯示出來,按照時間順序排列。也就是說,搜索出來的新聞結果并不僅局限于剛剛發生的事件,電不是以一條條的形式獨立出現,而是被組織成小專題的形式,以圖片、視頻、內容摘要等形式展現在時間軸的各個節點上。用戶可以點擊進每一個小專題進行詳細查看里面包含的新聞報道。
而針對每個事件節點,系統將配有具有代表性的圖片和文字介紹,點擊進去便能夠看到來自世界各大主流媒體的不重復性報道。
這實現起來并不十分容易。微軟亞洲研究院的李明鏡研究員,從2004年起便開始帶領手下的組員進行此項研究。據他稱目前仍有大量工作需要完善。
首先,系統要檢測世界各地主流新聞媒體的網站,不斷抓取其內容并進行存儲。而與普通網頁不同,新聞內容的更新頻率往往更快速。對此,系統有一項重復檢測的技術,在抓取新內容源之后,查看新的內容是否與舊版本重合。這樣,便能夠避免冗余新聞內容的出現。
此外,系統要對新聞內容進行自動數據挖掘、相關性排序和時間檢測,提取出一條新聞的時間、地點、人物等要素,并在此基礎上建立索引。
而對搜索結果按照有意義的方式進行組織,則是另一個要點。系統通過內部的數學模型,對時間和內容上比較接近的事件進行切割,并按新聞的重要程度再新組織。這些新聞內容并不局限在文字層面,系統還將抓取與之相關的視頻、音頻及圖片等多媒體信息,使用戶可以從各個角度快速了解某個事件的情況。甚至,系統還能夠根據事件中的地理信息,從地圖的角度為用戶呈現某事件發生的地理脈絡。
對于一些重要事件,往往會有多家媒體跟進,因此系統還要分析多個網站z間的重復性問題。與此同時,隨著用戶產生內容的增多,個人博客和一些論壇的信息,往往能夠從不同的視角彌補官方新聞的缺陷。微軟的研究具們計劃在未來對個人博客和論壇內容進行檢測和索引,并將其內容與官方信息相對應,去偽存真,留下有意義的信息。
在未來,這項技術還有望實現各個事件之間的自動標識功能,通過算法幫助用戶更準確、更快速的獲得滿意的新聞結果。