新聞搜索的脈絡

2007-12-31 00:00:00李洋

互聯網周刊 2007年18期

對全世界的新聞數據進行收錄，既要讓結果簡單易讀，且形式豐富，又要讓用戶搞清楚某一事件于歷史上的來龍去脈。這就是新聞搜索能實現的事。

在互聯網時代，全家人圍坐在電視機前看《新司聯播》的景象已經一去不返了。隨著傳播技術和手段的不斷提升，媒體渠道的泛濫，信息正在變得越來越碎片化，人們閱讀新聞的途徑也不而足。越來越雜亂的新司需要一個統一歸納的入口，這便是新聞搜索引擎存在的意義所在。

但傳統的新聞搜索引擎常會暴露一些缺陷。當用戶輸入某一關鍵字查找與之相關的新聞線索時，通常會獲得一堆雜亂無章的多條新聞鏈接。這些結果是按照時間進行排序的，用戶很難了解到某一事件歷史上的來龍去脈。除非這位用戶對該領域的事件事先已有所知曉，否則將很難在眾多條類似新聞中找到頭緒，而且由于結果都是近期發生的事件，很容易得到一個以偏概全的結論。

微軟亞洲研究院正在研究一項有趣的新聞搜索技術。這項技術想要達到的目標是，對全世界的新聞數據進行收錄，既要讓結果簡單易讀，且形式豐富，又要讓用戶搞清楚某一事件于歷史上的來龍去脈。當用戶查找某一新聞關鍵字時，系統會為其按照時間軸線索列出事件發展的關鍵新聞點，并以多媒體的形式予以展現。

比如，當我們搜索“空難”字樣時，系統會把世界范圍內互聯網上有記錄的空難事件全部顯示出來，按照時間順序排列。也就是說，搜索出來的新聞結果并不僅局限于剛剛發生的事件，電不是以一條條的形式獨立出現，而是被組織成小專題的形式，以圖片、視頻、內容摘要等形式展現在時間軸的各個節點上。用戶可以點擊進每一個小專題進行詳細查看里面包含的新聞報道。

而針對每個事件節點，系統將配有具有代表性的圖片和文字介紹，點擊進去便能夠看到來自世界各大主流媒體的不重復性報道。

這實現起來并不十分容易。微軟亞洲研究院的李明鏡研究員，從2004年起便開始帶領手下的組員進行此項研究。據他稱目前仍有大量工作需要完善。

首先，系統要檢測世界各地主流新聞媒體的網站，不斷抓取其內容并進行存儲。而與普通網頁不同，新聞內容的更新頻率往往更快速。對此，系統有一項重復檢測的技術，在抓取新內容源之后，查看新的內容是否與舊版本重合。這樣，便能夠避免冗余新聞內容的出現。

此外，系統要對新聞內容進行自動數據挖掘、相關性排序和時間檢測，提取出一條新聞的時間、地點、人物等要素，并在此基礎上建立索引。

而對搜索結果按照有意義的方式進行組織，則是另一個要點。系統通過內部的數學模型，對時間和內容上比較接近的事件進行切割，并按新聞的重要程度再新組織。這些新聞內容并不局限在文字層面，系統還將抓取與之相關的視頻、音頻及圖片等多媒體信息，使用戶可以從各個角度快速了解某個事件的情況。甚至，系統還能夠根據事件中的地理信息，從地圖的角度為用戶呈現某事件發生的地理脈絡。

對于一些重要事件，往往會有多家媒體跟進，因此系統還要分析多個網站z間的重復性問題。與此同時，隨著用戶產生內容的增多，個人博客和一些論壇的信息，往往能夠從不同的視角彌補官方新聞的缺陷。微軟的研究具們計劃在未來對個人博客和論壇內容進行檢測和索引，并將其內容與官方信息相對應，去偽存真，留下有意義的信息。

在未來，這項技術還有望實現各個事件之間的自動標識功能，通過算法幫助用戶更準確、更快速的獲得滿意的新聞結果。

互聯網周刊2007年18期

互聯網周刊的其它文章: ＰＥ，別人的故事？; 投資巴菲特; 發展的節奏; ＮｅｔＡｐｐ的上升通道; 金融業的顛覆者; 雅虎的回馬槍