方濱興
【摘要】大數據時代,互聯(lián)網朝著泛在網的方向發(fā)展,這催生了大搜索技術的誕生,同時大搜索也成為網絡發(fā)展的利器和催化劑。與傳統(tǒng)搜索相比,大搜索不僅能夠在語義級別上對用戶的搜索意圖進行理解,還能根據用戶的時空位置、情緒狀態(tài)以及歷史偏好等信息來感知用戶的需求;能去偽數據,還能保障用戶的隱私;而且搜索解答實現(xiàn)了智慧化,能為用戶求解給出智慧的答案。
【關鍵詞】大數據 大搜索 泛在網 時空 智慧
【中圖分類號】TP37 【文獻標識碼】A
目前,互聯(lián)網正結合物聯(lián)網、移動互聯(lián)網向著泛在網的方向發(fā)展。泛在網是指基于個人和社會的需求,利用現(xiàn)有的網絡技術和新的網絡技術,實現(xiàn)人與人、人與物、物與物之間按需進行的信息獲取、傳遞、存儲、認知、決策、使用等服務,網絡超強的環(huán)境感知、內容感知及其智能性,可能為個人和社會提供泛在的、無所不含的信息服務和應用。泛在網不僅承載信息,還把人和物連接在一起,新型應用層出不窮,數據及數據形態(tài)利益豐富多樣,并且蘊藏極大的價值,大搜索技術由此應運而生。
大數據時代數據的特點是:數據量大,數據產生的速度快、類型多樣,數據不可信,最重要的是具有潛在價值。我們需要應對、需要解決的問題就是在大數據中發(fā)掘價值。比如:哪個企業(yè)的產值最高?這就涉及到統(tǒng)計的問題。近期會出現(xiàn)什么熱點?這涉及到聚類的問題。事件的起因,這就涉及關聯(lián)計算。
現(xiàn)在有很多大數據價值發(fā)掘的案例。比如:亞馬遜通過營銷推薦系統(tǒng),可以精準對接客戶需求,把很多產品提前預銷售。中國移動的客戶投訴識別系統(tǒng),每年可以節(jié)約成本540萬元。谷歌使用大數據技術實現(xiàn)更加精準的廣告投放,獲得80億美元的收入。
我們團隊開發(fā)的應急系統(tǒng)可以通過公開的語境信息、公開的微博信息去挖掘并為用戶提供一些公開的能力,大家可以利用這個能力去發(fā)現(xiàn)他所感興趣的領域中的一些重要事件。比如:判斷某個自己感興趣的事件的傳播情況,大家對該事件所持的態(tài)度以及事件在什么地域傳播等等。
一、網絡搜索引擎的種類
從搜索引擎角度來思考,目前網絡空間中我們都能搜到的信息多種多樣,最簡單的就是文字搜索和兒童搜索。兒童搜索的特點是:你要是輸入臟話,它會告訴你,沒有這個詞。文字搜索種類很多,比如:視頻搜索,在視頻庫里搜索你所關心的視頻;新聞搜索,它的背后是大量的新聞網站;微博搜索,了解其他人所關注的內容;文檔搜索,搜索自己關心的領域及相關研究內容;學術搜索,可以搜索到很多資料,包括研究成果;人物搜索,輸入“奧巴馬”,就可以搜索到他的一些公開信息;企業(yè)信息搜索,比如輸入“天眼查”,它可以告訴你這個公司的法人代表是誰、有哪些下設機構;房地產搜索,輸入“房天下”,它會告訴你附近的房價;購物搜索,使用“一淘”搜索引擎,可以隨時查詢自己關注的產品價格;商品信息檢索,拿起手機拍下商品的二維碼,就可以知道這個商品在哪個超市多少錢,哪里最便宜;物流搜索,可以隨時查詢自己購買的物品現(xiàn)在在哪、何時能到;生活搜索,輸入“北京小吃”,會告訴你北京哪里有有特色的著名的小吃;旅游搜索,在去哪兒搜索引擎輸入“我要在北京旅游三天”,它會告訴你有哪些最適合你的旅游套餐;職位搜索,它會告訴你哪個企業(yè)需要什么樣的人才,滿足你個性化的需求;農業(yè)搜索,會告訴你不同的作物不同的季節(jié)應該打什么樣的農藥,怎么使用,等等。
此外,還有其他種類的搜索。比如:我們團隊開發(fā)的聯(lián)網設備搜索,目前已經搜到了3億多個聯(lián)網設備,還發(fā)現(xiàn)了170多萬個設備有漏洞,可以任意闖進去;移動設備檢索,如360智能手環(huán),可以定位佩戴手環(huán)的兒童的具體位置。這些應用本質上我們叫做存在性搜索。它是把存在的符合用戶需求的東西提供給用戶,重點是如何給出最符合用戶需求的信息。比如搜索“第四次工業(yè)革命”,它可能有幾萬個結果,哪個結果放在最前面這是它所要關心的。所有這些我們都叫存在性搜索。
本質上來說,這些都是能感知到你所需要的服務,并有針對性地提供服務。我上面舉的例子叫服務搜索,以“盡力而為”為原則,通過匯集大量“服務”的方式,在用戶提出搜索需求時,首先判斷這個需求是否和系統(tǒng)服務庫之中的某個服務對應,如果能對應,就為用戶啟動相應的服務。簡單說,就是根據你的關鍵詞判斷你可能需要這個服務,如果沒有這個服務,就提供與這個服務相關的信息。再比如:學術搜索,輸入“北京郵電大學”,會告訴你北京郵電大學的相關知識點、具體機構、相關人員還有圖書的曲線、發(fā)表刊物的曲線等等,具有強大的智能性,會幫你分析這個學校的整個學術情況。企業(yè)信用搜索,輸入相關企業(yè)名稱,會得到它的打分情況、信用等級,還會介紹其高管和核心企業(yè)對外進行了哪些投資等等。論文查重搜索,輸入一個文檔名,了解這個文檔在網上是不是和其他文章有重復、重復率多少,是否有抄襲情況等。
二、大搜索的要素及其特性
網絡空間、大數據等新技術的發(fā)展,促進搜索引擎技術不斷進步,也促進用戶形成了新的搜索需求,用戶將不再滿足于僅在互聯(lián)網空間搜索存在性信息,而是希望搜集到涉及信息、時間、位置三維空間的包含有人、物體、信息在內的解決方案。從互聯(lián)網到物聯(lián)網到移動互聯(lián)網,再到泛在網,我們要搜索答案,而不是搜索信息,而且這個答案要涉及到時間和空間。
(一)大搜索的要素
下一代搜索就是從大數據到價值發(fā)掘,再到知識發(fā)現(xiàn)服務,稱之為大搜索。比如地圖搜索導航信息,這本身就是知識搜索,它要給你做路徑規(guī)劃。但是現(xiàn)在導航要結合物聯(lián)網信息,這樣它就知道每條路的交通流量,通過交通流量給出最快的一條路徑,而這個“到達最快”不僅僅取決于距離,還包含交通擁堵情況等。這就相當于搜索引擎基于知識處理之外,還有更多的信息融合。
大搜索,是指面向泛在網絡空間的人、物體和內容,在正確理解用戶意圖的基礎上,基于從網絡空間大數據獲取的知識,從信息、時間、位置的角度給出滿足用戶需求的智慧解答。我們有各種各樣的信息源,最后要得出的是一個智能發(fā)掘,而這個智能發(fā)掘就是從大數據的源頭通過大搜索獲得網絡的智慧。
這樣做要依靠四個因素:第一是網絡空間。第二是正確的理解,理解就涉及到要有感知,要能判斷真實的需求是什么。第三是知識庫的構建,如果我們設計的是一個專家系統(tǒng),兩個小時可以給出答案,這個大家都能接受。但如果設計的是一個搜索引擎,怎么可能等兩小時?大家可能兩分鐘都等不了。大數據也是一樣,可能對用戶這一次問的問題沒有提供滿意的答案,因為數據庫還沒有為這個問題做過知識框架,但可以把它記錄下來,以后圍繞它搜集所有相關答案,等下次有人再問這個問題的時候,就可以馬上提供答案。最后,當用戶提出問題的時候,搜索引擎不能給出存在性的信息,而是要對相關答案進行重新組織,重新加工,從而給出最正確的答案。這些要素都具備了以后,搜索就會很強大,它可能把個人的隱私也挖掘出來了,所以就需要一道安全門,這個安全門就是隱私保護,涉及到隱私了,這個東西就不能往外提供。
(二)大搜索的特性
大數據有5V特性:Volume(大體量)、Variety(多樣性)、Velocity(時效性)、Veracity(準確性)、Value(大價值);而大搜索有5S特性,首先是信息泛網獲取(Sourcing);第二是感知人們的意圖(Sensing);第三是多源綜合(Synthesizing);第四是安全可信(Secure);第五是智慧解答(Solution)。
1.泛網獲取,網絡空間泛在化,支持定向信息的獲取。傳統(tǒng)搜索只是從網頁上抓取互聯(lián)網數據。為了提供答案,現(xiàn)在是十萬個為什么,將來可能是十億個為什么,大搜索圍繞的是為什么獲取信息以及沒有這個為什么就不去獲取了。
2.用戶感知、意圖理解精確化,基于場景感知的意圖理解。傳統(tǒng)搜索只是關心所提交的查詢詞,大搜索關心的是不僅能夠在語意級別上對用戶的搜索意圖進行理解,還能根據用戶的時空位置、情緒狀態(tài)以及歷史偏好等信息來感知用戶的需求。比如輸入一家公司名“曼豪中國”,就會把曼豪中國的組成、業(yè)績、相關人員都提供出來,如果發(fā)現(xiàn)曼豪中國背后有關聯(lián)的創(chuàng)新論壇,也會推送與創(chuàng)新論壇相關的內容。只有具有用戶感知功能才能解決這個問題。
3.多源綜合,信息關聯(lián)知識化,構建搜索對象空間。傳統(tǒng)搜索只是根據網頁級別(PageRank)給出最相關的結果。大搜索要把所有的東西聯(lián)系起來,看看它們之間有什么關聯(lián)。
4.安全可信,傳統(tǒng)的安全可信只是簡單的信息過濾措施,大搜索能去偽數據,還能保障用戶的隱私。
5.解決方案,搜索解答智慧化,為用戶求解提供智慧的答案。
搜查搜索的內容分為三種:信息搜索、物體搜索和人物搜索,搜索的問題從傳統(tǒng)的信息搜索擴張到信息、人物和物體。網絡空間大搜索就是根據一定的策略和方法,通過互聯(lián)網、物聯(lián)網、電信網等實時、快速、精準地獲取各種物理實體、人物、信息,及其時間與位置的屬性,具備洞察理解用戶搜索意圖的智能。
歷史經驗告訴我們,如果沒有互聯(lián)網搜索引擎,就沒有今天互聯(lián)網的發(fā)展,如果沒有大搜索引擎,泛在網肯定發(fā)展不快,走不下去。媒體在今后的發(fā)展創(chuàng)新中應關注泛在網,面向泛在網,在大數據中發(fā)掘滿足用戶意圖的智慧解答,因為它將成為下一代網絡發(fā)展的利器和催化劑!
注釋
①百度百科,http://baike.baidu.com/view/1470376.htm.
(本文編輯:寧黎黎)