盡管還處于經濟衰退期,但箱包零售網eBags在2010年圣誕節期間的銷售額創出新高,與上年同期相比新增了33%(在線零售行業同期銷售額平均增長15%左右)。eBags共同創始人彼得·科布把這一業績歸于此前部署了Endeca公司的在線零售平臺。該平臺使用語義技術來分析網購者輸入的關鍵字和點擊行為,然后據此來調整商品大類、子類以及更低一級的目錄劃分,以讓購買者快速地買到自己想要的箱包。
eBags網站的CTO克里斯#8226;卡明斯也認為使用基于語義技術的軟件在增加銷量上發揮了重要作用。“自從部署了這種軟件后,我們的成交率增加了一倍。”他說。
科布解釋說,Endeca的網站導航軟件讓購買者可以根據類型、品牌、價格和箱包大小迅速找到自己想要的商品。“我們有超過500個品牌和4萬多種箱包,用傳統技術用戶找起來很不方便,我們幾年前就意識到語義搜索和指導對改善消費者的購物體驗是多么重要。”
由于為產品提供了非常詳細的細節描述、明確的產品特性介紹以及合理的目錄劃分,語義技術還使得eBags網在Web搜索引擎結果頁面中的位置得到了提升。最近幾年來,像eBags這樣引入語義技術的企業越來越多,語義技術本身也正在迅速成熟。
語義Web最早出現在上個世紀90年代后期,由有“互聯網之父”的Tim Berners-Lee第一個提出。Tim Berners-Lee 認為,語義網是一種非常有前景的技術,因為它能幫助人們準確地找到所需的資料、答案以及想要的產品。最為重要的是,這一切非常簡單,不需要使用者設計出復雜的查詢語句,或組合幾十個不同的關鍵字,也不需要對數千個互不相關的URL中進行排序。
為了實現“互聯網之父”提出的這一愿景,W3C在Tim Berners-Lee的領導下制定了一些標準,以允許不同的計算平臺和軟件代理來識別、訪問和集成來自不同網站的信息,并把企業內多個信息孤島中的信息整合到一切。
“例如,使用W3C組織制訂的標準RDF(Resource Description Framework,資源描述框架),零售商和制造商可以相互共享非常詳細的產品信息。”百思買(BestBuy)Web開發首席工程師杰依#8226;邁爾斯介紹說,“現在,許多供應商還在使用電子表單來提供產品信息,這使得產品信息的提取非常困難。”
邁爾斯認為,百思買目前還沒有充分發揮W3C的RDF標準的潛力,他說這是一個相當長期的目標。同樣,互聯網之父的夢想要真正實現也非常遙遠,雖然我們的確距離它越來越近。鑒于此,許多企業的決策者仍持對是否能采用語義技術實現贏利和回避風險持懷疑態度。
“對于語義技術而言,現在還需要一個殺手級應用來說服企業用戶在語義Web軟件方面大膽投資,語義技術到了該突破的時候了。”咨詢顧問、《技術的下一次浪潮》一文的作者菲爾#8226;西蒙表示。
事實上,盡管語義Web技術進展比較慢,但這項技術的確在進步,而且采用這項技術的企業也越來越多,包括電子商務、電子出版和醫療保健的市場營銷和金融服務等都已經從這項技術中受益,雖然這些企業也許并不知道語義Web技術是如何發揮作用的,甚至也沒有弄清楚其明確的投資回報率。另外,語義Web還衍生出新的技術,情緒分析(Sentiment Analysis)就是其中之一,情緒分析是一門用來分析人們是否真正喜歡某個公司的產品和服務以及到底是哪些人喜歡該公司的產品和服務的技術。
此外,一些企業軟件供應商,如IBM、Oracle、SAS和微軟已開始在自己的產品中引入語義技術,如Oracle Database 11g Semantic Technologies 、SAS Ontology Management以及IBM's InfoSphere BigInsights。而網絡搜索引擎,如Google、微軟的Bing和雅虎也在做同樣的工作。
百思買等公司的成功就表明了語義Web技術的潛力。百思買的邁爾斯表示,自從他的團隊在網站博客的產品頁中加入語義元數據后不久,網站流量中來自搜索引擎的增加了30%,這意味著很多人是通過搜索結果知道該產品,而不是看到網絡廣告后點擊而來。
語義Web技術如何工作
語義Web技術是指支持符合W3C標準的語義搜索、查詢、發布和檢索,語義技術采用了多種技術來分析和描述數據對象及其相互關系。
語義技術中數據的定義是基礎,其中包括普通的字典以及一些行業專用術語,而對于那些有多種含義的單詞,常常要分析語法和上下文來解決語言歧義。例如,“這個表單有40行”中的“行(row)”是名詞,而“她每周劃5次船”中的“劃(row)”是動詞。
解決了語義含糊問題后,才可以確保購物者到一個網站搜索時可以得到含義相同但表述方式略有不同的搜索結果。另外,才有可能解決復雜的語句查詢問題。
完成數據的定義之后,內容還要和描述性元數據或“標記”聯系起來,并映射到一個本體(ontology),本體是一些描述數據對象及其關系的規則(參見附圖)。建立本體通常需要兩個方面的人共同努力,一方是懂得語義規范的技術人員,而另一方面則是懂業務、了解主題的專家。
語義技術的標準是非常關鍵的部分, W3C一直在著力推動這項工作。這些標準除了現有互聯網協議(如XML和HTTP等)之外,還包括以下內容:
● 資源描述框架(RDF)和RDF模式(RDFS):它描述如何表示信息和本體的架構(也稱為詞匯表)。
● 簡單協議和RDF查詢語言SPARQL):它定義訪問和查詢數據的語言。
● Web本體語言(OWL):它對本體進行了更為詳細的描述,還提供了一些RDFS的元素。
大多數業界領先的語義Web平臺都支持這些標準的最新版,包括Cambridge Semantics、Expert System、Revelytix、Endeca、 Lexalytics、Autonomy和 Topquadrant等。而很顯然,只有更多的語義Web平臺都支持這些標準,語義技術的潛力才能充分發揮。比如,如果所有消費電子產品在線銷售網都基于RDF這樣的語義Web標準來建立用以描述其產品目錄的本體,那么,其他語義Web平臺就可以使用SPARQL查詢來訪問這些信息,網購者則可以用支持W3C標準的瀏覽器對這些網站的產品使用類似“按價格排序列出所有42#12316;52英寸的平板電視”這樣的語句進行查詢。
現在的搜索引擎和一些第三方網絡購物網站雖然也提供產品的比較,但它們往往局限于一些事先規定的屬性。而且,消費者常常發現第三方提供的信息已過時或者根本就不正確,要么尺寸不對要么顏色不準。基于W3C相關語義標準的查詢與符合這些標準的購物網站結合起來,網購者就可以進行更全面的比較,更為重要的是這些信息就來自供應商,因而也是準確和最新的。
最近,W3C的SPARQL工作組正在開發一個SPARQL的服務指南,以規范SPARQL的“端點”或信息源如何以指定的方式提供它們的數據,比如如何描述數據是何種類型以及有多少數據等。
一個語義網絡是一種由錯綜復雜的關系和單詞含義構成的結構,它包括所有單詞的全部定義以及所有單詞之間的關系。
誰需要語義Web
eBags網站的CTO卡明斯表示,他還不是那么熟悉語義技術,但是,他非常清楚,Endeca基于語義的網上零售平臺在增加eBags的銷售方面發揮了主要作用。“自從我們部署了這個平臺以來,我們的成交率增加了一倍。”他說。
事實上,eBags網站的CTO并不是個例外,很多企業用戶,甚至一些IT管理人員,并沒有意識到自己的電子商務或企業軟件平臺使用了語義技術。不過,他們都對結果非常滿意。
除了提升銷售業績之外,語義技術的其他好處還包括增加來自網絡搜索引擎的點擊量、提高客戶滿意度,以及讓企業內部的決策和反應比競爭對手更及時、更有效。
語義技術一個早期應用是幫助商業用戶更容易地查找和訪問他們需要的信息,而無論這個數據保存在任何地方,也不管是誰擁有它。
Revelytix公司CEO邁克爾認為,語義平臺將取代傳統的商務智能系統。他說,商務智能需要建立數據倉庫和數據集市,然后把分布在不同信息孤島中的相關信息抽取出來進行數據的轉換,并把數據加載到數據倉庫和集市,而且隨著數據的更新這個工作必須持續不斷進行,而語義技術根本不用做這些工作。使用語義技術,所有這一切都在后臺進行而且很快就能完成。
一般而言,如果企業的數據具有以下一些特征,那么,語義技術的應用可以為企業帶來非常明顯的利益:
1.數據量大,比如有數百萬篇非結構化文檔。
2. 在廣度和深度上都非常復雜。
3. 對最終用戶非常有價值,但數據量很小而且非常分散。
4. 那些拿著高薪、在一些專業的領域有著非常專業技能的人需要使用這些數據。
5. 缺少元數據,無法轉換成商務智能可以使用的結構化格式。
6.非常重要,直接或間接地影響公司的業績。
語義技術可以處理這些信息,對這類信息通過聚合、聯邦、分析以揭示某個概念或含義,而這些工作要靠人手工完成是幾乎是不可能的。
語義技術的早期采用者主要是出版和生命科學行業的企業,后來,越來越多的企業開始跟進,特別是那些數據量已經增加到人工無法管理的地步的企業。比如,現在湯姆森-路透社提供的機讀新聞服務就應用了語義技術。該服務主要面向公關人員、市場營銷人士和投資人,它收集和分析了來自3000多名路透社記者、其他第三方網絡新聞和博客,然后,根據人們對某個公司或者產品的好惡、新穎性等進行評分。
語義Web平臺和工具
語義技術已經出現很多年了,市場上已經出現了相關的工具、平臺、組件甚至服務,借助這些產品和服務,企業可以快速體驗語義技術的作用。以下是部分可用的工具和平臺。
Jena是一個構建語義Web應用程序的開源Java框架,它包括為RDF、RDFS、OWL定制的API,以及一個SPARQL查詢引擎和一個基于規則的推理引擎;而Sesame是另一個保存、推理和查詢RDF數據的開源框架。
通常,大多數領先的語義網絡平臺都帶有一個對常用術語、概念和縮寫進行描述的知識庫,用戶可以在此基礎上建立本體。而針對有些用戶需要針對本企業的特殊行業或者領域進行定制的需求,有些語義技術供應商與系統集成商進行合作。比如,Lexalytics的語義平臺就主要提供給系統集成商或者服務提供商,由它們根據用戶具體的業務領域和應用進行定制開發,湯姆森-路透社的機讀新聞服務就是一個例子。
有些平臺廠商推出了針對特定業務的解決方案。例如,Endeca針對電子商務、電子出版和企業語義應用提供了專用的應用開發工具包。市場還有一些工具能自動地把語義元數據和W3C標準融入到企業現有的知識庫中。例如,Revelytix的Spyder能自動把結構化和非結構化數據轉化為RDF,并把這些信息發布到Web上,兼容SPARQL的瀏覽器可以訪問這些信息。
開源工具D2RQ能把指定的數據庫中的內容映射到RDF和OWL本體,讓兼容SPARQL的應用程序可以訪問這些數據。Revelytix還推出一個支持W3C標準的知識建模工具Knoodl.com。Knoodl.com采用Wiki框架,可以幫助技術專家、主題專家和業務用戶定義語義詞匯,用以描述和映射駐留在多個網站上的領域知識,其他人可以使用Knoodl.com來訪問、共享和完善這些知識。
上述這些產品都可以顯著減輕語義應用的開發和部署難度,不過,有些工作必須由人手工完成,如一些業務專用的縮寫和術語,必須由語義專家和業務人員一起來人工添加。因此,要自己建立一個語義Web平臺,對于一些技術實力和資金實力都不太強的企業而言還是一個很大的挑戰。對于這些企業,SaaS或許是一個不錯的選擇。
湯姆森-路透社就提供這樣的服務。它除了提供機讀新聞服務之外,還提供一項名為OpenCalais的服務。這項服務能為客戶提交的內容創建語義元數據,這些經過標記的內容可以用于搜索、新聞聚合、博客、目錄和其他應用。OpenCalais還有一個免費的工具,客戶可以使用它來建立自己的語義基礎設施和元數據,并鏈接到其他網站。現在,這項服務每天處理超過500萬份文檔。
另外,DNA13 (隸屬于CNW集團)、Lithium和Cymfony等公司現在都提供網絡新聞和社交媒體的查詢、收集和分析服務,主要面向品牌和企業聲譽管理、客戶關系管理和市場營銷。
“市場上已有很多語義工具和開放源碼的項目,再加上SPARQL這么一個非常強大的查詢語言,有技術實力的企業完全可以自己試試這項技術。我們有足夠的理由相信,語義技術至少已經是處理海量數據的一個辦法。過去,我們看到這么多的數據不知道如何使用,如今我們終于有辦法可以對這些數據進行分析。” 百思買的首席Web開發工程師邁爾斯說。
用語義Web進行高效搜索
語義技術的一個應用是讓搜索引擎在搜索相關內容時更快、更精確。對于零售網站而言這將意味著支持語義功能的搜索將會更好地引導購買者到自己的網站,并幫助他們找到想要購買的商品。
例如,百思買網站就意識到“語義技術在提高產品在網絡上的知名度投資回報率非常高。” 百思買的首席Web開發工程師杰伊#8226;邁爾斯說,要給1100個產品頁面增加語義元數據是一件不小的任務,好在百思買使用了德國大學馬丁赫普教授開發的面向電子商務的本體GoodRelations ,從而大幅降低了工作量,而自從他的團隊在產品頁面加入語義元數據之后不久,網站來自搜索引擎的流量就增加了30%。
GoodRelations提供了一個標準的詞匯集,也就是語義網絡的本體術語,包括產品、價格和公司其他數據。這些信息可以嵌入到現有的網頁中,其他計算機、應用程序和搜索引擎只要支持W3C的相關協議標準都可以識別該網頁的內容。這就給那些符合W3C標準的搜索引擎提供了該產品更為豐富的信息。它還提供了一種可能,就是只要其他電子商務網站的數據也采用了這些標準詞匯,就可以進行跨電子商務網站的語義查詢。不過,到目前為止,只有極少數的零售商已經這樣做了,比如百思買,還有最近才這么做的Overstock.com。
百思買還在探索語義搜索的作用和精確度,除了用它幫助消費者找到他們想要的東西,還把消費者的注意力吸引到某些特定的產品上,例如那些量不大但附加值高的商品。邁爾斯解釋說,去年年初,他的小組在語義Web標準的基礎上開發出一個應用程序,用來幫助網站經理們發布用戶退貨的信息。由于這些產品相對比較便宜,頗受那些預算比較緊張的購買者青睞。
知識管理是語義技術另外一個重要的應用領域。跨國建筑公司Bouygues現在使用語義技術幫助回答員工的問題。這個公司使用Sinequa的語境引擎(Context Engine)來幫助員工找到可以真正幫助他們解決問題的內部專家。語義平臺通過分析大量的非結構化信息,包括培訓材料、項目文件和其他內部資料,以及互聯網上的報道,來對企業內的所有知識進行分析和分類,并用來幫助知識工作者迅速找到信息,而無論是在企業內部還是在互聯網上。對每個文檔,其語義引擎會參考內部專家的評述意見,還會根據文檔和用戶查詢問題的相關度打分。
該公司電子服務和知識管理總監Eric Juin表示,有足夠多的證據表明語義軟件的確能幫助員工避免在建筑設計中出現問題。因為這個平臺可以讓員工迅速找到能給他提供幫助的專家。這些證據也表明這個項目的部署是值得的,更何況其投入并不高,特別是和公司的ERP投入相比。
鏈 接
使用語義Web的幾點提示
1.語義Web方面的專家們認為,數據整理是關鍵的第一步。“元數據內容是否豐富直接影響到你應用程序能多大程度發揮出語義Web的潛力。” 咨詢顧問、《技術的下一次浪潮》一文的作者菲爾#8226;西蒙說。 這位咨詢顧問說他參與設計了很多大數據量的項目。這些項目給他的一個體會就是,如果你數據清洗和重復數據刪除工作沒有做到位,那最終的結果一定不會太理想。“你的最好結果不過就是更快速地找到錯誤數據。”
2.IT人員是否和業務人員密切合作決定一個項目是否最終產生價值,尤其是本體的建立,必須是兩類人員合作的產物。
3.小步慢跑,一步一步來。當人們已經習慣了,并意識到該項目的好處時,該項目就距離成功不遠了。百思買就是這樣做的。其語義Web技術的應用已經有一年了,該項目就是采用一步一個腳印。