郭銳 (微視互聯(天津)科技有限公司 天津300456)
隨著我國互聯網應用的日益普及,人們的衣食住行都和網絡發生了直接或者間接的聯系,特別是搜索引擎的出現,可以說是改變了人們獲取知識和信息的方式,其重要性毋庸置疑。然而類似百度和Google這樣的通用搜索引擎,在某些特定的領域,從信息的準確性、實用性和及時性來講,往往并不如人意,夾雜大量無用的信息,用戶還必須逐個點擊篩選。特定領域的垂直搜索引擎正是為了解決這一問題而產生的,其目標是在限定領域范圍內提供更加精準有用的信息。在育兒這個領域的知識和信息有其自身的特性,而且用戶有特定的人群,即主要為0~6歲的父母,我們基于對育兒知識信息和父母用戶的深入研究,研發了一款新型的垂直育兒搜索引擎——智能育兒通。
智能育兒通的主要創新點在于,該搜索引擎的內核包括一個自動問答系統,用戶能夠以平常說話的自然語言形式提問,系統自動給出相關的答案;搜索結果的展示不僅包括傳統的圖文,而且還能夠提供視頻形式,從而信息以一種多媒體的立體角度進行呈現;系統還為用戶建立了用戶模型,智能分析用戶的需求和使用習慣,在搜索的同時主動推送相關的用戶可能感興趣的育兒資訊;并且提供多種客戶端,以供用戶可以隨時隨地進行訪問,用戶操作接口包括網頁瀏覽、手機短信、手機客戶端程序和及時聊天。
由于網絡信息的爆炸式增長,網民面對海量數據不得不借助搜索引擎這一強大的工具去尋找自己的目標信息,百度和Google是我國網民使用最多的兩個通用搜索引擎。各大門戶網站也有自己的搜索引擎,如搜狐的搜狗、網易的有道、騰訊的搜搜,這些搜索引擎也各有特色和定位。
在垂直搜索引擎方面,英文比較著名的有KidsClick兒童搜索、AddAll購物搜索、PicSearch圖片搜索、MusiDB個性化的音樂搜索。而在中文方面,258商業搜索(http://www.258.com/)、愛幫生活搜索(http://www.aibang.com/)、跳哪工作搜索引擎(http://www.tiaona.com)是比較典型的代表。可以說,在通用搜索引擎占據主導地位的同時,垂直搜索引擎作為一個重要的補充,是互聯網發展的必然趨勢,也是整合網絡資源的一個不可超越的階段。
中國人均年出生人口是1 500~1 700萬,保守估計潛在父母用戶群在1.2億左右。互聯網的普及化和移動互聯網的迅猛發展已經改變了新一代父母獲取育兒知識的方式,二者已經成為媽媽獲取育兒信息的主要手段。但是目前,網絡上各種信息龐雜,真假難辨,如何讓媽媽更有效的獲取最權威的知識信息是目前存在的最大問題。
我們所研發的智能育兒通的出發點就是利用先進的人工智能技術和互聯網技術,為媽媽提供一個迅速獲取權威育兒知識,解決育兒難題的有力工具,過濾掉無用的虛假信息,給出最有效的育兒知識,為父母的育兒過程提供極大的便利,其目標是力爭在育兒領域,能夠做到比百度更智能,比google更精準。
與傳統的垂直搜索引擎相比,智能育兒通的最大不同點就是基于人工智能技術以及科學育兒方法和知識體系構建的,強調用戶體驗,父母用戶能夠以各種接入方式,使用貼近自然語言的形式向這個系統提問有關育兒方面的各種問題,系統能夠自動給出答案或者資料,并且可以智能地根據用戶資料及其使用習慣進行深入分析,提供相關聯的育兒知識或信息,使用戶可以獲取到全面貼心的服務。因此,智能化的自動問答系統是智能育兒通的重要核心之一。
從接入方法來講,系統的用戶可以通過瀏覽網頁、發送手機短信、使用手機客戶端程序或是即時聊天工具等方式向智能育兒通提問,從而能夠隨時隨地獲取育兒信息。智能育兒通基于SOA體系架構,可以對第三方應用程序開放方便的服務接口以供靈活的集成。
從數據來源來講,系統致力于打造一個全面綜合、立體呈現的育兒知識庫,主體數據來源包括來自專業育兒網站的數據庫(包括視頻,圖文形式的育兒知識、育兒活動、育兒專家、育兒機構、育兒產品、育兒資訊等),國內主要的問答系統,如百度知道、搜搜問問的問題數據,以及從各種育兒專業網站抓取過來的網頁資源。
從返回結果來講,系統能夠根據用戶輸入的請求,提供搜索引擎的搜索結果或是智能問答的答案,同時還可以根據內容的相關性,提供育兒知識庫中的相關育兒信息,以圖文、視頻多種方式進行立體呈現。
此外,系統能夠針對用戶提供的資料和用戶的使用行為,建立用戶模型,除了用戶搜索的結果之外,還能夠主動推送用戶可能感興趣的相關育兒信息。
從整體架構來說,可以將系統分為6個子系統(見圖1),分別是多客戶端子系統、輸入輸出子系統、自動問答子系統、關鍵詞搜索子系統、育兒知識庫與查詢子系統以及用戶行為分析與反饋子系統。

圖1 智能育兒通的整體架構示意圖
2.2.1 多客戶端子系統 提供多種客戶端,以供用戶可以隨時隨地進行訪問,用戶操作接口包括網頁瀏覽、手機短信、手機客戶端程序和及時聊天。各種客戶端以統一的方式對用戶輸入進行處理,即加入用戶身份信息,進行加密之后,發送請求到“輸入輸出子系統”。
育兒問題答案的展現形式會隨著用戶操作接口的不同而不同,在網頁瀏覽的形式下,答案的主體應以圖文加視頻的方式呈現,并且將顯示相關的輔助信息和相類似的問題。
2.2.2 輸入輸出子系統 輸入輸出子系統的核心是用戶提問請求的分析和提問結果的輸出。請求分析模塊的功能包括:對于請求進行解密和認證,過濾非法請求;做必要的字符串處理,過濾非法字符;要能夠分析出用戶的提問是問句形式還是關鍵詞組合形式,前者將請求傳給問答系統,后者將請求傳給垂直搜索子系統;在用戶輸入的同時,能夠給出相關提示,類似百度的搜索體驗;分析出用戶提問所屬的育兒知識分類,向育兒知識庫提出請求。結果輸出模塊的功能包括:以統一的形式格式化獲得的提問結果和相關知識的結果,包裝之后返回相應的客戶端;針對相似問題的輸出,要有統一的處理模式;針對不同的客戶端形式,做不同的結果處理,如結果的字數限制、結果的條數、結果的字段數。
2.2.3 自動問答子系統 用戶能以自然語言形式提問,系統會通過自動分析,給出最佳匹配的答案,同時還能給出相類似的問題。主要功能如下:問題庫來自百度知道、搜搜問問、新浪愛問等各大知名問答網站;通過對于提問進行語法分析,匹配出相關問題,在各種問題庫中搜索問題,找到該問題庫中最佳答案,并且可以在最佳答案中選擇一個或多個作為提問結果;給出相似或者相關聯的問題,并且格式化后推送給輸入輸出系統;對于問題庫、關鍵詞等關鍵因素可以設置一系列的參數,并可以靈活調節;根據用戶模型,給出問題答案的調節;根據用戶對于提問答案的滿意程度的反饋結果,對于問題系統的算法模型進行調節。
2.2.4 關鍵詞搜索子系統 首先對于網絡育兒資源進行全面整理和收集,包括各大網站的文字和視頻育兒知識,在此基礎上進行歸納分析主題,建立專業的育兒詞匯表,對育兒資源數據進行解析和提取,在專業的育兒知識體系框架下實現網頁內容的智能分析、網頁的分類,從而為育兒關鍵詞的搜索提供更加精準專業的結果。
現在對于育兒視頻的搜索各大網站幾乎都沒有,或者效果并不理想,而育兒通提供基于標簽和視頻文字描述的育兒視頻搜索,搜索結果可以以視頻形式直接呈現。另外,我們也注意到,用戶想購買產品或服務時,許多人的習慣是先搜索關于這個東西的正面或負面評價,而這些評價信息又很大程度影響用戶的購買行為。因此我們著重挖掘各種育兒機構和母嬰產品的評價、評論信息,對于每個機構和產品可以計算口碑指數,并表明負面評價和正面評價,在用戶搜索的結果中提供這些經過整理之后的口碑評價。
2.2.5 育兒知識庫與查詢子系統 建立爬蟲系統,持續更新育兒知識庫,從第三方網站抽取和整理形成統一的知識庫資料。將抓取自各大育兒網站的資源數據統一整理,其中包括發布文章、視頻、問答、博客、帖子等各種內容形式,經過語料過濾、清洗、重新格式化,形成一個綜合性的育兒知識庫。首先是為自動問答子系統和關鍵詞搜索子系統提供訓練語料的支撐;其次支持育兒知識查詢,能夠直接接收育兒知識分類請求,返回育兒知識內容,并且能夠根據用戶模型,返回針對該用戶定制的育兒知識。
2.2.6 用戶行為分析與反饋子系統 育兒通能夠針對用戶提供的資料和用戶的使用行為建立用戶模型,在用戶提問之后,不僅給出問題的答案,還能夠主動推送各種用戶可能感興趣的相關育兒信息,如母嬰機構、幼教產品、打折信息等等。主要功能包括:建立完整全面的父母用戶資料庫;記錄完整的用戶訪問智能育兒通的行為;保存所有的提問請求及其對應的答案結果,一方面可以作為提問的緩存,提高系統響應,另一方面可以作為提高答案準確率的訓練集;用戶可以對于提問的答案進行評價,記錄所有的滿意度,并結合提問回答的結果進行針對性訓練,提高搜索模型的精確度;對于提問行為進行分析,給出熱門問題、熱門關鍵詞等指標;通過分析用戶資料和行為,將用戶進行特定指標的分類,并能智能推送和定制育兒知識提供決策依據。
智能育兒通整體采用SOA體系架構,對外提供基于Web Services的在線應用服務,從而為第三方應用程序提供方便的服務接口實現集成。主體程序使用Java EE技術構建,客戶端覆蓋各種操作系統和編程語言。搜索引擎的實現上使用了大量的開源軟件,其中利用Apache Nutch負責抓取(crawling)和提取(extracting)內容。Apache Solr作為處理搜索結果的源和入口,使用Solr作為搜索后端,在Nutch和Solr的整體框架下,實現根據育兒知識和信息體系定制的分詞、語法分析、索引、匹配等算法。
用戶操作接口包括網頁瀏覽、手機短信、手機客戶端程序和及時聊天。其中及時聊天工具應包括但不限于QQ、MSN和Fetion(飛信),手機客戶端程序的操作系統包括但不限于Android、iOS(iPhone)和 Symbian。
智能育兒通的核心技術來源于本公司與清華大學計算機系合作開發的技術成果,共同享有自主知識產權。智能育兒通預計2011年內發布公測版,將在本公司的運營的真實同城育兒社區“父母在線”(http://www.ifumu.com)中發布,為廣大中國父母提供精準的育兒信息和貼心的母嬰服務。
智能育兒通在傳統搜索引擎的技術基礎之上,創新地使用人工智能技術以及科學育兒方法和知識體系進行構建,為全中國的父母提供更精準、更全面的搜索和問答服務,是一種全新的用戶體驗和服務模式,其技術水平方面在國內也屬領先。未來在不斷優化搜索效果和提高用戶體驗的同時,還將拓展商業應用和增值服務,實現大規模的商業化運營。■
[1]鄭實福,劉挺,秦兵,等.中文自動問答系統綜述[J].中文信息學報,2002,6(16):46-52.
[2]H uizhong D uan1,Y unbo Cao,Chin-Y ew Lin ,etal.Searching Q uestions by Identifying Q uestion Topic and Q uestion Focus[J].Proceedings of A CL,2008(8):156-164.
[3]P Raghavan,H Schtze.Introduction to Information Retrieval[M].Cambridge U niversity Press N ew Y ork,N Y,U SA,2008:100-152.