劉 異,趙 輝
(1. 南昌鐵路局干部學校,信息教研室,江蘇 南昌 330002;2. 中南大學 信息與網絡中心,湖南 長沙 410083)
全球WWW網站總數量龐大,為全球數以幾十億計的網民提供各種服務。截至2016年底,我國基于互聯網的電子商務市場總額已經突破 300000億人民幣。2017年我國手機網民規模達7.39億,網民使用手機上網比例逐年攀升。互聯網技術在我國的迅速發展,使人們更多依賴互聯網來獲取信息。
目前在人們的日常生活中,搜索引擎占互聯網應用的地位舉足輕重。《全球互聯網統計信息跟蹤報告》中指出,“搜索引擎網站是目前所有網站類型中發展最快的網站”。另據該報告顯示,今后中國搜索引擎將呈現若干新的發展趨勢,垂直搜索獲得迅速發展,成為重要的發展方向。垂直搜索引擎在細分行業及專業領域的全面應用與深入挖掘,通過進一步整合信息內容,帶來大量的用戶流量與廣告機會。
當今社會,視頻信息占互聯網多媒體信息很大比例,視頻搜索用戶規模的增長速度遠遠高于傳統搜索用戶規模的增長速度,預計未來三年將會保持年均 100%以上的增長率。雖然 Google、YouTube和優酷等紛紛推出了各自的視頻搜索服務,但大多基于固定的 PC機關鍵詞查詢模式。這種查詢視頻的方式代價大而且返回的結果存在歧義。例如,用戶提交“蘋果”關鍵詞時,系統可能返回多個與“蘋果”相關的搜索結果,如iMac電腦、iPad平板、iPhone手機及水果等。而面向生活類的垂直搜索引擎(如搜房網,www.fang.com)和面向商業領域的垂直搜索引擎(如ebay,www.ebay.com)等,已成為未來互聯網搜索領域研究的新熱點。
用戶在使用關鍵詞搜索傳統視頻信息時,查詢視頻幀是對幀圖像進行編號和注釋,一般使用描述性的文字或數字給幀圖像加上注釋,再用搜索引擎檢索匹配相應的注釋,這就是基于注釋的查詢。[1]這種查詢的方法雖然簡單,但經常不能精確檢索到海量視頻信息。這是因為用人工方式對海量視頻數據進行標注,工作量極大并且效率很低,視頻內容片段僅靠文字標簽簡單地表達意思會以偏概全。同時,受各體差異性影響,不同的用戶使用不同的描述標注信息,基于內容的查詢于是應運而生。用戶無需對視頻片段進行人工標注,只需通過提取底層視覺或聽覺等特征進行相似性檢索。
隨著移動 4G互聯網的迅猛發展和網購課程規模的不斷擴大,越來越多的商家把課程“搬到”互聯網上,課程以虛擬電子文件的形式存在更有利于授課者向學習者隨時隨地傳播知識,省去了學習者去實體學校學習來回路上耽誤的時間,也公平照顧了學習者家離學校距離遠近不一的問題;隨著各大酒店、咖啡屋、快餐店、商場、公交車等免費Wi-Fi服務設施的提供,這些學習場所不僅環境優雅還免費提供高雅舒緩的音樂,使越來越多的學習者轉變了去傳統學校學習的觀念,逐漸接受了這種新潮的學習方式,而移動搜課寶能讓學習者在新型學習場所更便捷地搜索到課程資源,每天學習一小節課程,給學習者的大腦快速充電補充知識能量,特別是那些上班族和家庭主婦在每天忙碌之后,還想繼續學習可是抽不出時間來,而課程培訓機構大多都在難找的寫字樓上,寫字樓昂貴的租金增加了培訓機構的經濟負擔,培訓資訊的最新傳播力度不給力,不易于學習者及時了解到相關課程,開課時間往往因為錯過最佳的學習機會只能再次等待。移動搜課寶平臺讓培訓資訊更便捷地發布到互聯網平臺上,學習者可以同時選擇網絡學習和實體學習,學習者的受益面是廣泛的,不同行業不同年齡的社會人群均可以加入到學習者的行列中來。
當今社會處于知識大爆炸時代,知識改變命運,知識締造傳奇,學習是終身性質的,人們的大腦如果不學習時間久了就會生銹,這很直觀地說明了學習的重要性。互聯網凝聚了全球整個地球村的海量多媒體課程資源,網絡視頻課程讓學習者在家里也能接受跟學校一樣的教育,不久的將來“家庭學校”一定會像“家庭辦公”一樣普及。隨著不同的勞動力在社會化分工程度的不斷細分,人們已不滿足從通用搜索引擎(如 Google、Baidu等)獲得結果,而是產生了面向企業需求的垂直搜索網站,本平臺主要研究的是面向課程視頻資源的搜索,創新之處在于使用拍照搜索課程。現代社會的不斷發展使人們的移動性日益增強,無論是小孩還是老人人手至少一部手機,可見手機在當今社會的普及率有多高,隨著人們對信息需求量的不斷增長,人們可以輕松通過搜索引擎查詢到所需信息,上網搜一下,你就知道。為了提供給人們更優質的服務,關鍵是找到適合移動手機環境下的搜索技術。4G的普及和5G的出現,使手機、PDA等移動終端通信設備傳輸數據帶寬、傳輸質量得以進一步提高,能滿足高速帶寬應用的需求。
作為垂直搜索的主要應用之一,近年來,移動商務搜索引擎得以迅速發展。人們已不滿足通過查看課程的文字和圖片信息了解到所要購買的課程。課程視頻試看已逐漸成為人們全方位了解課程的重要途徑。某些網上商城營銷課程時也會推出課程試看。因此,基于移動手機的課程視頻檢索將成為可能。這種移動搜索技術基于IOS平臺,通過PDA、移動手機登錄移動通信終端環境,以微信、微博、QQ、手機瀏覽器等方式接入移動通信,來獲取信息。[2]移動搜課寶平臺不僅可以方便同城以及異地的學習者快速找到附近感興趣的課程教學點,還可以自己錄制課程視頻發布到網上課程商城平臺,經管理員審核通過后課程發布者就可以售賣該網絡課程。用戶可以上傳課程縮略圖參加搜課平臺的優秀課程評比比賽,用戶通過注冊搜課平臺軟件賬號就可以對喜歡的用戶進行投票或者直接使用自己的IP地址進行匿名投票。移動搜課寶平臺的注冊商戶可以隨時發布培訓課程開課信息、課程視頻試看以及介紹實體培訓機構學習環境的宣傳片以供學習者查閱、購買課程。
在線投票系統包括前臺用戶界面和后臺數據庫管理系統。用戶進入前臺用戶界面(留言板、投票、新聞中心)進行選擇項目,判斷選擇選項是單選模式還是多選模式,查看投票權限是否限制用戶IP地址,不限制可以直接投票;若限制用戶IP地址,系統先檢測用戶IP地址,使用用戶通行證進行第一次投票,檢測系統允許投票時間,時間不允許,彈出已投過票的對話框,時間允許,可以再次進行投票,例如投票時間間隔為1天,那么今天投過票以后就不能繼續投了,只能明天登錄繼續投票支持,這樣就避免了同一IP地址用戶刷票的嫌疑,也不至于使系統訪問流量過大而引發系統崩潰。
前臺投票用戶界面和后臺投票數據庫管理流程圖如圖1所示。經過系統統一身份認證以后,客戶直接提交課程信息,管理員則管理投票課程,進行更新、管理系統配置、管理選項操作,管理系統配置具有編輯、刪除功能,管理選項具有刪除、更新、
添加功能。其中,刪除子選項用于系統管理員審核是否有投票權,若沒有投票權,則管理員刪除投票課程。投票課程有截止日期,如果是過期的投票,則系統管理員一律視為作廢投票無效。

圖1 前臺投票用戶界面和后臺投票數據庫管理流程圖Fig.1 The flow chart of the front voting user interface and the background voting database management
用戶可以通過五種搜索方式搜索課程:關鍵詞搜索、圖片搜索、視頻搜索、拍照搜索、錄像搜索。課程的圖像搜索引擎框架圖如圖2所示。學習者用戶可以通過從其他教育資源網站上下載示例課程視頻(如:VeryCD網站上有很多課程視頻附帶Simple示例視頻),如果原課程視頻的存儲容量很大,學習者沒有那么多的時間等待下載完成,或者學習者想搜索相關類似的自己滿意的視頻而不是費眼神、費精力地等待一個個很大的課程文件打包下載完成后一個個地點擊播放再一個個地刪除或者保留視頻文件,移動搜課寶避免了學習者成為下載狂而不把時間和精力放在學習上的普遍問題。學習者只需要下載一個大小不超過幾十MB的示例課程視頻(使用IE8.0以上瀏覽器下載特別方便)或者上傳任何自己滿意的課程短視頻至移動搜課寶進行在線課程搜索,搜到自己滿意的課程便可加入購物車隨時付款,商家收到付款后隨時提供課程視頻下載鏈接。這種網購模式給學習者挑選課程帶來便捷的同時也會產生一些新的問題:1.如何在茫茫課程中直觀了解到自己中意的課程并快速購買自己滿意的課程;2.對于不同商家的同一種課程如何進行比較,這些是移動搜課寶的研究重點。隨著 4G智能手機的普及,移動 4G網絡最大的優勢是網速快、更靈活方便,4G通信系統的速度達到10Mb/s~ 20Mb/s,最高上限是100Mb/s,4G網絡終端具有更好的兼容性,能無縫對接不同的系統來回自由切換,具有全球通信漫游、開放接口、能和多個網絡系統聯接等特點,4G通信方便了人們的日常生活,人們可以隨時隨地
互相通信,實現異地同步雙向上傳或下載資料、圖片、視頻等網絡數據,人們可以充分利用手機的照相功能和錄像功能,結合視頻搜索,隨時隨地購買課程。移動搜課寶通過對課程視頻關鍵幀的自動識別,可以在海量課程視頻數據中快速、準確地尋找到學習者感興趣的課程。
網上搜課怎樣找到自己心中理想的課程呢?有的用戶知道自己要的課程名稱但是不知道課程內容。而有的用戶已經了解想要的課程內容,卻不知道課程名稱。這就需要搜索引擎提供兩種方式的搜索,一種是基于文本的搜索,另一種是基于視頻內容片段的搜索。[3]基于文本的搜索是通過提交關鍵詞進行搜索,它是利用文本描述的方式描述課程的信息,如課程的名稱、錄制日期、課程所在地及文件的大小等,該方式適合第一類用戶的搜索需求。而基于內容的檢索是對視頻片段中的視覺及聲音特征等進行分析和檢索的技術,適合第二類用戶的搜索方式。
通過運用GPRS技術,在課程搜索的同時用數學公式將網絡在線課程所在的地址和用戶的距離進行計算,以幫助用戶定位課程,節約時間。
由于移動網絡帶寬以及手機內存和速度的限制,如何在移動環境下使搜索更加快捷,同時使用戶獲得良好的應用體驗成為技術的關鍵。首先,根據圖像的自身信息,通過在客戶端進行視頻序列特征的提取,并將視頻序列特征信息上傳到服務器端與視頻特征數據庫中特征信息進行相似性比較。最后將相似度大小、課程所在地及用戶所在地等多種信息進行綜合分析和排序,輸出查詢結果。這一方法避免了上傳視頻的大量流量損耗,節約了資源,而且提供的給予位置的搜索服務能大大提高用戶的體驗度。
本系統主要實現以下功能:用戶可選擇不同的搜索方式進行課程搜索。如果選擇基于文本的搜索,則輸入關鍵詞后,系統根據用戶提交的關鍵詞進行匹配。若用戶選擇基于內容的搜索方式,則當用戶上傳該視頻或者圖片后,客戶端對上傳的課程視頻或圖片進行特征提取并上傳到服務器,與服務器中已提取特征的課程視頻進行相似匹配,根據其相似度、課程及買家所在地的位置信息綜合度量排序后返回客戶端。本移動搜課寶系統的總體框架結構如圖3所示。

圖3 系統總體架構圖Fig.3 Overall architecture diagram of the system
1. 查詢模塊。查詢模塊接收用戶需要查詢的課程視頻和關鍵詞,將查詢請求傳給檢索模塊進行操作。
2. 描述模塊。描述模塊將用戶的查詢要求轉化為對視頻內容較抽象的內容表達和描述,即通過視頻分析,以一種計算機可以方便表達的數據結構建立對視頻內容的描述。這個模塊是建立課程視頻數據庫和實現課程視頻檢索的基礎。
3. 檢索匹配模塊。檢索是指對用戶提交的查詢條件與數據庫中的視頻對象進行相似匹配,返回結果對象。該模塊首先對接收到的用戶查詢請求進行分析,對于文本查詢直接進行搜索關鍵詞與視頻描述的匹配;對于提交的視頻,則通過提取視覺特征,并與服務器端特征庫中的視頻特征進行相似匹配,查找出符合條件的視頻集。最后向用戶返回匹配結果并顯示。除此之外,還需匹配課程所在地與買家所在地的空間位置,綜合上述三者匹配結果進行綜合排序。
4. 提取模塊。提取模塊包含客戶端和服務器端。服務器端用于提取數據庫中課程視頻的特征信息,客戶端用于提取客戶提交的視頻片段的特征信息。這樣能有效減少網絡數據傳輸及服務器開銷。
本系統主要包括數據采集、數據檢索、數據顯示和推送服務等功能,具體功能模塊結構如圖4所示。

圖4 系統具體功能模塊結構圖Fig.4 The structure diagram of the specific function module of the system
本系統為用戶提供了一個通過手機快速查找網絡課程的平臺。系統開發環境采用Mac OS X,開發工具采用 Xcode。系統架構采用 C/S結構,視頻數據采集使用Microsoft SQL Server2005數據庫。[4]本系統支持avi、wmv、3gp等視頻格式的檢索。
下面從數據采集、檢索、顯示、推送及后臺管理五個模塊詳細介紹該移動搜課寶檢索系統的實現。
(1)數據采集模塊
通過對采集的網頁分析,進行正則表達式匹配,解析出Deep Web中網頁中課程視頻的實際URL,有效地實現課程視頻的自動批量下載。
信息采集方式包括人工采集和自動采集,即可以人工手動設定網址或者網頁自動分析url地址。本系統數據采集模塊實現采用網頁機器人。網頁機器人是以Web為基礎的程序集合,它通過請求網站站點上的HTML網頁響應后下載程序集,網頁機器人依次遍歷指定范圍內的Web空間,不停地采集各個Web站點的子網頁加入到HTML網頁索引數據庫。網頁機器人工作時會搜索到新網頁上的所有鏈接,為了優化網頁機器人搜索操作,首先我們需要為網頁機器人構建一個原始網頁集,以這個原始網頁集為起點,逐步搜索到全部鏈接,方便收集到整個范圍內的Web空間網頁。
(2)數據檢索模塊
無限查詢子系統是垂直視頻搜索引擎最重要的模塊之一,它采用Web界面。如圖5所示,用戶端通過手機或 PDA等無線輸入設備進行基于關鍵詞或視頻片段的無線檢索。在搜索服務器進行基于混合(語義和內容)索引的查詢。將查詢得到的視頻片段返回應用服務器,并對其結果進行基于語義的視頻聚類,提高查詢結果的精度。最終返回用戶端。

圖5 無線檢索子系統框架Fig. 5 Wireless retrieval subsystem framework
本系統中視頻特征數據通過文本檢索關鍵幀的特征信息,這些關鍵幀的特征數據均以字符串的形式存儲在數據庫中,使用分隔符將每個關鍵幀的特征字符串分隔開來。在進行搜索時,只需讀取數據庫中的特征表,并通過字符串操作解析出來即可完成一系列比較操作。其他數據包括視頻的路徑名、視頻的來源及類別等,與視頻路徑等信息一起存放在數據庫中。
數據檢索模塊由查詢接口和相似性匹配兩個子模塊組成。查詢接口模塊負責用戶以什么樣的方式輸入,通常輸入方式有很多種,如提交關鍵詞、直接提交視頻片段或者給定一張圖片等。本系統采用例子視頻查詢作為用戶需求的輸入方式。用戶可向系統提交一段待查詢的實例視頻。同時,在手機端對實例視頻提取關鍵幀,并得到對應的特征向量,然后系統將示例視頻與服務器端的視頻特征庫中的視頻特征向量進行相似度匹配,得到查詢結果。[5]
主界面分為四個部分,自上到下分別為搜索欄、Logo欄、廣告與推送欄、快捷菜單欄。搜索欄共有三個組件:關鍵詞輸入框、錄像(選擇視頻)搜索按鈕、關鍵詞搜索按鈕。Logo欄為軟件的Logo與標語。廣告與推送欄則由預留廣告和系統自動計算出的推送課程組成。快捷菜單欄內有快捷登錄與退出按鈕。
(3)數據顯示模塊
將視頻數據庫中的每個視頻與Simple視頻的相似度值進行相似性計算并匹配,然后把結果反饋給用戶。[6]搜索結果使用兩種顯示方式:一種是縮略圖,另一種是列表。搜索結果共分為三個部分,分別為快捷搜索欄、結果列表以及菜單欄。除了結果列表,其他與上面相同,列表項內容按照以下部分顯示:左邊為課程圖片,右邊自上而下分別為課程名稱、播放課程視頻、課程價格、關注訂閱、課程評價、課程推薦指數及課程所在地與用戶當前所在地距離。同時,該系統還可以定位課程所在的位置。這樣可以方便買家進行實體學校培訓。
(4)數據推送模塊
視頻信息個性化推送子系統如圖6所示,首先由用戶通過移動網絡制定訂閱規則及用戶喜好,并存放到訂閱庫中。在這之前,系統將會對用戶的身份進行識別。然后推送服務器根據這些制定的信息對收集視頻信息的系統進行分析判斷,并將符合條件的信息條目通過訂閱工具推送給客戶或者通過郵件系統發送Email通知客戶。[7]

圖6 課程信息個性化推送子系統框架Fig. 6 The framework of personalized push subsystem for curriculum information
系統個性化推送界面已經集成在主界面中。此部分的數據均為系統自動計算出的結果,系統根據當前用戶的喜好推送相關課程。
(5)后臺管理模塊
本系統使用Web系統作為系統的管理模塊,實現了隨時隨地無縫維護操作。[8]后臺管理界面如圖8所示。它分為頂部導航欄、側邊導航欄及管理面板三部分。頂部導航欄吸附了最常用的操作,可快速地實現對搜索引擎的設置管理,以及相關幫助的查詢。左側導航欄詳細羅列出了所有支持的系統管理操作,通過點擊這些鏈接即可完成整個系統的詳細設置維護功能。管理面板實現了詳細的子項管理功能。通過該Web在線管理系統,搜索引擎能夠便捷地完成一系列的維護管理操作。
本文主要闡述了基于IOS平臺的移動搜課寶系統設計。該系統提供給用戶多模態的課程視頻搜索服務,并且能實現個性化課程信息制定與推送,滿足用戶多種需求。用戶通過視頻描述本身能更好地詮釋課程內容,知道并了解學習者更想要哪種視頻課程的需求,填補了目前國內外真正的基于內容理解的系統不多的現狀。