袁鑫攀 彭成 盛鑫海


摘要:隨著現(xiàn)代化教育的快速發(fā)展,多媒體課件的數(shù)量出現(xiàn)爆炸式增長。海量課件帶來檢索低效、準確率低等問題。論文設計基于Solr的多媒體教學課件的云檢索系統(tǒng),實現(xiàn)了課件的高效靈活的緩存功能、在線檢索、查重和管理功能、高亮顯示結(jié)果功能,并且通過索引復制來提高可用性。
關(guān)鍵詞: 課件檢索,Solr,課件去重
1 引 言
隨著現(xiàn)代化教育的快速發(fā)展,盡管高校有一定程度的課件管理系統(tǒng),海量課件檢索效率和精度都不足。Solr[1]是一個獨立的基于Lucene[2]搜索應用服務器,它對外提供類似于Web-service的API接口。用戶可以通過http請求,向搜索引擎服務器提交一定格式的XML文件,生成索引;也可以通過Http Get操作提出查找請求,并得到XML格式的返回結(jié)果。
2 系統(tǒng)結(jié)構(gòu)
2.1 功能結(jié)構(gòu)
基于Solr的課件云檢索系統(tǒng)的功能結(jié)構(gòu)分為5個部分。1)在線檢索:對各類課件進行不層次需求的檢索功能;2)在線查新:檢測課件的重復情況;3)分類瀏覽:瀏覽各種類別的課件;4)高亮顯示:高亮顯示檢索的結(jié)果;5)對比查看:對比課件的相似性證據(jù)。
2.2 軟件結(jié)構(gòu)
系統(tǒng)軟件結(jié)構(gòu)如圖1所示。1)數(shù)據(jù)層:提供數(shù)據(jù)源,包括數(shù)據(jù)庫和索引文件。2)核心業(yè)務層主要是依賴Solr框架,利用分析器對文檔切分,建立分布式倒排索引;并且能夠提供關(guān)鍵詞檢索服務。3) 用戶應用層實現(xiàn)用戶與系統(tǒng)交互。
3 系統(tǒng)實現(xiàn)
3.1索引文件的創(chuàng)建和更新
1)配置參數(shù):a)配置索引性能參數(shù),修改 solrconfig.xml文件;b)配置索引結(jié)構(gòu)參數(shù),修改Schema.xml(/opt/solr/conf/schema.xml) 文件,定義fieldType、 fields、copyField等索引的主體字段。c)更改schema.xml (/opt/solr/conf/schema.xml) 文件,使分詞器起到作用。d)配置mysql數(shù)據(jù)庫,導入連接mysql的jar包mysql-connector-java-5.1.7-bin.jar,放在tomcat的lib目錄下。
2)使用Solrj操作Solr
1、對向Solr提交索引進行一定的封裝以方便業(yè)務系統(tǒng)進行操作。
2、對搜索進行封裝,以方便結(jié)果的展現(xiàn)分析等等。
Solrj是使用java編寫的一個操作Solr的工具,方便于進行索引的更新、搜索結(jié)果的獲取等等。在Solr的發(fā)布包里面有Solrj的相關(guān)jar包。Solrj需要的jar包為:apache-solr-solrj-4.0.0.jar和他的依賴包solr/dist/solrj-lib。
3)課件特征提取
特征提取是將課件中的所有文本分割成為短語,然后抽取出shingles特征。通過正向最大匹配分詞算法將長句進行科學劃分,過濾掉高頻低義的虛詞、助詞,然后再抽取出shingles特征傳給solr接口,建立索引。
3.2 在線云檢索
通過http服務發(fā)出課件的關(guān)鍵詞查詢請求,代碼如下:
1.SolrServer ss = new CommonsHttpSolrServer( "http://localhost:8080/solr1/collection1/");
2.SolrQuery qu = new SolrQuery("*:*");
3.qu.add(ShardParams.SHARDS,"localhost:8080/solr2/collection1/,localhost:8080/solr1/collection1/");
4.QueryResponse resp = ss.query(qu);
5.System.out.println(resp);
其中關(guān)鍵在于,搜索請求需對solrcore服務器進行定位,再通過solrcore轉(zhuǎn)發(fā)到其他的從節(jié)點服務器。
3.3 課件去重和課件對比
(1)課件去重
檢測重復的課件主要是為了提高資源利用率,提高用戶的使用體驗。將每個課件拆分成為粒度句子級別的元素集合,對每個元素檢索的同時,即可獲得按相似率排序顯示的課件列表。
(2)對比查看
記錄查重中重復的證據(jù)并高亮顯示,點擊界面左邊的課件中紅色的高亮證據(jù),會將界面右邊的相同句子或者短語著藍色,能夠醒目的顯示兩課件重復之處。
4.結(jié)束語
在過去的幾十年里,在線多媒體學術(shù)課件的應用取得了巨大增加,這些教育資源潛在地改變著人們的學習方式,隨著文本檢索技術(shù)日益成熟, 論文設計了一種有效地從多媒體課件中找到感興趣的資源的solr云檢索方法,得到了系統(tǒng)的實證。
參考文獻
[1] 王小森.基于Solr的搜索引擎的設計與實現(xiàn)[D].北京:北京郵電大學,2011.
[2] 林碧英,趙銳,陳良臣.基于Lucene的全文檢索引擎研究與應用[J].計算機技術(shù)與發(fā)展,2007,17(5):184-186endprint