999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

“碎片化”在網站圖書檢索中的應用

2014-10-30 11:55:54金安
出版參考 2014年18期
關鍵詞:搜索引擎內容

金安

伴隨著讀者在互聯網上以自定義主題(詞組或短語)為條件,進行相關圖書信息搜索的需求越來越多,傳統的檢索方式由于不適應自然語言的結構而明顯落伍,用戶希望網站的搜索引擎,能夠提供基于內容的、更新更快且更加完備的相關書目信息資源,這就對我們出版社網站的信息架構——信息的組織方式和處理模式——提出了新的挑戰。

我們知道,讀者自定義的搜索主題是用自然語言表述的,因而必然是由字和詞按一定規則構成,當然還可能包含一些符號或標點。再觀察我們的圖書內容,也同樣是由這些基本元素構成的。要想在兩者之間建立起聯系,并尋找對應關系,就應當從這些基本單元入手。由于漢語中的詞比單個字具有更加完整的含義,所以我們把詞作為基本的構成單元對待。將描述或構成圖書內容的文本,拆分成具有獨立含義的詞,是尋找內容相關性的基本前提。而這一過程,就是我們所說的“碎片化”。那么,需要對哪些內容對象進行碎片化?碎片化過程依據什么進行?使用什么工具進行碎片化?到底碎片化到什么程度?碎片化是如何影響搜索引擎性能的?碎片化加工可以一勞永逸嗎?本文分別來探討這些問題。

一、碎片化對象選擇問題

碎片化就是對文本進行切分,作為一種技術手段,其應用對象的選擇一定要與功能目標相一致。所以,我們首先要選擇能夠最全面描述圖書內容的文本,這就是章節目錄,其次是內容簡介。因為目錄中有的詞,正文中一定有,而且多是比較重要的詞。這對于以內容檢索為目的的相關性判斷,就可以達到基本要求了。當然,如果有全文,可以使檢索的范圍更全面,以致不漏掉任何一個詞,但同時也會使運算量成幾何級數的遞增,這一點與數字出版的要求不同,在線搜索功能對性能近乎苛求,所以我們未將正文列入切分范疇。還有,如果有樣章,我們可不可以將其作為碎片化對象呢?這要具體分析一下是什么樣的樣章。一般科技類圖書的第一章大多為概述,其后的各章將分別論述很具體的內容。那么,這類概述類的章節最適合作為碎片化對象,而其他表述具體內容的章節,會因其只突出部分特定內容,而造成與該內容相關性高的誤判,所以不應做這種選擇。還有一個要點值得注意,就是對于整個系統而言,選擇對象的原則只能有一個。

二、碎片化過程依據什么進行

即對內容切分時應依據什么標準。要想讓計算機像人一樣,在充分理解自然語言的基礎上,對文本進行合理切分,目前還有很長的路要走,這是計算語言學或人工智能研究的課題。但是,不完全理解并不代表不能切分,我們可以根據規則和經驗,依據已有的資源,在掌握一定的自然語言規律的基礎上,完成基本正確的切分。雖然這種切分不是基于對自然語言的充分理解,會有一些歧義產生,但應用實踐的結果表明,對于本文探討的以內容檢索為目標的應用,這種切分方式是可以滿足功能需求的,準確性是我們可接受的。我們在吸取前人經驗的基礎上,實踐過兩種切分方式,并分別應用于不同場合。

基于字符匹配的切分方法。即按照一定的策略,將對象文本中的漢字組合(字符串)與一個充分大的詞典中的詞條進行對照匹配,如果能在詞典中找到完全相同的字符串,就能識別出這個詞。當然,上述的取詞策略非常重要(以后還會談到)。

基于頻率統計的切分方法。直觀的看,字的穩定組合就形成了詞,因此在上下文中,相鄰兩字同時出現(共現)的次數越多,就越有可能是詞。所以字與字相鄰共現的頻率能夠很好的反映它們成詞的可信度。實踐中,我們可以通過概率方法將這種相對頻度計算出來,當共現概率超過一定數值時,我們就認為這些字構成了一個詞。這里有一個前提需要大家注意,就是用于計算共現概率的樣本文檔(我們稱之為語料庫),必須與我們產品的實際內容相吻合,這一點很重要。

上述兩種方法為我們進行內容信息的碎片化處理,提供了可行的依據和標準。

三、使用什么工具進行碎片化

在碎片化的方法和參數確定下來以后,我們就可以進行切分操作了,這里離不開兩個重要工具。

詞庫。這是切分時依據的標準。漢語詞匯是海量的,我們可以把它分為通用詞和專用詞兩大類,因而就需要有通用詞庫和專用(業)詞庫。一般通用詞庫可以選擇標準的或權威機構提供的,詞匯量6萬-10萬個的基本可以夠用。

中文自動分詞系統。這是一個計算機文本處理的軟件工具。我們利用它在內容切分過程中實現如下功能:將文本中兩個標點符號之間的漢字,按照我們定義的標準或規則,切分成若干個獨立的詞匯,并過濾掉其余無意義的單字,再將多次出現的詞匯合并,同時記錄下該詞出現的頻率。這樣,原本連續的文檔,就分解為若干獨立的詞匯及詞頻記錄,形象地表述就是被“碎片化”了。當然,上述切分是有不同方式的,從左向右的逐字取詞稱為正向匹配,而從右向左的稱為反向匹配,實踐表明,反向匹配的正確率高于正向匹配,歧義出現的也比較少。還有,根據取詞長度的不同,存在由最大匹配至最小匹配的多種組合方式。在最終決定采取何種切分策略時,應本著在運算速度可接受的前提下,盡可能提高分詞質量的原則,不過這可能需要反復進行摸索與評測。

四、碎片化的程度應如何把握

搜索引擎的工作機制是將我們碎片化了的內容,與用戶輸入的描述搜索條件的語句進行對比匹配,因而,也必須對該搜索條件語句進行碎片化。由于這些條件都是以自然語言形式表述的,所以,要做到完全正確的切分難度很大。一旦切分錯誤,將帶來后續檢索和判斷的一系列問題,無法保證搜素引擎的質量。鑒于目前的計算機技術尚不能做到對自然語言的完全正確理解,所以,我們只能采取充分匹配的方法,窮盡從最小匹配至最大匹配的所有可能,而不漏掉任何一個詞。我們稱之為“多粒度”方法。當然,這個原則也必須同樣應用到我們對內容的碎片化上。之后的問題,就是如何確定最大匹配值,即最大詞長,這與我們的內容有關。大多數情況下,到訪出版社網站的客戶,其對內容的需求多是與該社出版領域相吻合的,就是說,用戶的搜索習慣與出版物的內容特點是有相關性的。所以結論是,碎片化的程度,還要兼顧本社產品的內容特點。

五、碎片化對搜索引擎性能的影響

碎片化是搜索引擎進行檢索和判斷的基礎和前提。經過基本的碎片化加工以后,我們可以從出現頻率的角度,定量地考察各相關詞匯(稱為索引詞)與內容的相關度,但實踐表明,這還不夠。由于我們并沒有對正文的全部進行碎片化處理,就忽略了章節內容(長短不同)對圖書整體相關性產生的影響。因此,我們需要挖掘一些能夠定性描述圖書核心內容的關鍵詞,來補償或校正這一影響。既然這些詞起的是定性作用,那么我們就要賦予其較大的權重,相當于它們所代表的內容以高于平均值的頻率出現在總體內容中。實踐證明,這一措施對提高搜索引擎的質量做出了重要貢獻。那么,到哪里去提取這些描述圖書核心內容的關鍵詞(也稱為特征項)呢?我們把焦點瞄準了網站的產品數據庫。經篩選,我們把CIP關鍵詞、中圖法分類、自定義分類、作譯者名、書名、ISBN列為特征項,進行同樣的切分,并賦予高權重。因而,我們所講的碎片化是對所有內容(包括定量的和定性的兩部分)而言的廣義碎片化。總而言之,碎片化的方式、對象和標準對搜索引擎的性能有重大影響。

六、碎片化是與內容生產永久相伴的

碎片化加工不能一勞永逸,只要新書的生產不停頓,就不斷會有新的內容,在經過碎片化處理后,被加入到索引數據庫中,否則,搜索引擎就無法檢索到它們。正是由于這些新書不斷地出現在搜索引擎的結果列表中,網站的新書推薦有了新的途徑。因為在新書上市的初期,讀者在尚不了解新書信息的情況下,是不可能用書名去進行查詢的。而當他們進行主題搜索時,無意中發現了許多新書信息,這勢必引起讀者的關注,使他們產生閱讀的沖動。所以,碎片化處理已成為與新書發布同步的網站日常作業。同時,新書內容中不斷涌現的新詞,也是我們豐富和完善專業詞庫的主要來源。

碎片化作為內容結構化處理的一種方式,是我們在出版社網站上的首次嘗試,還僅僅是一些探索和實踐。在其構思、設計、測試、實施和運維的過程中,我們總結出如下三點基本經驗。

專業詞庫建設,是最重要的基礎工作,必須持之以恒的做好。

詞庫是碎片化加工的必備工具,如果沒有專業詞庫,就無法保證具有自身特點的內容被正確的切分,搜索引擎將顯得很不專業,無法發揮出版社網站的資源優勢。而專業詞庫的建設可以有依據詞典生成、購買定型產品和基于語料庫的統計識別三種途徑。我們選擇的是第三種,即構建自己的語料庫用于詞頻統計及篩選,該方法不僅花費少、影響因素少,而且能夠最大限度地利用本出版社的內容資源,也最切合自身內容特點,并且為以后的擴充和升級詞庫創造了條件。

必須結合出版社自身特點,并不斷總結經驗,優化完善。

任何新理論新技術,都不能拿來機械地直接使用,而必須考慮應用對象的特點。出版社有自己的出版領域、產品特色、內容特點、資源形式、數據結構、人才優勢,這些都是確定方案及參數的依據和基礎。關鍵在于如何與技術設計相結合,經不斷總結經驗、測試修改、優化完善,一定可以達到實用化水平。但這是一個逐步實現的過程。

理論與實踐、信息技術與出版業務必須緊密結合。

信息技術飛速發展,我們應不斷學習和掌握新的理論知識,同時又要敢于實踐,才能將創新思想轉化為創新實踐,從而推動行業的信息化水平不斷提高。同時,新技術的應用還要找準突破點,在出版業務有需求、信息技術有可能的結合點上下功夫,就能夠取得成功。在開發過程中,既要有突破性的創新邏輯構思,又要兼顧業務需求在模型算法中的合理實現。

網站信息的碎片化加工,是我們在內容結構化處理領域的一次嘗試,其目標是為搜索引擎提供結構化的數據基礎,是在探索和實現計算機理解自然語言——這一宏偉愿景過程中的一次實踐探索。 (作者單位系科學出版社)

猜你喜歡
搜索引擎內容
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
內容回顧 溫故知新
科學大眾(2021年21期)2022-01-18 05:53:48
內容回顧溫故知新
科學大眾(2021年17期)2021-10-14 08:34:02
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
Nutch搜索引擎在網絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 在线观看精品国产入口| 黄色国产在线| 第九色区aⅴ天堂久久香| 欧美黄色网站在线看| 中文字幕久久亚洲一区| 色噜噜狠狠狠综合曰曰曰| 久久成人国产精品免费软件| 免费在线看黄网址| 精品久久香蕉国产线看观看gif| 欧美一区二区自偷自拍视频| 九月婷婷亚洲综合在线| 精品无码专区亚洲| 亚洲婷婷在线视频| 婷婷亚洲视频| 欧美午夜一区| 欧美日韩亚洲国产| 97久久人人超碰国产精品| www.亚洲一区二区三区| 日本成人一区| 91精品国产丝袜| 成人福利在线视频| 国产精品男人的天堂| 亚洲成av人无码综合在线观看| 久久黄色小视频| 青草精品视频| 国产97视频在线| 精品超清无码视频在线观看| 福利在线免费视频| 激情综合婷婷丁香五月尤物| 日韩av无码精品专区| 日韩AV手机在线观看蜜芽| 亚洲手机在线| 欧美色香蕉| 国产精品林美惠子在线播放| 婷五月综合| 国产成人久久综合777777麻豆| 久久香蕉国产线| 午夜a视频| 日韩在线成年视频人网站观看| 欧美精品一二三区| 欧美日韩一区二区三区四区在线观看| 欧洲欧美人成免费全部视频| 亚洲性影院| 中文字幕 91| 波多野结衣中文字幕一区| 国产成年女人特黄特色大片免费| 亚洲天堂高清| 久久精品这里只有精99品| 国产亚洲欧美另类一区二区| 成人在线不卡| 五月天福利视频| 国产精品流白浆在线观看| 亚洲人成成无码网WWW| 日韩成人免费网站| 欧美国产另类| 欧美精品成人| 久久精品免费国产大片| 久久网欧美| 欧美色香蕉| 免费观看欧美性一级| 亚洲综合久久一本伊一区| 日韩乱码免费一区二区三区| 久久综合色88| 国产黑丝一区| 久久综合伊人77777| 999国内精品视频免费| 国产三级a| 亚洲中文字幕无码爆乳| 久久免费看片| 97视频精品全国免费观看 | 国产手机在线观看| 国产成人高精品免费视频| 四虎亚洲精品| 国产精品久久久久婷婷五月| 美女被操91视频| 国产欧美日韩视频一区二区三区| 久久毛片网| 亚洲婷婷六月| 亚洲欧洲日韩综合色天使| 91精品国产一区| 999精品在线视频| 久久久精品久久久久三级|