999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

日文網(wǎng)絡(luò)語(yǔ)料信息智能篩選的實(shí)現(xiàn)方法研究

2019-02-13 09:15:51尚玉葉鄭新超
數(shù)字通信世界 2019年5期
關(guān)鍵詞:語(yǔ)義詞匯文本

尚玉葉,鄭新超

(南通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院、外國(guó)語(yǔ)學(xué)院,南通 226019)

隨著信息高速公路的快速發(fā)展,搜索引擎在信息覆蓋率、精準(zhǔn)度和信息響應(yīng)時(shí)間等方面的要求越來(lái)越高。日語(yǔ)學(xué)習(xí)者在查詢資料或資訊時(shí),常伴隨著冗余垃圾信息的困擾。同時(shí),網(wǎng)絡(luò)數(shù)據(jù)的飛速增長(zhǎng)為搜索引擎帶來(lái)了巨大的存儲(chǔ)和網(wǎng)絡(luò)服務(wù)壓力。因此,本文嘗試在日語(yǔ)學(xué)習(xí)與交流的跨平臺(tái)APP 開(kāi)發(fā)過(guò)程中,針對(duì)日文網(wǎng)絡(luò)資料進(jìn)行自動(dòng)檢索,并過(guò)濾、篩選敏感信息,以提高學(xué)習(xí)平臺(tái)資源信息的精準(zhǔn)性和可靠性。

1 語(yǔ)料信息檢索

網(wǎng)絡(luò)爬取、建立索引數(shù)據(jù)庫(kù)、排序是搜索引擎的三大基本工作原理。利用python 爬取網(wǎng)頁(yè),從中提取反應(yīng)頁(yè)面內(nèi)容的字符串,索引程序提取字符串中的關(guān)鍵詞,通過(guò)建立以頁(yè)面為主索引的正向索引文件并將其存儲(chǔ)到索引數(shù)據(jù)庫(kù)。而倒排索引[1]則是建立以關(guān)鍵詞為索引的索引表,用戶輸入搜索詞,對(duì)搜索詞進(jìn)行處理形成一個(gè)或多個(gè)關(guān)鍵詞,搜索系統(tǒng)查找倒排索引,從中讀出包含這個(gè)關(guān)鍵詞的多個(gè)頁(yè)面,從而滿足用戶快速完成搜索的需求。搜索引擎反饋給用戶的看似簡(jiǎn)單的過(guò)程實(shí)則很復(fù)雜。用戶輸入搜索詞需要文本分析、語(yǔ)義分析等,對(duì)反饋結(jié)果需要經(jīng)過(guò)鏈接分析、敏感詞判斷等處理。

2 文本、語(yǔ)義分析

在面向大數(shù)據(jù)的環(huán)境中,利用語(yǔ)義分析的方法對(duì)評(píng)論進(jìn)行挖掘[2]成為大數(shù)據(jù)的主要研究領(lǐng)域之一,也是當(dāng)下比較熱門(mén)的話題。目前,國(guó)內(nèi)外都在這方面投入了大量的人力、物力進(jìn)行更多探索性的研究。部分研究已在市場(chǎng)上運(yùn)行,并取得較好的用戶體驗(yàn),譬如各種APP 個(gè)性推薦頁(yè)面、慕課相似課程推薦等,這使得文本、語(yǔ)義分析尤為重要。

(1)文本分析。對(duì)用戶輸入文本中的數(shù)字、連接符、標(biāo)點(diǎn)符號(hào)和字符的大小進(jìn)行預(yù)處理,過(guò)濾掉區(qū)分能力低的詞匯,決定對(duì)哪些關(guān)鍵詞建立索引。搜索引擎接口返回的列表內(nèi)容或多或少的有著不同的linkURL 卻有著相同的內(nèi)容。自動(dòng)提取關(guān)鍵詞的算法就是計(jì)算出文檔特征項(xiàng)的TF-IDF 值,具有較高權(quán)重的TF-IDF 特征項(xiàng)代表文本。詞袋模型是關(guān)注文檔中出現(xiàn)的已知詞,忽略其詞序、語(yǔ)法、句法等要素,即詞與詞之間是獨(dú)立的,最終都是以N維特征向量的表現(xiàn)形式表示。譬如有一個(gè)文本包含兩個(gè)簡(jiǎn)單句,分別是“我是一個(gè)學(xué)生”,“他也是一個(gè)學(xué)生”,則詞集為{我、他、也、是、一、個(gè)、學(xué)生}對(duì)應(yīng)的向量分別是[1001111]、[0111111]。基于此可以排查相似網(wǎng)頁(yè)顯示給用戶,提高檢索率。

(2)語(yǔ)義分析。在提高用戶的查詢效率、分析用戶喜好、提高用戶體驗(yàn)等方面起著不可替代的作用。基于本APP 的用戶主要是日語(yǔ)學(xué)習(xí)者,交流的大都是日語(yǔ)相關(guān)的話題,本文的語(yǔ)義分析主要是基于詞共現(xiàn)的語(yǔ)義分析。一個(gè)文本由若干個(gè)詞組成,采用基于詞典的建立詞表方法,對(duì)選定文本進(jìn)行正向最大匹配和逆向最大匹配相結(jié)合的處理。假設(shè)分別有中文詞表{個(gè)性、體驗(yàn)、詩(shī)人、詩(shī)、有、的、中}和日文詞表{人工、知能、は、発展、潛在、力、の、ある、學(xué)科、である},則{詩(shī)中有詩(shī)人的個(gè)性體驗(yàn)}、{人工知能は発展?jié)撛诹Δ韦ⅳ雽W(xué)科である}這兩句話通過(guò)分詞分別得到{詩(shī)/中/有/詩(shī)人/的/個(gè)性/體驗(yàn)}和{人工/知能/は/発展/潛在/力/の/ある/學(xué)科/である}的詞集。基于詞共現(xiàn)(Co-OccurrenceWordModel)的向量空間模型,假設(shè)若干詞經(jīng)常共現(xiàn)在文本的同一個(gè)窗口單元內(nèi),則這若干詞在意義上是相互關(guān)聯(lián)的。窗口內(nèi)共現(xiàn)詞越多,則其內(nèi)的相互關(guān)聯(lián)程度越高。對(duì)窗口大小的設(shè)置可以根據(jù)個(gè)人需要調(diào)節(jié)。若兩個(gè)特征項(xiàng)的相關(guān)度超過(guò)一定的閾值,則將這兩個(gè)項(xiàng)連接,對(duì)所有的特征值進(jìn)行兩兩比較相關(guān)度,從而形成詞共現(xiàn)圖。一個(gè)連通子圖代表著一個(gè)關(guān)鍵語(yǔ)義,子圖中的特征項(xiàng)節(jié)點(diǎn)說(shuō)明該子圖其權(quán)值越大,對(duì)文本的語(yǔ)義貢獻(xiàn)越大,越能代表文本的語(yǔ)義。取靠前的K 個(gè)特征項(xiàng)子圖,與語(yǔ)料庫(kù)進(jìn)行匹配敏感詞匯,得出語(yǔ)義。

3 敏感信息的識(shí)別與過(guò)濾

為減少敏感信息的出現(xiàn),需通過(guò)算法自動(dòng)識(shí)別并過(guò)濾敏感詞匯。常用的過(guò)濾算法有:規(guī)則匹配算法、神經(jīng)網(wǎng)絡(luò)的信息匹配算法[3]等。本文嘗試在建立敏感詞庫(kù)的基礎(chǔ)上進(jìn)行基于語(yǔ)義的敏感信息檢測(cè)。

(1)敏感詞匯庫(kù)的建立。第一步,對(duì)比現(xiàn)有網(wǎng)址與敏感網(wǎng)址庫(kù)里的網(wǎng)址記錄,若有相同的記錄存在則該網(wǎng)址的網(wǎng)頁(yè)顯示空白網(wǎng)頁(yè),否則對(duì)該網(wǎng)址的內(nèi)容下載;第二步,內(nèi)容的過(guò)濾操作,但先不展示給用戶,把下載的內(nèi)容與敏感詞匯庫(kù)中的記錄進(jìn)行比對(duì),若內(nèi)容中包含敏感詞匯庫(kù)的敏感詞匯,則將該網(wǎng)址記錄到敏感詞匯庫(kù),為下一次的敏感網(wǎng)址庫(kù)記錄對(duì)比做準(zhǔn)備,并顯示空白網(wǎng)頁(yè),否則進(jìn)行網(wǎng)頁(yè)的圖片過(guò)濾;第三步,對(duì)于圖片過(guò)濾需先建立一個(gè)圖片庫(kù),通過(guò)膚色檢測(cè)算法和紋理檢測(cè)模型等[4]進(jìn)行圖像過(guò)濾。

(2)基于語(yǔ)義的敏感信息檢測(cè)。語(yǔ)義向量空間模型[5]是被GenardSalton 和Salton,Wong,&Yang 在SMART 信息檢索系統(tǒng)所發(fā)展。語(yǔ)義向量空間模型VSM 的主要思想是把集合里的每個(gè)文檔表示為空間的一個(gè)點(diǎn),空間中的點(diǎn)距離越近,語(yǔ)義相似性就越高;空間中的點(diǎn)距離越遠(yuǎn),語(yǔ)義上相似度減小。在擁有敏感詞匯庫(kù)的基礎(chǔ)之上,通過(guò)建立語(yǔ)義向量空間模型搜索詞匯。

對(duì)待檢測(cè)敏感詞匯的鑒別最關(guān)鍵技術(shù)就是判斷其語(yǔ)義信息,為了能夠發(fā)現(xiàn)待檢測(cè)詞之間的內(nèi)在關(guān)系,可以構(gòu)造一個(gè)m*n 的敏感信息轉(zhuǎn)化矩陣。每一列是表示的是敏感詞匯組成的文本向量。對(duì)矩陣進(jìn)行降維為一個(gè)純量陣,是轉(zhuǎn)化矩陣的參數(shù),得出待檢測(cè)詞匯的主要內(nèi)容,提取內(nèi)容,便能得到相關(guān)詞匯的語(yǔ)義信息,將無(wú)關(guān)的語(yǔ)義信息過(guò)濾掉,排除部分敏感詞匯,提取需要的關(guān)鍵語(yǔ)言信息,從而提高語(yǔ)義檢索的速度。

為了取得更好的過(guò)濾效果,可以運(yùn)用閥值理論對(duì)詞匯進(jìn)一步篩選,將詞匯按照不同的語(yǔ)義分為敏感和非敏感詞匯,降低漏檢率,提高系統(tǒng)的性能。輸入多個(gè)檢索詞進(jìn)行多次檢索,從而評(píng)價(jià)信息檢索系統(tǒng)的性能水平。為驗(yàn)證這一方案,本文嘗試基于詞共現(xiàn)模型的語(yǔ)義分析對(duì)朝日新聞的數(shù)據(jù)庫(kù),包括9個(gè)類別、53個(gè)關(guān)鍵詞庫(kù),共1630000個(gè)文檔,利用詞共現(xiàn)模型和模式匹配兩種方法進(jìn)行檢索,本方案的檢索效率顯而易見(jiàn)。

4 結(jié)束語(yǔ)

本文在建立語(yǔ)料庫(kù)的基礎(chǔ)上進(jìn)行了基于詞共現(xiàn)語(yǔ)義分析與敏感詞匯的識(shí)別,主要優(yōu)點(diǎn)有:一是語(yǔ)義分析對(duì)查詢結(jié)果進(jìn)行分析,給用戶更好的體驗(yàn);二是敏感詞匯對(duì)結(jié)果進(jìn)行篩選,屏蔽敏感詞匯。目前,在語(yǔ)料庫(kù)方面主要借鑒了少納言語(yǔ)料庫(kù)和中文語(yǔ)料庫(kù),未建立自身的語(yǔ)料庫(kù),考慮更多語(yǔ)義因素是下一步要研究的重點(diǎn)。

猜你喜歡
語(yǔ)義詞匯文本
本刊可直接用縮寫(xiě)的常用詞匯
一些常用詞匯可直接用縮寫(xiě)
語(yǔ)言與語(yǔ)義
在808DA上文本顯示的改善
本刊可直接用縮寫(xiě)的常用詞匯
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
如何快速走進(jìn)文本
主站蜘蛛池模板: 奇米影视狠狠精品7777| 精品国产亚洲人成在线| 亚洲美女一区| 在线国产毛片| 91成人在线观看| 在线看片国产| 91小视频在线| 亚洲v日韩v欧美在线观看| 日韩高清中文字幕| 福利一区三区| 色老头综合网| 国产在线一区二区视频| 夜夜操天天摸| 国产又大又粗又猛又爽的视频| 免费人成又黄又爽的视频网站| 亚洲一区波多野结衣二区三区| 亚洲无码视频喷水| 免费视频在线2021入口| 亚洲人成亚洲精品| 国产中文在线亚洲精品官网| 在线色国产| 国产精品久久久久久久伊一| 一级看片免费视频| 亚洲第一成网站| 男女男免费视频网站国产| 色天堂无毒不卡| 五月天福利视频| 欧美一道本| 97在线国产视频| 日韩不卡高清视频| 亚洲人成在线精品| 2020亚洲精品无码| 丝袜美女被出水视频一区| 国产成人精品日本亚洲| 91精品专区| 国产精品lululu在线观看| 日韩免费毛片视频| 国产乱论视频| 国产自无码视频在线观看| 亚洲乱强伦| 国产欧美日韩另类| 国产精品欧美日本韩免费一区二区三区不卡 | 91欧美在线| 天天做天天爱天天爽综合区| 日韩最新中文字幕| 亚洲伊人电影| 国产激情无码一区二区APP| 国产精品久久久久久久久| 亚洲精品动漫| 毛片基地美国正在播放亚洲 | 国产91色在线| 69av在线| www.av男人.com| 中文字幕在线欧美| 国产综合精品日本亚洲777| 国产视频资源在线观看| 精品人妻系列无码专区久久| 欧美福利在线| 免费啪啪网址| 黄片一区二区三区| 国产电话自拍伊人| 真实国产乱子伦视频| 亚洲欧美不卡视频| 91小视频版在线观看www| 91福利片| 欧美日韩精品一区二区视频| 小蝌蚪亚洲精品国产| 亚洲嫩模喷白浆| 呦女精品网站| 在线无码av一区二区三区| 国产视频欧美| 国产亚洲视频免费播放| 萌白酱国产一区二区| 国产XXXX做受性欧美88| 天堂在线www网亚洲| 97久久人人超碰国产精品| 看你懂的巨臀中文字幕一区二区| 亚洲欧美精品一中文字幕| 无码高潮喷水专区久久| 男女猛烈无遮挡午夜视频| 18禁黄无遮挡免费动漫网站| 一区二区欧美日韩高清免费 |