999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文文本中兩詞語關聯規律分析

2018-10-25 00:59:10李學文周子璇熊能陳瑜
大學圖書館學報 2018年1期

李學文 周子璇 熊能 陳瑜

摘要 分析文本中詞語關聯規律對于解決信息檢索與文本語義研究中許多問題具有重要的價值和意義。首先建立測試平臺,對詞對語義與構成詞對的兩詞在文本中語義的相符性進行人工判斷,然后依據兩詞語在文本中所處位置差異、文本類型、分句長度、詞頻等標準,對數據進行分組統計和聚類分析得出兩詞在文本中的關聯規律,最后指出不足及下一步研究的方向。

關鍵詞 中文文本 詞語關聯 規律

分類號 G354

DOI 10.16603/j. issn1002 -1027. 2018. 01. 007

l 引言

研究詞語之間的語義關系對解決自然語言理解、人工智能以及機器翻譯等方面的問題,都具有重要的價值和意義。信息檢索與文本語義研究時,為了提高信息過濾、關聯度計算和語義索引建立等各項技術處理結果的完整性、準確性和可靠性都有必要對文本中詞語之間的語義關聯規律進行分析。信息過濾中,當輸入線索是多個檢索詞(或可轉化為多個檢索詞)時,字段檢索、關鍵詞索引檢索和全文檢索技術會通過布爾檢索連接這些詞語并判斷出所需信息,布爾檢索將文本中是否含有檢索詞作為信息命中與否的依據,用戶檢索時不管這些檢索詞有多么生疏,只要在文本中出現了一次就可以檢索到。例如,對包含文字“寧夏枸杞、蘭州百合”的信息進行“蘭州and枸杞”的檢索時,這段信息將符合檢索條件,導致獲取錯誤檢索結果。排序技術將信息檢索結果按照與輸入線索的關聯度排列,關聯度主要是通過關鍵詞在文本中出現的位置和頻率進行計算。許多研究利用詞的關聯關系按照主題凝聚的原則提取出反映主題信息的關鍵詞詞典,從而發掘文章主題并進行文本內容分析。語義檢索提出增加對文本內容語意的理解,借助語義索引定位符合輸入線索的信息,語義索引就是在概念空間的基礎上構造具有網狀結構的索引,從文檔中抽取出概念,同一文檔可由具有相關語義的多個概念進行索引。

信息檢索與文本語義研究領域有許多關于詞語關系的研究,楊梁彬探討了潛在語義索引解決文本檢索中存在的同義和多義問題;國內外有關詞語在文本中的語義角色標注的研究比較豐富,目前已有成熟的語義角色標注軟件;張建娥利用復雜網絡中節點的度與聚集特征表示詞語之間的關聯度;孫日昕等分析了文本中詞語的內聯關系和外聯關系并指出詞語間互信息表征兩個詞在同一篇文檔中的相關性大??;趙冬曉等從詞、句子和篇章粒度概括了現有文本語義挖掘方法、算法。這些研究可分為兩類:一是基于規則,主要利用語言的詞法、句法、詞性等知識以及上下文信息來識別詞語關系;一是基于統計,主要根據詞語在文本中出現的頻率、位置等信息,應用不同的統計參數分析詞語關系,本文采用第二類方法。

2 測試數據獲取

兩個詞語組合時將兩詞稱為詞對,這兩個詞會限制出比它們各自更具體的語義,稱之為詞對語義,本文中兩詞語關聯性是通過它們所組成的詞對語義與它們所在文本中的語義的相符性來體現,語義相符表示這兩個詞在文本中關聯,不相符則表示不關聯。

2.1 約定條件

為了便于分析,特做以下約定:

(1)文本中兩詞關系設定為:同義詞、可搭配、不可搭配。此處不可搭配指兩詞在語義或語法上矛盾,不可能組合在一起或組合在一起不包含任何語義信息。當可搭配時,兩個詞所在文本中的語義與詞對語義關系分為相符和不相符兩種。本文約定:兩個詞所在文本中的語義與詞對語義都匹配時,表示兩詞在此文本中的語義與詞對語義相符;當其中有一個(或兩個)所在文本中的語義與詞對語義不匹配時,表示兩詞在此文本中的語義與詞對語義不相符,例如:文本“枸杞病蟲害可持續調控技術”中包含病蟲害調控的含義,但與枸杞調控無關,因此該文本中“病蟲害”“調控”兩詞組成的詞對與兩詞在文本中的語義相符,而“枸杞”“調控”兩詞組成的詞對與兩詞在文本中的語義不相符。本文主要通過分析語義相符詞對數與可搭配詞對數的比率特征來發現文本中兩詞語關聯性規律。

(2)提取文本中的詞語,并以標點符號為分隔號標記它們所在段、句、分句,同時對段、句、分句按順序進行編號。其中段分隔號有:“回車符”“換行符”,測試中多段落文本取的是同一標題下相連的段落,且限制在三個自然段以內;句分隔號有:問號、驚嘆號、分號、句號;分句不包含任何標點符號,其分隔號有:逗號、頓號、冒號、破折號、引號、書名號、括號等。

2.2 測試過程

2.2.1 建立測試平臺并錄入信息

首先根據需求建立測試平臺,然后選取與“枸杞”相關的網頁、期刊、圖書等目前常見類型的信息,錄入標題、摘要及正文文摘等文本,最后將文本按照段、句、分句等層次進行分割,自動加手動提取文本中的詞語,并標記它們所在段、句、分句及分句中的位置。

測試選取的文本樣本共30個,其中網頁6個、論文10個、圖書13個、實體介紹1個,涉及摘要5個、標題11個、正文文摘14個,多段落文本2個。提取詞語共936種,稱每個文本中提取的詞語字數與該文本字數(不含標點)比率為詞語覆蓋率,本測試平均詞語覆蓋率為0.80,所有文本樣本中最大詞語覆蓋率為1.02,最小詞語覆蓋率為0.57。

2.2.2 人工判斷詞對關系并獲取測試數據

將每個文本中提取的詞語兩兩組合成詞對,并由人工確認詞對關系,可選擇關系有:默認、相符、不相符、不可搭配、同義詞,其中相符與不相符均為可搭配關系。為排除人為因素,本測試選擇不同專業不同職稱多個人員對詞對關系進行判斷,以此獲取測試數據,共組合詞對26133組,其中可搭配詞對25872組。

3 測試數據分析

根據測試需求對人工確認的詞對關系以多種因素作為標準分組統計出相符數、不相符數并進行聚類分析,定義相符率為:相符數/(相符數十不相符數)或相符數/可搭配數,相符率可反映兩詞語在文本中的關聯概率。下面從以下幾個方面對兩詞語關聯規律進行分析。

3.1 兩詞語在文本中所處位置差異

根據詞語所在段、句、分句及分句中的位置可確定詞語在文本中的位置,稱文本中兩詞語中間所夾文本長度(分句數)為詞間距(分句間距)。

測試位于同一分句的兩詞組成的可搭配詞對樣本數5283組,相符率43.6%,表示同分句中的兩個詞語在文本中的語義有43.6%的可能與這兩個詞語組合成的詞對語義是相符的,即兩個詞出現在同分句中有43.6%的可能是關聯的,信息檢索或語義分析時如果同分句中出現需要檢索或分析的兩個詞,那么這條信息有43.6%的可能滿足或符合要求,43.6%這個值可用作相關度排序依據。所有文本樣本中最大相符率76.3%,最小相符率24%。圖1中實線是位于同一分句的兩詞組成的詞對相符率隨兩詞間距變化的折線圖,圖中僅取了詞間距對應可搭配詞對數不小于50的數據。

當兩詞間互相包含(如:abcd、bc)或首末位有交集(如:abc、bcd)時兩詞間距會小于0,此種情況的樣本數252組,相符率26.2%,本文不做過多分析。由圖1可見,當兩詞間距大于等于0時,隨著兩詞間距增大相符率減小。通過SPSS軟件對該數據集進行非線行回歸分析,依據曲線圖型選擇適當函數進行擬合,表1是R方值最大的兩個函數回歸分析結果。

圖1中虛線為函數y=0.554-0.319*LG (x+0.178)的分布曲線。更多函數回歸分析結果如下:

冪函數:d+a*(x+c)b,(a>=O;b<=0;c>=0)。參數值:a=3.724,b=-0. 040,c=0.225,d=-3.160,R方=0.933。

雙曲線函數:1/(a+b/(x+c))+d,(b<=0)。參數值:a=16.174,b=-373.031,c=25.226,d=0.052,R方=0.915。

指數函數:a*e(b*(x+c))+d,(a>=O.b<=0)。參數值:a=0.568,b=-0.333,c=0.206,d=0.208,R方=0.890。

a*e(b/(x+c)+d,(a>=0;b>=0)。參數值:a=0.566,b=2.478,c=3.221,d=-0.452,R方=0.915。

以上函數回歸分析R方均接近或大于0.9,說明這些擬合模型能解釋因變量90%左右的變異,擬合效果較好。

位于同句不同分句的兩詞組成的可搭配詞對樣本數5441組,相符率20.3%。圖2是該情況下詞對相符率隨兩詞所在分句間距變化的折線圖,該圖只取了分句間距對應可搭配詞對數不小于100的數據。當兩詞位于同句不同分句時相符率在20%附近徘徊,最大24.9%,最小16.7%。

位于同段不同句的可搭配詞對樣本13541組,相符率9.5%。

位于同一文本不同段的可搭配詞對樣本1607組,相符率為1.9%。

3.2 分句長度

將位于同分句的詞對相符數據以所在分句長度(不含標點符號)進行分組,相符率隨分句長度變化如圖3所示,其中僅取了分句長度對應可搭配詞對數不小于48的數據。由圖可知,當分句長度小于等于25時曲線兩頭低中間高:小于8時相符率在33%附近;在8-20區間內相符率基本在40%到50%之間;大于20時平均相符率為35%。當分句長度大于25時相符率隨分句長度變化波動較大。

3.3 文本類型

表2、表3分別從文本出處(標題、摘要、正文文摘)和信息類型(圖書、網頁、論文)兩個方面對文本中位于同分句的兩詞語相符率進行分類統計。表2顯示來自標題、摘要、正文文摘等不同出處的詞對相符率差別較大,摘要比正文文摘文本中詞對相符率高出18.7%;表3顯示三種信息類型文本中詞對相符率相差不大。

3.4 詞頻

詞頻和位置對于分析詞語和文獻主題的關系有重要作用,那么詞語在文本中的詞頻對于它在該文本中與其他詞的關聯性是否有影響?對詞語在每個文本中的頻次分別統計,以詞頻進行分組分析,結果如圖4所示,其中相符率1是先對每個文本以詞頻分組計算相符率,再計算全部樣本中各詞頻相符率的平均值;相符率2是統計每個文本以詞頻分組后的相符數與不相符數,再合計全部樣本中各詞頻的總相符數與總不相符數,最后計算得出相符率,這兩組值有所不同,曲線變化卻基本吻合,相符率隨著詞頻的增加在33%與62%之間波動。

詞頻隨文本長度增加而增加,對于某文本中的詞語,稱詞頻與文本字數之商為詞現率,即詞現率一詞頻/文本字數,對相符率與詞現率關系統計分析,結果如圖5所示。其中相符率是先對每個文本以詞現率分組計算相符率,再計算全部樣本中各詞現率對應相符率的平均值,可見,相符率與詞現率沒有明顯函數關系。

4 結論及下一步研究方向

4.1 結論

詞對所限制語義與構成詞對的兩詞在文本中語義的相符率反映了兩詞語在文本中的關聯概率。由以上測試數據可以得出如下結論:

(1)同分句中兩個詞關聯概率為43.6%,當兩詞語相連(詞間距為0)時關聯概率為79.7%,關聯概率隨著詞間距的增加而減小,與對數函數y-0.554 -0.319*LG(x+0.178)及y=0.554 -0.139*LN(x+0.178)的擬合度較高。位于同句不同分句時兩詞語關聯概率降低為20.3%,不到同分句時的一半,沒有發現兩詞語關聯概率隨著它們所在分句間距的增加而減小或增大的趨勢,只是在20%附近上下波動。位于文本不同段或者不同句時兩詞語關聯概率低于10%,相對于前面的情況此時兩詞語關聯規律的研究意義相對較小。

(2)位于同分句的兩詞語關聯概率隨分句長度變化而波動。分句長度在8-20時,兩詞關聯概率穩定在45%附近,相對較高;分句長度小于8時關聯概率在33%附近,相對較低且穩定;分句長度大于20時關聯概率有減小趨勢,平均關聯概率為35%;分句長度大于24時關聯概率波動較大。

(3)標題、摘要和正文等詞語出處影響到詞語關聯概率,概括和總結性文本中詞語關聯概率較高。圖書、論文和網頁等不同信息類型文本中詞語關聯概率差別不大,都在平均值43.6%附近,即沒有發現信息類型對詞語關聯概率的明顯影響。

(4)位于同分句的兩詞關聯概率隨詞語在文本中詞頻的增加而波動,但維持在40%附近,沒有發現關聯概率隨詞頻的增加而有減小或增大的趨勢。

4.2 不足及下一步研究方向

(1)測試樣本不足。因每一條樣本數據都來自人工標注,局限于樣本數,本測試將文本樣本限制到單一領域,選擇了枸杞相關文本,分析結果可在該領域內應用,對于其他領域或更大領域內是否具有同樣的結論需要進一步研究。

(2)只對中文詞語關聯規律進行分析,沒有對外文進行分析。從語義角度來看,無論什么語種詞語關聯規律都會存在,但在分詞技術及語法上中外文有所不同,因此外文詞語關聯規律也會表現出不同結果,尤其是英文用空格分割詞語,分詞更加準確,詞語關聯規律也將表現得更加明顯。

(3)僅對標點符號進行了分類,沒有分析不同標點符號對詞語關聯的影響。本文結論中位于同句不同分句的兩詞關聯概率為20.3%,不到同分句時的一半,由于位于不同分句的兩詞語詞間距比同分句的大,且兩詞語關聯概率隨詞間距增加而減少,同時不同分句的兩詞由標點符號分割,各標點符號的作用和意義不同,因此針對標點符號對所分割的詞語關聯性是否有影響、影響大小等問題的分析具有實際意義,需進一步研究。

(4)未考慮詞法、句法、詞性、專指度、與文本主題相關性等特性對詞語關聯概率的影響。表4是統計位于同分句的詞對中以詞進行分組且詞對樣本數不低于30的數據。其中“信息數”指包含該詞語的文本數,為了避免單一文本對統計結果的影響,表4只取了信息數大于1的樣本,從中可以看出不同詞語相符率相差很大.這其中是否有規律可循尚需研究。

(5)沒有對兩個詞以上的詞對關聯規律進行分析。檢索線索往往不只包含兩個詞語,多個詞語對語義范圍的限制更加具體,分析多詞語在文本中的關聯規律不但可以滿足用戶檢索需求而且可以提高信息檢索、語義分析等操作結果的準確性。

5 結語

本文結論不足以支撐文本中兩詞語是否關聯的確定,測試首先是通過人工確認兩詞語是否關聯,然后以不同標準通過分組的形式對關聯與不關聯的數據進行聚類分析以發現其中存在的規律性,當將這些規律應用于詞語間關聯關系的計算時,計算結果與人工確認的關系能達到一定程度匹配(按照二八定律,須達到80%的匹配率)時,文本中詞語關聯規律才能支撐詞語關聯關系的確定。

雖然已發現的詞語關聯規律不足以支撐文本中兩詞語關聯關系的確定,但其中計算文本中兩詞語關聯概率的結論可以用于許多領域。搜索系統利用倒排索引進行預搜索實現數據過濾,獲取盡量小的滿足用戶需求的結果集,其中索引技術是當前主流檢索系統的主要技術之一,記錄有關鍵詞在文本中出現的次數和位置,在現有索引技術的基礎上利用文本中兩詞語關聯規律可提升搜索系統的質量。結論應用于信息過濾可排除更多不符合需求的信息,提高數據過濾的準確性,為關鍵詞檢索、排序技術提供一種科學的信息相關度排序依據,為文本內容、語義分析以及建立語義索引梳理出新的可行方法。

主站蜘蛛池模板: 国产婬乱a一级毛片多女| 午夜色综合| 激情综合网激情综合| 在线看片国产| 成人精品免费视频| 久久情精品国产品免费| 久久久久亚洲av成人网人人软件| 亚洲六月丁香六月婷婷蜜芽| 日韩色图在线观看| 欧洲熟妇精品视频| 久久精品国产精品青草app| 亚洲码在线中文在线观看| 青青青国产精品国产精品美女| 国产丝袜无码精品| 亚洲欧美综合在线观看| 亚洲V日韩V无码一区二区| 久久精品午夜视频| 波多野结衣AV无码久久一区| 视频一本大道香蕉久在线播放| 91精品专区国产盗摄| 国产成人综合日韩精品无码首页 | 免费毛片全部不收费的| 精品人妻系列无码专区久久| 香蕉国产精品视频| 免费看一级毛片波多结衣| 亚洲九九视频| 免费无码AV片在线观看国产| 国产精品综合久久久| 全午夜免费一级毛片| 五月综合色婷婷| 精品国产免费观看| 美女一区二区在线观看| 国产成人免费视频精品一区二区| 青青操国产| 国产美女在线免费观看| 亚洲日韩精品伊甸| 亚洲第一成年免费网站| 亚洲另类第一页| 国产成人AV大片大片在线播放 | 亚洲天堂日韩av电影| 亚洲天堂色色人体| 高清免费毛片| 久久永久视频| 成人午夜视频网站| 国产综合在线观看视频| AV老司机AV天堂| 女人爽到高潮免费视频大全| 思思99热精品在线| 99色亚洲国产精品11p| 99热国产在线精品99| 国产精品视频系列专区| 国产噜噜噜视频在线观看 | 国产成人禁片在线观看| 777午夜精品电影免费看| 亚洲成av人无码综合在线观看| 黄色污网站在线观看| 五月婷婷丁香色| 日日摸夜夜爽无码| 18黑白丝水手服自慰喷水网站| 91丝袜乱伦| 国产精品第一区| 欧美不卡视频在线| 亚洲av无码专区久久蜜芽| 国产欧美精品专区一区二区| аⅴ资源中文在线天堂| 欧美中文字幕无线码视频| 在线免费观看a视频| 毛片一区二区在线看| 国产综合日韩另类一区二区| yy6080理论大片一级久久| 亚洲国产系列| 国产欧美网站| 欧美日韩精品一区二区在线线| 亚洲精品自拍区在线观看| 国产欧美网站| 人妻丰满熟妇αv无码| aa级毛片毛片免费观看久| 亚洲啪啪网| 不卡无码h在线观看| 亚洲黄色片免费看| 在线va视频| 国产丰满大乳无码免费播放|