999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自然語言理解心理學在短文本分類中的實證研究

2009-04-29 00:00:00劉俊熙郭金蘭
現代情報 2009年8期

〔摘 要〕目前對文 本分類研究多數集中在對大規模語料基礎上的特征選擇或分類器算法的研究#65377;本文是建立在 訓練樣本少且樣本長度短的基礎上,根據人腦對自然語言理解的心理學原理“人們總是根據 已知的最熟悉的#65380;最典型的例子進行判斷,只有在該方法不奏效的時候才使用頻率這一概念 ,并且使用的是十分簡單的頻率”從該角度進行短文本分類的實證研究#65377;以心理學中的“熟 悉原理”#65380;“典型原理”等為模型建立特殊詞庫和典型案例詞庫,改進了傳統文本分類的實 驗步驟,同時提出了該方法的優勢和局限性#65377;

〔關鍵詞〕文本分類;短文本;特 征選擇;自然語言;心理學

〔中圖分類號〕TP391 〔文獻標識碼〕A 〔文章編號〕 1008-0821(2009)08-0004-04

Research of Natural Language Und erstanding of

Psychology in the Short Text Classification Sheng Yu Liu Junxi Guo Jinlan Long Yi

(Department of Computer,Shanghai University of Political Science and Law,Shan ghai 201701,China)

〔Abstract〕The current research of classification of most text focused on large-sca le corpus on the basis of choice of the characteristics or classification algori thm.This article is built on less training samples with short length,according t o the human brains understanding of the psychology principle of natural langua ge“People always make a judgment according to the most familiar,the most typica l example.They only use the concept of frequency when this method is not effecti ve.It is also a very simple freguency.”We do research from this perspective ofthe short text classification.We establish a special vocabulary and a typical vo cabulary based on“familiar principle”,“typical principle”which are known inpsychology.We improve the experimental steps of the traditional classification o f the text and mention the advantages and limitations of this method.

〔Key words〕text categorizat ion;short text;feature selection;natural language;psychology

目前絕大多數信息均表現為文本方式,如何在浩如煙海而又紛繁蕪雜的文本中掌握最有 效的信息始終是信息處理的一大目標#65377;由于分類可以在一定程度上解決信息雜亂的現象,方 便用戶準確地定位所需的信息,因此已成為一項具有較大實用價值的關鍵技術,是組織和管 理數據的有力手段#65377;

目前已有的文本分類的方法很多,典型的有樸素貝葉斯分類器#65380;基于向量空間模型的分類器 #65380;基于實例的分類器和支撐向量機建立的分類器等#65377;筆者在查詢了2006年后的中國期刊網數 據庫發現,研究多集中在特定的應用平臺上如何改進上述算法#65377;同時多數研究是建立在數量 巨大的訓練樣本和過高的向量維數基礎之上才能夠達到理論上的精確程度#65377;然而,在現實應 用中,考慮到工作效率或工作條件限制,不會也沒有足夠的資源去構建一個龐大的訓練集, 這就會使上述研究效果大打折扣#65377;

文本分類的現狀和困境或許同這樣一種思想有關:人工智能并不是要重現人腦理解事物的過程,只要達到計算機輔助人類的目標即可,因此人工智能領域里很少關注心理學原理和現象 #65377;對于這樣的觀點筆者認為研究心理學并把它運用到分類中來并不是要重現和人腦一模一樣 的思考方式,而是從人腦學習語言和分類的心理學原理中獲得啟發,對文本分類的步驟以及 算法加以改進,提高分類的準確率和速度#65377;千百年來人腦已經成為大自然最為精巧的作品之 一,一個3歲孩童就能夠做出的判斷是高性能計算機很難做到甚至做不到的,更為奇妙的是 當一個人創造出前所未有的新詞語#65380;新說法的時候另一個人能夠馬上理解這種說法的含義, 這就不得不引起我們的思考,語言的背后是否存在著一定的規則,這種規則幫助我們去理解 以前從未學習過的新用法,正因為對人腦工作原理還有太多不清楚的地方,才導致了人工智 能領域研究的諸多困難,其中包括文本自動分類,關注這個領域的研究成果將從方法論上指 導人工智能的前進#65377;本文正是從這一角度展開,并結合心理學中已有的成果通過實驗得出有 效證明#65377;

1 文本分類實驗背景

本文實例基于一個學校計算機實驗室維護系統,目的是為了方便實驗室維護人員借鑒以往案 例迅速準確的判斷出機器故障并提供相應的解決方法,是一個基于案例的決策支持系統#65377;該 系統包括以下組成部分:用戶報修模塊#65380;報修記錄(案例)自動分類模塊#65380;維護反饋模塊#65380; 以往案例查詢(包括關鍵字查詢和分類查詢)模塊#65377;本文分類訓練集主要來自用戶報修的真 實的中文文本集#65377;該類語料有如下顯著特點:

(1)文檔案例長度短#65377;文檔來自機器使用者的報修記錄,文本長度普遍較短,最長為94字 ,最短為4個字,如“無法啟動”#65377;

(2)訓練樣本數目少#65377;共收集到作為訓練樣本的案例98個,同許多動則上千的訓練集相比 ,樣本數目較少#65377;

(3)問題類型集中#65377;人工確定的類目數為21個,98個案例在21個類目中分布并不均勻,例如在“主機無法啟動”同“病毒導致文件夾亂碼”兩類中集中了較多案例,而有些類別暫時 還沒有案例出現,只是事先安放的空類目#65377;

(4)自然語言#65377;案例報修者多采用自然語言,詞語不規范現象大量存在,例如對計算機主 機的描述有“主機”#65380;“機子”#65380;“開機”#65380;“機器”等#65377;

(5)詞語使用的規律性#65377;雖然詞語不規范大量存在,但這種不規范也是有一定規律可尋的 ,原因是人們使用詞語的習慣是有規律性的,使得不規范用詞量鎖定在一定的范圍里,也正 是利用這一點為后文詞庫的建立提供了有利條件#65377;

2 傳統實驗中采用的分類步驟和方法

傳統的文本分類大致可分為3個步驟(如圖1所示):文本的向量模型表示,文本特征選擇 和分類器訓練#65377;

根據圖1中的步驟,在初次實驗嘗試中先對98個案例(訓練集)進行預處理,采用CSW漢語 中文分詞組件[1]進行分詞,并標注詞性,先通過對詞性的篩選過濾掉一部分對分 類貢獻較小的詞語,只保留名詞#65380;形容詞#65380;動詞#65380;副詞,然后進行特征選擇#65377;特征選擇函數 采用的是陳克利(2003),提出的在TF*IWF*IWF基礎上的改進算法[3],劉華也曾 在其文章中使用過[5-6]:

公式1 TF*IWF*IWF基礎上的改進算法

其中,W(wi,Cj)代表Cj類中第i個特征 w的權重;pij=Tij/Lj,Lj是類Cj含有的所有詞的次數 之和;Tij是詞i在類Cj出現的次數;=∑jpij/m,其中m為類別數;N(wi)表示訓 練語料中出現詞wi的次數,N是訓練語料中所有詞出現次數之和;n≥1#65377;

該算法認為詞的權重受3個因素的影響:(1)該詞在當前類中的出現頻率#65377;算法用開n次方根的方法有意識的削弱了詞頻對權重的影響#65377;(2)該詞在總語料中的出現頻 率#65377;該算法認為總語料中出現頻率越低的詞專指度就越高,權重也應該越大;反之專指度就 越低,權重也應該越小#65377;(3)該詞在不同類別之間出現頻率的差異#65377;單單頻率無法說明問 題,還要參考該詞在各個類中的分布情況,分布越不均勻,權重越大;分布越均勻,權重越 小#65377;

經初步計算后發現對部分詞語使用該算法可以正確賦予權重,例如在“無線話筒報修”類中 ,詞語“話筒”可以得到高權重,這與事實相符;而有些特征則詞例如對分類有重要意義的 詞語“主機”權重卻比而對分類意義不大的詞“要”權重還低#65377;后經分析原因主要有以下幾 個方面:

(1)分詞組件#65377;由于使用的CSW分詞組件是面向大眾化的分詞組件,不具有專業性,且由于 使用自然語言,所以很多詞語的切分還不準確,例如將“學生機”切分為“學”和“生機” #65377;詞語切分的錯誤直接會影響到詞頻,從而影響權重#65377;

(2)根據詞性篩選,很多對分類無貢獻或貢獻很小的詞語依然大量存在#65377;

(3)最主要的原因是訓練樣本數少,樣本在各個類別中分布不均勻#65377;陳克利提出的算法思 想是弱化詞頻的作用,強調一個詞語“在各類別之間分布越均勻,其重要性就越小;反之其 重要性就越大”這一判斷在訓練樣本足夠多的情況下才能夠成立,他本人的實驗平臺達到“ 每個領域的語料都在300萬字以上”,常用詞如“要”#65380;“部分”這類詞語被充分使用,并 均勻分布在各個類中,因此能夠區別于專業領域詞語,但在訓練樣本數量較少加之樣本長度 短的情況下,一些常用詞語也呈現出不均勻分布,因此被賦予了較高的權重,這顯然是不符 合實際情況的#65377;

這類短文本在我們的生活中也隨處可見,具有普遍意義#65377;例如人們熟知的E-mail或是網上大量文本形式的商品信息——這些商品信息的內容通常只包含商品名稱,偶爾有簡單的描述#65377; 所有這些信息都屬于所謂的“短文本”#65377;對這些簡單的數據,使用傳統的分類算法效果并不 好#65377;要讓效果的進一步提高不能單純依靠算法改進,因此我們從另一個角度——人腦對自然 語言理解并分類的過程重新審視這個問題#65377;

3 文本分類實驗的改進

3.1 自然語言理解的心理學原理應用

文本分類作為人工智能的一個領域,可以從人腦對自然語言理解過程中得到一些啟發#65377;根據 《自然語言理解的心理學原理》一書中提到的人腦對詞語加工理論中有以下值得借鑒之處:

3.1.1 不規則詞語單獨存儲

人腦將不規則的詞形變化單獨存儲于心理詞典中,即采用枚舉法來加工#65377;根據這一原理,為 解決自然語言中具有重要作用但又是不規范詞語帶來的麻煩,可以在文本分類實驗中構造一 個“非規范詞詞典”,這個詞典不同于在文獻[2]中所提到的專業詞庫,而是將不規范用 詞存儲于該詞典中,用意是將不規范用詞看成是詞語的不規則變化,利用枚舉方法列出這些 詞語,這在訓練樣本少且樣本長度短的情況下是可以實現并有效的#65377;因為短文本中的詞語數 量較少,誤刪特征詞的機率比較大#65377;使用這種方法后可以避免將這些重要詞語誤刪除#65377;

3.1.2 熟悉效應和典型效應

Smith#65380;Shoben與Rips(1974)發現人們對使用頻率高的詞語更為“熟悉”,使用頻率越高的 詞語,反映速度也就越快#65377;典型效應是指人們對同一類別中的“典型案例”的反應要快于“ 非典型案例”#65377;根據熟悉效應和典型效應,可以抽取訓練集中發生頻率高的類目中的典型文 本,找出其中的典型描述,將這些詞語構成“典型案例詞庫”#65377;

3.1.3 共現頻率和啟動效應

在語義實驗中先向被試呈現一個詞,如果后面呈現的詞語同前面呈現的詞語之間有語義聯結 ,后面的詞語啟動速度就會加快#65377;例如在呈現“奶油”之后,被試對同一范疇的“面包”一 詞反應加快了,但對不同范疇的詞語“護士”反應沒有加快#65377;這是由于同一范疇詞語由于共 現頻率高能提高詞語的辨別速度#65377;

根據啟動效應和共現頻率,在文本分類實驗中在“典型案例詞庫”中將一些共現頻率高的詞 語聯系起來#65377;例如案例中出現“主機”一詞初步判定屬于“主機”故障類中的某一種,接下 去同“主機”共現頻率較高的詞語將排在后面等待匹配,因為詞典中詞語的“典型”性,這 種匹配方法命中率高#65380;速度快#65377;

3.2 實驗步驟的改進

根據前面所提到的傳統文本分類步驟的缺點以及自然語言理解的心理學原理,改進后的實驗 步驟如圖2所示,在傳統的分類步驟中加入一個“非規范詞詞典”和“典型案例詞庫”的判 別:

(1)訓練集預處理#65377;對98個案例進行分詞以及詞性的標注,這部分同傳統分類 方法一樣#65377;

(2)選出“父類詞”和“子類詞”組成典型案例詞庫#65377;實驗中的類目分為兩級,上級類目 稱為“父類”,下級類目就稱為“子類”#65377;父類詞指的是一旦出現就可以歸入父類的詞語#65377; 子類詞指的是最終可以決定案例子類的詞語#65377;由父類詞和子類詞組成的數據表格式如表1所 示(部分),歸入相應的子類是本實驗的最終目標#65377;

表1 典型案例詞庫格式

序號父類名稱子類名稱父類詞子類詞1子類詞2子類詞31主機保護卡問題主機保護卡2主機主機無法正常啟動主機啟動重啟不亮3顯示器顯示器藍屏顯示器藍屏4顯示器顯示器藍屏藍屏藍屏

(3)待分類文檔預處理#65377;將待分類文檔進行分詞和詞性標注,將不規范用詞用 “非規范詞詞典”中的詞語替代#65377;

(4)父類詞匹配#65377;將待分類文檔中的每個詞同父類詞字段進行匹配,匹配成功則為文擋標 注該父類詞,一個文檔可能同時屬于多個父類#65377;

(5)子類詞匹配#65377;如果文擋被分入至少一個大類中,接下去就要進行子類詞的匹配#65377;因為 父類詞只能歸到父類級別,并不一定能找到相應的子類,而子類才是文擋最終的歸宿#65377;子類 詞就是可以決定該文檔最終類別的詞語#65377;一個文檔也可能屬于同一大類下的多個子類#65377;

(6)如果一個文檔沒有找到合適的大類或者在大類下沒有找到合適的子類,那么再使用分 類器進行分類#65377;

3.3 實證研究

用一個實例來說明以上步驟#65377;用戶輸入報修記錄“機器無法正常啟動,提示保護卡出錯”#65377;

(1)文檔分詞#65377;分詞結果(省略詞性和標點)為“機器#65380;無法#65380;正常#65380;啟動#65380;提示#65380;保護 卡#65380;出錯”共7個詞語#65377;

(2)不規范用詞替換#65377;將不規范詞“機器”替換為“主機”#65377;

(3)父類詞匹配#65377;將以上7個詞語同表1中的父類詞字段進行匹配,將該文檔歸入“主機” 父類#65377;

(4)子類詞匹配#65377;縮小范圍,用文檔的7個詞語匹配所有屬于“主機”父類下的子類詞,“ 啟動”和“保護卡”被匹配成功,因此該文檔歸入2個子類:保護卡問題類#65380;主機無法正常 啟動類#65377;一旦匹配成功,將不再使用分類器#65377;

4 優點和不足

就如前面介紹過的那樣,在訓練樣本數量少且樣本長度短的情況下,傳統的文本分類算法并 不適合#65377;改進后的實驗步驟在傳統的分類方法之前加入了兩道工序,也就是同“非規范用詞 詞典”和“典型案例詞庫”的匹配過程,大大降低了重要詞語因算法缺陷帶來的誤刪,提高 了匹配的準確性,而樣本少和長度短等對分類不利的因素在這里恰恰成為“典型案例詞庫” 建立的有利因素#65377;

由于“典型案例詞庫”匯集了對分類最有影響最典型的詞語,這類詞語量相對比較少而出現 頻率又比高,所以匹配的成功率和速度也得到了很大的提高#65377;多數待分類文檔經過這道工序 就能夠順利歸類,個別沒有找到合適類目的文檔再使用傳統的分類算法,這樣可以減少歸類 時間#65377;但是這種方法也有其局限性,主要體現在以下幾個方面:

(1)典型案例詞庫的建立只有在訓練樣本數量少且長度短#65380;分類集中的情況下才具有可行 性#65377;如果是大規模訓練樣本且內容十分分散的話,這種詞庫的建立將由于十分龐大而變得不 可行或者毫無優勢#65377;

(2)典型案例詞庫的詞語選擇#65377;本實驗中的典型案例詞庫是由人工參與形成的,這對于期 望全過程自動分類的人來說就不十分理想#65377;但筆者設想可以先通過人工參與形成初始特殊詞 庫,再通過案例積累和反饋機制,也就是將待分類文本進行歸類后無論分類正確與否,都將 其作為一種新的經驗反饋到典型案例詞庫中,詞庫也應該根據反饋做出調整,長時間未曾出 現詞語應該從該詞庫中去除,使用頻繁且對分類有意義的詞語可以添加進去#65377;整個訓練過程 由人工轉為半自動再轉為全自動#65377;這就好比人腦從最開始的被動學習到最后的主動學習,這 是一個通過不斷糾正反饋的過程#65377;

5 小 結

由于語言的智慧性,能夠理解自然語言是計算機是否具有真正智能的重要標志#65377;拋開對語言的認知加工的原理,對自動分類的開發設想是不現實的#65377;本文著重使用人腦在理解分類時的 一些已知規律,雖然這些規律知識其中很小一部分,但卻是考慮從根本上去解決問題的方法 #65377;當我們將這些零散的規律理清脈絡并逐一實現的后,或許離真正的人工智能就并不遙遠了 #65377;

參考文獻

[1]CSW中分詞組件[EB].http:∥www.vgoogle.net

[2]劉曉志,黃厚寬,尚文倩.帶專業詞庫的特征選擇[J].北京交通大學學報,2006,(4 ):97-100.

[3]陳克利,宗成慶,王霞.基于大規模真實文本的平衡語料分析與文本分類方法[A].Advancesin Computation of Oriental Languages[C].北京:清華大學出版社,2003.

[4]李伯約,賽丹.自然語言理解的心理學原理[M].北京:學林出版社,2007.9.

[5]劉華.基于關鍵短語的文本分類研究[J].中文信息學報,2007,(7):34-41.

[6]劉華.基于文本分類中特征提取的領域詞語聚類[J].語言文字應用,2007,(1):1 39-144.

[7]伍建軍,康耀紅.文本分類中特征選擇方法的比較和改進[J].鄭州大學學報:理學 版,2007,(6):110-113.

[8]孫曉霞,鄭玉明.廖湖聲.一種基于特征詞句子環境的文本分類器[J].計算機應用 研究,2007,(2):116-119.

[9]張申亞.文本分類技術中的特征選擇算法研究[J].信陽農業高等專科學校學報,200 7,(9):125-127.

[10]劉霞,盧葦.SVM在文本分類中的應用研究[J].計算機教育,2007,(1):72-74, 77.

[11]宋東風,張志浩.短文本數據的自動分類[J].電腦與信息技術,2007,(2):36-3 8,57.

[12]陳文亮,朱靖波,朱慕華,等.基于領域詞典的文本特征表示[J].計算機研究與發 展,2005,42(12):2155-2160.

主站蜘蛛池模板: 亚洲第一视频区| 91精品国产91久无码网站| 国产黄色视频综合| 国产永久在线视频| 无套av在线| 免费毛片全部不收费的| 日韩视频福利| 日韩a级毛片| 亚洲成人高清无码| 中文字幕在线观看日本| 亚洲国内精品自在自线官| 亚洲一区二区黄色| 日韩小视频在线观看| 亚洲精品卡2卡3卡4卡5卡区| 久久国产黑丝袜视频| 日本免费福利视频| 国产日韩欧美在线播放| 青青青国产视频| h视频在线观看网站| 成人免费午间影院在线观看| 亚洲性日韩精品一区二区| 色播五月婷婷| 精品自窥自偷在线看| 999在线免费视频| 欧美亚洲国产精品第一页| 成人亚洲视频| 国产经典免费播放视频| 国产成人综合久久精品尤物| 一区二区欧美日韩高清免费| 中文字幕乱码中文乱码51精品| 久草性视频| 国产精品55夜色66夜色| 国产肉感大码AV无码| 四虎影视8848永久精品| 久久综合成人| 欧美亚洲日韩中文| 亚洲日本www| 日韩精品一区二区深田咏美| 亚洲第一区在线| 国产毛片高清一级国语| 亚洲大尺码专区影院| 天天综合天天综合| 欧美亚洲第一页| 亚洲av无码牛牛影视在线二区| 98精品全国免费观看视频| 国产午夜福利亚洲第一| 亚洲综合婷婷激情| 亚洲高清在线播放| 色综合中文综合网| 国产小视频在线高清播放| 国产鲁鲁视频在线观看| 亚洲无码日韩一区| 国产免费自拍视频| 国产成人精品高清不卡在线| 国产91丝袜在线播放动漫 | 国产成人91精品| 国产91麻豆免费观看| 欧美日韩亚洲国产| 干中文字幕| 国产美女叼嘿视频免费看| 国产菊爆视频在线观看| 国产麻豆精品手机在线观看| 亚洲色图在线观看| 亚洲av综合网| 日韩专区第一页| 国产精品原创不卡在线| 国产欧美日韩视频一区二区三区| 看国产一级毛片| 国产成年女人特黄特色大片免费| 91久久夜色精品国产网站| 99re视频在线| 亚洲国产精品无码AV| 小说区 亚洲 自拍 另类| 在线观看国产精美视频| 特级做a爰片毛片免费69| 亚洲首页在线观看| 国产成人乱无码视频| 欧美日韩亚洲国产主播第一区| 国产精品99在线观看| 男女男免费视频网站国产| 国内精品免费| 原味小视频在线www国产|