999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本分類算法在山東女子學院檔案管理的應用

2016-10-11 09:36:57法漢英
科技視界 2016年24期

法漢英

【摘 要】高等教育的快速發展使學校檔案館要管理的檔案越來越多,許多學校針對這種情況采用檔案管理軟件對檔案進行管理,據調查在我校沒有對檔案文件進行自動分類功能,為減輕檔案工作人員工作量便研究一種適合我校檔案的文本自動分類方法。本文大體論述文本分類算法的知識點和文本分類算法的應用。根據山東女子學院檔案的重復性、周期性等特點,詢問檔案館工作人員采用手工對檔案進行分類時,需要知道檔案主題名和檔案人信息確定歸屬于哪一個類別。本文將檔案按照主題名看作不同類別應用加權分類算法對屬于不同的類別的檔案進行自動分類處理。

【關鍵詞】文本分類;山東女子學院檔案;短文本;加權分類算法

1 研究背景和意義

對于檔案人員來說文本分類不是一個陌生的概念,過去用手工進行檔案分類。隨著計算機快速發展出現了許多文本文件。對文本進行有效的分類,利用計算機進行文本分類研究和應用尤為重要[2]。

分類的意思是將具有共同特定特征的事物放在一起方便檢索。最典型的分類應用是在超市里商品排放,例如把不同品牌薯片放在一個貨架上,把餅干放在另一貨架上。這種好處是讓顧客在買東西時能比較品牌信息為購買做決定。用戶在下次購買東西的時候會直接前往該位置。

文本分類是把有相似特征的文本歸納到一起方便查詢。面對海量的檔案信息,目前的管理模式是依靠專業人員在檔案管理系統中進行手工分類工作,利用文本分類算法對山東女子學院檔案系統進行管理以提高檔案管理水平。

2 文本分類相關技術

2.1 文本分類的概念

文本分類是指在一定的分類體系下根據文本的內容自動確定文本類別的過程[1]。文本分類是文本挖掘的一個分支。

2.2 文本分類和文本挖掘

文本知識又稱為文本數據挖掘。文本挖掘不同于數據挖掘,數據挖掘面對的是結構化數據。文本挖掘面對是非結構化的文本,因此決定它采用的方法與數據挖掘不同。文本分類屬于文本挖掘的范圍。

2.3 文本預處理

文本預處理在分類中很重要。文本預處理包括以下幾個方面:1)中文分詞[3]。中文分詞是將句子分為單詞和詞組的過程。2)詞性標注[4]。詞性是詞語的屬性,例如名詞,形容詞等。3)停用詞過濾[5]。停用詞指的是輔助詞。如“的”這些詞出現在大量的句子中如不處理會影響分類效果。4)實體識別[6]。實體識別是指對人名、地理位置等實體名字的識別。

2.4 文本表示

文本表示就是將文本預處理得到的特征詞表示成計算機所能處理二進制數。

2.5 文本特征選擇與特征抽取

對文本特征進行篩選,選出最能代表文本類別的特征,這個過程就是特征選擇[7]。對每個特征計算其統計的度量值,設定一個閾值T,把度量值小于T的特征值過濾掉,剩下的是有效特征。特征抽取通過對初始特征空間進行扭曲、拉伸或者旋轉等變換得到一個新的低維數特征空間的過程。

3 針對山東女子學院檔案的基礎詞庫的創建

根據學院檔案管理的特點結合文本分類技術的發展,提出一種用于學院檔案的基于語義的短文本加權自動分類算法。

3.1 基于山東女子學院檔案自動分類算法的基礎庫設計

對于一份檔案而言,其名字包括該檔案的所有內容,檔案進行計算機分類無需全文分析,只需對檔案的名字分析。

本算法通過對檔案名字信息中特征詞提取和分析來進行檔案的歸類。通過對已分類的檔案名字進行統計分析,將與各個類別相關度高的關鍵詞提取出來建類別詞庫并根據關鍵詞與類別之間的關聯度的強弱為其分配相應的權值,可創建詞庫表。在檔案名字中存在大量的詞如“關于”、“通知”等與分類無關詞,為提高文本在提取特征詞的準確度減少冗余詞的出現,需創建停用詞庫。通過對檔案文件責任者信息提取創建一個責任者詞庫。通過分析確定該檔案所屬的大類類別。

3.2 分類詞庫的創建

類別詞與類之間的關聯度能夠區分,需要為其類別詞與類之間的關聯度建立權重來表達這兩者的不同。當某一類別詞與類之間的關聯度非常緊密時,需要為其賦予較高的權重系數,是該類別詞的檔案文件能夠分到指定的類別。當一份檔案中有多個類別詞,且這些類別詞的檔案有屬于不同的類別號時,可以通過權重計算來確定該份檔案應該分到哪個類號中。

4 基于語義的短文本的加權分類算法

在完成基礎詞庫的創建后,采用加權分類算法對檔案文件進行分類。算法的步驟為:

1)在責任者詞庫搜索該檔案責任者信息,確定該檔案屬于的大類類別。2)用停用詞表對檔案文件名字進行遍歷去除停用詞。3)根據1)確定的類別在類別詞庫中遍歷,提取文本類別詞及其對應的權值。4)將獲得的類別詞及其對應權值進行分類加權匯總并進行比較取得最大值即為該份檔案所屬的類別。

4.1 基于語義的短文本加權自動分類算法

經過這些工作后,對檔案文件進行自動分類可以分為以下步驟:1)獲得待分類檔案責任者信息,用責任者信息在責任者詞庫中檢索獲得待分類檔案的類別。2)對名字進行停用詞操作,去除文本中的停用詞,將待分類的短文本進一步縮短。將相同的分類號合并并計算類別詞的權值進行比較確定最大值,最終確定待分類檔案所屬的類別。

4.2 短文本的處理

首先對短文本進行遍歷,去掉其中的停用詞,再根據類別詞庫中的詞匯與題名中的內容進行比較,最后從中提取出的類別詞作為分類結果。

4.3 合并分類號并權值求和

經過之前的工作,所有的分類主題詞所歸屬的分類號及對應的權重全部得到,即可開始計算權重最終確定其類別。最終運行步驟如下:1)從待分類檔案表中讀取第一條記錄。2)根據該條檔案的責任者信息,判斷其所屬的大類。3)在該大類下的二級類別詞庫中對檔案文件的名字進行遍歷,取得類別詞及相應的權值。4)合并相同類號,對權值求和。5)判斷是否存在唯一最大值,若存在則可直接確定類別;若不存在則轉入人工處理。6)讀取下一條,循環直至完成。最終便完成了對山東女子學院檔案的分類。

4.4 檔案分類應用分析

通過對山東女子學院檔案的自動分類,可以大大減輕了檔案管理工作人員的工作量,對文件進行分門別類的整理,做到井井有條,層次鮮明。通過文本自動分類對各類文本信息進行有效的組織分類,可以高效的為用戶提供信息檢索和信息存儲形成了學校對檔案的獨特管理。

5 總結

跟其他類的文本分類方法相比較,本文所設計的基于山東女子學院檔案的文本自動分類算法的復雜度大大降低了,取消了文本訓練的復雜過程,直接將學校檔案的各類關鍵詞和停用詞依靠人工經驗學習進行了手工構建,然而詞庫的構建很復雜,需要根據分類情況的反饋不斷的調整補充。由于學校所管理的檔案內容的特殊性,為了提高分類的效率,本文中所采用的這種簡單實用的算法經過分析可以減少檔案工作人員的工作量,達到了預期目的。

【參考文獻】

[1]程傳鵬.中文網頁分類的研究與實現[J].中原工學院學報,2007(1).

[2]中國互聯網網絡信息中心.第三十一次互聯網發展統計報告[R].2013-01.

[3]龍樹全,趙文正,唐華.中文分詞算法概述[J].電腦科學與技術,2009,10:2605-2607.

[4]陳曉文.自動詞性標注方法的比較[J].溫州大學學報,2009,01:53-57.

[5]化柏林.知識抽取中的停用詞處理技術[J].現在圖書館情報技術,2010.08:48-51.

[6]孫鎮,王惠臨.命名實體識別研究進展綜述[J].現在圖書館情報技術,2012,06:42-47.

[7]張東禮,汪東升,鄭偉民.基于VSM的中文文本分類系統的設計與實現[M].清華大學出版社,2003.

[責任編輯:李書培]

主站蜘蛛池模板: 91视频精品| 亚洲人成网址| 亚洲人精品亚洲人成在线| 拍国产真实乱人偷精品| 国产成人亚洲综合a∨婷婷| 波多野结衣中文字幕一区二区| 国产成人三级| 国产在线视频自拍| 九九九精品成人免费视频7| 亚洲午夜国产片在线观看| 精品伊人久久大香线蕉网站| 永久免费无码日韩视频| 最新亚洲av女人的天堂| 国产精品第一区| 四虎影视永久在线精品| 999国产精品永久免费视频精品久久| 国产一二视频| 国产乱人伦偷精品视频AAA| 91黄视频在线观看| 亚洲综合精品第一页| 亚洲日本中文综合在线| 成人午夜视频在线| 一级黄色片网| 国产91九色在线播放| 毛片免费视频| a级毛片免费网站| 狠狠ⅴ日韩v欧美v天堂| a级毛片免费网站| 日本欧美视频在线观看| 成人福利在线视频免费观看| 美女黄网十八禁免费看| 成人福利在线视频免费观看| 国产国语一级毛片| 欧美中日韩在线| 国产免费黄| 青青草国产精品久久久久| 日本午夜三级| 国产综合色在线视频播放线视 | 色135综合网| 色婷婷狠狠干| 狠狠亚洲婷婷综合色香| 国产精品亚洲va在线观看| 亚洲国内精品自在自线官| 亚洲国产综合精品一区| 亚洲av无码专区久久蜜芽| 国产情侣一区二区三区| 国产精品刺激对白在线| 日本久久免费| 制服丝袜一区| 91久久国产成人免费观看| 国产自在自线午夜精品视频| 久久青草精品一区二区三区| 成年人国产视频| 国产精品无码作爱| 亚洲人成网站18禁动漫无码| 亚洲精品无码在线播放网站| 日本免费a视频| 91麻豆久久久| 亚洲精品无码AV电影在线播放| 最新国产成人剧情在线播放 | 国产成人成人一区二区| 992tv国产人成在线观看| 精品第一国产综合精品Aⅴ| 国产精品人成在线播放| 亚洲精品第一页不卡| 黄片一区二区三区| 99re在线免费视频| 日韩一区二区三免费高清| 色欲色欲久久综合网| 免费观看无遮挡www的小视频| 国产精品极品美女自在线网站| 亚洲91在线精品| 国产日韩欧美中文| 亚洲精品无码AⅤ片青青在线观看| 最新日本中文字幕| 青青草久久伊人| 国产99视频在线| 九九热在线视频| 亚洲AⅤ波多系列中文字幕 | 精品久久久久久久久久久| 一区二区偷拍美女撒尿视频| 欧美成人看片一区二区三区 |