999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

檔案文獻主題探測方法探討

2015-12-06 11:16:43雷亞莉
黑龍江史志 2015年7期
關鍵詞:分類文本方法

雷亞莉

(海南軟件職業技術學院 海南 瓊海 571400)

檔案文獻主題探測方法探討

雷亞莉

(海南軟件職業技術學院 海南 瓊海 571400)

本文主題探測是以檔案類文獻作為文本集,以文本數據挖掘(Text Mining)的方式來對文本集進行處理。文章主要對文本分類和文本聚類的常用方法做了簡單的概括,并提出了基于主題模型的檔案文獻主題探測方法。

檔案文獻;主題探測;主題模型

引言

隨著目前科技文獻資源的大量增長,檔案類文獻的資源也在突飛猛進的增長,但對于大量的文獻資源,要能更精確的找到我們所需要的信息卻變得難上加難。主題探測(Topic Detection,作為一項旨在幫助人們應對信息過載問題的研究,其研究目標是要實現按主題查找、組織和利用來自多種媒體的多語言信息[1]。

1.常用的文本分類方法

傳統的科技文獻分類方法都是基于文本分類的,這些方法是對給定的文本,根據其內容自動或手動地加上一個類別標簽,通過給定的訓練集,用某種方法構建文本特征與文本類別之間的關系模型,再利用這個關系模型對新的未知類別文本進行類別訓練。

1.1 基于簡單向量距離的分類法

簡單向量距離分類法的主要思想,是首先確定新文本的向量,然后根據尚未分類的文本向量與每個類別中心向量的距離來判斷此文本屬于哪個類別,確定新文本向量的前提是:先根據算術平均為每類文本集生成一個代表該類的中心向量[2]。

簡單距離向量分類法實現簡單,分類的復雜度也不高,其缺點也很明顯:直接使用特征空間的特征分布,受訓練文本中的噪聲影響較大,同時對分布不規則的數據,能夠取得的效果是很有限的。

1.2 K 近鄰法(K-Nearest Neighbor)

KNN最初由Cover和Hart于1968年提出,是一個理論上比較成熟的方法,其分類方式是通過查詢已知類別文本的情況,來判斷新文本與已知文本是否屬于同一類。算法的基本思想是:首先給定新文本,然后在訓練文本集中找出與新文本距離最近的文本,依據找出的最近距離文本的類別,來判定新文本所屬的類別。

KNN方法相對簡單,易于實現,用于基于統計的模式識別中非常有效,并且對于未知和非正態的分布能夠取得比較高的分類準確率。但對于樣本分布依賴性較大,當樣本分布不均勻時,可能造成一定的偏向性。

1.3 貝葉斯分類法

貝葉斯分類方法在使誤判率或風險最小的問題上是很有意義的。它是將研究對象的先驗概率來作為輔助判斷,這樣做可以使結論更精確的得到分析。但由于貝葉斯分類器的前提是需要已知條件概率,而且它的決策面比較復雜,因此在計算和構造方面是相對困難的[26]。

貝葉斯分類的優點在于算法邏輯簡單,易于實現,并且算法穩定。但其也有缺陷,就是在其獨立性假設時,在許多實際中并不能夠成立,這樣會引起分類的誤差。

對比試驗板選擇在相同的工況環境下進行焊接,最終經無損檢測合格后進行理化檢測試驗,檢測內容包括焊縫金相顯微組織、拉伸試驗、沖擊試驗、焊接接頭硬度。

1.4 支持向量機(SVM)

支持向量機(Support Vector Machine,SVM)是統計學概念上一個有監督的學習方法,在解決小樣本、非線性及高維模式識別問題中表現出特有的優勢。這種方法是針對線性可分情況進行分析,通過尋找最優線性分類面來減小對新文檔的誤分概率[3]。

2.常用的文本聚類方法

作為一種無監督的機器學習方法,文本聚類是在給定的某種相似性度量下,把對象集合進行分組,使得相似的對象能夠分到同一個組內。其方法通常是利用向量空間模型,將文本轉換成高維空間中的向量,然后對這些向量進行聚類。因此,影響文本聚類結果的因素除了文檔聚類算法的選擇外,還包括語義問題和降維問題。

2.1 基于劃分的方法

劃分法(Partitioning Method)也稱分裂法,其基本原理是:首先得到初始的k個劃分,然后通過迭代,將文檔從一個中間類轉移到另一個類中,以改進聚類的質量。代表性算法有K-means算法、k-中心點、CLARA、CLARANS等。

2.2 基于層次的方法

典型的層次聚類方法包括:CURE(ClusteringUsingREprisentatives) 方法、ROCK 方法、Chameleon、BIRCH (Balances Iterative Reducingand ClusteringusingHierarchies)方法等。

2.3 基于模型的方法

基于模型的方法(Model-based methods)是從文本集合中學習一個模型,每個模型代表一個文本類,并優化給定的數據和數學模型之間的適應性。它的一個潛在的假定就是:目標數據集是由一系列的概率分布所決定的。典型的基于模型的方法有:統計方法COBWEB和CLASSIT。

2.4 基于網格的方法

基于網格的算法(Grid-based methods)首先將數據空間劃分成為有限個單元的網格結構(所有的處理都是以單個的單元為對象的),然后利用網格結構完成聚類。其優點是處理速度比較快,通常與目標數據庫中記錄的個數無關,只與將數據空間所分的單元數量有關。代表性算法有:STING(STatistical INformation Grid)算法、CLIQUE(ClusteringIn QUEst)算法、WAVE-CLUSTER 算法。

2.5 基于密度的方法

為了發現任意形狀的聚類結果,提出了基于密度的方法(Density-based methods)。這類方法將簇看作是數據空間中被低密度區域分割開的高密度區域。只要一個區域中點的密度大于某個閥值,就將其加到與之相近的聚類中去。代表的算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。

3.基于主題模型的檔案文獻主題探測研究方法

基于主題模型的檔案文獻主題探測,初步提出了將LDA主題模型運用到檔案主題探測中。

使用LDA主題模型,旨在更好的獲取文本的主題。主題模型采用了概率分析的方法,和以往其他模型的統計方法有著很大的不同。而LDA是服從于Dirichlet分布的概率模型,使得文本、主題、單詞在模型超參數上有了不同的發生概率,LDA主題模型的提出,使文本不再局限于與主題一一對應,并且給出了文本在各個主題上的概率分布。

4.結束語

文本數據挖掘方法一直是數據挖掘工作人員不斷探索的重要內容,而主題探測能夠很好的幫助我們解決“信息過載”的現象。本文概述了文本挖掘的常用方法,并提出了最新主題模型LDA,將其運用到檔案文獻主題探測中,目前正對其方法做進一步的測試,將其與常用的文本分類或文本聚類方法做比較。

[1]李保利,俞士汶.話題識別與跟蹤研究[J].計算機工程與應用.2003(17):7-10.

[2]龐劍峰,基于向量空間模型的自反饋的文本分類系統的研究與實現[D].中科院計算所碩士論文.2001.

[3]T.Joachims.Text categorization with support Vector machines:Learning with many relevant features[C].Lecture Notes in Computer Science,1998,(1398):137-142.

雷亞莉,女,1986.3.17,陜西韓城人,碩士,2013.11畢業于中山大學軟件學院,現從事數據挖掘與計算機教學及研究工作。

猜你喜歡
分類文本方法
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 小说区 亚洲 自拍 另类| 麻豆a级片| 久久人妻xunleige无码| 亚洲国产成熟视频在线多多| 国产尤物视频在线| 日韩在线2020专区| 亚洲AV无码不卡无码| 欧美日韩国产在线人成app| 中国一级特黄大片在线观看| 国产精品久久久精品三级| 国产成人精品高清不卡在线| 91色在线观看| 伊人久久精品无码麻豆精品| 色综合天天视频在线观看| 五月激情综合网| 国产成人欧美| 人人爽人人爽人人片| 国产超碰在线观看| 色婷婷成人网| 成人免费黄色小视频| 国产福利2021最新在线观看| 久久久亚洲色| 国产无码高清视频不卡| 青草精品视频| 色欲国产一区二区日韩欧美| 中文无码影院| 成人自拍视频在线观看| 欧美视频在线不卡| 免费全部高H视频无码无遮掩| 老司机aⅴ在线精品导航| 高潮毛片免费观看| 高清久久精品亚洲日韩Av| 国产综合日韩另类一区二区| 国产日韩欧美一区二区三区在线 | 亚洲欧美日韩中文字幕在线一区| 日本成人在线不卡视频| 久久久波多野结衣av一区二区| 九色91在线视频| 伊人久久婷婷| 国产乱人乱偷精品视频a人人澡| 99精品免费欧美成人小视频| 国产浮力第一页永久地址| 亚洲第一精品福利| 欧美日韩在线第一页| 日韩黄色在线| 久久精品国产免费观看频道| 亚洲天堂视频网站| 首页亚洲国产丝袜长腿综合| 日本尹人综合香蕉在线观看| 玩两个丰满老熟女久久网| 99re视频在线| 丝袜亚洲综合| 亚洲av日韩av制服丝袜| 尤物视频一区| 日韩视频免费| 国产尤物在线播放| 精品人妻一区二区三区蜜桃AⅤ| 国产三级精品三级在线观看| 久久人人爽人人爽人人片aV东京热| 日韩精品少妇无码受不了| 高清不卡一区二区三区香蕉| 野花国产精品入口| 91精品久久久无码中文字幕vr| 国产成人免费| 国产网站在线看| 国产精品福利在线观看无码卡| 国产精品免费入口视频| 午夜综合网| 亚洲午夜天堂| 久久国产精品影院| 国产激情在线视频| 青青青国产视频手机| AV无码国产在线看岛国岛| 欧美成人二区| 国产aⅴ无码专区亚洲av综合网| 亚洲精品第一在线观看视频| 国产伦精品一区二区三区视频优播| 亚洲国产精品一区二区高清无码久久| 又大又硬又爽免费视频| 天天综合网亚洲网站| 99久久精彩视频| 亚洲男人的天堂久久香蕉|