999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本分類專利技術綜述

2020-07-10 09:16:58李若晨
科學與財富 2020年13期
關鍵詞:分類文本

摘 要:隨著信息快速增長,大數據時代的來臨,對文本數據的分類越發重要,且海量數據意味著高度依賴文本自動分類。本文從文本自動分類技術演進路線、專利申請情況和重點申請人幾個方面分析了文本自動分類技術專利情況,并結合重點專利進行技術分析。

關鍵詞:文本分類;專利

一、引言

文本分類是指依據文本語義內容將未知類別的文本歸類到已知類別體系中的過程,在眾多領域中均有應用,常見的應用包括:郵件分類、網頁分類、文本索引、自動文摘、信息檢索、信息推送、數字圖書館以及學習系統等[1]。

二、文本分類技術演進路線

回顧文本分類的相關研究,以20世紀60年代出現貝葉斯文本分類器為界限,將文本分類分為兩個階段:20世紀60年代以前主要依靠人工篩選,之后,文本分類開始自動分類。20世紀80年代,出現采用知識工程的方法進行分類,通過建立專家知識庫與字典等一系列分類規則來構建分類器,但知識工程方法需要大量領域的專家和工程師參與,勢必耗費很多人力物力,當電子文檔急劇增長時將無法滿足需求。

此后,由于基于機器學習的自動文本分類系統幾乎可以達到與人類專家相當的正確度,但是卻不需要任何知識工程師或領域專家的干預,機器學習方法在文本分類領域得到了深入的研究和廣泛的應用。

在20世紀末以來,出現了大量基于監督學習、半監督學習等機器學習算法在文本分類上的研究,例如樸素貝葉斯文本分類器、基于決策樹的分類、K近鄰聚類、SVM支持向量機等,并且,在當前研究中,對傳統機器學習算法在文本分類的研究依然沒有停止。

在實際應用中,考慮到數據的復雜性和多樣性,往往單一的分類方法不夠有效。因此學者們在多種分類方法的融合方面進行了廣泛的研究.例如基于投票機制(bagging或者boosting)的多分類器研究[2]。

伴隨著人工智能的飛速發展以及深度學習理論在圖像和語音方面的良好表現,研究者將深度學習理論應用在文本處理中,出現了基于深度學習的文本分類研究。目前研究的熱點就在于基于不同應用下文本類型的特點,將神經網絡應用在文本分類中。

三、文本分類技術專利分析

通過在標題和摘要中利用關鍵詞“text catego+ or text classif+”進行檢索,將過濾出的專利按照年限統計分析如下:

圖1示出了文本分類近30年全球申請量變化情況,從圖中可以看出,20世紀90年代,全球申請量較低,雖然整體上申請量在增長,但處于發展緩慢階段。從2000年開始,申請量出現增長高潮,尤其從2003年開始,申請量呈現指數增長形式,出現該狀況的原因在于互聯網的飛速發展,新一代通信技術市場化的普及,使得文本分類的需求增加,從而促使在文本分類方面的研究。

四、重點專利分析

通過對專利的同族數量和被引證次數進行分析并結合文本分類技術演進,下面對該領域重點專利進行詳細技術分析。

1、基于字典、語法結構、知識庫等進行文本分類

在機器學習的分類算法沒有廣泛應用之前,基于知識庫、字典等方式對文本進行分析歸類是常見的方法。1988年IBM公司的專利申請EPEP0282721,提出了基于范式的形態文本分析,利用結構化知識庫和字典,對文本進行分析歸類。該方案用于自然語言文本分類并生成單詞形式,其中涉及到的字典表示、語法分析、自動索引和同義詞檢索應用在多種自然語言中。

1998年,THE DIALOG公司提出公開號為WO9858344的申請,將文本按照主題進行分類,將文本語料庫中的文本實體表征為相關的主題區域,包括確定所述文本實體中的所選術語和所選擇的術語。該申請中依然利用到了單詞字符串的匹配,并且設置了多種匹配規則,將詞語出現次數這一特征納入分類的影響因素之中,可以提高分類的準確性。

2、基于傳統機器學習算法進行文本分類

機器學習算法的普遍應用逐漸替代了認為設定規則與知識庫的分類方式。決策樹、樸素貝葉斯分類、SVM算法等均在文本分類中各具優勢。

IBM公司于1998年提出申請US6253169,請求保護一種提高基于決策樹的文本分類準確率的方法。決策樹分類算法作為一種有監督學習算法,需要分類標注出訓練數據的類標與主題。該方法中,首先分析樣本集文件中的文字以識別多個主題;然后開發多個本地詞典;接著,為樣本集中的每個文檔生成向量,為樣本集中的每個文檔生成的向量是針對所述多個主題中的相應一個開發的所述多個本地詞典中的相應一個中的單詞;基于在所述分類步驟中執行的樣本集中的文檔的分類形成預測模型。

華為技術有限公司于2009年申請了專利CN101887443A,申請人發現由于現有技術提供的技術方案是根據文本中的基本特征來判斷該文本的類型,其判斷方式僅根據文本的基本特征來計算文本的分類,文本分類不準確,因此,在設計方案時,不僅考慮了文本的基本特征,還考慮了句式特征、重復詞特征和疊置詞特征中的一種或多種,增加計算的參數,使得分類準確。

3、融合分類器

面對眾多機器學習分類算法,研究者認為單一分類器的效果不夠準確,因此考慮將多個分類器的分類結果進行“融合”,形成了融合分類器。CHOU WU等人于2004年在專利申請US2006069678提出了這一思路。該申請在初始廣義線性分類器上執行最小分類錯誤訓練以生成訓練的初始分類器,將AdaBoost算法的增強算法應用于訓練的初始分類器以生成m個備選分類器,然后使用最小分類誤差訓練來訓練m個備選分類器以生成m個訓練的備選分類器,基于訓練集上的分類錯誤率,從所述訓練的初始分類器和所述m個訓練的替代分類器中選擇最終分類器。該方法可以良好適應各種類型的文本數據,在保證準確率的情況下有較強的適應性。

4、基于深度學習的文本分類

由于傳統機器學習分類方法需要人工做特征工程(文本預處理、文本表示和特征提取等),成本很高,而深度學習可以解決大規模文本分類中文本表示,且諸如CNN/RNN等網絡可以自動獲取特征表達,因此,省去了繁雜的人工特征工程。微軟于2014年提出專利申請US2015310862 A1,利用深度學習解析語義,進行文本分類。該方法可以用于在線網頁日志分類中,從一個或多個查詢點擊日志獲得未標記的數據。深度學習網絡被訓練為具有解析單詞、短語或句子語義嵌入層的網絡,無需人工標記,可以從未標記的數據中學習而來。該申請提出的方案在無需數據標注情況下可以良好解析幾種具有相同語義的不同文本,提高分類準確性。

五、總結

本文從文本分類技術的發展概況及原理入手,從文本分類技術的專利申請趨勢及國內外主要申請人分析,重點解讀文本分類技術的技術演進路線。

參考文獻:

[1] 張磊,文本分類及分類算法研究綜述[J],電腦知識與技術,2016(34):231-232+23338.

[2] 陳祎荻,秦玉平,基于機器學習的文本分類方法綜述[J],渤海大學學報(自然科學版),2010,31(2):201-205.

作者簡介:

李若晨(1992-),女,理學碩士,專利審查員,從事大數據方向專利審查工作。

猜你喜歡
分類文本
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 日韩精品久久久久久久电影蜜臀| 免费人欧美成又黄又爽的视频| 亚洲无码电影| 77777亚洲午夜久久多人| 国产精品三区四区| 国产一区三区二区中文在线| 欧洲日本亚洲中文字幕| 国产福利小视频在线播放观看| 国产精品va| 黄色网址免费在线| 欧美精品成人一区二区在线观看| 国产超碰一区二区三区| 天堂av综合网| 亚洲日韩国产精品无码专区| 伊人无码视屏| 亚洲欧美在线综合图区| 素人激情视频福利| 91精品国产自产在线老师啪l| 色噜噜在线观看| 久久青草热| 高清乱码精品福利在线视频| 青青草国产在线视频| 久久精品无码国产一区二区三区 | 亚洲精品波多野结衣| 亚洲无码高清一区二区| 国产日韩欧美视频| 国产毛片基地| 亚洲不卡无码av中文字幕| 亚洲欧美不卡| 中文字幕天无码久久精品视频免费 | 久久精品人人做人人爽电影蜜月| 国产丝袜91| 97在线观看视频免费| 亚洲无线视频| 成人在线欧美| 久久精品丝袜| 无码精品福利一区二区三区| 茄子视频毛片免费观看| 真实国产精品vr专区| 亚洲欧美在线看片AI| 国产精品女在线观看| 久久黄色小视频| 国产福利小视频在线播放观看| 老司机午夜精品网站在线观看| 2022精品国偷自产免费观看| 国内丰满少妇猛烈精品播| 久久人人妻人人爽人人卡片av| 亚洲美女久久| 秋霞国产在线| 99福利视频导航| 福利姬国产精品一区在线| 狠狠v日韩v欧美v| 97一区二区在线播放| 精品无码一区二区三区电影| 四虎永久免费地址| 中文国产成人精品久久| 亚洲午夜片| 国产精品第| 最新国产你懂的在线网址| 制服无码网站| 在线国产你懂的| 日韩在线网址| 日本亚洲国产一区二区三区| 亚洲天堂网视频| 免费高清a毛片| 国产人人射| 国产精品视频白浆免费视频| 日本人妻一区二区三区不卡影院| 亚洲精品天堂在线观看| 久久久久无码国产精品不卡| 日韩精品一区二区三区视频免费看| 亚洲国产理论片在线播放| 国产福利2021最新在线观看| 国产成人综合久久精品尤物| 国产亚洲现在一区二区中文| 国产国产人免费视频成18| 免费 国产 无码久久久| 一级毛片免费播放视频| 亚洲国产精品无码AV| 国产亚洲美日韩AV中文字幕无码成人 | 国产成人调教在线视频| 鲁鲁鲁爽爽爽在线视频观看|