999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代基于統計特征的情報關鍵詞提取方法

2014-10-09 07:28:42葉翔
關鍵詞:特征文本方法

葉翔

摘要:伴隨著經濟的發展,科學技術取得了飛速發展,互聯網在各行各業的發展建設中取得了廣泛的應用。隨著市場經濟的變革,消費者、企業和各個經濟領域采取多種措施發掘大數據的潛力,隨著改革浪潮的逼近,大數據技術取得了廣泛的研究和應用。筆者結合多年工作經驗,從大數據的含義及特征著手,對大數據時代基于統計特征的情報關鍵詞提取方法做了簡單介紹。

關鍵詞:大數據 統計特征 情報關鍵詞 關鍵詞提取 方法

1 大數據的含義及特征

大數據即人們常說的非結構化數據,它借助計算機網絡,可以存儲大量數據,并保證數據的真實性。體量、速度和多樣性是大數據定義中的關鍵內容。其基本特征主要有:第一,大數據數據總量增長規模非常大。同種類型的數據在傳輸過程中處于快速增長狀態。第二,數據增長的速度非???,以指數級持續增長模式為主。第三,新的數據來源渠道越來越多,新的數據類型也不斷豐富。第四,大數據的價值不斷上漲,大數據可以為企業發展帶來更多商機,是現代企業發展過程中必不可少的內容。

2 相關研究現狀及存在的問題

情報關鍵詞是表述某個文件或者論文中重要內容的詞語。本文中介紹的大數據時代基于統計特征的情報關鍵詞是指以網頁為主的關鍵內容,提取關鍵詞的主要目的是分析語義和對核心詞語進行統計。網頁關鍵詞在自動摘要、信息檢索以及自動問答等形式中都存在較多不確定因素,導致大數據時代基于統計特征的情報關鍵詞提取方法問題重重。

3 大數據時代基于統計特征的情報關鍵詞提取方法

3.1 關鍵詞提取方法的分類 關鍵詞提取方法分四類:第一,基于語義的方法。以詞典為依據,對詞和句子進行分析,對詞和句子進行分類標注,滿足計算機對多重信息片段的實際需求,通過計算獲得情報關鍵詞。第二,基于機器學習的方法。利用機器對訓練語料庫進行訓練,結合各項系數的實際狀況,確立相關的參數、建立準確的模型。第三,基于復雜網絡的方法。明確候選特征詞之間的關系,以既定的規則為出發點,構建一個復雜網絡,通過相關數據計算出節點權重系數和介數,最大的綜合值即為關鍵詞。第四,基于統計的方法。詞語具有相關統計信息,以統計信息為基礎,提取相關關鍵詞。

3.2 關鍵詞提取方法的構造

3.2.1 中文詞語的特征及自動分詞。中文詞語通常由兩個或者兩個以上的漢字組成,句子具有連續性,要求研究人員利用大數據對中文句子進行分析之前,將句子劃分為若干小部分。目前已經有自動標注詞性的系統,可以自動過濾詞和通用詞語。

3.2.2 網頁文本的結構特征及詞語統計特征。MTML是一種標記語言,該標記語言的證書的目的是描述網頁文檔內容,以成對的標記符號為依據,明確顯示網頁的各個部分。詞語統計的特征主要有:如果某篇文章中某個詞語出現的頻率比較高,在其他文本中出現的頻率偏低,那么,這個詞語即可作為候選關鍵詞;同一詞語在不同標記符號中對文章內容的反映結果不一樣,也就是說詞語出現的位置對關鍵詞的選擇有至關重要的作用。

3.2.3 詞語過濾。文本中通常會存在大量噪聲詞。噪聲詞與文章的內容聯系不大,噪聲詞在文本中和文本集合中出現的頻率均比較高,噪聲詞通過詞頻和文本頻率乘積的離散系數自動過濾。不同內容的文本長度不一樣,噪聲詞在文本中出現的頻率數受文本長度的影響,離散系數是指某個詞語在文本中的波動程度,詞語的離散系數與該次在文本中出現的穩定性成正比,也就是說,離散系數越大,該次在文本中的穩定性越差。

3.2.4 中文關鍵詞提取流程圖。本文以TfDf指標為依據,采用離散系數的方法將文本中存在的噪聲詞過濾除去,對候選關鍵詞共現概率分布進行分析。確定TFIDF和候選關鍵詞的位置信息,以TFIDF-SK為計算方法,以函數TFIDF-SK值作為關鍵詞重要性的衡量標準。TFIDF-SK算法系統流程圖如圖1所示。

圖1 TFIDF-SK算法系統流程圖

TFIDF-SK算法將輸入文本集合進行處理,處理工作中必須將文本集合中的噪聲詞過濾除去,做好詞語統計特征;將收集到的信息計入特征計算模塊,該模塊的主要功能是計算TFIDF值、詞語位置信息和偏度;進入關鍵詞重要性衡量模塊,計算出TFIDF-SK值;判斷關鍵詞重要性度量大小,輸出文本中的情報關鍵詞。

4 結束語

目前,國內外對大數據時代基于統計特征的情報關鍵詞的提取方法均有統一評價,在實際發展過程中強化統計特征情報關鍵詞的提取方法顯得尤為重要。因此,研究人員必須在了解大數據含義及特征的前提下,針對大數據時代基于情報關鍵詞提取方法存在的問題,對相關方法進行深入研究,保障情報關鍵詞的穩定性。

參考文獻:

[1]羅繁明,楊海深.大數據時代基于統計特征的情報關鍵詞提取方法[J].情報資料工作,2013.

[2]蔣昌金.基于關鍵詞提取的中文網頁自動文摘方法研究[D].華南理工大學,2010.

[3]王立霞,淮曉永.基于語義的中文文本關鍵詞提取算法[J].計算機工程,2012.endprint

摘要:伴隨著經濟的發展,科學技術取得了飛速發展,互聯網在各行各業的發展建設中取得了廣泛的應用。隨著市場經濟的變革,消費者、企業和各個經濟領域采取多種措施發掘大數據的潛力,隨著改革浪潮的逼近,大數據技術取得了廣泛的研究和應用。筆者結合多年工作經驗,從大數據的含義及特征著手,對大數據時代基于統計特征的情報關鍵詞提取方法做了簡單介紹。

關鍵詞:大數據 統計特征 情報關鍵詞 關鍵詞提取 方法

1 大數據的含義及特征

大數據即人們常說的非結構化數據,它借助計算機網絡,可以存儲大量數據,并保證數據的真實性。體量、速度和多樣性是大數據定義中的關鍵內容。其基本特征主要有:第一,大數據數據總量增長規模非常大。同種類型的數據在傳輸過程中處于快速增長狀態。第二,數據增長的速度非???,以指數級持續增長模式為主。第三,新的數據來源渠道越來越多,新的數據類型也不斷豐富。第四,大數據的價值不斷上漲,大數據可以為企業發展帶來更多商機,是現代企業發展過程中必不可少的內容。

2 相關研究現狀及存在的問題

情報關鍵詞是表述某個文件或者論文中重要內容的詞語。本文中介紹的大數據時代基于統計特征的情報關鍵詞是指以網頁為主的關鍵內容,提取關鍵詞的主要目的是分析語義和對核心詞語進行統計。網頁關鍵詞在自動摘要、信息檢索以及自動問答等形式中都存在較多不確定因素,導致大數據時代基于統計特征的情報關鍵詞提取方法問題重重。

3 大數據時代基于統計特征的情報關鍵詞提取方法

3.1 關鍵詞提取方法的分類 關鍵詞提取方法分四類:第一,基于語義的方法。以詞典為依據,對詞和句子進行分析,對詞和句子進行分類標注,滿足計算機對多重信息片段的實際需求,通過計算獲得情報關鍵詞。第二,基于機器學習的方法。利用機器對訓練語料庫進行訓練,結合各項系數的實際狀況,確立相關的參數、建立準確的模型。第三,基于復雜網絡的方法。明確候選特征詞之間的關系,以既定的規則為出發點,構建一個復雜網絡,通過相關數據計算出節點權重系數和介數,最大的綜合值即為關鍵詞。第四,基于統計的方法。詞語具有相關統計信息,以統計信息為基礎,提取相關關鍵詞。

3.2 關鍵詞提取方法的構造

3.2.1 中文詞語的特征及自動分詞。中文詞語通常由兩個或者兩個以上的漢字組成,句子具有連續性,要求研究人員利用大數據對中文句子進行分析之前,將句子劃分為若干小部分。目前已經有自動標注詞性的系統,可以自動過濾詞和通用詞語。

3.2.2 網頁文本的結構特征及詞語統計特征。MTML是一種標記語言,該標記語言的證書的目的是描述網頁文檔內容,以成對的標記符號為依據,明確顯示網頁的各個部分。詞語統計的特征主要有:如果某篇文章中某個詞語出現的頻率比較高,在其他文本中出現的頻率偏低,那么,這個詞語即可作為候選關鍵詞;同一詞語在不同標記符號中對文章內容的反映結果不一樣,也就是說詞語出現的位置對關鍵詞的選擇有至關重要的作用。

3.2.3 詞語過濾。文本中通常會存在大量噪聲詞。噪聲詞與文章的內容聯系不大,噪聲詞在文本中和文本集合中出現的頻率均比較高,噪聲詞通過詞頻和文本頻率乘積的離散系數自動過濾。不同內容的文本長度不一樣,噪聲詞在文本中出現的頻率數受文本長度的影響,離散系數是指某個詞語在文本中的波動程度,詞語的離散系數與該次在文本中出現的穩定性成正比,也就是說,離散系數越大,該次在文本中的穩定性越差。

3.2.4 中文關鍵詞提取流程圖。本文以TfDf指標為依據,采用離散系數的方法將文本中存在的噪聲詞過濾除去,對候選關鍵詞共現概率分布進行分析。確定TFIDF和候選關鍵詞的位置信息,以TFIDF-SK為計算方法,以函數TFIDF-SK值作為關鍵詞重要性的衡量標準。TFIDF-SK算法系統流程圖如圖1所示。

圖1 TFIDF-SK算法系統流程圖

TFIDF-SK算法將輸入文本集合進行處理,處理工作中必須將文本集合中的噪聲詞過濾除去,做好詞語統計特征;將收集到的信息計入特征計算模塊,該模塊的主要功能是計算TFIDF值、詞語位置信息和偏度;進入關鍵詞重要性衡量模塊,計算出TFIDF-SK值;判斷關鍵詞重要性度量大小,輸出文本中的情報關鍵詞。

4 結束語

目前,國內外對大數據時代基于統計特征的情報關鍵詞的提取方法均有統一評價,在實際發展過程中強化統計特征情報關鍵詞的提取方法顯得尤為重要。因此,研究人員必須在了解大數據含義及特征的前提下,針對大數據時代基于情報關鍵詞提取方法存在的問題,對相關方法進行深入研究,保障情報關鍵詞的穩定性。

參考文獻:

[1]羅繁明,楊海深.大數據時代基于統計特征的情報關鍵詞提取方法[J].情報資料工作,2013.

[2]蔣昌金.基于關鍵詞提取的中文網頁自動文摘方法研究[D].華南理工大學,2010.

[3]王立霞,淮曉永.基于語義的中文文本關鍵詞提取算法[J].計算機工程,2012.endprint

摘要:伴隨著經濟的發展,科學技術取得了飛速發展,互聯網在各行各業的發展建設中取得了廣泛的應用。隨著市場經濟的變革,消費者、企業和各個經濟領域采取多種措施發掘大數據的潛力,隨著改革浪潮的逼近,大數據技術取得了廣泛的研究和應用。筆者結合多年工作經驗,從大數據的含義及特征著手,對大數據時代基于統計特征的情報關鍵詞提取方法做了簡單介紹。

關鍵詞:大數據 統計特征 情報關鍵詞 關鍵詞提取 方法

1 大數據的含義及特征

大數據即人們常說的非結構化數據,它借助計算機網絡,可以存儲大量數據,并保證數據的真實性。體量、速度和多樣性是大數據定義中的關鍵內容。其基本特征主要有:第一,大數據數據總量增長規模非常大。同種類型的數據在傳輸過程中處于快速增長狀態。第二,數據增長的速度非???,以指數級持續增長模式為主。第三,新的數據來源渠道越來越多,新的數據類型也不斷豐富。第四,大數據的價值不斷上漲,大數據可以為企業發展帶來更多商機,是現代企業發展過程中必不可少的內容。

2 相關研究現狀及存在的問題

情報關鍵詞是表述某個文件或者論文中重要內容的詞語。本文中介紹的大數據時代基于統計特征的情報關鍵詞是指以網頁為主的關鍵內容,提取關鍵詞的主要目的是分析語義和對核心詞語進行統計。網頁關鍵詞在自動摘要、信息檢索以及自動問答等形式中都存在較多不確定因素,導致大數據時代基于統計特征的情報關鍵詞提取方法問題重重。

3 大數據時代基于統計特征的情報關鍵詞提取方法

3.1 關鍵詞提取方法的分類 關鍵詞提取方法分四類:第一,基于語義的方法。以詞典為依據,對詞和句子進行分析,對詞和句子進行分類標注,滿足計算機對多重信息片段的實際需求,通過計算獲得情報關鍵詞。第二,基于機器學習的方法。利用機器對訓練語料庫進行訓練,結合各項系數的實際狀況,確立相關的參數、建立準確的模型。第三,基于復雜網絡的方法。明確候選特征詞之間的關系,以既定的規則為出發點,構建一個復雜網絡,通過相關數據計算出節點權重系數和介數,最大的綜合值即為關鍵詞。第四,基于統計的方法。詞語具有相關統計信息,以統計信息為基礎,提取相關關鍵詞。

3.2 關鍵詞提取方法的構造

3.2.1 中文詞語的特征及自動分詞。中文詞語通常由兩個或者兩個以上的漢字組成,句子具有連續性,要求研究人員利用大數據對中文句子進行分析之前,將句子劃分為若干小部分。目前已經有自動標注詞性的系統,可以自動過濾詞和通用詞語。

3.2.2 網頁文本的結構特征及詞語統計特征。MTML是一種標記語言,該標記語言的證書的目的是描述網頁文檔內容,以成對的標記符號為依據,明確顯示網頁的各個部分。詞語統計的特征主要有:如果某篇文章中某個詞語出現的頻率比較高,在其他文本中出現的頻率偏低,那么,這個詞語即可作為候選關鍵詞;同一詞語在不同標記符號中對文章內容的反映結果不一樣,也就是說詞語出現的位置對關鍵詞的選擇有至關重要的作用。

3.2.3 詞語過濾。文本中通常會存在大量噪聲詞。噪聲詞與文章的內容聯系不大,噪聲詞在文本中和文本集合中出現的頻率均比較高,噪聲詞通過詞頻和文本頻率乘積的離散系數自動過濾。不同內容的文本長度不一樣,噪聲詞在文本中出現的頻率數受文本長度的影響,離散系數是指某個詞語在文本中的波動程度,詞語的離散系數與該次在文本中出現的穩定性成正比,也就是說,離散系數越大,該次在文本中的穩定性越差。

3.2.4 中文關鍵詞提取流程圖。本文以TfDf指標為依據,采用離散系數的方法將文本中存在的噪聲詞過濾除去,對候選關鍵詞共現概率分布進行分析。確定TFIDF和候選關鍵詞的位置信息,以TFIDF-SK為計算方法,以函數TFIDF-SK值作為關鍵詞重要性的衡量標準。TFIDF-SK算法系統流程圖如圖1所示。

圖1 TFIDF-SK算法系統流程圖

TFIDF-SK算法將輸入文本集合進行處理,處理工作中必須將文本集合中的噪聲詞過濾除去,做好詞語統計特征;將收集到的信息計入特征計算模塊,該模塊的主要功能是計算TFIDF值、詞語位置信息和偏度;進入關鍵詞重要性衡量模塊,計算出TFIDF-SK值;判斷關鍵詞重要性度量大小,輸出文本中的情報關鍵詞。

4 結束語

目前,國內外對大數據時代基于統計特征的情報關鍵詞的提取方法均有統一評價,在實際發展過程中強化統計特征情報關鍵詞的提取方法顯得尤為重要。因此,研究人員必須在了解大數據含義及特征的前提下,針對大數據時代基于情報關鍵詞提取方法存在的問題,對相關方法進行深入研究,保障情報關鍵詞的穩定性。

參考文獻:

[1]羅繁明,楊海深.大數據時代基于統計特征的情報關鍵詞提取方法[J].情報資料工作,2013.

[2]蔣昌金.基于關鍵詞提取的中文網頁自動文摘方法研究[D].華南理工大學,2010.

[3]王立霞,淮曉永.基于語義的中文文本關鍵詞提取算法[J].計算機工程,2012.endprint

猜你喜歡
特征文本方法
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产精品无码在线看| аv天堂最新中文在线| 成人免费午夜视频| 色精品视频| 青青草欧美| 97se亚洲综合| 粉嫩国产白浆在线观看| 国产区精品高清在线观看| 制服丝袜无码每日更新| 国产中文一区a级毛片视频 | 国产情精品嫩草影院88av| 亚洲欧美精品在线| 五月激激激综合网色播免费| www中文字幕在线观看| 狠狠色综合久久狠狠色综合| 国产一级小视频| 国产在线观看高清不卡| 亚洲精品另类| av一区二区三区高清久久| 亚洲最大在线观看| 国产主播喷水| 亚洲国产成人综合精品2020 | 在线观看免费人成视频色快速| 国产第一页第二页| 高清无码一本到东京热| 亚洲伦理一区二区| 国产91无毒不卡在线观看| 中日韩欧亚无码视频| 日韩高清中文字幕| 国产精品污视频| 亚洲AV无码一区二区三区牲色| 天堂成人在线视频| 亚洲综合专区| 久久精品一卡日本电影| 国产成人精品一区二区不卡 | 国产av剧情无码精品色午夜| 亚洲美女一区二区三区| 五月婷婷导航| 国内精品视频| 久久久久亚洲精品成人网| 国产精品夜夜嗨视频免费视频| 亚洲成a人片77777在线播放| 欧美日韩国产在线播放| 91毛片网| 日韩高清成人| 一级毛片免费的| 色九九视频| 精品久久久久久成人AV| 国产精品久线在线观看| 亚洲永久视频| 中文字幕在线日本| 欧美午夜久久| 国产精品毛片一区视频播| 亚洲中字无码AV电影在线观看| 午夜影院a级片| 日韩毛片基地| 国产爽爽视频| AⅤ色综合久久天堂AV色综合| 欧美午夜视频在线| 四虎影视无码永久免费观看| 色香蕉网站| 日本中文字幕久久网站| 国产区成人精品视频| 欧美性色综合网| 国产午夜福利在线小视频| 97无码免费人妻超级碰碰碰| 玩两个丰满老熟女久久网| 欧美日韩亚洲综合在线观看| 日本一本正道综合久久dvd| 日韩精品免费一线在线观看 | 国产视频一二三区| 99手机在线视频| 久久网欧美| 激情六月丁香婷婷四房播| 国产91线观看| 国产精品任我爽爆在线播放6080| 毛片卡一卡二| 91亚洲精选| 综1合AV在线播放| 伊人中文网| 久久性视频| 亚洲性网站|