葉翔
摘要:伴隨著經濟的發展,科學技術取得了飛速發展,互聯網在各行各業的發展建設中取得了廣泛的應用。隨著市場經濟的變革,消費者、企業和各個經濟領域采取多種措施發掘大數據的潛力,隨著改革浪潮的逼近,大數據技術取得了廣泛的研究和應用。筆者結合多年工作經驗,從大數據的含義及特征著手,對大數據時代基于統計特征的情報關鍵詞提取方法做了簡單介紹。
關鍵詞:大數據 統計特征 情報關鍵詞 關鍵詞提取 方法
1 大數據的含義及特征
大數據即人們常說的非結構化數據,它借助計算機網絡,可以存儲大量數據,并保證數據的真實性。體量、速度和多樣性是大數據定義中的關鍵內容。其基本特征主要有:第一,大數據數據總量增長規模非常大。同種類型的數據在傳輸過程中處于快速增長狀態。第二,數據增長的速度非???,以指數級持續增長模式為主。第三,新的數據來源渠道越來越多,新的數據類型也不斷豐富。第四,大數據的價值不斷上漲,大數據可以為企業發展帶來更多商機,是現代企業發展過程中必不可少的內容。
2 相關研究現狀及存在的問題
情報關鍵詞是表述某個文件或者論文中重要內容的詞語。本文中介紹的大數據時代基于統計特征的情報關鍵詞是指以網頁為主的關鍵內容,提取關鍵詞的主要目的是分析語義和對核心詞語進行統計。網頁關鍵詞在自動摘要、信息檢索以及自動問答等形式中都存在較多不確定因素,導致大數據時代基于統計特征的情報關鍵詞提取方法問題重重。
3 大數據時代基于統計特征的情報關鍵詞提取方法
3.1 關鍵詞提取方法的分類 關鍵詞提取方法分四類:第一,基于語義的方法。以詞典為依據,對詞和句子進行分析,對詞和句子進行分類標注,滿足計算機對多重信息片段的實際需求,通過計算獲得情報關鍵詞。第二,基于機器學習的方法。利用機器對訓練語料庫進行訓練,結合各項系數的實際狀況,確立相關的參數、建立準確的模型。第三,基于復雜網絡的方法。明確候選特征詞之間的關系,以既定的規則為出發點,構建一個復雜網絡,通過相關數據計算出節點權重系數和介數,最大的綜合值即為關鍵詞。第四,基于統計的方法。詞語具有相關統計信息,以統計信息為基礎,提取相關關鍵詞。
3.2 關鍵詞提取方法的構造
3.2.1 中文詞語的特征及自動分詞。中文詞語通常由兩個或者兩個以上的漢字組成,句子具有連續性,要求研究人員利用大數據對中文句子進行分析之前,將句子劃分為若干小部分。目前已經有自動標注詞性的系統,可以自動過濾詞和通用詞語。
3.2.2 網頁文本的結構特征及詞語統計特征。MTML是一種標記語言,該標記語言的證書的目的是描述網頁文檔內容,以成對的標記符號為依據,明確顯示網頁的各個部分。詞語統計的特征主要有:如果某篇文章中某個詞語出現的頻率比較高,在其他文本中出現的頻率偏低,那么,這個詞語即可作為候選關鍵詞;同一詞語在不同標記符號中對文章內容的反映結果不一樣,也就是說詞語出現的位置對關鍵詞的選擇有至關重要的作用。
3.2.3 詞語過濾。文本中通常會存在大量噪聲詞。噪聲詞與文章的內容聯系不大,噪聲詞在文本中和文本集合中出現的頻率均比較高,噪聲詞通過詞頻和文本頻率乘積的離散系數自動過濾。不同內容的文本長度不一樣,噪聲詞在文本中出現的頻率數受文本長度的影響,離散系數是指某個詞語在文本中的波動程度,詞語的離散系數與該次在文本中出現的穩定性成正比,也就是說,離散系數越大,該次在文本中的穩定性越差。
3.2.4 中文關鍵詞提取流程圖。本文以TfDf指標為依據,采用離散系數的方法將文本中存在的噪聲詞過濾除去,對候選關鍵詞共現概率分布進行分析。確定TFIDF和候選關鍵詞的位置信息,以TFIDF-SK為計算方法,以函數TFIDF-SK值作為關鍵詞重要性的衡量標準。TFIDF-SK算法系統流程圖如圖1所示。
■
圖1 TFIDF-SK算法系統流程圖
TFIDF-SK算法將輸入文本集合進行處理,處理工作中必須將文本集合中的噪聲詞過濾除去,做好詞語統計特征;將收集到的信息計入特征計算模塊,該模塊的主要功能是計算TFIDF值、詞語位置信息和偏度;進入關鍵詞重要性衡量模塊,計算出TFIDF-SK值;判斷關鍵詞重要性度量大小,輸出文本中的情報關鍵詞。
4 結束語
目前,國內外對大數據時代基于統計特征的情報關鍵詞的提取方法均有統一評價,在實際發展過程中強化統計特征情報關鍵詞的提取方法顯得尤為重要。因此,研究人員必須在了解大數據含義及特征的前提下,針對大數據時代基于情報關鍵詞提取方法存在的問題,對相關方法進行深入研究,保障情報關鍵詞的穩定性。
參考文獻:
[1]羅繁明,楊海深.大數據時代基于統計特征的情報關鍵詞提取方法[J].情報資料工作,2013.
[2]蔣昌金.基于關鍵詞提取的中文網頁自動文摘方法研究[D].華南理工大學,2010.
[3]王立霞,淮曉永.基于語義的中文文本關鍵詞提取算法[J].計算機工程,2012.endprint
摘要:伴隨著經濟的發展,科學技術取得了飛速發展,互聯網在各行各業的發展建設中取得了廣泛的應用。隨著市場經濟的變革,消費者、企業和各個經濟領域采取多種措施發掘大數據的潛力,隨著改革浪潮的逼近,大數據技術取得了廣泛的研究和應用。筆者結合多年工作經驗,從大數據的含義及特征著手,對大數據時代基于統計特征的情報關鍵詞提取方法做了簡單介紹。
關鍵詞:大數據 統計特征 情報關鍵詞 關鍵詞提取 方法
1 大數據的含義及特征
大數據即人們常說的非結構化數據,它借助計算機網絡,可以存儲大量數據,并保證數據的真實性。體量、速度和多樣性是大數據定義中的關鍵內容。其基本特征主要有:第一,大數據數據總量增長規模非常大。同種類型的數據在傳輸過程中處于快速增長狀態。第二,數據增長的速度非???,以指數級持續增長模式為主。第三,新的數據來源渠道越來越多,新的數據類型也不斷豐富。第四,大數據的價值不斷上漲,大數據可以為企業發展帶來更多商機,是現代企業發展過程中必不可少的內容。
2 相關研究現狀及存在的問題
情報關鍵詞是表述某個文件或者論文中重要內容的詞語。本文中介紹的大數據時代基于統計特征的情報關鍵詞是指以網頁為主的關鍵內容,提取關鍵詞的主要目的是分析語義和對核心詞語進行統計。網頁關鍵詞在自動摘要、信息檢索以及自動問答等形式中都存在較多不確定因素,導致大數據時代基于統計特征的情報關鍵詞提取方法問題重重。
3 大數據時代基于統計特征的情報關鍵詞提取方法
3.1 關鍵詞提取方法的分類 關鍵詞提取方法分四類:第一,基于語義的方法。以詞典為依據,對詞和句子進行分析,對詞和句子進行分類標注,滿足計算機對多重信息片段的實際需求,通過計算獲得情報關鍵詞。第二,基于機器學習的方法。利用機器對訓練語料庫進行訓練,結合各項系數的實際狀況,確立相關的參數、建立準確的模型。第三,基于復雜網絡的方法。明確候選特征詞之間的關系,以既定的規則為出發點,構建一個復雜網絡,通過相關數據計算出節點權重系數和介數,最大的綜合值即為關鍵詞。第四,基于統計的方法。詞語具有相關統計信息,以統計信息為基礎,提取相關關鍵詞。
3.2 關鍵詞提取方法的構造
3.2.1 中文詞語的特征及自動分詞。中文詞語通常由兩個或者兩個以上的漢字組成,句子具有連續性,要求研究人員利用大數據對中文句子進行分析之前,將句子劃分為若干小部分。目前已經有自動標注詞性的系統,可以自動過濾詞和通用詞語。
3.2.2 網頁文本的結構特征及詞語統計特征。MTML是一種標記語言,該標記語言的證書的目的是描述網頁文檔內容,以成對的標記符號為依據,明確顯示網頁的各個部分。詞語統計的特征主要有:如果某篇文章中某個詞語出現的頻率比較高,在其他文本中出現的頻率偏低,那么,這個詞語即可作為候選關鍵詞;同一詞語在不同標記符號中對文章內容的反映結果不一樣,也就是說詞語出現的位置對關鍵詞的選擇有至關重要的作用。
3.2.3 詞語過濾。文本中通常會存在大量噪聲詞。噪聲詞與文章的內容聯系不大,噪聲詞在文本中和文本集合中出現的頻率均比較高,噪聲詞通過詞頻和文本頻率乘積的離散系數自動過濾。不同內容的文本長度不一樣,噪聲詞在文本中出現的頻率數受文本長度的影響,離散系數是指某個詞語在文本中的波動程度,詞語的離散系數與該次在文本中出現的穩定性成正比,也就是說,離散系數越大,該次在文本中的穩定性越差。
3.2.4 中文關鍵詞提取流程圖。本文以TfDf指標為依據,采用離散系數的方法將文本中存在的噪聲詞過濾除去,對候選關鍵詞共現概率分布進行分析。確定TFIDF和候選關鍵詞的位置信息,以TFIDF-SK為計算方法,以函數TFIDF-SK值作為關鍵詞重要性的衡量標準。TFIDF-SK算法系統流程圖如圖1所示。
■
圖1 TFIDF-SK算法系統流程圖
TFIDF-SK算法將輸入文本集合進行處理,處理工作中必須將文本集合中的噪聲詞過濾除去,做好詞語統計特征;將收集到的信息計入特征計算模塊,該模塊的主要功能是計算TFIDF值、詞語位置信息和偏度;進入關鍵詞重要性衡量模塊,計算出TFIDF-SK值;判斷關鍵詞重要性度量大小,輸出文本中的情報關鍵詞。
4 結束語
目前,國內外對大數據時代基于統計特征的情報關鍵詞的提取方法均有統一評價,在實際發展過程中強化統計特征情報關鍵詞的提取方法顯得尤為重要。因此,研究人員必須在了解大數據含義及特征的前提下,針對大數據時代基于情報關鍵詞提取方法存在的問題,對相關方法進行深入研究,保障情報關鍵詞的穩定性。
參考文獻:
[1]羅繁明,楊海深.大數據時代基于統計特征的情報關鍵詞提取方法[J].情報資料工作,2013.
[2]蔣昌金.基于關鍵詞提取的中文網頁自動文摘方法研究[D].華南理工大學,2010.
[3]王立霞,淮曉永.基于語義的中文文本關鍵詞提取算法[J].計算機工程,2012.endprint
摘要:伴隨著經濟的發展,科學技術取得了飛速發展,互聯網在各行各業的發展建設中取得了廣泛的應用。隨著市場經濟的變革,消費者、企業和各個經濟領域采取多種措施發掘大數據的潛力,隨著改革浪潮的逼近,大數據技術取得了廣泛的研究和應用。筆者結合多年工作經驗,從大數據的含義及特征著手,對大數據時代基于統計特征的情報關鍵詞提取方法做了簡單介紹。
關鍵詞:大數據 統計特征 情報關鍵詞 關鍵詞提取 方法
1 大數據的含義及特征
大數據即人們常說的非結構化數據,它借助計算機網絡,可以存儲大量數據,并保證數據的真實性。體量、速度和多樣性是大數據定義中的關鍵內容。其基本特征主要有:第一,大數據數據總量增長規模非常大。同種類型的數據在傳輸過程中處于快速增長狀態。第二,數據增長的速度非???,以指數級持續增長模式為主。第三,新的數據來源渠道越來越多,新的數據類型也不斷豐富。第四,大數據的價值不斷上漲,大數據可以為企業發展帶來更多商機,是現代企業發展過程中必不可少的內容。
2 相關研究現狀及存在的問題
情報關鍵詞是表述某個文件或者論文中重要內容的詞語。本文中介紹的大數據時代基于統計特征的情報關鍵詞是指以網頁為主的關鍵內容,提取關鍵詞的主要目的是分析語義和對核心詞語進行統計。網頁關鍵詞在自動摘要、信息檢索以及自動問答等形式中都存在較多不確定因素,導致大數據時代基于統計特征的情報關鍵詞提取方法問題重重。
3 大數據時代基于統計特征的情報關鍵詞提取方法
3.1 關鍵詞提取方法的分類 關鍵詞提取方法分四類:第一,基于語義的方法。以詞典為依據,對詞和句子進行分析,對詞和句子進行分類標注,滿足計算機對多重信息片段的實際需求,通過計算獲得情報關鍵詞。第二,基于機器學習的方法。利用機器對訓練語料庫進行訓練,結合各項系數的實際狀況,確立相關的參數、建立準確的模型。第三,基于復雜網絡的方法。明確候選特征詞之間的關系,以既定的規則為出發點,構建一個復雜網絡,通過相關數據計算出節點權重系數和介數,最大的綜合值即為關鍵詞。第四,基于統計的方法。詞語具有相關統計信息,以統計信息為基礎,提取相關關鍵詞。
3.2 關鍵詞提取方法的構造
3.2.1 中文詞語的特征及自動分詞。中文詞語通常由兩個或者兩個以上的漢字組成,句子具有連續性,要求研究人員利用大數據對中文句子進行分析之前,將句子劃分為若干小部分。目前已經有自動標注詞性的系統,可以自動過濾詞和通用詞語。
3.2.2 網頁文本的結構特征及詞語統計特征。MTML是一種標記語言,該標記語言的證書的目的是描述網頁文檔內容,以成對的標記符號為依據,明確顯示網頁的各個部分。詞語統計的特征主要有:如果某篇文章中某個詞語出現的頻率比較高,在其他文本中出現的頻率偏低,那么,這個詞語即可作為候選關鍵詞;同一詞語在不同標記符號中對文章內容的反映結果不一樣,也就是說詞語出現的位置對關鍵詞的選擇有至關重要的作用。
3.2.3 詞語過濾。文本中通常會存在大量噪聲詞。噪聲詞與文章的內容聯系不大,噪聲詞在文本中和文本集合中出現的頻率均比較高,噪聲詞通過詞頻和文本頻率乘積的離散系數自動過濾。不同內容的文本長度不一樣,噪聲詞在文本中出現的頻率數受文本長度的影響,離散系數是指某個詞語在文本中的波動程度,詞語的離散系數與該次在文本中出現的穩定性成正比,也就是說,離散系數越大,該次在文本中的穩定性越差。
3.2.4 中文關鍵詞提取流程圖。本文以TfDf指標為依據,采用離散系數的方法將文本中存在的噪聲詞過濾除去,對候選關鍵詞共現概率分布進行分析。確定TFIDF和候選關鍵詞的位置信息,以TFIDF-SK為計算方法,以函數TFIDF-SK值作為關鍵詞重要性的衡量標準。TFIDF-SK算法系統流程圖如圖1所示。
■
圖1 TFIDF-SK算法系統流程圖
TFIDF-SK算法將輸入文本集合進行處理,處理工作中必須將文本集合中的噪聲詞過濾除去,做好詞語統計特征;將收集到的信息計入特征計算模塊,該模塊的主要功能是計算TFIDF值、詞語位置信息和偏度;進入關鍵詞重要性衡量模塊,計算出TFIDF-SK值;判斷關鍵詞重要性度量大小,輸出文本中的情報關鍵詞。
4 結束語
目前,國內外對大數據時代基于統計特征的情報關鍵詞的提取方法均有統一評價,在實際發展過程中強化統計特征情報關鍵詞的提取方法顯得尤為重要。因此,研究人員必須在了解大數據含義及特征的前提下,針對大數據時代基于情報關鍵詞提取方法存在的問題,對相關方法進行深入研究,保障情報關鍵詞的穩定性。
參考文獻:
[1]羅繁明,楊海深.大數據時代基于統計特征的情報關鍵詞提取方法[J].情報資料工作,2013.
[2]蔣昌金.基于關鍵詞提取的中文網頁自動文摘方法研究[D].華南理工大學,2010.
[3]王立霞,淮曉永.基于語義的中文文本關鍵詞提取算法[J].計算機工程,2012.endprint