胡堯強
摘要:文本信息作為情報分析的重要載體,對我國情報技術的發展具有非常重要的影響?;诖?,本文就針對情報技術中文本信息分析的相關內容進行了深入的探究,旨在推動我國情報學的全面發展。
關鍵詞:文本信息;情報技術;研究
一、簡述文本信息分析的概念及重要意義
文本信息分析的具體含義,主要是指運用模型理論對文本信息實施統計、分析、理解、轉換與生成的過程。【1】通過對情報信息來源的具體分析,我們可以從中了解到情報來源的主要渠道是通過十大文獻源及其他相關資料來獲取的,這其中包含期刊論文、會議論文、政府出版物以及產品樣本等,這些文獻資料中蘊含著情報工作所需要的大量信息資料。
文獻信息作為情報研究工作中極為重要的處理對象,其通常是以文本形式呈現出來的,對文本信息分析的處理流程主要是以檢索為基礎的序化以及信息、知識和情報之間的轉化,文本信息分析的主要目標是能夠更方便快捷的找出情報工作所需的信息資料,并運用相關知識對信息實施分析處理,由此得出最終的情報信息。
伴隨科技水平的不斷發展,推動了文本信息分析工作的信息化管理,同時也對情報專家提出了更為嚴格的要求,如何靈活的運用現代化信息技術來對文本信息進行收集與整合,從而準確快速的找出文本信息中有價值的情報資料,是每個情報專家需要迫切解決的一大問題。
二、基于本文信息分析的情報技術探究
從語言層面探究文本信息分析的處理過程
文本信息主要是借助自然語言來描述與展現的,而文本信息分析從處理單位的層面出發,可以分為詞語分析、句子分析、語段分析以及篇章分析,從分析的層面出發,文本信息則可以劃分為語音分析、語法分析、語形分析、語用分析以及語義分析。對此,我們可以從以下幾點進行詳細研究:
(一)語法角度探究
通過對文字信息語法實施研究分析后,就可以進行針對性的信息抽取,通過對信息抽取技術的靈活運用,就可以順利的展開后續工作,如信息庫的建設、列表式搜索、跨語言信息檢索以及輔助審稿等。語法分析主要是針對句子進行分析,其主要包含句子內部結構分析和句子相似度匹配分析。針對相似句子的判斷依據主要是從詞形相似度、句型結構相似度以及詞序相似度等方面進行考量的,并以此為基礎,構建出相關的向量空間法、依存結構法以及編輯距離法。
(二)語義角度探究
通過對文字信息語義實施研究分析后,就可以進行針對性的知識抽取,知識抽取是以知識工程實施的,在構建具體的知識庫后,便可以進行后續的精細式知識組織、知識推理以及知識連接等具體工作。語義分析的相關概念主要體現在以詞法分析和語法分析為前提標準,通過對知識庫中語義知識的合理運用,將語法結構描述轉化為以邏輯和概念等知識表示為基礎的語義表示,通過對領域知識的靈活運用將句子的語義加以分析整理,并在此基礎上用過判斷及推理的方式,展開后續的知識抽取與發現、觀點與流派搜索等實際工作?!?】
(三)語用角度探究
在經過具體的語用研究分析之后,就可以展開后續的風格型搜索、學者自動評價以及意見挖掘等高級處理。就目前而言,大部分科學評價都是通過論文、項目、著作以及專利等信息資料實施統計的。而學位論文的網絡評價,則是從學術作風及學術品德等角度來進行具體的評價工作的。
(四)詞法角度探究
文本信息的詞法主要包體現在自動分詞、詞性標注以及詞頻統計等方面,通過對數據適時預處理后,盡可以進行抽取特征詞構建矩陣向量,借助向量空間模型、支持向量機以及潛在語義標引等模型加以計算,從而實現分類、聚類與共詞分析等目的。
三、從智能層面探究文本信息分析的處理方法
在進行具體的文本信息處理工作時,我們不能忽視情報與智能之間存在的關聯性,處理的過程離不開智能,而處理的目標則是為了獲取有價值的情報信息,情報學的核心目的在于如何加強對智能的科學運用。因此,情報學的發展進步是無法脫離智能而獨立進行的。人工智能與計算機定性相關的較為常見的處理方法主要包括神經網絡、支持向量機、模糊決策樹、潛在語義分析等。下面我們就針對文本信息分析的幾種智能處理方法進行了詳細的研究。
(一)決策樹
決策樹是以實例為基點的歸納學習算法,它可以針對一組無規則、無次序的事例推理出決策樹表示方式的分類規則。通過自頂向下的遞歸方式,將決策樹內部節點的屬性值進行比較,并依據不同的屬性值來對該節點向下的分支加以判斷,在決策樹的葉節點得出最終結論。決策樹被廣泛運用于文本分類、數據挖掘、機器翻譯和知識發現等技術領域。
(二)支持向量機
支持向量機主要是由貝爾實驗室研究小組所提出的一個技術理論,它是以計算學習理論的結構風險最小化原則為基礎的,可以有效的解決線性不可分的問題。在實際的分類問題中,支持向量機技術原理主要體現在通過在高維空間中尋找一個超平面作為兩類的分割,以此來保障錯誤分割率控制在最小值。支持向量機主要應用于文本分類和數據挖掘等技術領域。
(三)貝葉斯網絡
貝葉斯網絡作為一種圖形模式,其主要作用是用來表示變量間的連接概率的,它能夠準確的發現數據之間的內部關系。貝葉斯理論明確了信任函數在數學中的計算方法,其具備相對穩定的數學基礎,與此同時它還展現了信任度跟隨證據而變化的增量學習特征。貝葉斯可應用于文本分類、態勢估計以及熱點監測等技術領域?!?】
(四)遺傳算法
遺傳算法,主要是基于某一隨機而生的抑或特定的初識群體出發,依據一定的操作準則,如選擇、復制、變異以及交叉等,在逐步的迭代計算后,依據不同個體的適應度值,實現優勝劣汰。遺傳算法的特點主要體現在直接對結構對象實施操作,不存在求導與函數連續性的具體限定,具備內在的隱并行性及良好的全局尋優性能,通過對概率化尋優方式的巧妙運用,可以自動獲取搜索環節中的相關知識并以此來對優化過程進行指導。遺傳算法從數學層面來看,屬于一種概率性搜索算法,而從工程學層面來看,則屬于一種自適應的迭代尋優過程。遺傳算法主要被應用于情報采集、文獻聚類、知識工程以及信息抽取等技術領域。
(五)神經網絡
神經網絡的技術原理主要是模仿人腦神經網絡的具體結構和某部分工作機制,運用多種神經元構建網絡,最終實現大規模并行計算的求解方法。每個神經元的輸出都連接著另一個神經元的輸入。神經元的輸出值是通過神經元輸入與閾值的加權函數來共同計算得出的。神經網絡主要應用于文本分類、智能檢索、文本聚類、自動分詞以及數據挖掘等技術領域。
結語:
綜上所述,文本信息作為情報分析的重要來源,對情報學的整體發展具有非常重要的價值。因此,相關部門應具備與時俱進的發展眼光,結合先進的現代化技術,來不斷完善與創新情報分析的相關技術,實現情報技術領域的不斷突破。
參考文獻:
[1]遲玉琢.2018年我國情報學研究進展[J].山東圖書館學刊,2019(04):24-31+54.
[2]張云,楊建林.從學科交叉視角看國內情報學的學科地位與發展思考[J].情報理論與實踐,2019,42(04):18-23.
[3]王鵬.“互聯網+”環境下的科技情報發展趨勢及團隊建設[J].競爭情報,2018,14(03):23-28.