999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于新聞信息分類(lèi)標(biāo)準(zhǔn)的自動(dòng)標(biāo)引實(shí)踐研究

2023-12-02 05:55:02顏玉奎石文龍
圖書(shū)館界 2023年5期
關(guān)鍵詞:分類(lèi)信息模型

顏玉奎 石文龍

[摘 要]為了提高海量新聞信息分類(lèi)的效率,本文探索研究基于Transformer(轉(zhuǎn)換器)模型和《中文新聞信息分類(lèi)與代碼》標(biāo)準(zhǔn)的自動(dòng)分類(lèi)標(biāo)引,包括自動(dòng)歸類(lèi)、聚類(lèi)、檢索標(biāo)志的智能抽取,以及人工標(biāo)引和自動(dòng)標(biāo)引的互相結(jié)合。Transformer模型訓(xùn)練數(shù)據(jù)特征效率更高,適應(yīng)能力更強(qiáng)。基于標(biāo)準(zhǔn)的自動(dòng)分類(lèi)表更靈活,更高效,自動(dòng)標(biāo)引具有廣泛的應(yīng)用前景。

[關(guān)鍵詞]中文新聞信息分類(lèi)與代碼;自動(dòng)分類(lèi);自動(dòng)標(biāo)引;Transformer模型

[中圖分類(lèi)號(hào)]G254.1[文獻(xiàn)標(biāo)志碼]A[文章編號(hào)]1005-6041(2023)05-0027-06

1 引 言

《中文新聞信息分類(lèi)與代碼》(Classification and code of Chinese news information,簡(jiǎn)稱(chēng)CNCC)是我國(guó)新聞界首次研制的中文新聞信息技術(shù)兩項(xiàng)國(guó)家標(biāo)準(zhǔn)之一,于2006年首次發(fā)布實(shí)施,2013進(jìn)行第一次修訂,2022年完成第二次修訂,是我國(guó)新聞技術(shù)領(lǐng)域的一項(xiàng)重要的基礎(chǔ)性標(biāo)準(zhǔn),也是一部非常實(shí)用的分類(lèi)法[1],已有多家新聞單位應(yīng)用實(shí)施了該標(biāo)準(zhǔn)。基于CNCC的分類(lèi)標(biāo)引有人工標(biāo)引和自動(dòng)標(biāo)引,本文在實(shí)踐的基礎(chǔ)上探索研究基于CNCC的自動(dòng)分類(lèi)標(biāo)引。

2 CNCC的基本概況及應(yīng)用中存在的問(wèn)題

CNCC以主題立類(lèi)為主,學(xué)科立類(lèi)為輔,類(lèi)目的設(shè)置兼顧科學(xué)性、實(shí)用性、穩(wěn)定性和可擴(kuò)展性,采用線(xiàn)分類(lèi)和面分類(lèi)相結(jié)合的分類(lèi)方法[2],適用于通訊社、報(bào)社、廣播電臺(tái)、電視臺(tái)、雜志社、網(wǎng)絡(luò)媒體,以及各種資訊機(jī)構(gòu)對(duì)中文新聞信息進(jìn)行分類(lèi)、檢索、標(biāo)識(shí)等方面的處理與交換業(yè)務(wù)[3]。最新修訂的CNCC(GB/T 20093—2022)類(lèi)目表包括主類(lèi)表和復(fù)分表。主類(lèi)表是一級(jí)類(lèi)表、簡(jiǎn)表和詳表的統(tǒng)稱(chēng),詳表從粗到細(xì)最多分為5個(gè)層級(jí),一級(jí)類(lèi)目24個(gè),二級(jí)類(lèi)目385個(gè)(其中含交替類(lèi)目13個(gè)),詳表的全部類(lèi)目6 927個(gè)。通用復(fù)分表包括總類(lèi)復(fù)分表、人物復(fù)分表、新聞信息體裁表,也包括世界國(guó)家(地區(qū))代碼表、中國(guó)行政區(qū)劃代碼表、中國(guó)各民族名稱(chēng)代碼表。

隨著網(wǎng)絡(luò)、手機(jī)等新媒體的迅猛發(fā)展,傳統(tǒng)媒體和新興媒體深度融合發(fā)展是大勢(shì)所趨,對(duì)于用戶(hù)畫(huà)像的數(shù)據(jù)挖掘也愈演愈烈。以前,人們依賴(lài)媒體看新聞,現(xiàn)在則是用戶(hù)自己選擇想看的新聞。總體來(lái)說(shuō),中文新聞信息分類(lèi)需要一個(gè)統(tǒng)一的分類(lèi)標(biāo)準(zhǔn),而具體媒體單位和用戶(hù)的需求豐富多樣,需要進(jìn)行靈活實(shí)用的分類(lèi),標(biāo)準(zhǔn)的規(guī)范性與需求的多樣性之間存在著矛盾。

在對(duì)新聞信息分類(lèi)時(shí),人工標(biāo)引效率低下,需要采用自動(dòng)標(biāo)引的方法和技術(shù)以提高分類(lèi)的效率。

3 基于規(guī)則的自動(dòng)分類(lèi)技術(shù)及其相關(guān)研究概述

文獻(xiàn)標(biāo)引是對(duì)文獻(xiàn)的內(nèi)容特征進(jìn)行分析、描述,從而揭示文獻(xiàn)的過(guò)程。蔡迎春等[4]全面系統(tǒng)地回顧和梳理了我國(guó)文獻(xiàn)標(biāo)引技術(shù)的發(fā)展脈絡(luò),指出我國(guó)的文獻(xiàn)標(biāo)引經(jīng)歷了從分類(lèi)標(biāo)引、主題標(biāo)引到多元化標(biāo)引的過(guò)程,逐步由人工標(biāo)引、機(jī)器輔助標(biāo)引過(guò)渡到自動(dòng)標(biāo)引,進(jìn)一步向智能標(biāo)引方向發(fā)展。自動(dòng)標(biāo)引是利用計(jì)算機(jī)系統(tǒng)從擬存儲(chǔ)、檢索的事實(shí)情報(bào)或文獻(xiàn)(題目、文摘、正文)中抽取檢索標(biāo)志的過(guò)程。自動(dòng)分類(lèi)是用計(jì)算機(jī)系統(tǒng)代替人工對(duì)文獻(xiàn)對(duì)象進(jìn)行分類(lèi),一般包含自動(dòng)聚類(lèi)與自動(dòng)歸類(lèi)。自動(dòng)聚類(lèi)是根據(jù)數(shù)據(jù)的相似性將數(shù)據(jù)分類(lèi),自動(dòng)歸類(lèi)是根據(jù)規(guī)則將數(shù)據(jù)分類(lèi)。

3.1 基于CNCC的自動(dòng)分類(lèi)相關(guān)研究

基于CNCC的自動(dòng)分類(lèi)相關(guān)研究并不多,經(jīng)檢索知網(wǎng),僅發(fā)現(xiàn)2篇相關(guān)的文章:1)2005年,CNCC作為我國(guó)第一部即將上報(bào)的新聞信息分類(lèi)標(biāo)準(zhǔn),為了真正體現(xiàn)該標(biāo)準(zhǔn)的現(xiàn)實(shí)價(jià)值,鄧茜等[5]從圖情領(lǐng)域知識(shí)組織角度提出了實(shí)現(xiàn)自動(dòng)分類(lèi)、自動(dòng)標(biāo)引的總體框架,認(rèn)為包含多個(gè)詞表、規(guī)則庫(kù)在內(nèi)的知識(shí)庫(kù)是自動(dòng)標(biāo)引的基礎(chǔ)模塊,提出了知識(shí)庫(kù)結(jié)構(gòu)的設(shè)想(但只是基于CNCC自動(dòng)分類(lèi)標(biāo)引的理論設(shè)想,沒(méi)有實(shí)際的應(yīng)用和測(cè)試)。2)2010年,張志平[6]從語(yǔ)言學(xué)領(lǐng)域語(yǔ)言分析的角度,探索了基于CNCC的自動(dòng)分類(lèi)方法:從分類(lèi)體系的類(lèi)目信息和類(lèi)目說(shuō)明中獲得初始主題詞詞表,利用獲得的初始主題詞構(gòu)建中文新聞信息分類(lèi)與代碼體系的特征向量,采用CCA自動(dòng)分類(lèi)(Class Centralized Auto-Classification,類(lèi)中心)方法將文本按該體系進(jìn)行自動(dòng)分類(lèi)。然而,其研究中所述的每個(gè)類(lèi)目對(duì)應(yīng)特定主題詞的分類(lèi)主題詞表方案更多是理論上的意義,在實(shí)際工作中很難真正應(yīng)用實(shí)施。

3.2 基于規(guī)則的主流自動(dòng)分類(lèi)方法

基于分類(lèi)規(guī)則的主流自動(dòng)分類(lèi)方法有CCA自動(dòng)分類(lèi)和Transformer(轉(zhuǎn)換器)自動(dòng)分類(lèi)。

CCA自動(dòng)分類(lèi)采用特征向量中心、貝葉斯方法、K-近鄰方法、決策樹(shù)方法、中心向量法等相結(jié)合,是一種基于特征選擇的分類(lèi)方法,其優(yōu)點(diǎn)是可擴(kuò)展性強(qiáng)、靈活性高、能夠有效地避免過(guò)擬合等,缺點(diǎn)是需要大量的預(yù)處理工作和大量的訓(xùn)練數(shù)據(jù)來(lái)進(jìn)行特征提取和分類(lèi),對(duì)新領(lǐng)域的探索能力較弱,可解釋性不足,尤其是為了能進(jìn)行數(shù)據(jù)的準(zhǔn)確匹配,需要維護(hù)龐大的中心庫(kù)數(shù)據(jù)。中心庫(kù)數(shù)據(jù)包括各種主題詞表、近義詞表、專(zhuān)用名詞表、詞典等。主題詞是經(jīng)過(guò)規(guī)范化的詞,我國(guó)有《漢語(yǔ)主題詞表》以及《航空科技資料主題詞表》《醫(yī)學(xué)主題詞表》等專(zhuān)業(yè)主題詞表,新華社也曾經(jīng)編制過(guò)《新聞主題詞表》,此外《中國(guó)分類(lèi)主題詞表》則是中國(guó)第一部大型綜合性分類(lèi)主題一體化主題詞表。詞庫(kù)、規(guī)則庫(kù)的建設(shè)和維護(hù)成本巨大,而且往往滯后,在一定程度上制約了圖情領(lǐng)域基于分類(lèi)法的自動(dòng)分類(lèi)研究和應(yīng)用。2009—2016年,關(guān)于自動(dòng)分類(lèi),采用“分類(lèi)法”做篇名詞或者關(guān)鍵詞,檢索結(jié)果只有1篇文章,而該文無(wú)論在原理方面還是方法方面,都沒(méi)有新的發(fā)現(xiàn)和發(fā)展[7]。

Transformer是一種基于自注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)模型,廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域的各種任務(wù),如文本分類(lèi)、機(jī)器翻譯和問(wèn)答系統(tǒng)等。Transformer對(duì)自然語(yǔ)言進(jìn)行分析獲取特征并對(duì)內(nèi)容分類(lèi)。Transformer自動(dòng)分類(lèi)利用Transformer模型的特點(diǎn),從原始文本中自動(dòng)提取特征信息并將其轉(zhuǎn)化為上下文向量,進(jìn)而對(duì)文本進(jìn)行分類(lèi)。Transformer通過(guò)自然語(yǔ)言處理分析數(shù)據(jù)特征,僅從原始數(shù)據(jù)中就能提煉出對(duì)應(yīng)的特征,只需要完善對(duì)應(yīng)的特征、維護(hù)儲(chǔ)存學(xué)習(xí)特征的模型,無(wú)需維護(hù)龐大的詞庫(kù)、規(guī)則庫(kù)等中心庫(kù)數(shù)據(jù),降低了大量的數(shù)據(jù)維護(hù)成本。

Transformer自動(dòng)分類(lèi)在自然語(yǔ)言處理任務(wù)中取得了很好的效果,在很多應(yīng)用場(chǎng)景中表現(xiàn)出了優(yōu)異的性能,尤其是在大規(guī)模數(shù)據(jù)集上的表現(xiàn)尤為出色。它的突出優(yōu)點(diǎn)在于能夠自動(dòng)學(xué)習(xí)到好的特征,并且可以通過(guò)簡(jiǎn)單的模型結(jié)構(gòu)來(lái)擴(kuò)展到更多的任務(wù)中,具有很高的可拓展性。

2016年前,文本的自動(dòng)分類(lèi)主要使用傳統(tǒng)的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練;2016—2018年,自動(dòng)分類(lèi)主要使用深度學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)相關(guān)模型進(jìn)行訓(xùn)練;2019年之后,主要使用“Transformer預(yù)訓(xùn)練模型+遷移學(xué)習(xí)”方式進(jìn)行訓(xùn)練。隨著Transformer預(yù)訓(xùn)練模型的不斷發(fā)展和優(yōu)化,2022年之后,“Transformer預(yù)訓(xùn)練模型+遷移學(xué)習(xí)”方式已經(jīng)成為一種通用的文本分類(lèi)工具。

綜上所述,在基于規(guī)則的主流自動(dòng)分類(lèi)方法中,Transformer模型訓(xùn)練數(shù)據(jù)特征效率更高,成本更低,適應(yīng)能力更強(qiáng)。本文在實(shí)踐的基礎(chǔ)上,探索研究基于Transformer模型和CNCC標(biāo)準(zhǔn)的自動(dòng)標(biāo)引,包括自動(dòng)歸類(lèi)、聚類(lèi)以及其他檢索標(biāo)志的智能抽取。

4 基于CNCC的自動(dòng)分類(lèi)標(biāo)引實(shí)踐與研究

廣西日?qǐng)?bào)社與業(yè)內(nèi)領(lǐng)先的數(shù)據(jù)智能應(yīng)用科技公司合作,建設(shè)數(shù)據(jù)中臺(tái),采用智能文本分析系統(tǒng),基于“深度學(xué)習(xí)+遷移學(xué)習(xí)”方式和Transformer模型,基于CNCC的分類(lèi)體系進(jìn)行自動(dòng)分類(lèi)標(biāo)引。

4.1 基于CNCC及實(shí)際標(biāo)引的數(shù)據(jù)狀況確定適用的自動(dòng)分類(lèi)表

自動(dòng)歸類(lèi)是根據(jù)規(guī)則將數(shù)據(jù)分類(lèi),即按照一定的分類(lèi)標(biāo)準(zhǔn)或分類(lèi)參考,將被考察對(duì)象劃歸到不同類(lèi)目的過(guò)程。因此,自動(dòng)歸類(lèi)需要有一個(gè)合理適用的分類(lèi)體系,這是非常重要的前置工作。

4.1.1 基于CNCC標(biāo)準(zhǔn)和實(shí)際使用的條目,確定自動(dòng)分類(lèi)的使用類(lèi)目。自2006年CNCC頒布實(shí)施后,廣西日?qǐng)?bào)社率先應(yīng)用實(shí)施了該標(biāo)準(zhǔn),擬定了Excel格式的CNCC使用本,報(bào)社旗下全部歷史數(shù)據(jù)中的原創(chuàng)數(shù)據(jù)均按CNCC使用本進(jìn)行了分類(lèi),分類(lèi)字段同時(shí)標(biāo)引分類(lèi)代碼和類(lèi)目名稱(chēng),擁有了一大批分類(lèi)數(shù)據(jù)語(yǔ)料。

廣西日?qǐng)?bào)社電子數(shù)據(jù)的CNCC使用本共有1 145個(gè)使用條目,類(lèi)目級(jí)別較多,一些地方資料類(lèi)目的級(jí)別多達(dá)7級(jí),組配后的專(zhuān)題資料類(lèi)目的代碼更為復(fù)雜。如此復(fù)雜的分類(lèi)表不適用于自動(dòng)分類(lèi)。

我們使用Transformer預(yù)處理已有的分類(lèi)數(shù)據(jù),對(duì)原始數(shù)據(jù)進(jìn)行清洗和標(biāo)準(zhǔn)化,對(duì)分類(lèi)字段的標(biāo)引值也進(jìn)行了清洗,把復(fù)分表代碼、類(lèi)目名稱(chēng)去掉,只以分類(lèi)代碼作為唯一的分類(lèi)標(biāo)示,將原始數(shù)據(jù)轉(zhuǎn)化為更為直觀的表型數(shù)據(jù),提取已有的分類(lèi)數(shù)據(jù)集的所有類(lèi)別,保留重要類(lèi)別,減掉數(shù)據(jù)量少的類(lèi)目,合并相似類(lèi)別,得到包含實(shí)際使用條目的分類(lèi)表。

在原有CNCC使用本的基礎(chǔ)上,結(jié)合數(shù)據(jù)分類(lèi)實(shí)際情況,保留全部的一級(jí)類(lèi)目,根據(jù)本單位重點(diǎn)報(bào)道和數(shù)據(jù)狀況,選擇比較有使用價(jià)值、數(shù)據(jù)量較多的條目,確定自動(dòng)分類(lèi)需要使用的類(lèi)目,對(duì)于沒(méi)有使用的類(lèi)目,其內(nèi)容歸入上位類(lèi)。

4.1.2 對(duì)使用類(lèi)目的層級(jí)進(jìn)行降維,確定自動(dòng)分類(lèi)表。由于CNCC的分類(lèi)層次太多,類(lèi)別關(guān)系復(fù)雜,上述自動(dòng)分類(lèi)的使用類(lèi)目也存在同樣的問(wèn)題,容易互相干擾,影響自動(dòng)分類(lèi)的準(zhǔn)確性,類(lèi)目級(jí)別太多,給用戶(hù)也帶來(lái)學(xué)習(xí)的壓力。而二級(jí)分類(lèi)相對(duì)于多級(jí)分類(lèi)來(lái)說(shuō),具有更簡(jiǎn)潔的結(jié)構(gòu),更易于理解的數(shù)據(jù)變量,方便用戶(hù)理解和篩選,可以加強(qiáng)產(chǎn)品和用戶(hù)的互動(dòng)能力。因此,自動(dòng)分類(lèi)表使用兩個(gè)分類(lèi)層級(jí),以提高模型的效率和減少誤分類(lèi)的可能性。

根據(jù)實(shí)際需求設(shè)計(jì)一個(gè)二級(jí)分類(lèi)模型,將確定好的自動(dòng)分類(lèi)使用類(lèi)目由多分類(lèi)層級(jí)降維到二級(jí)分類(lèi),然后把二級(jí)分類(lèi)的模型(指定最高分類(lèi)層級(jí)為二級(jí))和原先的多級(jí)分類(lèi)數(shù)據(jù)(多分類(lèi)層級(jí))交給NLP模型進(jìn)行學(xué)習(xí),進(jìn)行降維處理。

下面以“11.21;經(jīng)濟(jì)會(huì)議、經(jīng)濟(jì)博覽會(huì)”為例,比較CNCC、CNCC使用本和基于CNCC的自動(dòng)分類(lèi)表三者的區(qū)別和聯(lián)系(見(jiàn)表1)。

按照CNCC標(biāo)準(zhǔn),“中國(guó)—東盟博覽會(huì)”的相關(guān)信息應(yīng)歸到“11.21;經(jīng)濟(jì)會(huì)議、經(jīng)濟(jì)博覽會(huì)”的下位類(lèi)“11.21.03;經(jīng)濟(jì)博覽會(huì)”。CNCC使用本,根據(jù)CNCC的擴(kuò)展使用規(guī)則,擴(kuò)展了本單位的特色專(zhuān)題類(lèi)目“11.21.03.DF450100.B11;中國(guó)—東盟博覽會(huì)”,其中DF450100是南寧的地區(qū)代碼,B11的“B”表示本單位的擴(kuò)展類(lèi)目,在11.21.03。經(jīng)濟(jì)博覽會(huì)類(lèi)下,也可以擴(kuò)展其他在各地舉辦的各種經(jīng)濟(jì)博覽會(huì),各類(lèi)經(jīng)濟(jì)博覽會(huì)類(lèi)還可以進(jìn)一步按照屆次進(jìn)行細(xì)分。基于CNCC的自動(dòng)分類(lèi)表,把“中國(guó)—東盟商務(wù)與投資峰會(huì)”和“中國(guó)—東盟博覽會(huì)”兩個(gè)相近的內(nèi)容一起歸到“11.21.03.DF450100.B11;中國(guó)—東盟博覽會(huì)”,并對(duì)其代碼進(jìn)行降維:

{ncode:“001007009”,resourceId:null,

sourcecode:“11.21.03”,name:“經(jīng)濟(jì)會(huì)議、經(jīng)濟(jì)博覽會(huì)”,aliasName:null,level:2,…}

{ncode:“001007010”,resourceId:null,

sourcecode:“11.21.03.DF450100.B11”,name:“中國(guó)—東盟博覽會(huì)”,aliasName:null,…}

降維后將新編碼與原始基底數(shù)據(jù)編碼進(jìn)行了關(guān)聯(lián),保證新舊分類(lèi)數(shù)據(jù)的一致性和多態(tài)性。在分類(lèi)降維后,使用者可以更快速、準(zhǔn)確地找到所需的信息,優(yōu)化搜索體驗(yàn),提高頁(yè)面加載速度,縮短用戶(hù)的等待時(shí)間。

最終的自動(dòng)分類(lèi)表保留CNCC的24個(gè)一級(jí)類(lèi)目,全部類(lèi)目共98個(gè),經(jīng)過(guò)降維后,最大的類(lèi)目級(jí)別只有二級(jí)。

4.1.3 基于CNCC可以靈活制定行業(yè)、專(zhuān)題和各類(lèi)新媒體的自動(dòng)分類(lèi)表。基于CNCC可以根據(jù)數(shù)據(jù)對(duì)象的特性選擇全部或部分類(lèi)目,提升或降低部分類(lèi)目的級(jí)別,甚至可以改變類(lèi)目的順序,制定簡(jiǎn)潔實(shí)用的自動(dòng)分類(lèi)表使用本,分類(lèi)表使用本的分類(lèi)條目ID只需對(duì)應(yīng)關(guān)聯(lián)CNCC的代碼即可。例如,新華社技術(shù)實(shí)驗(yàn)室基于CNCC在新媒體環(huán)境中存在不適用的情況研制了《中文新媒體新聞信息分類(lèi)法》,其中一級(jí)類(lèi)目分為政治、社會(huì)生活、經(jīng)濟(jì)和文化4個(gè)部類(lèi),共包含14個(gè)一級(jí)類(lèi)目、88個(gè)二級(jí)類(lèi)目[8]。其實(shí),在數(shù)據(jù)庫(kù)的底層這些條目ID也可以和CNCC的分類(lèi)代碼關(guān)聯(lián)對(duì)應(yīng)起來(lái)。

基于CNCC制定的自動(dòng)分類(lèi)表更靈活、更高效,在保證底層使用統(tǒng)一的分類(lèi)代碼基礎(chǔ)上,各平臺(tái)可自由定制適用的分類(lèi)體系,實(shí)現(xiàn)分類(lèi)數(shù)據(jù)的高可用、松耦合,各平臺(tái)之間的數(shù)據(jù)可以友好交互,減少溝通成本,消除各平臺(tái)分類(lèi)數(shù)據(jù)的自有壁壘,從而實(shí)現(xiàn)各媒體平臺(tái)之間分類(lèi)數(shù)據(jù)的融合。

4.2 模型的訓(xùn)練與優(yōu)化

已有的分類(lèi)數(shù)據(jù)為自動(dòng)分類(lèi)的深度學(xué)習(xí)提供了語(yǔ)料基礎(chǔ)。采用Transformer模型對(duì)原始數(shù)據(jù)進(jìn)行處理,包括分詞、去除標(biāo)點(diǎn)符號(hào)、轉(zhuǎn)換大小寫(xiě)等操作,以消除數(shù)據(jù)中的噪聲和提高模型的收斂速度,提取出文本數(shù)據(jù)的高層次特征(如詞向量、詞頻等)輸入模型。將大量的文本數(shù)據(jù)壓縮成更簡(jiǎn)潔的結(jié)構(gòu),以減少數(shù)據(jù)量。使用Transformer模型對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,通過(guò)交叉驗(yàn)證來(lái)評(píng)估模型的表現(xiàn)。在訓(xùn)練過(guò)程中,不停嘗試對(duì)模型進(jìn)行調(diào)整,提高模型的準(zhǔn)確率和泛化能力。將訓(xùn)練好的模型接入訓(xùn)練環(huán)境中,調(diào)試模型來(lái)獲得預(yù)測(cè)結(jié)果。

對(duì)基底數(shù)據(jù)集多次訓(xùn)練后生成對(duì)應(yīng)的大模型,依據(jù)訓(xùn)練好的模型進(jìn)行評(píng)估準(zhǔn)確率、召回率等指標(biāo),在進(jìn)行數(shù)據(jù)校對(duì)后使用。

在擁有充足標(biāo)注數(shù)據(jù)的場(chǎng)景下,深度學(xué)習(xí)可以發(fā)揮較大的威力,而當(dāng)沒(méi)有足夠的標(biāo)注數(shù)據(jù)語(yǔ)料時(shí),就需要遷移學(xué)習(xí),即將一個(gè)任務(wù)中訓(xùn)練出的模型參數(shù)遷移到另一個(gè)模型任務(wù)上,能有效加快模型收斂速度,降低過(guò)擬合問(wèn)題。因此,采用基于“深度學(xué)習(xí)+遷移學(xué)習(xí)”的訓(xùn)練方式能使自動(dòng)分類(lèi)系統(tǒng)的適用性更強(qiáng)。

模型初步建立后,還需繼續(xù)改善和優(yōu)化,提升后續(xù)模型對(duì)數(shù)據(jù)的處理效率,如人工對(duì)自動(dòng)標(biāo)注的結(jié)果進(jìn)行糾正或優(yōu)化深度標(biāo)引。這些經(jīng)過(guò)糾正、優(yōu)化的語(yǔ)料將作為訓(xùn)練素材用于下一次的機(jī)器學(xué)習(xí),整個(gè)工作流程是一個(gè)閉環(huán),機(jī)器自動(dòng)標(biāo)注的準(zhǔn)確率會(huì)不斷提高。

4.3 數(shù)據(jù)的匯入及標(biāo)引

由于數(shù)據(jù)類(lèi)型多、來(lái)源廣,需要將各種數(shù)據(jù)整合在數(shù)據(jù)中臺(tái),以便進(jìn)行統(tǒng)一管理和分析。例如,廣西云數(shù)據(jù)中臺(tái)的數(shù)據(jù)包含報(bào)社所有新舊媒資數(shù)據(jù),包括報(bào)紙庫(kù)、期刊庫(kù)、網(wǎng)站庫(kù)、App庫(kù)、融媒體庫(kù)、媒資庫(kù)、新華社電稿庫(kù)、小康數(shù)據(jù)庫(kù)、黨建平臺(tái)庫(kù)、圖片庫(kù)等,同時(shí)涵蓋了廣西14個(gè)設(shè)區(qū)市及各縣(市、區(qū))的黨報(bào)、黨端、廣播、電視的數(shù)據(jù)。

數(shù)據(jù)的匯入需要考慮數(shù)據(jù)源的選擇、數(shù)據(jù)格式的一致性、數(shù)據(jù)量的龐大程度等。不同的數(shù)據(jù)源,需要對(duì)其進(jìn)行相應(yīng)的處理和整合,確保數(shù)據(jù)的一致性和可讀性。此外,如果數(shù)據(jù)量太大,在進(jìn)行匯入時(shí)可能會(huì)出現(xiàn)一些性能上的問(wèn)題。數(shù)據(jù)的匯入需要采用一些專(zhuān)門(mén)的技術(shù)手段,如數(shù)據(jù)庫(kù)、API接口等。

數(shù)據(jù)匯入時(shí),自動(dòng)標(biāo)注系統(tǒng)實(shí)時(shí)對(duì)這些數(shù)據(jù)進(jìn)行自動(dòng)分類(lèi),并標(biāo)引其他檢索特征。這個(gè)過(guò)程需要結(jié)合多種技術(shù)手段,如NLP(自然語(yǔ)言處理)和組織信息抽取等。其中,NLP可以用來(lái)處理文本數(shù)據(jù)中的語(yǔ)義和關(guān)系,而組織信息抽取則可以從非結(jié)構(gòu)化數(shù)據(jù)中提取出有用的信息。通過(guò)這些技術(shù)的配合,可以更加精準(zhǔn)地對(duì)數(shù)據(jù)進(jìn)行標(biāo)注和分類(lèi),從而提高數(shù)據(jù)的質(zhì)量和準(zhǔn)確性。

5 自動(dòng)聚類(lèi)及檢索標(biāo)志的智能提取

自動(dòng)聚類(lèi),主要是根據(jù)文本的內(nèi)在數(shù)據(jù)分布、語(yǔ)義特征,將海量文本數(shù)據(jù)自動(dòng)聚合成多類(lèi),并為每一類(lèi)數(shù)據(jù)給出描述性關(guān)鍵詞,對(duì)文本進(jìn)行核心關(guān)鍵詞分析,聚合相似的文章。自動(dòng)聚類(lèi)功能的實(shí)現(xiàn),在標(biāo)注系統(tǒng)上主要體現(xiàn)為給每一篇文章自動(dòng)標(biāo)注核心關(guān)鍵詞。

檢索標(biāo)志的智能提取,主要是通過(guò)智能識(shí)別文本中包含的命名實(shí)體信息和專(zhuān)業(yè)用語(yǔ),在標(biāo)注系統(tǒng)上主要體現(xiàn)為:對(duì)文章中的地區(qū)命名實(shí)體、人物命名實(shí)體、機(jī)構(gòu)命名實(shí)體、時(shí)間、專(zhuān)業(yè)術(shù)語(yǔ)等檢索標(biāo)志的自動(dòng)標(biāo)引。

數(shù)據(jù)中臺(tái)在匯入圖片、音頻、視頻數(shù)據(jù)時(shí),會(huì)自動(dòng)調(diào)用預(yù)設(shè)置的AI(人工智能)中臺(tái)智能解析能力,將匯入的多媒體內(nèi)容進(jìn)行語(yǔ)音識(shí)別、人臉識(shí)別、字幕識(shí)別等解析操作,同時(shí)將對(duì)應(yīng)的語(yǔ)音、字幕識(shí)別成文字,并根據(jù)內(nèi)容標(biāo)注人物的名稱(chēng),標(biāo)注涉及的地點(diǎn)、事件以及相關(guān)機(jī)構(gòu)。

對(duì)多個(gè)檢索標(biāo)志的智能提取,就是對(duì)新聞信息的多維度標(biāo)引。CNCC在一定程度上具備了分面分類(lèi)法的特征:主表的列類(lèi)以?xún)?nèi)容主題為主,從“面”分類(lèi)的角度看,主表是主題分面表,上述自動(dòng)分類(lèi)表主要是根據(jù)主表對(duì)內(nèi)容主題的標(biāo)引,便于把握各主題的縱向從屬關(guān)系和橫向相關(guān)關(guān)系,有利于新聞信息的族類(lèi)檢索;CNCC的幾個(gè)復(fù)分表相當(dāng)于新聞體裁分面表、國(guó)家地區(qū)分面表、中國(guó)行政區(qū)劃分面表、人物分面表、中國(guó)民族分面表,對(duì)文章檢索標(biāo)志的智能提取,對(duì)新聞信息的體裁、地域、人物、民族等多維度的標(biāo)引,相當(dāng)于依據(jù)各個(gè)分面表的分面分類(lèi)標(biāo)引,通過(guò)組配可以形成復(fù)雜的概念,使檢索結(jié)果更加精準(zhǔn),也可以讓用戶(hù)單獨(dú)從不同的途徑進(jìn)行檢索。盡管檢索標(biāo)志的智能提取不必依據(jù)預(yù)定的類(lèi)表,但依據(jù)CNCC復(fù)分表標(biāo)引的數(shù)據(jù)為檢索標(biāo)志的智能提取提供了訓(xùn)練數(shù)據(jù)語(yǔ)料。

6 基于分類(lèi)標(biāo)準(zhǔn)自動(dòng)標(biāo)引的展望和思考

人工智能和機(jī)器學(xué)習(xí)技術(shù)是當(dāng)今新聞技術(shù)發(fā)展的趨勢(shì),人工智能技術(shù)的發(fā)展將為媒體機(jī)構(gòu)帶來(lái)巨大的挑戰(zhàn)和機(jī)遇。

6.1 自動(dòng)標(biāo)引具有廣泛的應(yīng)用前景

人工智能的自動(dòng)標(biāo)引技術(shù)可以快速、高效、實(shí)時(shí)地對(duì)信息資源進(jìn)行處理,能為媒體機(jī)構(gòu)提供非常好的新聞挖掘和分析能力,具有廣泛的應(yīng)用前景。在實(shí)際應(yīng)用中,當(dāng)各類(lèi)新聞信息匯聚到數(shù)據(jù)中臺(tái)時(shí),就可以對(duì)該信息實(shí)時(shí)進(jìn)行自動(dòng)分類(lèi)和相關(guān)特征的自動(dòng)提取。這些經(jīng)過(guò)標(biāo)引的數(shù)據(jù)被賦予了更多的價(jià)值:可以根據(jù)需求制作成各類(lèi)智能專(zhuān)題;各類(lèi)智能專(zhuān)題可以關(guān)聯(lián)各類(lèi)新媒體采編發(fā)業(yè)務(wù)系統(tǒng)的相關(guān)欄目,助力各類(lèi)新媒體欄目的信息發(fā)布;編輯部每天的采前會(huì)可以在大屏上實(shí)時(shí)分析已發(fā)布新聞的傳播狀況,研究確定各個(gè)新聞專(zhuān)題的后續(xù)報(bào)道計(jì)劃。

隨著ChatGPT等國(guó)內(nèi)外自然語(yǔ)言大模型的不斷涌現(xiàn),內(nèi)容生產(chǎn)成為AI應(yīng)用的重點(diǎn)領(lǐng)域。2023年4月,首個(gè)全國(guó)性媒體AIGC研究機(jī)構(gòu)成立[9],助力廣西云融媒體平臺(tái)建成融合AI中臺(tái)、業(yè)務(wù)中臺(tái)、數(shù)據(jù)中臺(tái)的“智媒中臺(tái)”,廣西14個(gè)設(shè)區(qū)市主流媒體的加盟,整合了自治區(qū)各家媒體的資源優(yōu)勢(shì),實(shí)現(xiàn)了數(shù)據(jù)共享與應(yīng)用。AIGC(Artificial Intelligence Generative Content,人工智能生成內(nèi)容)的核心思想是利用人工智能模型,根據(jù)給定的主題、關(guān)鍵詞、格式、風(fēng)格等條件,自動(dòng)生成各種類(lèi)型的文本、圖像、音頻、視頻等內(nèi)容。AIGC的強(qiáng)大功能需要有豐富完善的數(shù)據(jù)資源作為基礎(chǔ),自動(dòng)分類(lèi)、自動(dòng)標(biāo)引是其技術(shù)支撐之一。自動(dòng)標(biāo)引的未來(lái)研究方向包括深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)的優(yōu)化、自適應(yīng)智能標(biāo)引、多模態(tài)標(biāo)引等。

6.2 人工標(biāo)引與自動(dòng)標(biāo)引的相輔相成

盡管自動(dòng)分類(lèi)、自動(dòng)標(biāo)引技術(shù)已經(jīng)發(fā)展到智能標(biāo)引階段,但由于自動(dòng)分類(lèi)表比較簡(jiǎn)單,自動(dòng)分類(lèi)的輸出結(jié)果也比較粗糙,在查全率和查準(zhǔn)率方面有一定的局限性。

實(shí)際應(yīng)用中,一般會(huì)采用兩種自動(dòng)標(biāo)引與人工標(biāo)引相結(jié)合的方式:一是人工標(biāo)引與自動(dòng)標(biāo)引采用相同的字段,用同樣的分類(lèi)表,人工標(biāo)引對(duì)自動(dòng)分類(lèi)標(biāo)引的結(jié)果進(jìn)行糾正;二是人工標(biāo)引和自動(dòng)標(biāo)引并存,人工標(biāo)引與自動(dòng)標(biāo)引的結(jié)果分別采用不同的字段,人工標(biāo)引主要標(biāo)引原創(chuàng)、

專(zhuān)題等重要數(shù)據(jù),需要標(biāo)引的數(shù)據(jù)占比較少。人工標(biāo)引和自動(dòng)標(biāo)引的分類(lèi)表也可以有所不同:人工標(biāo)引的分類(lèi)表是CNCC使用本,直接標(biāo)引標(biāo)準(zhǔn)的代碼和類(lèi)目名稱(chēng),分類(lèi)條目及其層級(jí)較多;自動(dòng)分類(lèi)表比較簡(jiǎn)單,使用的分類(lèi)條目數(shù)量較少,一般降維到二級(jí),但底層對(duì)應(yīng)的分類(lèi)代碼和人工標(biāo)引的分類(lèi)代碼是相同的。第二種方式更易于操作,而且可以方便顯示和檢索數(shù)據(jù)庫(kù)的重要數(shù)據(jù)。檢索時(shí),如需要精確檢索,可以只選擇人工標(biāo)引的字段進(jìn)行檢索,而模糊檢索則包含人工標(biāo)引和自動(dòng)標(biāo)引的所有結(jié)果。

人工標(biāo)引的分類(lèi)數(shù)據(jù)是更有價(jià)值的模型訓(xùn)練語(yǔ)料,有助于改善模型、優(yōu)化深度標(biāo)引。建議業(yè)界重視原創(chuàng)數(shù)據(jù)的深度標(biāo)引,基于標(biāo)準(zhǔn)進(jìn)行分類(lèi),以便于共享和利用,而分類(lèi)標(biāo)引數(shù)據(jù)共享用于模型的訓(xùn)練,也有助于自動(dòng)分類(lèi)準(zhǔn)確率的提高。

6.3 關(guān)于標(biāo)準(zhǔn)修訂的思考

融媒體時(shí)代更需要新聞信息技術(shù)標(biāo)準(zhǔn)[10]。CNCC是新聞信息分類(lèi)的標(biāo)引工具,自動(dòng)分類(lèi)、自動(dòng)標(biāo)引的廣泛應(yīng)用,需要進(jìn)一步完善CNCC,推廣新聞信息分類(lèi)標(biāo)準(zhǔn)應(yīng)用實(shí)施。建議基于CNCC靈活制訂自動(dòng)分類(lèi)表使用本,使用本條目底層對(duì)應(yīng)CNCC的代碼。在應(yīng)用實(shí)施的過(guò)程中,積極反饋新聞信息的新主題、新需求和存在問(wèn)題,按照《國(guó)家標(biāo)準(zhǔn)管理辦法》及時(shí)進(jìn)行修訂。在CNCC修訂中需要注意以下問(wèn)題:1)跟蹤新聞信息的發(fā)展?fàn)顩r,及時(shí)補(bǔ)充新出現(xiàn)的報(bào)道主題類(lèi)目,并細(xì)化新增的類(lèi)目。2)修訂時(shí)要注意分類(lèi)標(biāo)準(zhǔn)的延續(xù)性,如需修改類(lèi)目名稱(chēng)和代碼時(shí),要非常謹(jǐn)慎,避免對(duì)標(biāo)準(zhǔn)的使用單位增添過(guò)多的麻煩。3)嚴(yán)格遵循代碼唯一性的原則,新增類(lèi)目和修改代碼時(shí),不使用曾經(jīng)用過(guò)的廢棄舊代碼,因?yàn)閷?duì)使用單位來(lái)說(shuō)舊代碼可能會(huì)有對(duì)應(yīng)的數(shù)據(jù)。4)參考、兼顧新聞信息分類(lèi)的相關(guān)國(guó)際標(biāo)準(zhǔn),如國(guó)際上多家媒體單位采用的IPTC Media Topics新聞主題分類(lèi)國(guó)際標(biāo)準(zhǔn),它共有13種語(yǔ)言和語(yǔ)言變體版本,其中包含了中文版,特點(diǎn)是有利于從主題的角度標(biāo)引新聞信息的內(nèi)容,CNCC修訂時(shí)可以參考借鑒。

7 結(jié) 語(yǔ)

為了提高海量新聞信息分類(lèi)的效率,自動(dòng)標(biāo)引是新聞信息分類(lèi)標(biāo)引的發(fā)展趨勢(shì)。基于規(guī)則的自動(dòng)分類(lèi),Transformer模型訓(xùn)練數(shù)據(jù)特征效率更高,成本更低,適應(yīng)能力更強(qiáng)。標(biāo)引工具是進(jìn)行文獻(xiàn)標(biāo)引的基礎(chǔ)支撐,

[HJ1.77mm]

對(duì)于整體的中文新聞信息來(lái)說(shuō)需要一個(gè)統(tǒng)一的新聞信息分類(lèi)標(biāo)準(zhǔn),而對(duì)于具體的媒體單位和用戶(hù)來(lái)說(shuō)需要更靈活實(shí)用的分類(lèi)工具。建議依據(jù)CNCC制訂適用的自動(dòng)分類(lèi)表,選擇適當(dāng)?shù)闹悄芪谋痉治鱿到y(tǒng),對(duì)新聞信息進(jìn)行自動(dòng)分類(lèi)和自動(dòng)標(biāo)引,或者實(shí)現(xiàn)人工標(biāo)引和自動(dòng)標(biāo)引相結(jié)合。基于標(biāo)準(zhǔn)制定的自動(dòng)分類(lèi)表更靈活、更高效,底層使用統(tǒng)一的分類(lèi)代碼,可以消除各平臺(tái)分類(lèi)數(shù)據(jù)的自有壁壘,促進(jìn)各平臺(tái)數(shù)據(jù)的友好交互,減少溝通成本,便于數(shù)據(jù)的融合和共享。

基于標(biāo)準(zhǔn)的自動(dòng)分類(lèi)標(biāo)引具有廣泛的應(yīng)用前景。媒體深度融合需要新聞信息技術(shù)標(biāo)準(zhǔn),業(yè)界應(yīng)積極應(yīng)用、維護(hù)和修訂,使分類(lèi)標(biāo)準(zhǔn)更具適用性。

[參考文獻(xiàn)]

[1]張琪玉.我國(guó)情報(bào)檢索語(yǔ)言在進(jìn)步中:兩部新分類(lèi)法的特點(diǎn)[J].圖書(shū)館雜志,2008,27(7):24.

[2]蔣建華,張莉莉,李清華.新聞資料工作理論與實(shí)踐[M].北京.中國(guó)廣播電視出版社,2006:151157.

[3]全國(guó)中文新聞信息標(biāo)準(zhǔn)化技術(shù)委員會(huì).中文新聞信息分類(lèi)與代碼.GB/T 20093-2022[S].北京.中國(guó)標(biāo)準(zhǔn)出版社,2022.

[4]蔡迎春,趙心如,朱玉梅,等.我國(guó)文獻(xiàn)標(biāo)引技術(shù)的回顧與展望[J].圖書(shū)館雜志,2022,41(3):1831.

[5]鄧茜,林紅.中文新聞信息自動(dòng)分類(lèi)標(biāo)引的構(gòu)想與實(shí)現(xiàn)[J].中國(guó)傳媒科技,2005(9):2123.

[6]張志平.基于“中文新聞信息分類(lèi)與代碼”文本分類(lèi)[J].太原理工大學(xué)學(xué)報(bào),2010,41(4):402405,411.

[7]陳志新.分類(lèi)法研究的十五個(gè)問(wèn)題:我國(guó)2009至2016年分類(lèi)法研究綜述[J].情報(bào)科學(xué),2018,36(6):149155.

[8]付蓉,張璐,馮巖松,等.研制新媒體信息分類(lèi) 促進(jìn)新聞業(yè)務(wù)發(fā)展[J].中國(guó)傳媒科技,2016(4):5557.

[9]石睿鵬.首個(gè)全國(guó)性媒體AIGC研究機(jī)構(gòu)在南寧成立[EB/OL].[2023-05-19].https:∥baijiahao.baidu.com/s?id=1763245180916892794&wfr=spider&for=pc.

[10]武國(guó)衛(wèi).融媒體時(shí)代更需要新聞信息技術(shù)標(biāo)準(zhǔn)[J].中國(guó)傳媒科技,2018(2):78.

[收稿日期]2023-07-19

[作者簡(jiǎn)介]顏玉奎(1965—),女,本科,副研究館員,廣西日?qǐng)?bào)傳媒集團(tuán);石文龍(1988—),男,本科,工程師,廣西日?qǐng)?bào)傳媒集團(tuán)。

[說(shuō) 明]本文系廣西文旅廳2023年度文化和旅游研究課題“全媒體數(shù)據(jù)中臺(tái)自動(dòng)分類(lèi)及其分類(lèi)體系研究”(課題編號(hào):112)的研究成果之一。

猜你喜歡
分類(lèi)信息模型
一半模型
分類(lèi)算一算
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會(huì)信息
主站蜘蛛池模板: 尤物视频一区| 欧美日本在线| 国产黄色视频综合| 免费av一区二区三区在线| 在线播放国产一区| 无码免费视频| 午夜视频www| 日韩高清在线观看不卡一区二区| 亚洲日韩每日更新| 亚洲香蕉在线| 国产成人毛片| 国产系列在线| 日韩精品成人在线| 97久久免费视频| 国产波多野结衣中文在线播放 | 国产高清在线观看91精品| 三级毛片在线播放| 国产哺乳奶水91在线播放| 国产精品yjizz视频网一二区| 日韩在线播放中文字幕| 在线观看国产精品第一区免费| 一区二区午夜| 色综合天天娱乐综合网| 日韩东京热无码人妻| 国产午夜福利在线小视频| 91探花在线观看国产最新| 永久免费av网站可以直接看的 | 久久精品丝袜| 欧美一区二区三区欧美日韩亚洲 | 亚洲成av人无码综合在线观看| 国产精品人成在线播放| 日本高清在线看免费观看| 亚洲国产日韩一区| 久久 午夜福利 张柏芝| 91精品久久久久久无码人妻| 99re经典视频在线| 国产网站在线看| 在线精品亚洲国产| 黄色网页在线播放| 免费在线a视频| 国产尤物jk自慰制服喷水| 亚洲无码高清免费视频亚洲| 国产成人无码综合亚洲日韩不卡| 成人小视频在线观看免费| 国产精品亚洲片在线va| 婷婷色狠狠干| 亚洲一区二区三区麻豆| 91色在线观看| 欧美亚洲国产日韩电影在线| 免费国产小视频在线观看| 青青操国产视频| 日韩成人在线视频| 国模在线视频一区二区三区| 国产欧美日韩免费| 日韩色图在线观看| 国产精品久久自在自线观看| 亚洲午夜福利精品无码不卡| 欧美激情第一区| 久久精品国产免费观看频道| 色综合网址| 午夜国产在线观看| 欧美视频二区| 亚洲天堂视频网站| 亚洲第一成人在线| 国产精品伦视频观看免费| 成人午夜久久| 玩两个丰满老熟女久久网| 欧美在线伊人| 五月婷婷丁香综合| 国内精品91| 无码免费的亚洲视频| 亚洲成A人V欧美综合| 九九这里只有精品视频| 久久久噜噜噜| 欧美日本在线观看| 国产黄在线免费观看| 欧美一级高清片久久99| 日本欧美精品| 国产亚洲高清在线精品99| 午夜毛片免费看| 国产情侣一区| 亚洲综合婷婷激情|