船舶資料快速批量著錄系統(tǒng)文本自動標引研究

2019-08-16 03:02:42馬曲立

艦船科學(xué)技術(shù) 2019年7期

關(guān)鍵詞：船舶

馬曲立

(海軍工程大學(xué) 教研保障中心，湖北武漢 430033)

0 引言

在船舶設(shè)計、制造、維修等過程中，將會形成海量圖紙和技術(shù)文件、管理文件（簡稱船舶資料）。如何管理和處理這些資料，實現(xiàn)有效識別、快速查詢、資源共享的目標，是擺在有關(guān)管理和技術(shù)人員面前的難題。信息化技術(shù)的發(fā)展使得數(shù)字化處理海量船舶資料成為可能。船舶資料分為紙質(zhì)和電子2 種，就數(shù)字化過程而言，前者只比后者多了掃描和識別2 個過程，其余過程（包括著錄、輸出、共享和管理等）都是一樣的。在這些過程之中，如何快速、簡潔、準確、有規(guī)律地開展著錄，是實現(xiàn)船舶資料數(shù)字化的關(guān)鍵。而著錄的重要前提則是文本的自動標引，只有通過自動標引技術(shù)提取、歸納、凝練船舶資料中關(guān)鍵的、典型的、有代表性的信息，才能實施有效的著錄和索引，從而實現(xiàn)真正意義上的數(shù)字化管理和共享。

1 船舶資料中文文本自動標引

自動標引是指計算機通過“閱讀”文獻的題名、摘要、關(guān)鍵詞、正文等信息，按照一定的規(guī)則或方法來抽取該文獻檢索標識的過程[1]。目前，自動標引的規(guī)則或方法可分為語言分析、機器學(xué)習(xí)（即人工智能）和概率統(tǒng)計三類[2]。

語言分析方法試圖將自動標引納入語言學(xué)研究的范疇，利用語言學(xué)的原理和辦法來解決自動標引這個語言問題，但準確率較低、通用性較差。人工智能方法是自動標引研究的熱點，也是重要的發(fā)展方向，但該方法必須基于較為完善和及時更新的知識庫、策略庫和訓(xùn)練庫，才能充分發(fā)揮其優(yōu)勢。概率統(tǒng)計方法歷史比較悠久、研究比較充分，具有直觀性強、通用性好、易于實現(xiàn)等特點，應(yīng)用較為廣泛和成熟。但也存在著不足：一是策略性不夠，僅僅依據(jù)詞頻開展工作，不考慮單詞出現(xiàn)的位置；二是準確率不高，容易受到出現(xiàn)頻率高卻意義不大的虛詞、介詞、助動詞等的影響；三是容易出錯，受限于已有的分詞系統(tǒng)，對系統(tǒng)未納入的單詞，分詞效果不太理想，甚至出現(xiàn)錯誤。

為此，綜合應(yīng)用人工智能和概率統(tǒng)計2 種方法。首先，建立知識庫，將該庫掛于分詞系統(tǒng)的外圍，作為其補充，解決分詞出錯的問題；其次，建立策略庫，解決虛詞、介詞、助動詞等問題，剔除這些無用詞；第三，建立訓(xùn)練庫，依據(jù)一定的數(shù)學(xué)模型根據(jù)單詞出現(xiàn)的位置確定其權(quán)重。

文獻[3]描述了單詞t 在船舶資料d 中權(quán)重的計算方法：W(t,d)

從上述公式可以看出，該權(quán)重僅僅考慮了單詞出現(xiàn)的頻率，而未考慮出現(xiàn)的位置。實際上，某一個單詞處于船舶資料的不同位置，其意義是大不相同的。因此需要引入位置權(quán)重P 的概念，改進和完善該公式?？梢詫⒛骋淮百Y料分為題名、摘要、關(guān)鍵詞、標題、首段、尾段、其余共7 個部分[1]，設(shè)定各部分權(quán)重P，則算如下[4]：

根據(jù)上述2 個公式計算出權(quán)重并采取人工智能方法構(gòu)建專用的訓(xùn)練庫、策略庫和知識庫后，按照一定的流程和規(guī)則，即可對船舶資料實施自動標引。圖1為船舶資料自動標引流程圖。

如圖1 所示，將船舶資料分為電子和紙質(zhì)2 種，前者直接進入自動標引階段；后者因為需要數(shù)字化后才能進行自動標引，所以還應(yīng)經(jīng)過前期處理階段。該階段主要由以下過程組成。1）掃描。將紙質(zhì)文件變成數(shù)字化標量文件。2）矢量化。將標量文件轉(zhuǎn)換成矢量文件，以便于開展編輯、識別等工作。3）二值化。將矢量文件中的圖形和文字分割開。4）文字識別。采用專門的文字識別系統(tǒng)對文字進行識別。自動標引階段是需要重點關(guān)注的，由分詞、剔除無用詞和確定權(quán)重3 個過程組成：1）分詞。采用標準化分詞系統(tǒng)（比如Ictclas，Nlpir，Httpcws，Scws，phpanAlysis 等）將連續(xù)的字變成有意義的詞，同時借助于知識庫解決標準化分詞系統(tǒng)還暫未收入的新詞、專業(yè)詞匯等，避免出現(xiàn)太大的錯誤。2）剔除無用詞。開發(fā)并及時更新策略庫，依據(jù)該庫剔除掉出現(xiàn)頻率高但對標引無用的虛詞、副詞、形容詞、介詞、助動詞等。3）確定權(quán)重。按照一定的計算和規(guī)則，確定某一詞的位置權(quán)重。最后，輸出關(guān)鍵詞并將關(guān)鍵詞分類，其中關(guān)鍵詞分類可以依據(jù)標準分類詞庫（比如中國分類主題詞表）進行，甚至可以生成主題詞與中圖分類號的對應(yīng)表。某些作者引入回歸系數(shù)的概念對學(xué)術(shù)期刊知識交流效率進行評價[5]，實際上的作用與權(quán)重相類似。

圖 1 船舶資料自動標引流程圖Fig. 1 Flow chart for auto index of ship drawing and file

2 自動標引結(jié)果的著錄

紙質(zhì)和電子2 種船舶資料的著錄都是在ISBD 和ACCR2 的規(guī)則下進行的，但是側(cè)重點不同。前者的主要信息源是其本身，遵守規(guī)則按照分類習(xí)慣進行著錄即可；后者的著錄則側(cè)重于對電子資源性質(zhì)的揭示和來源的鏈接[6]。自動標引結(jié)果的著錄主要有2 種方法：一是基于元數(shù)據(jù)的多媒體信息分類檢索，代表是DublinCore 元素；二是基于內(nèi)容的多媒體信息分類檢索，代表是MPEG7 標準接口。前者主要適用于電子文獻的著錄，后者主要通過定義一系列的方法和工具來描述和著錄多媒體內(nèi)容，起到檢索標準接口、方便計算機自動分類檢索的目的[7]。

無論是紙質(zhì)還是電子船舶資料，也無論是基于元數(shù)據(jù)還是基于內(nèi)容的多媒體信息分類檢索，需要重點解決的是著錄的準確性和效率問題。而著錄的準確性取決于自動標引的準確性。要提高效率則應(yīng)在2 個方面開展工作：一是盡量減少人工干預(yù)，讓計算機來完成相關(guān)工作；二是盡量避免單文著錄，應(yīng)利用數(shù)據(jù)庫、接口分析等技術(shù)對同類型、同專業(yè)、同性質(zhì)、同時間的船舶資料進行批量著錄。

圖2 為快速批量著錄界面。該批量著錄的信息主要有文件名、文件序號、題名、主要責(zé)任者、文件大小、制作者、分類號、關(guān)鍵詞、描述、制作日期和類型等，另外還規(guī)定了全部、當前路徑、選中行和從選中開始等批量范圍，以及全部字段、指定字段等批量著錄操作字段，還可以對著錄信息的完整性進行校驗。據(jù)初步測算，通過對近萬張船舶資料的著錄實踐，該快速批量著錄方法可以顯著提高著錄效率。

圖 2 快速批量著錄界面Fig. 2 Interface of fast batch record

3 船舶資料數(shù)字化處理平臺

圖紙資料的數(shù)字化在地震模擬圖紙?zhí)幚淼阮I(lǐng)域應(yīng)用范圍較廣[8]，船舶領(lǐng)域同樣如此。目前船舶資料來源復(fù)雜、種類繁多、分布分散，客觀上存在著使用效率不高、資源共享不夠、集中管理偏弱等現(xiàn)象。需要建立一個具有強大數(shù)字化處理能力、牢固信息安全能力、規(guī)范信息管理能力、海量數(shù)據(jù)管理能力和有效共享保障能力的數(shù)字化處理平臺。圖3 為船舶資料數(shù)字化處理平臺系統(tǒng)的主界面。

圖 3 船舶資料數(shù)字化處理平臺主界面Fig. 3 Main interface of digitalization system for ship drawing and file

數(shù)字化處理平臺由軟件和硬件兩部分組成。軟件包括掃描、矢量化、文字識別（含自動標引功能）、批量著錄管理、信息管理等模塊；硬件則包括B0 幅面的掃描儀和繪圖儀等。

4 結(jié) 語