999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文期刊論文數(shù)據(jù)采集技術(shù)研究

2019-03-07 05:22:18李家辰張一凡曠遠有張雪海沈沂亭
電腦知識與技術(shù) 2019年35期

李家辰 張一凡 曠遠有 張雪海 沈沂亭

摘要:基于圖像處理和版面分割等技術(shù),提出一種可快速檢索中文期刊論文得到題目、作者、摘要等結(jié)構(gòu)化數(shù)據(jù)的方法。該方法可以對中文期刊論文的PDF文件或圖像文件進行分析處理,自動形成一些結(jié)構(gòu)化的圖像塊數(shù)據(jù),最終轉(zhuǎn)化為結(jié)構(gòu)化的文字數(shù)據(jù),以幫助用戶準確地獲取或檢索論文信息。實驗結(jié)果表明,本方法對中文期刊論文進行數(shù)據(jù)采集具有一定的有效性。

關鍵詞:圖像處理;版面分析;投影法;中文期刊

中圖分類號:TP317 文獻標識碼:A

文章編號:1009-3044(2019)35-0188-02

1 概述

隨著學術(shù)期刊與學術(shù)論文日趨增多,用戶在學術(shù)期刊中準確快速提取出論文基本信息的需求也日益增強。目前的論文多以圖像的形式儲存,而文字形式是人們檢索論文信息所需要的主要顯示類型。而將圖像信息轉(zhuǎn)化成文字信息常采用OCR技術(shù)。OCR是指通過掃描、拍照等光學輸入方式將印刷文字最終轉(zhuǎn)化為可編輯的數(shù)字化信息[1]。在OCR識別之前,通常需要對文字版面進行分析。

版面分割是對版面內(nèi)的圖像、文本、表格等信息和位置關系所進行的自動分析、識別和理解的過程。最終是將圖像分成若干個不相關的區(qū)域。由于這關系到文字識別的準確性和正確的數(shù)據(jù)采集順序,版面分析在操作過程中是不可或缺的。本項目中選用的是邊緣檢測版面分析。基于邊緣檢測的分割方法試圖通過檢測不同區(qū)域的邊緣來解決問題,通常不同的區(qū)域之間的邊緣上灰度值的變化往往比較大,這是邊緣檢測方法得以實現(xiàn)的主要假設之一。[2]

因此,為獲得期刊論文基本信息,需要先將通常儲存的圖像信息依次進行灰度二值化,灰度直方圖生成,版面分析,再將得到的結(jié)構(gòu)化圖像塊轉(zhuǎn)換為文字信息,最后將所得到的基本信息數(shù)據(jù)呈現(xiàn)給用戶。這樣便能夠更迅捷,更清晰地讀取并判斷出該論文是否為自己所需求的材料。僅需少量的人工步驟即可實現(xiàn)該效果,因此該方法更能滿足用戶對于信息檢索、判斷的需求。

2 論文基本信息的特征分析

2.1頁眉的檢測

頁眉是位于文章首頁上方,用直線分割的一片區(qū)域。一般地,在其中記錄了出版時間,出版社名稱,版號等信息。但相對于正文信息而言,頁眉頁腳具有獨立性。在基于OCR和版面分析的一些應用中,需將頁眉頁腳和主體分離并單獨處理。根據(jù)直線的所在位置和頁面的最上端劃出頁眉范圍,將整個版面一分為二。進一步根據(jù)灰度直方圖分別分割頁眉上的信息。

2.2論文題目、作者、關鍵詞等的特征分析

通常情況下,論文題目位于首頁的居中位置,是論文主題內(nèi)容的體現(xiàn),與之后的文章內(nèi)容有明顯間隔,字號相對較大,可依據(jù)此來進行投影得到論文題目范圍之后進行文字識別。論文題目之后是作者,同樣借助投影得到行間距,劃分區(qū)域,進行文字識別,而在論文作者下的單位可以通過單位兩邊的括號作為特征標識來進行分割與處理。同理,關鍵詞、DOI號等論文信息也可以以此確定其內(nèi)容。識別后的字符通過ASCALL碼值判斷可區(qū)別其中英文,進而得到結(jié)果。

3 論文信息提取的算法

基于對論文所需信息的特征分析,給出整個論文信息提取的算法及流程。

3.1論文信息提取的算法流程

傳入的PDF文件經(jīng)過版面分析,得到論文有關信息的位置和屬性。對有效信息區(qū)進行二維坐標下的行投影,確定并統(tǒng)計、提取特征值,再根據(jù)統(tǒng)計得來的特征值,進行孤立行分析,并依據(jù)判定的孤立行,對文本進行區(qū)域的分割,進而得到版面分析的分割結(jié)果。[3]根據(jù)區(qū)域上下邊界尋找論文信息有關區(qū)域,通過分割線檢測及分析區(qū)域特征,以此判斷文本域為何種論文信息。判別算法流程如圖2。

3.2圖像處理

圖像處理需先將RGB轉(zhuǎn)灰度,再將圖片進行灰度二值化處理。灰度直方圖是基于二值化后的圖像生成的表示灰度值分布的直方圖。將每個像素點按照行或列的形式顯示為一張橫軸表示灰度值,縱軸為灰度出現(xiàn)次數(shù)的圖像稱為灰度直方圖。灰度直方圖直觀地顯示了文字在文章版面內(nèi)的分布情況,在之后的版面分析中有了最直接的分析依據(jù)。

3.3投影法判別論文基本信息

將論文圖像轉(zhuǎn)灰后,灰度級范圍為[O,L-1]的數(shù)字圖像的直方圖是離散函數(shù)h(rk)=nk,其中rk是笫k級灰度值nk是圖像中灰度為rk的像素個數(shù)。在實踐中,經(jīng)常用乘積MN表示的圖像像素的總數(shù)除它的每個分量來歸一化直方圖,通常M和N是圖像的行和列的維數(shù)。因此,歸一化后的直方圖由p(rk)=nk/MN給出,其中k=0,1,…,L-1[4]。在得到直方圖后,通過投影法得到每個所需區(qū)域的行高和行距。在這里舉例介紹論文題目、作者、關鍵詞的判別思路。

(1)論文題目區(qū)域的特征分析:

設LineHeight行高,PreSpace為當前塊前行距,NextSpace為當前塊后行距,isChinese與isEnglish的值可用來判斷行內(nèi)文本是否為純英文。

● 單行論文題目判別:

通過大量的論文數(shù)據(jù)可知在得到論文投影數(shù)據(jù)后,論文題目通常情況下集中出現(xiàn)在都滿足以下的條件的塊中:

據(jù)此可以基本得到論文題目數(shù)據(jù)。

● 雙行論文題目判別:

論文題目會占用雙行,在這種情況下,不但滿足單行論文題目的限制條件,而且通常會有的特征出現(xiàn),同上處理并與第一行標題合并可以得到雙行論文題目數(shù)據(jù)。得到論文題目文本后,將其在軟件界面上進行顯示與儲存。

(2)論文作者、關鍵詞等特征分析:

論文作者通常出現(xiàn)在論文題目下方,即滿足條件論文作者行為論文題目下的首個中文行,且其字高必小于標題字高,對應作者位置必低于其對應標題位置,論文作者該行的前行距Rect.PreSpace大于通常的行間距。在查找到所需數(shù)據(jù)后,將其后數(shù)據(jù)通過OCR識別,并且可以通過isChinese與isEnglish值判斷出論文作者的中英文形式,最終可將此塊數(shù)據(jù)歸類與儲存。

同樣,關鍵詞等論文數(shù)據(jù)的所在位置一般固定。通過遍歷論文首頁投影圖像,找到識別主體與論文正文之間的分割線,再查找到其確切位置,進行識別、獲取文本即可。

4 實驗結(jié)果

為了驗證該程序的有效性,我們收集大量論文來進行識別實驗,結(jié)果見表1:

5 結(jié)束語

本文提出一種分割論文并識別內(nèi)容的方法,根據(jù)論文信息的特征提出了相關內(nèi)容的約束條件,并通過大量測試驗證,該方法可以識別較多格式標準的中文論文,但對于部分排版更加靈活的中英文論文仍無法做到準確識別,此問題還有待后續(xù)解決。

參考文獻:

[1]李小鋒.基于非文本圖像優(yōu)先的中文版面分析技術(shù)研究和應用[D].北京:北方工業(yè)大學,2010.

[2]許新征,丁世飛,史忠植,等.圖像分割的新理論和新方法[J].電子學報,2010,38(2A):76-82.

[3]王莉麗,陳曄,劉玲.基于投影輪廓分析的文本圖像版面分割算法研究[J].數(shù)字技術(shù)與應用,2017(3):164-165.

[4]Rafael C.Gonzalez Richard E.Woods.數(shù)字圖像處理[M].北京:電子工業(yè)出版社,2011:72-76.

【通聯(lián)編輯:唐一東】

收稿日期:2019-08-15

基金項目:本項目受北京市大學生科學研究與創(chuàng)業(yè)行動計劃資助

作者簡介:李家辰(2000-),男,河南濟源人,學生,本科,主要研究方向為圖像處理。

主站蜘蛛池模板: 国产午夜一级毛片| 国产美女丝袜高潮| 暴力调教一区二区三区| 国产精品亚洲五月天高清| 国产福利微拍精品一区二区| 人妻无码中文字幕一区二区三区| 亚洲精品你懂的| 色AV色 综合网站| 亚洲中文无码h在线观看| 香蕉综合在线视频91| 久久永久精品免费视频| 亚洲中文字幕无码mv| 91福利国产成人精品导航| 国产三级韩国三级理| 国产成人高清在线精品| 人妻21p大胆| 99re这里只有国产中文精品国产精品 | 国产小视频网站| 欧美激情综合| 狂欢视频在线观看不卡| 亚洲精品老司机| 在线观看免费国产| 欧美中日韩在线| 久久精品这里只有精99品| 欧美亚洲另类在线观看| 欧美天堂久久| 黄色一级视频欧美| 九九线精品视频在线观看| 一本久道热中字伊人| 永久免费无码日韩视频| 日日噜噜夜夜狠狠视频| 亚洲色成人www在线观看| 香蕉综合在线视频91| 欧美成人精品欧美一级乱黄| 欧美国产另类| 久久精品丝袜高跟鞋| 国产精品亚洲va在线观看 | 伊人网址在线| 91色在线观看| 狠狠v日韩v欧美v| 91精品国产自产91精品资源| 亚洲人成日本在线观看| 色婷婷电影网| 欧美亚洲一二三区| 成人国产精品2021| 久久精品人妻中文系列| 97超爽成人免费视频在线播放| 国产欧美精品一区二区| 综合亚洲网| 国产理论精品| 无码专区在线观看| 欧美亚洲国产精品第一页| 华人在线亚洲欧美精品| 九色最新网址| 国产欧美一区二区三区视频在线观看| 午夜一级做a爰片久久毛片| 国产精品视频白浆免费视频| 国产精品视屏| 亚洲AⅤ永久无码精品毛片| 呦系列视频一区二区三区| 午夜激情福利视频| 亚洲欧州色色免费AV| 国产视频入口| 国产精品视频免费网站| 日韩国产综合精选| 波多野结衣一区二区三区四区视频 | 青青久久91| 国产精品hd在线播放| 91福利一区二区三区| 五月天婷婷网亚洲综合在线| 亚洲中文无码h在线观看| 欧美激情视频一区二区三区免费| vvvv98国产成人综合青青| 宅男噜噜噜66国产在线观看| 日韩精品成人在线| 亚洲人成在线精品| 2021国产精品自产拍在线观看| 无码AV日韩一二三区| 不卡视频国产| 亚洲日本中文综合在线| 狠狠v日韩v欧美v| 亚洲美女高潮久久久久久久|