有聲可定位圖像采集方法

2015-12-20 06:53:30羅騰元陳友飛

計算機工程與設計 2015年10期

關鍵詞：信息

羅騰元，吳勇，2，3＋，陳友飛，2，3

（1.福建師范大學地理科學學院，福建福州350007；2.福建省陸地災害工程技術研究中心，福建福州350007；3.福建省海峽西岸地理國情動態監測與應急保障工程研究中心，福建福州350007）

0 引言

傳統的災害點數據采集方式需要攜帶大量儀器設備，且記錄方式原始、操作復雜、耗時耗力、容易出錯［1］。隨著GIS、多媒體、移動設備、無線通訊等技術的發展，以文字記錄為主的傳統手段逐漸被智能移動采集終端所替代［2］，并廣泛應用于森林資源［3］、生物資源［4］調查等領域。移動采集終端的應用提高數據采集效率和精度的同時，提供更為豐富的數據源，除常規的采集現場地理位置、采集對象屬性外，還提供現場圖像、視頻、語音等多媒體信息［5］，更為詳盡、多方位記錄采集對象的狀態信息，為進一步數據應急管理、分析、應用提供較為全面完整的數據基礎。

基于此，本文提出集地理位置、屬性信息、圖像、語音一體化的有聲可定位圖像數據模型，并面向智能移動終端實現災害數據快速、便捷采集。

1 有聲可定位圖像模型與組織

1.1 有聲可定位圖像模型

災害信息需要采集的一些共性資料包括：災害類型、受災地點或區域、受災人數以及災害發生時間等，除此之外，還有災害現場圖像與語音信息等多媒體信息。目前，大多移動采集系統采用XML文件對上述多源異構的數據進行描述［6］，或者通過關系數據庫進行組織與存儲［7］，上述兩種方式實質上都是將數據進行分離存儲，通過中間文件或關鍵字進行外部關聯，分離存儲不利于數據的組織管理，且不利于信息的同步傳輸［8］。因此，本文提出有聲可定位圖像模型，對位置、屬性、圖像、音頻等信息進行綜合表達，采用此結構便于采集數據的一體化傳輸，而且有利于數據的組織與管理。有聲可定位圖像模型由圖像、圖像元數據、圖像屬性以及圖像空間信息4個部分組成，如圖1所示。圖像部分主要存儲災害現場拍攝的圖像；圖像元數據部分用于存儲圖像的描述參數等，包括圖像分辨率、焦距、拍攝時間、曝光度等；圖像屬性部分用于災害類型、災害等級等文本、數值信息以及災害現場的語音描述；圖像空間信息部分包括圖像拍攝位置的GPS信息和方位信息。

圖1 有聲可定位圖像數據模型

1.2 有聲可定位圖像組織

在數據組織方面，文中采用日本電子工業發展協會制定的可交換圖像文件（exchangeable image file，EXIF）格式進行表達，EXIF圖像格式是為數碼相機記錄照片屬性信息和拍攝參數而設定的圖像文件格式［9］，除此之外，還可存儲語音、GPS和方位等信息，且易于擴充記錄信息，非常適合有聲可定位圖像的一體化存儲。

EXIF圖像格式在JPEG 標準的基礎上，在文件中增加了一組存儲EXIF 信息的應用標識段（APP1－APPn）用于存儲圖像的描述信息，如圖2所示。其中，APP1為默認啟用的標識段，由圖像文件頭（IFH）、圖像文件目錄（IFD）以及縮略圖像3部分組成。APP1標識段中只包含IFD0與IFD1 兩個目錄，但在IFD0 目錄中又定義了EXIF IFD，GPS IFD，Interoperability IFD 這3個子目錄，每個子IFD目錄下定義了Tag標記字段對相關參數進行存儲。有聲可定位圖像主要利用EXIF IFD 與GPS IFD 記錄相關拍攝參數，EXIF IFD 用于存儲圖像固有屬性以及災害專有屬性。圖像固有屬性包括相機參數（生產商、型號等）、攝影參數（光圈、焦距等）、拍攝日期和時間等，并分別存儲于相應的Tag標記字段，例如拍攝時間存儲在DateTime字段中，焦距存儲在FocalLength字段中；災害專有屬性則是根據應用需求進行定義，其屬性通過鍵－值的方式合并成字符串存放于UserComment字段中，字符串中利用字符 “＆”作為關鍵字和值的分隔符，字符 “MYM”作為不同屬性間的分隔符，以方便日后應用中屬性解析提取，例如：災害調查中定義了災害時間、地名、災害類型、災害等級、受災人數、經濟損失以及成災原因等屬性，其字符串存儲格式為：“災害時間＆2014年6月19日MYM 地名＆永春縣仙嶺村MYM 災害類型＆滑坡MYM 災害等級＆三級MYM 受災人數＆253MYM 經濟損失＆10.2MYM 成災原因＆連日暴雨”；GPS IFD 中則提供GPSLatitude、GPSLongitude以及GPSImgDirection等標記字段用于記錄當前拍攝位置的緯度、經度以及拍攝方位等信息。IFD1目錄用于存儲縮略圖的相關參數，例如圖像長寬、采樣與壓縮方式等信息。

圖2 EXIF圖像數據結構

與APP1 標示段不同，APP2－APPn標識段是可選的，用于存儲圖像音頻等擴展數據。在本文中，采用APP2 標識段存儲有聲可定位圖像中的音頻流，該標識段可存儲64 KB的語音數據，如果語音數據大于64 KB，可建立多個APP2標識段進行數據存儲，存儲結構見表1。APP2段以0xFFE2兩個字節的標識開始；其后兩個字節用于記錄該標識段中除去最開始兩個字節的長度；緊接著的6個字節存儲APP2段識別碼，以 “FPXR”的ASCII碼表示，多余部分采用0x00 填充；第0x0B 字節記錄數據存儲類型，值0x02表示語音數據以數據流方式存儲標識；在語音存儲中未涉及索引列表和偏移量，賦以零值；最后從第0x12位開始存放語音數據。

表1 語音數據在APP2段中存儲結構

2 有聲可定位圖像采集

2.1 采集總體設計

有聲可定位圖像采集主要涉及移動智能設備中攝像頭、麥克風、GPS、電子羅盤等硬件設備的調用、數據解析及數據交互等操作，其解析結果采用EXIF 圖像格式進行集成存儲。其總體設計流程如圖3所示，分為數據獲取與數據融合兩部分。首先，通過調用相機模塊獲取現場圖像；并將獲取圖像作為其它參數的數據載體等待集成，同時通知GPS模塊、電子羅盤模塊進行工作，GPS模塊接收GPS設備回發的電文并解析出當前圖像拍攝地點的經度、緯度等參數，電子羅盤模塊獲取相機當前鏡頭的方位信息，其包括航向角，俯仰角以及翻滾角3個參數，在本文中只取航向角作為圖像的拍攝方位，參數提取完畢后等待用戶激活屬性模塊與語音模塊；屬性模塊獲取用戶輸入并按1.2節中方法將其轉化成長字符串，錄音模塊調用麥克風獲取語音描述并進行壓縮編碼；其次，將獲取到的GPS、方位、屬性以及語音數據通過Android SDK 中ExifInterface類的setAttribute（）方法和自定義方法與圖像進行融合生成有聲可定位圖像。其中圖像、GPS、方位信息的解析、融合過程詳見文獻［10］，在此不再累贅。本文重點介紹語音數據的編碼、融合過程。

2.2 語音數據編碼與融合

2.2.1 語音編碼算法

圖3 有聲可定位圖像采集總體流程

與位置、屬性信息相比，語音信息具有數據量大的特點。由于移動終端內存相對有限，語音數據大小直接影響有聲可定位圖像在存儲器中的利用率以及無線傳輸的效率。因此，本文采用EXIF 格式標準中推薦的IMA－ADPCM 語音編碼算法進行數據壓縮。

IMA－ADPCM 語音編碼是一種針對16bits（或8bits或者更高）聲音波形數據的一種有損壓縮算法，具有編解碼速度快、結構簡單等特點［11］。該算法利用了語音樣本之間的相關性，通過前面的脈沖編碼調制（PCM）抽樣值預測下一個抽樣信號，并對實際采樣值與預測值的差分信號進行編碼，使得每次PCM 采樣的16bits語音數據最終以4 bits存儲，達到數據壓縮的目的。其存儲結構如圖4所示，對于單聲道PCM 語音數據，按語音采樣次序依次壓縮存儲，每個字節包含2組采樣壓縮數據，低4位存儲第1組采樣，高4位存儲第2組采樣；對于雙聲道PCM 數據，依次交替提取PCM 左、右聲道8組采樣數據進行壓縮，當采樣數不足8時用0填充，將每8組采樣壓縮得到32bits數據按每一采樣4位從低位到高位方式存儲，左右聲道壓縮數據交替存儲。

2.2.2 語音數據采集及融合

語音數據采集過程主要分為兩部分：首先通過語音信號采樣，并對采樣數據進行量化形成無壓縮的PCM 數據；然后通過IMA－ADPCM 編碼器將PCM 數據進行壓縮得到IMA－ADPCM 編碼數據。在此基礎上，根據EXIF 規范對APP2標示段進行編輯存儲，實現語音數據在有聲可定位圖像中的采集融合。其具體步驟如圖5所示。

（1）獲取音頻源并設置采樣頻率、聲道數、采樣位數、最小緩沖區等參數，并創建AudioRecord對象；

int audioSource＝MediaRecorder.AudioSource.MIC；／／設置語音源為麥克風

／／創建并初始化AudioRecord對象

audioRecord＝new AudioRecord （audioSource，sampleRateInHz，channelConfig，audioFormat，bufferSizeIn－Bytes）；

（2）調用AudioRecord對象的startRecording（）方法開始采集語音，并對語音采樣進行量化形成PCM 數據存入緩存，直到數據采集完畢，停止并釋放AudioRecord對象；

（3）采用開源Audio applets Library 語音編碼庫中的IMA－ADPCM 編碼器對緩存中PCM 數據進行壓縮，得到IMA－ADPCM 編碼數據；

IMAADPCM ima＿adpcm＝new IMAADPCM（）；／／創建IMA－ADPCM 對象

ima＿adpcmBuffer＝ima＿adpcm.encode（pcmBuffer）；／／IMA－ADPCM 編碼

（4）判斷IMA－ADPCM 編碼數據是否大于64KB，如小于，按照表1數據結構創建一個APP2標識段存儲語音數據；如大于，則創建多個APP2標識段存儲語音數據；最終將編輯好的APP2標識段根據EXIF結構寫入有聲可定位圖像。

byte［］header＝new byte［17］；／／創建APP2標識段頭文件

APP2Marker＝add （header，audioBuffer）；／／將語音數據與頭文件相加

int index＝audioPosition （photoBuffer）＋1；／／判斷APP2段存放位置

byte ［］ audioPhoto ＝ insert （photoBuffer，APP2Marker，index）；／／將APP2 標識段按指定位置插入可定位圖像

圖4 IMA－ADPCM 編／解碼

圖5 可定位圖像語音采集及融合實現流程

3 系統實現

3.1 系統實現

基于智能移動終端，以帶有Android開發包插件（An－droid development toolkit，ADT）的Eclipse集成環境為平臺，開發了有聲可定位圖像災害數據采集系統，并應用于福建省災害點調查。系統主要包括有聲可定位圖像采集、無線傳輸、查詢瀏覽等模塊，其中，圖6 （a）為圖像采集界面，用戶可通過點擊拍攝按鈕采集災害場景圖像，同時當前拍攝位置與拍攝方位自動寫入有聲可定位圖像中，并自動跳轉到圖6 （b）界面進行屬性編輯與語音描述記錄；圖7 （a）為圖像瀏覽界面，用戶通過點擊相冊中的圖像，系統自動提取當前圖像的位置與方位信息實時、直觀反映于在線地圖上，點圖標代表當前圖像的位置，扇形表示圖像大致拍攝距離與范圍，通過點擊地圖上圖片可繼續查看圖像的文字屬性以及播放語音描述，界面如圖7 （b）所示。

3.2 數據驗證

采用十六進制查看器對采集的有聲可定位圖像數據的完整性、正確性進行驗證，通過數據解析對比，驗證了有聲可定位圖像中的各種屬性在EXIF 圖像結構中是完整的、且存儲位置正確。具體存儲結構如圖8 所示，圖像以0xFFD8開始，緊接的②～⑤是APP1段參數，其后第⑥部分存儲的是數據采集的日期和時間，第⑦部分存儲的是經轉碼后的文本屬性數據，第⑧部分存儲的是GPS 信息數據，第⑨部分存儲的是方位數據；APP2標識段以0xFFE2開始，其后瑏瑡～瑏瑥是APP2 標識段起始參數，第瑏瑦部分存儲的是經壓縮編碼后的語音數據。

圖6 有聲可定位圖像采集界面

圖7 有聲可定位圖像瀏覽界面

圖8 有聲可定位圖像存儲結構

4 結束語

本文提出一種集圖像、語音、地理位置以及屬性信息等多源異構采集要素于一體的有聲可定位圖像表達模型，詳細介紹了有聲可定位圖像中各采集要素基于EXIF 圖像格式的組織結構與存儲方式，并重點闡述了語音數據在有聲可定位圖像中的采集、IMA－ADPCM 壓縮編碼、融合存儲過程。在此基礎上，基于Android智能終端實現了有聲可定位圖像移動采集系統，并將其應用于福建省災害點調查。通過數據解析查看，驗證有聲可定位圖像采集方法是可行的，采集的數據能正確地反映災害點現場圖像、位置、方向，以及記錄相關的語音、文本屬性信息，為應用提供了更為豐富的數據源，同時簡化并提升了數據采集、處理的過程和效率。

［1］WANG Wei，ZHANG Lizhong，CAI Zizhao，et al.Field survey data information acquisition in urban environmental geology［C］／／2010Forum on Urban Geoenvironment ＆Sustainable Developmen，Shanghai，2010：551－555（in Chinese）. ［王偉，張禮中，蔡子昭，等.城市環境地質野外調查數據信息化采集［C］／／2010年城市地質環境與可持續發展論壇，上海，2010：551－555.］

［2］ZHOU Yuanchun，HU Lianglin，SHEN Zhihong，et al.Outdoor collection for scientific data based on PDA and its application ［J］.E－Science Technology and Application，2008 （1）：76－82 （in Chinese）. ［周園春，胡良霖，沈志宏，等.基于PDA 的野外科考數據采集系統及其應用［J］.科研信息化技術與應用，2008 （1）：76－82.］

［3］LI Weiguo，CHANG Yuanfei，ZHANG Ying，et al.Application of PDA to geographical information system for forestry［J］.Computer Systems and Applications，2010，19 （12）：176－179 （in Chinese）.［李衛國，常原飛，張迎，等.PDA 在林業地理信息系統中的一種應用［J］.計算機系統應用，2010，19 （12）：176－179.］

［4］CHEN Bin，CHEN Jianping，MA Keping，et al.Biological field investigation and data management with photographing and geo－referencing method ［J］.E－Science Technology ＆ Application，2011 （5）：81－89 （in Chinese）. ［陳彬，陳建平，馬克平，等.攝影定位法野外生物考察與數據管理［J］.科研信息化技術與應用，2011 （5）：81－89.］

［5］Shahiduzzaman MM， Mahmuda Naznin， Akond Rahman.Portable and secure multimedia data transfer in mobile phones using record management store［J］.Computer Science and Information Technology，2010 （5）：364－367.

［6］FAN Zhongcheng，ZHENG Hui，XING Ganghong，et al.The development of campus mobile phone location and information collection platform base on Android OS ［J］.Science and Technology Information，2013 （20）：255 （in Chinese）. ［范忠誠，鄭慧，幸剛鴻，等.基于Android系統的校園手機定位與信息采集平臺的開發［J］.科技信息，2013 （20）：255.］

［7］ZENG Qun，LIN Xi，ZHANG Jian，et al.Research and realization of the system of field data collection based on Windows Phone——take soil survey as an example［J］.Urban Geotechnical Investigation ＆Surveying，2013 （3）：5－8 （in Chinese）.［曾群，林熙，張建，等.基于Windows Phone的野外數據采集系統的設計與實現——以土壤調查為例［J］.城市勘測，2013 （3）：5－8.］

［8］LI Wenchuang，ZHANG Yongping，PAN Yuchun.Multi－source heterogeneous data fusion model in mobile geographic information system ［J］.Journal of Computer Applications，2012 （9）：2672－2678 （in Chinese）. ［李文闖，章永平，潘瑜春.移動地理信息系統中的多源異構數據融合模型［J］.計算機應用，2012 （9）：2672－2678.］

［9］JEITA CP－3451C.Exchangeable image file format for digital still cameras：EXIF Version 2.3 ［S］.2012.

［10］WU Yong，LUO Tengyuan，WANG Meizhen.Design of the locatable image mobile acquisition system ［J］.Bulletin of Surveying and Mapping，2014 （4）：78－78 （in Chinese）.［吳勇，羅騰元，王美珍.可定位圖像移動采集系統設計［J］.測繪通報，2014 （4）：78－78.］

［11］WANG Xiaojun，ZHAO Ga，SHU Pingping，et al.FPGAbased IMA－ADPCM codec research and design ［J］.Journal of Yunnan University （Natural Sciences Edition），2012 （4）：415－419 （in Chinese）. ［王小軍，趙嘎，舒平平，等.基于FPGA 的IMA－ADPCM 編／解碼器的設計與實現［J］.云南大學學報（自然科學版），2012 （4）：415－419.］