張倩
摘要:隨著社會的不斷發展,各類出版物中的圖像越來越多,對于視障人士而言,大量的圖像會對閱聽造成不便,因此要對圖像進行文本描述。對盲人出版物中的圖像進行文本描述是一項重要而煩瑣的工作,當前這項工作缺乏統一的規范和標準,在一定程度上影響了盲人出版物的高質量發展。本文介紹了國內和國外對圖像描述的研究和實踐情況,并從完善視障人士閱聽體驗、實現出版物標準化、確保信息無障礙三個角度分析了盲人出版物中圖像描述規范化的必要性。
關鍵詞:盲人出版物? 視障閱讀? 圖像描述
隨著讀者對出版物的視覺需求逐漸增加,傳統和新興出版物中都開始出現越來越多的各類圖像。出版機構在使用海量圖像為普通讀者提供生動且便利的信息時,卻忽略了圖像是一種不會“說話”的內容,會對視力障礙人群的閱聽造成極大的不便。替代文本和圖像描述是圖像視覺細節的文本描述,讀屏軟件可以借助它們識別圖片,并通過文字—語音轉換功能幫助視障人士了解圖像的相關信息,使他們平等地獲取包含豐富圖像的數字文本。具體來講,替代文本是指用文字替代圖像,對圖像的內容及其所要傳遞的信息進行解釋,以確保讀者可以無障礙地使用圖片,替代文本一般限制在100—250個字符,被附在圖像元數據中或被添加在替代文本框中,通常只能被讀屏軟件讀取。圖像描述與替代文本類似,長度可以與替代文本相同或比替代文本更長,能夠被讀屏軟件和所有讀者讀取,當替代文本無法用有限的字數完整地表達圖像的內容時,圖像描述可以為讀者提供更加深入的圖像細節。
考慮到圖像描述的廣泛適用性和實用性,本文將以圖像描述作為主要研究對象。筆者在從事盲人有聲讀物腳本編輯工作的過程中發現,盲人讀物中的圖像呈現出數量大、類別廣、風格多、信息含量高的特點,許多圖像對于視障人士的學習和工作具有重要的意義,但很少能看到有作者、編輯、播音員等對這些圖像進行清晰、完整、準確的描述。針對盲人讀物的圖像描述一直缺乏相應的規范和標準這一問題,這不僅給相關工作人員帶來了一定的困擾,也制約著盲人出版物質量的提升,對實現信息無障礙的目標造成了阻礙。
我國盲人出版物圖像描述的研究與實踐現狀
目前,中國盲文出版社作為中國唯一一家制作盲人文化產品的公益性出版機構,為視障人士出版大字版圖書、盲文版圖書、有聲讀物,以及無障礙電影。據筆者了解,現有的盲文版圖書和有聲讀物中的圖像通常視其重要程度,或省略不讀,或加以簡略描述,具體描述方法由描述者自行決定,缺乏統一的圖像描述規范或標準供腳本撰寫者參考。對于文學作品等圖像僅起輔助功能的圖書來說,圖像簡化處理對視障讀者的理解影響有限,但對于以圖片為主要信息載體,或者圖文并重的圖書來說,如果缺乏客觀且精準的圖像描述,會嚴重降低讀物的內容質量,影響讀者的閱聽體驗。比如,醫學教輔圖書中的人體結構等圖片如果無法轉換為客觀、準確、細致的文字描述,會使從事按摩等醫療行業的視障人士產生理解障礙,甚至造成誤解;如果將錯誤的醫學知識應用于實踐當中,后果更是不堪設想。圖像描述雖然在盲人出版物中扮演著重要的角色,但相關研究數量不足。
在技術層面,圖像描述是計算機視覺領域研究的一個主流方向。研究主要集中在用基于神經網絡的深度學習等人工智能技術建立圖像描述生成模型,實現圖像描述自動化。浙江大學等高校在面向盲人的圖片自動描述系統的研究及網頁圖片無障礙替代文本的算法設計、評估等方面取得了一些學術成果。2017年,騰訊公司的AI Lab依靠自主研發的強化學習算法在微軟團隊的MS COCO數據集相關的圖像描述生成(使用自然語言處理和計算機視覺生成圖像的文本描述)任務上超越了多家頂尖公司,躍居第一。2018年,該公司推出了為視障用戶設計的QQ空間“圖片語音即時描述功能”,即自動識別圖片內容并“說出”文字描述。2023年,華中科技大學發布多模態大模型“Monkey”,這是一類可以同時處理和整合多種感知數據(如文本、圖像、音頻等)的AI架構,它能夠對世界進行“觀察”,尤其是對圖片進行精確描述,具備極為優秀的“看圖說話”能力。
建立圖像描述規范不僅是我國盲人讀物出版工作的迫切需求,也是完善圖像描述自動化處理的重要基礎,值得我們進行更多思考和探索。
國外圖像描述的研究和實踐現狀
在國外,圖像描述是一個在無障礙研究領域備受關注的主題,一些高校、研究機構、圖像描述專業公司都對圖像描述的規范和標準進行了研究。本文主要介紹關于圖像分類、圖像描述基本方法、圖像描述元數據、圖像描述的人工智能技術的研究,并對出版機構在圖像描述實踐中所采取的方法進行總結。
圖像描述前的一個重要工作步驟是圖像分類,不同的機構對圖像采取了不同的分類方式。有些機構將圖像分為柱狀圖、餅狀圖、折線圖、文氏圖、流程圖、散點圖、照片;有些機構則將圖像分為繪畫、圖片和卡通類、化學類、圖解類、關系圖類、圖表類、地圖類、數學圖類、文本類、表格類、時間線類,并在以上大類中區分更加細致的類別,如圖解類圖像可分為比較物體的簡單圖像、比較物體的復雜圖像、比較不同時間發生的事件的圖像。國外有機構通過先分類再描述的圖像描述自動化生成過程實現了圖像分類和圖像描述接近一半的準確率,并計劃在未來建立圖像的全分類系統,并使用該分類系統創建數據集,對分類功能進行訓練。
關于圖像描述的基本方法,以長期關注教育教學材料中的視覺化趨勢的美國佐治亞理工學院融合設計和創新中心為例,該機構總結的方法包括:以信息量大的一個概括性句子為首句;描述應先總體后具體,從總體框架開始,根據需要填充細節;使用正確的語法、拼寫和標點符號;避免使用符號、縮寫詞和硬換行符;考慮以多種方式提供信息等。該機構指出,對圖像描述文字進行編輯是一個至關重要的環節,編輯人員應當做到如下事項:使描述清晰易懂;組織信息以可預測的方式,先描述相似之處,再描述差異;使描述中立,如描述動作和表情,而不是其背后的想法和感受,刪除與上下文無關的性別、年齡、種族或民族信息;減少冗余,刪除不必要的短語,如“……的照片”和“圖中顯示”,避免重復標題或周圍的文字;描述符號的含義及其作用,而非符號的形態。
圖像描述的元數據也是相關從業者關注的一個領域。發布于2016年的圖表語法是一種用于定義圖像描述元數據的數據模型,能夠儲存關于不同圖像的信息。它為需要建模的圖像描述數據提供了結構化的標準方式,包括每個圖像的多種類型的描述、教師注釋、觸覺圖形文件提示。
圖像描述的人工智能技術在國外經歷了曲折的發展過程,基本實現了商用的目的。目前市面上有微軟計算機視覺、谷歌云視覺API、IBM Watson視覺識別等多種圖像描述自動生成工具。某國外互聯網企業向盲人和視障用戶推出了圖片內容自動描述功能,當軟件接收到圖片并識別出其中的對象后,就會利用語音輔助功能告訴目標用戶圖中的內容。還有科技公司利用人工智能算法為應用程序Word和PowerPoint里的圖片和幻燈片自動添加文字描述,并將文字轉換為盲人可以聽到的語音。美國科技企業還發布了具有“圖像問題和答案”功能的應用程序,能為無標題圖像提供上下文,可以處理圖像并提供其描述,看圖者還可以提出問題,更加詳細地了解圖像中的內容。此外,有些非營利機構開發了圖像描述訓練工具,例如開源項目POET,介紹了教育類圖書中常見的各類圖像在何種情況下需要描述及如何描述。用戶可以獲取最佳實踐指南和實操練習,訓練呈現關鍵的視覺內容的能力。
出版機構在圖像描述實踐中采用了相似的工作方法。一類機構讓作者先行創作圖像描述,再將圖像描述作為電子書制作過程的一部分外包給具備某個領域專業知識的圖像描述專家;另一類機構在圖書制作周期的尾聲階段將圖像描述工作外包給圖像描述專家,要求內部編輯人員接受大量培訓,并負責審查所有的第三方圖像描述,編輯助理只負責撰寫非STEM(科學、技術、工程、數學)圖書修訂本等少數圖書中的圖像描述,STEM圖書或復雜材料的圖像描述工作交由專家完成,不要求作者撰寫圖像描述;還有些獨立出版公司把圖像描述工作外包給供應商,部分供應商有內部團隊,其他供應商則聘請不同專業領域的自由職業者。
我國盲人出版物圖像描述規范化的必要性
第一,圖像描述規范化是優化視障人士閱聽體驗的重要基礎。圖像作為出版物內容的基本組成部分,承載著各種顯性的信息和隱性的含義,一般來說對文字內容起著重要的補充作用,需要也應當被渴望平等獲取信息的視障讀者“看到”,而圖像描述就是視障讀者用于看圖的“雙眼”。圖像描述規范化可以幫助視障人士更加便利地了解出版物中的內容細節,從而完整地理解出版物中的所有信息,更好地享受視覺形象豐富的文化產品。相關出版機構應當借此機會進一步拓展盲人出版物的種類,提升盲人出版物的質量,用文字幫助視障人士理解視覺形象,完善他們的閱聽體驗,讓視障人士共享社會發展的物質文明和精神文明成果,推動盲人文化事業高質量發展。
第二,圖像描述規范化是出版物標準化的重要組成部分。圖像描述在本質上是一種內容創作,是對視障人士等無法正常查看和認知圖像的讀者的補償。西方發達國家在圖像描述規范的領域已經做出了許多有益嘗試,且還在不斷推進該領域的工作,而我國對圖像描述規范尚缺乏深刻的認識和細致的研究。圖像描述規范化將成為出版物標準化的重要組成部分,助力提高我國出版物的整體質量,提升出版行業的發展水平。此外,目前圖像文本描述任務中的大多數進展都基于英文數據集,缺乏中文數據集和中文語法的復雜性,造成了圖像中文描述不準確、不連貫等問題,使中文讀者難以獲取精準有效的圖像描述,開展圖像描述規范化工作將有利于我國在未來參與制定圖像描述相關的國際標準。
第三,圖像描述規范化是實現信息無障礙的必經之路。2000年7月,在日本舉行的G8會議上,《實現全球信息化社會的沖繩憲章》中首次提出了信息無障礙的理念“逾越數字鴻溝”。根據中國互聯網協會的定義,信息無障礙是指任何人在任何情況下都能平等、方便、無障礙地獲取、利用信息,主要包括電子和信息技術無障礙及網絡無障礙兩個范疇。隨著時代的變化,我國的盲人出版物也在加快數字化建設,中國盲人數字圖書館網站、手機軟件推出了各類電子圖書、有聲圖書、視頻資源等,為視障人士提供了便捷且多樣化的信息和知識。國際標準Web內容無障礙指南2.0(WCAG 2.0)中的“可感知性”設計原則要求“為非文本內容提供替代文本,使其可以轉化為人們需要的其他形式,如大字體印刷、盲文、語音、符號或更簡單的語言”,但如何將各類數字出版物中的圖像以一種規范的無障礙格式呈現給視障人士,是實現信息無障礙的道路上一道必須解開的難題,也必將加速信息無障礙的實現,增進全民福祉。
結語
圖像描述規范化是一個跨學科的研究課題,對于提升盲人出版物質量和實現信息無障礙有著舉足輕重的意義,相關盲人服務機構、出版機構、無障礙研究機構及各學科專家可以通力合作,充分調研國內外圖像描述的相關情況和盲人的實際需求,借鑒國外的寶貴經驗,探索出一套包含圖像描述內容、方法等的科學、實用、全面的規范體系,早日實現知識有溫度、信息無障礙。
作者單位:中國盲文出版社
參考文獻
[1]國家新聞出版署.世界標準日提升標準化水平 助力出版高質量發展[EB/OL].(2020-10-13)[2024-01-08].https://www.nppa.gov.cn/xxfb/tpxw/202010/t20201013_2841.html.
[2]李瑞彤.基于BERT和注意力機制的圖像中文描述方法研究[D].哈爾濱:哈爾濱理工大學, 2021.
[3]中國互聯網協會.全球無障礙宣傳日|信息無障礙建設概覽[EB/OL].(2020-05-21)[2024-01-08]. https://www.isc.org.cn/article/37539.html.
[4]人民網.信息無障礙[EB/OL].(2013-05-20)[2024-01-08]. http://wza.people.com.cn/wza2013/info.php.