移動互聯網信息無障礙研究綜述

2025-02-06 00:00:00劉華虓于金艷宋申苧張夢璽

吉林大學學報(理學版) 2025年1期

摘要：移動互聯網信息無障礙（mobile Internet information accessibility， MIIA）旨在確保移動應用內容對所有用戶（包括視障人士等）都能平等、便捷、無障礙地獲取和使用. 系統綜述移動互聯網信息無障礙領域的最新研究進展，重點分析總結移動端GUI（graphical user interface）語義表征與理解、無障礙檢測以及布局修復等方面的研究成果. 分析表明，從傳統啟發式規則方法到深度學習驅動的自動化工具，相關技術逐漸提升了檢測的精度和適應性，同時也揭示了在應對復雜動態交互和多樣化用戶需求方面的挑戰，并對未來研究方向進行了展望. 移動互聯網信息無障礙技術已顯著改善了視障用戶的數字體驗，但仍需不斷創新與優化，以實現真正普惠與包容的數字社會.

關鍵詞：移動互聯網；信息無障礙；視障用戶；圖形用戶界面

中圖分類號： TP311" 文獻標志碼： A" 文章編號： 1671-5489（2025）01-0124-15

Review of Mobile Internet Information Accessibility Research

LIU Huaxiao， YU Jinyan， SONG Shenning， ZHANG Mengxi

（College of Computer Science and Technology， Jilin University， Changchun 130012， China）

Abstract： The purpose of mobile Internet information accessibility （MIIA） was to ensure that mobile application content was equally accessible， convenient， and barrier-free for all use

rs， including those with visual impairments." We systematically review the latest research progress in the field of mobile Internet information accessibility， focusing on the analysis and summary of research achievements in

semantic representation and understanding of mobile GUI， accessibility detection and layout repair. The analysis shows that from traditional heuristic rule methods to deep learning-driven automated tools，

related technologies have gradually improved detection accuracy and adaptability， while also revealing challenges in addressing complex dynamic interactions and diverse user needs.

We have provided an outlook on" future research directions." MIIA technologies have significantly improved" the digital experience for visually impaired users， but they still need continuous innovation and

optimization" to achieve a truly inclusive digital society.

Keywords： mobile Internet; information accessibility; visually impaired users; graphical user interface

收稿日期： 2024-12-02.

第一作者簡介：" 劉華虓（1986—），男，漢族，博士，副教授，博士生導師，從事智能化軟件工程、數據挖掘和人機交互的研究， E-mail： liuhuaxiao@jlu.edu.cn.

通信作者簡介：宋申苧（2000—），男，漢族，碩士研究生，從事軟件工程的研究， E-mail： sunning2118@gmail.com.

基金項目：吉林省自然科學基金（批準號： 20230101070JC）.

0 引言

移動互聯網信息無障礙（mobile Internet information accessibility， MIIA）主要指移動應用（App）內容對任何人（無論是健全人還是殘疾人、老年人）在任何情況下

都能平等、方便、無障礙地獲取、交互和使用［1-4］. 目前，移動互聯網逐漸成為公民獲取政治、教育、體育等信息的主要來源，這對移動互聯網信息的可訪問性提出

了更高的要求. 因此，在移動應用發展過程中，不僅要迎合市場需求，還應兼顧不同人群信息獲取能力的差異，致力于為所有用戶提供一個平等、開放的數字空間，促使信息的共享和獲取更普惠.

視障人群指患有視力障礙，包括完全失明或部分失明的群體. 該群體可能依賴非視覺方法（如盲杖、導盲犬、聲音提示等）或輔助技術彌補視覺上的缺失，以更好地適應

并參與日常生活、工作和社會活動. 視障用戶在使用互聯網獲取信息時通常需要特殊設計和功能，以確保他們有與健全用戶相當的體驗和信息獲取能力，從而需要在移動互聯網開發

中采取措施，使應用內容對視障用戶更友好且易于訪問. 1999年，萬維網聯盟（world wide Web consortium， W3C）發起了網絡無障礙計劃（Web accessibility initiative，

WAI）［5］，以改善網絡的可訪問性. WAI倡議負責制定一套重要的可訪問性指南，稱為網絡內容可訪問性指南（Web content accessibility guideline， WCAG）［6］

. 移動互聯網信息無障礙為視障用戶帶來了巨大便利，使他們能更自主地獲取信息、參與社交和獨立生活. 通過語音輔助技術，他們可以訪問新聞、電子書等資源，豐富知識并

促進個人發展；使用社交媒體和通訊應用，參與線上溝通；借助無障礙設計的導航應用，更安全地出行. 移動互聯網信息無障礙技術的進步顯著提升了視障用戶的生活質量和幸福感

. 根據《柳葉刀》最新調查顯示［7］，中國是世界上視障人群占比最高的國家，視障群體約有5 928萬人. 此外，中國60歲及以上老年人超過2.9億，社會對無障礙環境的需求廣泛

而迫切. 如何為視障人群打開新“視”界，成為目前消除“數字鴻溝”，推進互聯網信息無障礙化建設［8-9］，實現我國“十四五”規劃愿景的重點工作之一［10-11］.

但互聯網開發人員在設計和實現移動應用時常會忽略產品的無障礙需求，只為追求移動應用美觀的視覺效果，缺乏對視障用戶使用體驗的關注. 這種單一視角的設計理念可能

導致視障用戶無法實現信息的順利獲取，大幅度降低他們與互聯網的交互流暢度，限制視障用戶在數字環境中的平等參與. Bi等［12］于2021年從從業者的角度和不同的軟件開發

階段進行分析，發現可訪問性并沒有正確地集成到通用軟件項目中. 同時大多數的開發者沒有相關的技能和知識，團隊資源、公司能支持的專業知識和時間預算等也影響了實踐

中的可訪問性設計與開發. 根據在線調查［13］和實地半結構化訪談［14］了解到，僅有10%的受訪者對當前App表示滿意，而超過80%的受訪者在使用App時會遇到諸多不

便，其中尤以圖形用戶界面（GUI）組件外觀不合理、組件導航順序混亂、反饋提示不一致，以及移動應用中的GUI關鍵操作路徑邏輯不自洽最突出，這些現象導致GUI組件難

以準確識別和操作、視障用戶易在應用中迷失方向、難以建立穩定的操作模式等問題，嚴重影響了視障用戶對移動應用的整體可用性和友好性，給視障用戶在使用移動應用時帶來了困

擾和不確定感. Fok等［15］于2022年分析了312個安卓應用程序在16個月中存在的缺失標簽的可訪問性問題，發現應用程序存在的無障礙問題不會隨下載次數的增加而改善，

也并不與開發公司的規模相關.

移動互聯網信息無障礙這一主題在移動互聯網開發過程中的關注和優化能幫助視障人群進一步平等、方便地使用互聯網. 例如：盲人用戶在使用移動端訪問互聯網內容時常會借助

于屏幕閱讀軟件，而屏幕閱讀軟件僅關注頁面中的文本信息而無法將頁面中的布局、顏色等其他信息呈現給盲人用戶. 因此，一些布局欠佳的頁面常會阻礙盲人用戶對頁面關鍵內

容的理解. 在移動互聯網信息無障礙的實踐過程中，可通過對頁面進行檢測提出合理的檢測結果，以供互聯網開發人員調整界面設計，使頁面對盲人用戶更友好. 進一步，對于

屏幕閱讀軟件無法呈現的圖片，可對圖片中的內容生成替代文本（Alt-Text），使盲人用戶了解除頁面中文本外更豐富的信息. 但互聯網信息無障礙的研究也面臨諸多嚴峻挑

戰：首先，互聯網信息的形式多種多樣，包括文字、圖片、音頻、視頻、圖表等，每種形式對無障礙的設計要求均有不同，要提供完備的無障礙支持，顯著增加了設計方案的復

雜性; 其次，在對無障礙設計進行評估時需從視障人群的真實需求出發進行評估，難以有統一的評估標準且因人而異; 最后，互聯網技術和用戶界面設計快速發展，涌現出新的

信息展現形式和交互模式，例如虛擬現實、增強現實等，互聯網無障礙無法快速涵蓋新技術并保持同步.

互聯網無障礙的研究工作最早可追溯到互聯網成立之初，通過W3C和WAI推動了無障礙標準的確立，為全球的互聯網無障礙研究奠定了基礎. 目前，如何改善視障用戶使用互聯網的可訪問性體驗已成為

國內外工業界和學術界的研究熱點. 近年來，騰訊、阿里、谷歌、蘋果、字節跳動等大型互聯網公司不斷對產品進行無障礙優化，以增強產品面向視障用戶的可訪問性.

目前，互聯網無障礙研究已取得許多成果［16-28］. Chen等［27］借助無障礙測試框架，構建了名為XBot的GUI可訪問性檢測工具，通過設計大量判定規則實現對可訪問性問題更全面的覆蓋. Zhang

等［28］于2024年針對GUI（graphical user interface）布局中的低視力可訪問性問題，包括組件尺寸小、間隔窄以及顏色對比度低，借助關系圖卷積神經網絡模型設計并實現了名為AccessFix

er的工具，能準確且有效地為這些可訪問性問題提供修復方案. 在網頁信息無障礙方面，李玉聰等［29］于2024年針對多樣化網頁上視障用戶導航的難題，通過設計啟

發式規則采用決策樹二分類算法，提出了一種自動標識導航欄地標的方法，顯著提升了網站的無障礙性能，并改善了視障用戶的使用體驗. Gleason等［30］

提出了一個瀏覽器擴展工具Twitter A11y，可通過6種方法在Twitter網站上為用戶發布的圖像提供高質量的自動描述，優化了視障用戶對社交媒體平臺的無障礙訪問. 為對互聯網信

息無障礙目前已有的研究工作進行系統分析總結，本文確定了Internet Information Accessibility，Web Accessibility，Blind Users等關鍵詞，

并基于Web of Science中的搜索引擎對已有研究結果按年份進行統計，結果如圖1所示. 由圖1可見，從2019年開始，針對移動互聯網信息無障礙的研究逐漸受到關注，僅2023年，相關的研究工作論文數量便突破250篇.

盡管現有研究從多角度探討了移動互聯網的無障礙化問題，但尚缺乏系統性的綜述對這些研究成果進行全面的總結和分析. 因此，本文系統地分析總結了移動互聯網信息無障礙的研究進展和實踐成果，并分析了

現有移動應用和服務在無障礙設計方面的優勢與不足，以有助于研究人員進一步提升視障用戶的使用體驗.

1 移動端無障礙研究

隨著移動設備和移動應用的普及，智能手機和平板電腦已成為人們日常生活中不可或缺的工具. 根據國際電信聯盟的統計，截至2020年，全球移動電話用戶已超過78億，幾乎覆蓋了全

球人口［31］. 但對有視覺障礙的用戶以及老年人群體，移動設備的使用仍存在諸多障礙. 因此，移動端無障礙成為確保視障人群和老年用戶平等訪問信息和服務的關

鍵因素，也成為人機交互和軟件工程領域的重要研究方向. 移動設備因其特性（如觸摸交互、屏幕尺寸限制和多種傳感器）在無障礙設計上面臨獨特的挑戰，移動端無障礙設計的目標

是減少或消除視覺以及認知障礙用戶在使用移動設備時所面臨的困難.

1.1 移動端GUI的語義表征與理解

移動端GUI的語義表征與理解是GUI可訪問性工作的基礎. 例如，視覺障礙用戶在使用屏幕閱讀器時，依賴于界面元素的語義標簽理解各控件的功能. 若無準確的語義信息，屏幕

閱讀器只能簡單朗讀“按鈕”或“圖片”，而無法傳達具體的功能或內容，導致用戶操作體驗受阻. 因此，通過語義表征界面元素能清晰地描述其功能和交互邏輯，為無障礙用戶提供

準確的使用信息. 但移動端GUI的結構、功能模塊和交互模式日趨豐富和復雜化，為移動端GUI的語義表征與理解提出了嚴峻挑戰. 例如，應用中嵌入了更多動態內容、多媒體

元素以及復雜的交互邏輯，這些都增加了GUI語義理解的難度.

早期傳統的啟發式規則方法在移動端GUI的語義表征與理解中占有重要地位. 基于啟發式規則的方法依賴于預定義的經驗規則集分析和解讀移動端GUI中的元素特征. 這些規則通常

基于開發者和設計人員的實踐經驗，包含了一系列面向不同控件的可訪問性指導. 例如，一個啟發式規則可能會規定：所有具有“Button”標簽的控件在無障礙工具中應被識別為可

點擊的按鈕；具有特定顏色或對比度的文本元素需要具備特定的顏色標準，以確保視覺可讀性，使界面在一定程度上能滿足無障礙需求. 但基于規則的方法存在擴展性差和適應

性不足的問題. 當面對設計風格多樣、元素復雜的界面時，規則的編制和維護成本較高. 此外，規則通常依賴于特定的領域或應用，難以通用化. 隨著深度學習和圖像識別技術的發

展，基于數據驅動的深度學習模型逐漸成為替代啟發式規則的方法. 深度學習能自動學習控件的視覺特征和語義信息，避免了啟發式規則對預定義規則的依賴，并且在動態內容和自定義控件識別上有顯著優勢.

在語義表征方面，本文團隊結合GUI截圖和對應的布局結構文件，提出一種將GUI轉換為GUI拓撲圖結構的方法，有效表征了GUI內各組件的屬性特征、層次關系和位置關系［28

，32］. Chen等［33］提出了一個深度學習模型LabelDroid，通過圖像識別和自然語言生成技術，自動為移動應用中基于圖像的按鈕生成內容描述，這是首個專門用于解決

GUI元素標簽缺失問題的自動化模型. LabelDroid模型采用了卷積神經網絡（CNN）與Transformer模型相結合的編碼-解碼架構，用于自動提取圖像特征并生成自然語言標簽. 這種架構不僅

適合圖像特征提取，還具備處理長序列文本生成的能力，有助于提升標簽生成的準確性和多樣性. 此外，研究人員構建了一個大規模的無障礙性數據集，包含來自上萬種應用的圖像按

鈕及其高質量的內容描述. 實驗結果表明， LabelDroid模型在預測標簽的準確性上優于傳統的啟發式方法和現有的基準模型，可減少互聯網開發人員在應用開發中需要理解和遵循無障礙指南的工

作量. Mehralian等［34］在分析了相同圖標可能有不同語義的情況對LabelDroid模型的影響后提出了一種上下文感知的標簽生成方法COALA，在生成準確標簽時綜合考慮了來

自圖標的多種信息源. COALA采用了預訓練的卷積神經網絡模型ResNet進行圖像編碼，并使用熱編碼器和單詞嵌入模型GloVe進行上下文編碼. 然后使用長短期記憶網絡（LSTM）進行

解碼，使其能逐個迭代地生成標簽. Li等［35］提出了Screen2Vec，一種生成移動端GUI屏幕和組件語義嵌入的自監督方法. 通過訓練模型預測屏幕和組件在用

戶交互軌跡中的位置關系，生成GUI屏幕和組件的語義嵌入. Screen2Vec借鑒了Word2Vec［36］的思路，利用連續詞袋模型（CBOW）預測屏幕和組件上下文，以捕捉GUI元

素的語義關系. Screen2Vec將文本內容、視覺布局和應用元數據（如應用商店描述）整合進模型的語義嵌入中. 這種多模態表征能捕捉更豐富的語義信息，使模型在處理視覺相似

但語義不同的屏幕時表現更優. 通過多種下游任務展示了Screen2Vec的實用性，包括相似界面檢索、嵌入組合和任務嵌入.

Zhang等［37］提出了一種利用像素圖像直接推斷移動應用界面元素

的無障礙元數據方法，無需依賴應用開發者提供的無障礙描述. 該方法可以為無障礙工具（如屏幕閱讀器）生成并補充缺失的元數據，從而提高了現有應用的無障礙性. 其通過構

建一個高效、內存友好的對象檢測模型并結合啟發式規則設備端實時檢測GUI元素. 模型能在iPhone上運行，僅需約10 ms的推理時間，使得它可以在用戶設備上直接執行而無需云

端計算. Xie等［38］提出了一種基于心理學啟發的無監督方法，該方法首次在GUI感知分組中系統應用了Gestalt心理學原則，包括連接性、相似性、鄰近性和連續性等原

則. 這些原則解釋了人類如何基于視覺線索（如相似性和接近性）將元素分組，從而幫助系統自動化地識別出人類在視覺上具有相似感知控件集合，如列表、卡片、菜單等. 這種心

理學啟發的分組方式不同于傳統的啟發式方法，它不依賴于預定義規則，而是通過無監督方式實現高層次的GUI元素分組. 此外，研究人員分析了感知分組在GUI設計搜索、模塊化GUI

代碼生成和UI自動化測試中的應用潛力. 例如，在GUI設計搜索中，該方法可幫助開發者基于GUI結構而非僅視覺相似性找到相似設計，顯著提升了設計搜索的精度. 此外，通過模

塊化感知分組信息的生成，該方法支持更少冗余、可重用性強的GUI代碼生成，有助于實現快速的界面迭代和優化.

自然語言處理（NLP）技術在GUI語義理解中也發揮著重要作用. 通過對界面中的文本內容進行分析，可獲取元素的功能描述、提示信息和用戶輸入等語義信息. Fu等［39］提

出了“像素詞到屏幕句” （pixel-words to screen-sentence， PW2SS）框架，創新性地將GUI理解中的基本單位定義為“像素詞”（pixel-words），并將它們聚合成“屏幕句子”（s

creen-sentence）. 基于BERT結構的屏幕Transformer，用于建模像素詞之間的關系，以實現屏幕的整體理解. 這種方法在視覺基礎上完成了GUI理解，不再依賴屏幕元數據，解決了

傳統方法中元數據噪聲大、獲取困難等問題. 除針對移動端GUI頁面進行分析外，研究人員還對反饋的GUI問題報告進行了分析. GUI的視頻錯誤報告是指用戶或測試人員通過錄制屏

幕視頻的方式，記錄下在移動端GUI遇到的錯誤或異常情況. 這種報告形式不同于傳統的文字描述，提供了更直觀的視覺信息，使開發人員可以清楚地看到錯誤是如何出現的、出現在

哪些交互步驟之后，這種報告在移動端GUI開發中越來越常用. Yan等［40］提出了一種自動化識別這些重復的視頻錯誤報告方法Janus，它針對開發者在面對大量視頻錯誤報

告時遇到的繁瑣和重復性問題，通過自動化檢測相似的視頻以顯著減少冗余工作. 為實現對視頻中GUI場景的精準理解， Janus將視頻中的視覺信息、文本信息以及視頻幀的順序

結合在一起，從多種信息源進行全面分析，可幫助開發者快速找到已知問題的重復報告，提升了錯誤修復和管理效率. 這種方法和技術能用于開發自動化無障礙檢測工具，從而提高無障礙性問題的檢測和分析效率.

大語言模型（large language models， LLMs）［41］是基于深度學習技術的自然語言處理模型，它通過在大規模文本數據上進行訓練，具有強大的語言理解、生成和推理能

力. 近年來，大語言模型（如OpenAI的GPT系列、 Meta的LLaMA等）備受關注，并迅速擴展到多模態領域，結合圖像、音頻等數據能處理跨越文本和視覺的任務. 這種多模態能力

進一步推動了模型在各應用場景中的使用，包括用戶界面無障礙設計. Nong等［42］提出了一個專為移動應用GUI代理設計的多模態大型語言模型MobileFlow. 它采

用混合視覺編碼器動態調整輸入分辨率，以捕捉GUI界面的細節信息. 這種能力對無障礙設計非常關鍵，因為它可以準確識別和描述界面元素的位置、大小和相對關系，從而為

視力受限的用戶提供清晰的界面導航描述. 通過自然語言和視覺信息的融合， MobileFlow可以根據用戶指令生成適當的交互行為，如點擊、滑動或輸入. 此外，傳統的GUI代理通常

需要通過系統API調用獲取界面布局信息，可能帶來隱私風險. MobileFlow通過純視覺感知的方法，能在不調用系統API的情況下解析界面布局，從而既保護了用戶隱私，又可以為無障礙功能提供可靠的界面解析能力.

表1列出了移動端GUI的語義表征與理解.

由表1可見，現有的移動端GUI語義表征與理解方法各有優劣. 基于啟發式規則的方法簡單直觀，適用于一般性界面元素的識別，但在處理復雜、多樣化的動態GUI時，擴展性和適應性較差.

深度學習方法通過自動學習控件的視覺特征和語義信息，能更準確地理解界面元素，避免了對預定義規則的依賴，但也面臨訓練數據不足、模型復雜度高和泛化

能力有限的挑戰. 心理學啟發的方法利用人類視覺感知原理，提升了GUI元素分組和理解的準確性. 大語言模型（如MobileFlow）的引入，融合了視覺和語言信息，增強了對界面元素

的語義理解. 但這些方法在模型復雜度、計算資源需求和實際部署方面仍存在困難. 未來，增強移動端GUI的語義表征與理解，可以通過開發高效的模型結構，提高模型的泛化

能力和資源友好性，以構建更全面的GUI語義理解模型，進一步幫助開發人員更有效地進行移動互聯網的無障礙化改造，提升檢測和修復任務的效率，促進無障礙技術的發展.

1.2 移動端GUI可訪問性問題檢測方法

確保移動端GUI對視覺障礙用戶的可訪問性，不僅是實現信息平等的重要方法，也是各國法律法規的要求. 例如，美國的《殘疾人法案》（ADA）［43］和歐洲的《歐洲無障礙

法案》（EAA）［44］都對數字產品的可訪問性提出了明確規定，要求企業和組織需要確保其網站和數字產品具有可感知性、可操作性、可理解性. 因此，檢測移動端GUI的

可訪問性對開發者和企業都具有重要意義. 通過積極識別并解決可訪問性問題，企業不僅能確保符合法律法規，避免潛在的法律風險，還能提升產品質量，獲得競爭優勢，實現商業與社會責任的雙贏.

早期針對移動端GUI的可訪問性檢測大多數都基于人工制定的啟發式規則，這種方法依賴于預先定義的可訪問性標準和指南，如萬維網聯盟（W3C）發布的《移動網頁最佳實踐》（MWBP）

［45］和《網絡內容可訪問性指南》（WCAG）［6］. 通過檢查移動應用的GUI是否符合這些規則識別潛在的可訪問性問題. 最初的無障礙檢測可以通過靜態代碼分析

工具或在自動化測試框架下編寫測試用例的方法進行. 2011年， Android Studio提出了一個名為Lint［46］的靜態代碼檢測工具，通過對Android工程的源文件進行掃描，可以

檢查并報告安卓項目中的可訪問性問題. 在動態檢測方面，有自動化檢測工具，如Espresso［47］." 開發人員通過運行Espresso檢測組件是否符合W3C定義的可訪問性問題，需要手動指定測

試用例，并將特定的API嵌入到應用程序中. 2015年， IBM公司開發了Mobile Accessibility Checker（MAC）［48］，這是一個面向移動應用的無障礙檢測工具，幫助開發人員檢

查移動端GUI是否符合無障礙設計標準. MAC可以自動檢測界面組件、色彩對比度、觸控目標大小、屏幕閱讀器兼容性等問題. MAC的自動化檢測極大提高了效率，尤其是針對大型

項目時，可以快速發現潛在的問題. 此外， MAC允許開發人員在應用開發的不同階段，實時檢測無障礙問題，并提供具體的修復建議. 該方法有助于減少開發后期的返工量，并

提升產品的無障礙質量. MAC支持iOS和Android平臺，使開發者能在不同平臺上優化其應用的無障礙體驗. 但隨著GUI設計的不斷發展以及應用功能的多元化， MAC原有的啟發式

規則逐漸難以滿足新興的設計和功能需求. MAC的檢測能力在面對當代GUI和交互設計需求時明顯下降，無法為開發者提供足夠全面的無障礙優化建議.

Google公司相繼推出了兩個面向安卓移動端無障礙檢測的工具ATFA（accessibility test framework for Android）［49］和AS（accessibility scanner）［50］. AT

FA是一個用于自動化測試移動端GUI可訪問性的庫，可以直接集成到開發者的測試代碼中，幫助開發者在應用的開發和測試階段通過自動化方式檢測無障礙問題. AS是一個面向

安卓移動設備的可訪問性檢測應用，允許開發者直接在設備上對應用進行無障礙掃描，適合于非技術用戶和開發者在非自動化流程中快速檢測無障礙問題. 這兩個工具為安卓移動端開發提

供了重要的無障礙檢測輔助，前者更適用于開發和測試階段，更好地在前期保證移動端GUI的無障礙質量，可以大幅度減少應用上線后的修改需求. 后者更適用于開發的后期階段，

或在產品即將發布前設計師和測試用戶進行無障礙檢查. 這兩個基于啟發式規則的可訪問性檢測工具雖然能覆蓋常見的無障礙問題，但在檢測復雜、動態內容或語義問題上存在

局限性，它們缺乏對語義信息的深入檢測. 例如，移動端GUI中的圖像、按鈕等的用途有時難以通過工具自動識別，難以判斷移動端GUI中是否提供了足夠的描述性文本或語義信息.

此外，在復雜的移動應用中，仍需手動測試覆蓋無法自動檢測的無障礙問題.

根據對大量安卓App的GUI進行可訪問性的實證研究［51］，研究人員發現仍有大量的移動端GUI由于開發人員缺乏對視障用戶或老年用戶無障礙的認知而導致可訪問性問題. 在

學術界，研究人員不斷改進對移動端GUI的檢測方案. 基于圖卷積神經網絡模型提出的檢測方法ALVIN［32］，能結合組件屬性和位置關系，通過多分類任務完

成對GUI內可訪問性問題的有效測試，具有較高的準確率和良好的可擴展性. Eler等［52］提出了Mobile Accessibility Testing（MATE）用于自動化移動應用

的可訪問性測試. MATE無需依賴現有測試用例，通過自動生成測試探索應用程序行為，不再依賴開發者已有的測試套件，它不僅檢測缺失的內容描述和低對比度等常見問題，還針對不

同的視覺和運動障礙提供多種優化檢測，例如觸摸區域大小不合規、點擊區域重復、可點擊文本不可訪問等，使可訪問性檢測更廣泛. 此外， MATE引入狀態抽象，避免重復檢測相

同組件，采用圖模型自動構建用戶界面狀態，從而減少不必要的計算以提高運行效率. Chen等［27］提出了XBot，能高效地自動化探索用戶界面. 與傳統工具相比，

XBot在頁面覆蓋率和問題檢測方面性能更優. 但XBot在應對GUI的動態生成和狀態變化時，可能會出現冗余標記或遺漏問題，難以全面覆蓋動態加載的內容和交互狀態. 基于啟發

式規則提出的無障礙檢測工具通常無法適應日新月異的移動端GUI設計頁面. 檢測結果的滯后性在很大程度上影響了開發人員使用這些工具的積極性.

隨著深度學習技術的不斷發展，尤其是基于數據驅動的模型在圖像和自然語言處理等領域的應用取得了顯著進展. 與啟發式規則相比，深度學習在移動端GUI可訪問性檢測上表現出更

大的潛力. Liu等［53］提出了一個名為OwlEye的深度學習框架，基于卷積神經網絡模型識別移動端應用GUI可訪問性問題. 這是首次將深度學習用于GUI無障礙問題

檢測，模型通過模擬人眼識別視覺異常的能力，能更準確地發現無障礙問題. OwlEye使用梯度加權類激活映射技術（Grad-CAM）實現GUI顯示問題的定位. OwlEye不僅可以檢測到移動

端GUI截圖中的顯示問題，還可以精確定位問題區域，為開發人員提供可視化反饋，從而更高效地進行問題修復. 與其他13種傳統的機器學習和深度學習方法相比， OwlEye在UI顯示

問題檢測的召回率和精確率上分別提升了17%和50%，并達到85%的檢測精度和84%的召回率. 同時，用戶研究顯示， OwlEye在移動端GUI中的問題定位精確度達90%. Salehnamadi等

［54］提出了一個高保真、場景驅動的自動化安卓無障礙自動化測試框架Latte，該框架借助圖像識別和輔助技術，如安卓的TalkBack和SwitchAccess，以模擬無障礙用戶

的交互過程. 工具會自動執行使用場景中的各項操作，并分析輔助服務在交互過程中的性能，識別在輔助服務模式下的可訪問性缺陷. Latte在多種實驗和實測中顯示出識別復雜問題

的能力，如動態布局變化、導航循環、非標準UI實現等，這些問題會影響無障礙用戶的正常操作，卻難以通過傳統的靜態規則檢測. 與Google公司的AS可訪問性檢測應用

相比， Latte減少了不相關警告的數量，并提供了高保真度的使用場景分析.

表2列出了移動端GUI可訪問性問題檢測方法.

由表2可見，現有的移動端GUI無障礙檢測方法各有優勢與不足. 基于啟發式規則的方法能快速檢測常見的無障礙問題，但面對復雜、動態和語義信息不足的界面時存在局限. 基

于深度學習的方法通過引入機器學習和圖像識別技術，提高了檢測的準確性和覆蓋范圍，但仍面臨模型訓練數據不足和泛化能力的挑戰. 未來的研究工作可能對多模態數據進行融合，

以及利用更先進的深度學習模型，提高對復雜無障礙問題的識別能力. 對于移動端互聯網開發人員，這些工具的進步將有助于更高效地檢測無障礙問題，并將其清晰地反饋給移動互聯網開發人員.

1.3 移動端GUI布局的無障礙修復方法

GUI布局是移動端應用程序的骨架，決定了界面元素的組織方式和交互流程. 移動端GUI布局的修復在移動端無障礙中扮演至關重要的角色， GUI布局直接影響視障用戶與應用的交互

方式，優化GUI布局可顯著提升他們的使用體驗. 良好的移動端GUI布局包括兩方面：元素順序的邏輯性和層級結構的清晰性. 首先，視障用戶通常依賴屏幕閱讀器線性地瀏覽界

面，如果布局順序混亂，則屏幕閱讀器的朗讀順序也會混亂，導致視障用戶無法建立正確的心智模型；其次，明確的界面層級有助于用戶理解應用的功能結構，方便視障用戶導航和操作.

早期的GUI布局設計主要依賴設計師的經驗和一系列經驗法則，例如“界面中信息不使用超過4種顏色”等［55］. 這些經驗法則源于對人類視覺認知規律的觀察和總結，設

計師通過這些原則控制界面的復雜性，避免用戶在視覺上產生混淆或認知負擔. 此外，基于網格的移動端GUI布局設計策略［56］是通過將頁面劃分為若干列和行組織界面元

素，以確保內容排列有序且一致. 這種布局方法有助于用戶在不同的頁面中快速定位常見元素，特別是對視覺障礙或老年用戶，網格結構帶來的內容整齊、對齊和一致性，

能有效減少他們的認知負擔，使導航更簡便. 但網格布局在無障礙應用場景中也存在顯著的局限性. 由于其以固定的行列比例為基礎，通常缺乏對個性化需求和動態內容的適應

性. 例如，視障用戶通常依賴屏幕閱讀器逐行讀取界面內容，而網格布局的固定順序可能不符合他們的實際需求，導致屏幕閱讀器不能優先朗讀關鍵信息. 同時，對于低視力用戶，固

定的網格布局在適配字體放大或高對比度模式時，可能導致元素錯位、重疊或信息截斷，進一步影響可讀性.

Zeidler等［57］從互聯網開發人員的角度出發提出了一個名為Auckland Layout Editor（ALE）的新型GUI布局編輯器，顯著簡化了基于約束的布局創建和編輯

過程. ALE的一個重要特點是自動生成并管理非重疊約束，以確保無論布局尺寸如何變化，組件都不會互相重疊. 在布局操作中，該工具能自動保持組件的對齊，避免了手動調整對齊的

繁瑣過程，確保了界面元素的視覺整潔. ALE使用一種矩形網格分塊技術管理布局空白區域和組件間的間距，以確保布局的最小尺寸和最大尺寸一致且合理. 這些對用戶界面的

可讀性和可理解性非常有益，有利于滿足視覺障礙用戶的需求. UI Automator Viewer［58］是一個用于分析和檢查Android應用程序界面布局的工具，幫助開發和測

試人員了解應用的GUI結構并執行可用性和無障礙性檢查. 它提供了一種視覺化的方式查看應用的GUI層次結構，并可顯示每個組件的詳細屬性. Patil等［59］對UI Auto

mator Viewer工具進行改進，使其更有效地支持移動端Android應用程序的無障礙性檢測. 改進后的UI Automator Viewer引入了“捕獲與播放”功能，支持在工具的截圖上執行觸摸

事件和按鍵事件. 這允許開發者模擬用戶與應用程序的交互，并自動捕獲后續活動的界面. 這種功能為應用無障礙測試提供了更真實的用戶交互模擬，幫助開發者檢測GUI的交互問題.

為幫助開發人員檢測并修復視覺設計中的顏色對比問題，工具增加了顏色對比功能. 它可以將捕獲的屏幕截圖轉換為灰度圖像，幫助開發人員確保文本與背景之間有足夠的對比度，

以便低視力或色盲用戶能更輕松地訪問應用. 這項功能對修復無障礙布局的可視性和可讀性具有重要意義.

在傳統方法的基礎上， Oulasvirta等［60］首次系統性地將組合優化方法引入到GUI設計領域，將GUI設計問題數學化為整數規劃任務. 這種方法允許識別問題類型，分析

其復雜性，并利用已知的算法解決方案，提供了在GUI設計中進行結構化和優化的有效方法. 他們提出了如何將人因相關的設計目標（如用戶性能、視覺識別、運動控制等）整合為

評估函數，以幫助優化設計輸出. 這種方法對如何將用戶需求和交互行為納入優化過程提供了重要的實踐指導. 相比于傳統基于經驗法則的設計方式，這種優化方法具有更高的靈活性

，允許直接控制設計輸出，并且能在設計工具中作為輔助設計師的交互式工具. 適應性設計方法可以將用戶的特定需求納入優化目標中，該方法可以應用于移動端無

障礙GUI布局設計中，通過根據視障用戶或行動受限用戶的需求調整界面元素位置、大小等，以提供個性化的無障礙體驗. OR-約束（or-constraints， ORC）［61］是一種高

級約束機制，用于GUI布局中，旨在提高布局的靈活性和自適應性. 它是指在布局時允許多個候選約束條件中只有一個必須被滿足，從而在調整時提供更多的排列選擇. OR-約束的使

用場景廣泛，例如，在界面空間不足時， OR-約束可用于決定哪些小部件可以隱藏或被替代. OR-約束與 GUI 布局的無障礙設計密切相關，它通過提供靈活、自適應的布局

，幫助界面更好地適應各種設備和用戶需求，特別是在優化無障礙特性方面. Jiang等［62］提出了一個OR-約束的自適應GUI布局的高效求解器ORCSolver， ORCSolver

是首個能在近乎交互速度下解決復雜GUI布局的求解器，其結合了線性約束和流布局，從而解決了傳統布局模型在處理設備多樣性和不同屏幕尺寸時的限制，有助于確保用戶界面在各種移

動設備上都能保持可用性和可訪問性，方便視障用戶在不同屏幕條件下都能方便地使用應用程序. ORCSolver可以在界面布局變化時（如從橫屏到豎屏）自動調整組件的位置和大小，

避免界面元素重疊或超出屏幕范圍. 這種功能有助于提高界面的可訪問性，確保界面元素始終清晰可見. 該求解器簡化了復雜布局的管理，使開發者能更輕松地創建無障礙友好界面

，而不需要為每種設備或屏幕設置獨立的布局規范. 從而鼓勵更多開發人員在設計移動應用時考慮無障礙要求，進而提高整體用戶體驗.

本文團隊在GUI無障礙化優化方面也開展了針對性研究. 針對GUI中組件尺寸過小、組件間隔過窄以及顏色對比度不足這3類可訪問性問題，采用關系圖卷積神經網絡（R-GCN）模型提

出了修復方法，為開發人員提供詳細的屬性調整策略，有效降低了GUI的可訪問性障礙，顯著提升了用戶體驗［28］. 同時，面向視障用戶在GUI導航中遇到的可訪問性問題，

借助格式塔心理學中的接近律和相似律對GUI內組件進行邏輯分組，并在分組結果的基礎上重新規劃導航順序，使導航流程更符合視障用戶的操作習慣和行為感知［63］. 此外

，還針對網頁端可擴展向量圖形（scalable vector graphics， SVG）缺少替代文本的問題，設計了通過特征模板和匹配規則自動生成替代文本的方案，為提升網頁可訪問性提供

了有力的技術支持［64］. Zhang等［19］提出了一種創新的顏色選擇方法Iris，是首個專門用于修復Android應用中顏色相關可訪問性問題的自動化方法. Iris采用一種

上下文感知的修復技術，能在保持原始UI設計風格一致的前提下，修復文本對比和圖像對比問題. 通過構建顏色參考數據庫確保設計風格的一致性. 參考數據庫包含了9 978個

應用中沒有可訪問性問題的顏色對，這些顏色已經過設計者認可，因此確保了修復后的顏色與原始設計風格協調. 此外， Iris通過靜態分析技術準確識別需要修復的UI組件及其屬性.

該技術克服了現有工具在修復過程中定位不準確的問題，確保了修復的有效性和精確性.

表3列出了移動端GUI布局的無障礙修復方法.

由表3可見，現有移動端GUI布局修復方法各有優缺點. 早期的經驗法則和基于網格的布局策略提供了直觀且簡單的設計框架，但在應對個性化需求和動態內容

時存在一定的局限性. 如Auckland Layout Editor（ALE）和改進版UI Automator Viewer等新型工具通過自動生成和管理約束，簡化了布局創建和無障礙檢測的過程，但在處理復雜布局和動態變

化時仍面臨挑戰. 引入組合優化方法及OR-約束和ORCSolver的應用，提高了布局設計的靈活性和自適應性，有助于滿足不同用戶的無障礙需求，但這些方法通常需要較高的計算資源

和專業技能支持. 類似Iris的自動化顏色修復工具專注于解決特定的無障礙問題，提供了高效的解決方案，但可能無法涵蓋所有布局缺陷. 未來的研究方向可聚焦于將人工智能與用戶

模型相結合，開發出自適應的GUI布局修復方法，能根據用戶需求和設備特性實時優化界面布局，同時構建大規模的無障礙布局數據集，以提升模型的泛化能力和實用性.

2 未來研究方向

綜合以上多方面的研究工作，移動互聯網信息無障礙的研究可以進一步拓展. 首先，多模態融合技術的發展為無障礙設計提供了新的可能性. 目前的研究大多數集中于單一模態的信

息處理（如文本或圖像），而未來則可以通過融合文本、圖像、音頻及用戶行為數據等多模態信息，開發更智能的無障礙檢測與修復工具，以更好地理解并優化復雜的移動界面. 從而

顯著增強無障礙方案的適應性，更有效地滿足多樣化的用戶需求. 其次，個性化與自適應設計是未來研究的重要方向之一. 不同用戶的無障礙需求存在顯著差異，未來研究可以重點

開發基于深度學習和用戶行為分析的個性化、自適應的無障礙解決方案. 這樣的系統能根據用戶的視覺障礙程度、認知能力及使用習慣，實時優化用戶界面布局、交互方式與信息

呈現方式，以更好地服務特殊需求群體，提高系統的適應性，從而為視障用戶帶來更人性化、包容性的使用體驗.

人工智能與大規模數據集的結合也將成為未來研究的關鍵領域. 當前的深度學習模型在無障礙檢測中雖性能優異，但其效果高度依賴于高質量的大規模數據集. 因此，未來研

究需要集中構建多樣化、無偏見的大規模無障礙數據集，以提高模型的訓練質量和泛化能力. 此外，研究還需關注如何開發資源友好型的模型結構，降低計算資源需求，使其能在移

動設備上實現實時響應，尤其在計算資源有限的環境中，實現更高效的無障礙支持. 同時，新興交互模式的無障礙研究也值得深入關注. 隨著虛擬現實（VR）、增強現實（AR）等

新興技術的迅速發展，如何確保這些復雜的交互模式同樣對視障用戶友好，成為未來的挑戰與機遇. 針對這些新興交互方式的無障礙支持研究，能確保視障用戶平等地訪問和體驗這些

前沿技術，真正實現數字世界的普惠與包容.

此外，人機協同優化也是無障礙設計未來的發展方向之一. 當前的無障礙設計工具在自動化方面仍存在局限，未來可以通過設計師與人工智能的合作，形成高效的人機協同設計模式.

人工智能能快速識別并修復無障礙問題，而設計師則在提升設計的用戶體驗和合理性方面具有優勢，二者結合將極大提高無障礙設計的效率與質量. 最后，標準化與實踐推廣是未來不

可忽視的重要方面. 盡管已有的無障礙標準（如WCAG）為設計提供了基本參考，但這些標準在移動端應用中的適用性和細化程度仍需進一步提升. 未來研究應致力于制定更具針對性和

系統化的無障礙標準，涵蓋新興的交互模式，并推動這些標準在工業界的應用與推廣，從而使開發者更易于將無障礙設計融入到開發流程中，降低實現難度，提升普及程度.

3 結論

移動互聯網信息無障礙能顯著提升視障用戶在數字環境中的體驗，減少他們在使用過程中遇到的障礙. 但由于開發人員在項目時間緊張、缺乏無障礙設計經驗，或者對無障礙設

計的重視不足等原因，常導致移動應用在無障礙設計上的缺失、不足或不符合用戶需求的情況. 因此，移動應用無障礙的深入研究和實踐推廣成為解決這些問題的有效方法，也

是當前人機交互和軟件工程領域的重要應用場景之一. 同時，針對移動應用無障礙的研究，具有重要的社會公平價值和商業應用前景. 目前，該問題在移動互聯網開發領域仍是一個亟

待解決的開放性研究課題. 本文系統地總結了該領域的研究現狀與實踐成果，深入探討了現有方法的優勢和不足，以便研究人員更好地了解移動互聯網信息無障礙的最新研究進展. 移

動互聯網信息無障礙技術的不斷發展顯著改善了視障用戶及其他特殊需求群體的數字體驗，但仍面臨諸多挑戰.

首先，在可訪問性檢測方面，傳統的基于啟發式規則的方法雖然在發現常見的無障礙問題上表現良好，尤其是針對靜態的界面元素，但在面對復雜的動態交互及語義理解時明顯不足.

近年來，深度學習技術的發展為可訪問性檢測帶來了突破性進展，通過卷積神經網絡等模型自動學習界面元素特征，提高了檢測的精確度和覆蓋面. 特別是像OwlEye這樣

結合Grad-CAM可視化技術的方法，能更直觀地展示檢測結果，幫助開發人員快速修復問題. 但深度學習模型在訓練數據、泛化能力等方面仍面臨挑戰，模型的計算復雜

度及對大規模數據的需求也在一定程度上影響了其在移動設備上的應用效率. 其次，在移動端GUI語義表征與理解方面，本文分析了從啟發式規則到深度學習模型的演變過程. 傳統方

法通過預定義的規則集識別界面元素的語義特征，而深度學習則通過自監督學習等方法實現了對圖像、文本等多模態信息的有效融合，進一步提高了對界面元素語義的理解深度.

例如， LabelDroid和Screen2Vec等方法通過圖像特征提取與語義嵌入的結合，不僅增強了語義識別的準確性，還減輕了開發人員在標簽生成方面的負擔. 但這些方法仍需應對動態

交互、復雜語義關系及模型部署等方面的難題，尤其是在有限計算資源的移動設備上，如何實現高效而精確的界面語義理解，仍需深入探索. 最后，在GUI布局修復方面，傳統的基

于經驗法則與網格布局的設計方法為移動界面設計提供了基礎的規范，但難以應對個性化需求及動態內容的多樣化需求. 現代的布局修復工具如Auckland Layout Editor （ALE）和UI

Automator Viewer等，通過自動化的方式生成布局約束，簡化了開發過程，提高了布局的一致性和無障礙性能. 基于組合優化的OR-約束與求解器ORCSolver則為GUI布局的靈活性

與適應性提供了更系統化的解決方案，能在不同屏幕條件下保證布局的一致性. 但這些方法在實現過程中可能需要較高的計算資源，開發成本也較昂貴. 自動化布局修

復工具如Iris則通過上下文感知的修復方法，幫助解決顏色對比度問題，增強了低視力用戶的可讀性和使用體驗.

綜上，移動互聯網信息無障礙的研究已經取得了一定的進展，并在視障用戶的數字生活中發揮了重要作用，但仍面臨諸多挑戰與機遇. 未來的研究需要結合多模態數據、人工智能

、用戶行為建模等先進技術，通過持續的創新和優化，推動無障礙技術的深入發展，為所有用戶提供更公平和優質的數字體驗，真正實現數字社會的普惠與包容.

參考文獻

［1］中國信息通信研究院，深圳市信息無障礙研究會. 中國信息無障礙白皮書［EB/OL］. （2019-07）［2024-11-20］. http：//m.caict.ac.cn. （CHINA ACADEMY OF INFORMATION A

ND COMMUNICATIONS TECHNOLOGY， SHENZHEN INFORMATION ACCESSIBILITY RESEARCH ASSOCIATION. China Information Accessibility White Paper ［EB/OL］. （2019-07）［2024-11-20］. http：//m.caict.ac.cn.）

［2］中國信息無障礙產品聯盟. 中國互聯網視障用戶基本情況報告［EB/OL］. （2016-03）［2024-11-20］. https：//www.siaa.org.cn/. （CHINA INFORMATION ACCESSIBILITY PROD

UCT ALLIANCE. Basic Situation Report of Internet Visually Impaired Users in China ［EB/OL］. （2016-03）［2024-11-20］. https：//www.siaa.org.cn/.）

［3］人民網. 信息無障礙建設概覽［EB/OL］. （2020-05-22）［2024-11-20］. http：//w

za.people.com.cn/wza2013/a/xinwensudi/2020/0521/3267.html.（PEOPLE’S DAILY. Overview of Information Accessibility Construction ［EB/OL］. （2020-05-22）［2024

-11-20］. http：//wza.people.com.cn/wza2013/a/xinwensudi/2020/0521/3267.html.）

［4］ BALLANTYNE M， JHA A， JACOBSEN A， et al. Study of Accessibility Guidelines of Mobile Applications ［C］//Proceedings of the 17th

International Conference on Mobile and Ubiquitous Multimedia. New York： ACM， 2018： 305-315.

［5］萬維網聯盟. W3C移動端無障礙［EB/OL］. （2018-01）［2024-11-20］. https：//www.w3.org/WAI/standards-guidelines/mobile/zh-hans. （WORLD WIDE WEB CONSORTIUM.

W3C Mobile Accessibility ［EB/OL］. （2018-01）［2024-11-20］. https：//www.w3.org/WAI/standards-guidelines/mobile/zh-hans.）

［6］萬維網聯盟. W3C網絡內容可訪問性指南［EB/OL］. （2024-03-01）［2024-11-20］. https：//www.w3.org/WAI/standards-guidelines/wcag/. （WORLD WIDE WEB CONSORTIUM. W3C

Web Content Accessibility Guidelines ［EB/OL］. （2024-03-01）［2024-11-20］. https：//www.w3.org/WAI/standards-guidelines/wcag/.）

［7］ XU T L， WANG B S， LIU H， et al. Prevalence and Causes of Vision Loss in China from 1990 to 2019： Findings from the Global Burden of Di

sease Study 2019 ［J］. The Lancet Public Health， 2020， 5（12）： e682-e691.

［8］工業和信息化部，中國殘疾人聯合會. 中國殘聯關于推進信息無障礙的指導意見［EB/OL］. （2020-09-11）［2024-11-20］. http：//www.scio.gov

.cn/xwfbh/xwbfbh/wqfbh/42311/44021/xgzc44027/Document/1690214/1690214.htm. （MINISTRY OF INDUSTRY AND INFORMATION TECHNOLOGY， CHINA DISABLED PERSONS’ FEDERATIO

N. Guiding Opinions on Promoting Information Accessibility by CDPF ［EB/OL］. （2020-09-11）［2024-11-20］. http：//www.scio.gov.cn/xwfbh/xwbfbh/wqfbh/42311/44021/xgzc44027/Document/1690214/1690214.htm.）

［9］工業和信息化部. 工業和信息化部關于印發《互聯網應用適老化及無障礙改造專項行動方案》的通知［EB/OL］. （2020-12-24）［2024-11-20］. ht

tp：//www.gov.cn/zhengce/zhengceku/2020-12/26/content_5573472.htm. （MINISTRY OF INDUSTRY AND INFORMATION TECHNOLOGY. Notice on Issuing the Special Action Plan

for Aging and Accessibility Transformation of Internet Applications ［EB/OL］. （2020-12-24）［2024-11-20］. http：//www.gov.cn/zhengce/zhengceku/2020-12/26/content_5573472.htm.）

［10］中華人民共和國國家發展和改革委員會. 關于印發《“十四五”公共服務規劃》的通知［EB/OL］. （2021-01-10）［2024-11-20］. https：//www.ndrc.gov.cn/xxgk/zcfb/ghw

b/202201/t20220110_1311622.html？code=amp;state=123. （NATIONAL DEVELOPMENT AND REFORM COMMISSION OF THE PEOPLE’S REPUBLIC OF CHINA. Notice on Issuing the “14th F

ive Year Plan for Public Services” ［EB/OL］. （2021-01-10）［2024-11-20］. https：//www.ndrc.gov.cn/xxgk/zcfb/ghwb/202201/t20220110_1311622.html？code=amp;state=123.）

［11］國務院. 國務院關于印發“十四五”殘疾人保障和發展規劃的通知［EB/OL］. （2021-07-08）［2024-11-20］. http：//www.gov.cn/zhengce/content/2021-07/21/conten

t_5626391.htm. （STATE COUNCIL. Notice on Printing and Distributing the “14th Five-Year” Plan for the Guarantee and Development of Disabled Persons ［EB/OL］

. （2021-07-08）［2024-11-20］. http：//www.gov.cn/zhengce/content/2021-07/21/content_5626391.htm.）

［12］ BI T T， XIA X， LO D， et al. Accessibility in Software Practice： A Practitioner’s Perspective ［J］. ACM Transactions on Software Engineering and Methodology （TOSEM）， 2022， 31（4）： 1-26.

［13］ LIU H X. Some Interviews of Low-Vision Users on Using Mobile Apps. Zenodo ［EB/OL］. （2022-03）［2024-11-20］. https：//doi.org/10.5281/zenodo.6331279.

［14］ PAUL T C， ROBERT W， ALI S A， et al. Automatically Detecting Reflow Accessibility Issues in Responsive Web Pages ［C］//

Proceedings of the 2024 IEEE/ACM 46th International Conference on Software Engineering （ICSE）. New York： ACM， 2024： 147-1-147-13.

［15］ FOK R， ZHONG M， ROSS A S， et al. A Large-Scale Longitudinal Analysis of Missing Label Accessibility Failures in Android Apps ［C］//Proceedings of the 2022

CHI Conference on Human Factors in Computing Systems. New York： ACM， 2022： 461-1-461-16.

［16］ HZ Z Y， SYED F H， SAM M. “I Tend to View Ads Almost Like a Pestilence”： On the Accessibility Implications of Mobile Ads for Blind Users ［C］//Proceedings

of the 2024 IEEE/ACM 46th International Conference on Software Engineering （ICSE）. New York： ACM， 2024： 197-1-197-13.

［17］ ARUN K V， MANSUR S M H， JOSE J， et al. MotorEase： Automated Detection of Motor Impairment A

ccessibility Issues in Mobile App UIs ［C］//Proceedings of the 2024 IEEE/ACM 46th International Conference on Software Engineering （ICSE）. New York： ACM， 2024： 209-1-209-13.

［18］ BAJAMMAL M， MESBAH A. Semantic Web Accessibility Testing via Hierarchical Visu

al Analysis ［C］//Proceedings of the 2021 IEEE/ACM 43rd International Conference on Software Engineering （ICSE）. Piscataway， NJ： IEEE， 2021： 1610-1621.

［19］ ZHANG Y X， CHEN S， FAN L L， et al. Automated and Context-Aware Repair of Color-R

elated Accessibility Issues for Android Apps ［C］//Proceedings of the 31st ACM Joint European Software Engineering Conference and Symposium on

the Foundations of Software Engineering. New York： ACM， 2023： 1255-1267.

［20］ SALEHNAMADI N， MEHRALIAN F， MALEK S. Groundhog： An Automated Accessibility Crawler for Mobile Apps ［C］//Proceedings of the 37th IEE

E/ACM International Conference on Automated Software Engineering. New York： ACM， 2022： 50-1-50-12.

［21］ ZHANG M R， ZHONG M， WOBBROCK J O. Ga11y： An Automated GIF Annotation System for Visually Impaired Users ［C］//Proceedings of the

2022 CHI Conference on Human Factors in Computing Systems. New York： ACM， 2022： 197-1-197-16.

［22］ ISLAM M T， PORTER D E， BILLAH S M. A Probabilistic Model and Metrics for Estimating Perceived Accessibility of Desktop Applications in

Keystroke-Based Non-visual Interactions ［C］//Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems. New York： ACM， 2023： 43-1-43-20.

［23］ DAS M， McHUGH T B， PIPER A M， et al. Co11ab：

Augmenting Accessibility in Synchronous Collaborative Writing for People with Vision Impairments ［C］//Proceedings of the 2022 CHI

Conference on Human Factors in Computing Systems. New York： ACM， 2022： 196-1-196-18.

［24］ WANG R， CHEN Z， ZHANG M R， et al. Revamp： Enhancing Accessible Information See

king Experience of Online Shopping for Blind or Low Vision Users ［C］//Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems. New York： ACM， 2021： 494-1-494-14.

［25］ LIU X， CARRINGTON P， CHEN X A， et al. What Makes Videos Accessible to Blind and Visually Impaired People？［C］//

Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems. New York： ACM， 2021： 272-1-272-14.

［26］ LIU Z， CHEN C Y， WANG J J， et al. Unblind Text Inputs： Predicting Hint-Text of Text Input in Mobile Apps via LLM ［C］//

Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems. New York： ACM， 2024： 51-1-51-20.

［27］ CHEN S， CHEN C Y， FAN L L， et al. Accessible or Not？ An Empirical Investigation of

Android App Accessibility ［J］. IEEE Transactions on Software Engineering， 2021， 48（10）： 3954-3968.

［28］ ZHANG M X， LIU H X， CHEN C Y， et al. AccessFixer： Enhancing GUI Accessibility for Low Vision Users with R-GCN Model ［J］. IEEE Tran

sactions on Software Engineering， 2024， 50（2）： 173-189.

［29］李玉聰，汪士欽，張夢璽，等. 基于WAI-ARIA的網頁導航欄地標屬性的標識方法［J］. 吉林大學學報（理學版）， 2024， 62（3）： 697-703. （LI Y C， WANG S Q， ZHANG M X，

et al. Identification Method of Landmark Attributes for Web Navigation Bar Based on WAI-ARIA ［J］. Journal of Jilin University （Science Edition）， 2024， 62（3）： 697-703.）

［30］ GLEASON C， PAVEL A， McCAMEY E， et al. Twitter A11y： A Browser Extension to Make Twitter Images

Accessible ［C］//Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems. New York： ACM， 2020： 1-12.

［31］ INTERNATIONAL TELECOMMUNICATION UNION. Measuring Digital Development： Facts an

d Figures 2020 ［EB/OL］. （2020-12-13）［2024-11-20］. https：//www.itu.int/en/ITU-D/Statistics/Documents/facts/FactsFigures2020.pdf.

［32］ ZHANG M X， LIU H X， SONG S N， et al. Are Your Apps Accessible？ A GCN-Based Accessib

ility Checker for Low Vision Users ［J］. Information and Software Technology， 2024， 174： 107518-1-107518-16.

［33］ CHEN J S， CHEN C Y， XING Z C， et al. Unblind Your Apps： Predicting Natural-Language

Labels for Mobile GUI Components by Deep Learning ［C］//Proceedings of the ACM/IEEE 42nd International Conference on Software Engineering. New York： ACM， 2020： 322-334.

［34］ MEHRALIAN F， SALEHNAMADI N， MALEK S. Data-Driven Accessibility Repair Revisit

ed： On the Effectiveness of Generating Labels for Icons in Android Apps ［C］//Proceedings of the 29th ACM Joint Meeting o

n European Software Engineering Conference and Symposium on the Foundations of Software Engineering. New York： ACM， 2021： 107-118.

［35］ LI T J J， POPOWSKI L， MITCHELL T， et al. Screen2vec： Semantic Embedding of GUI Screens and GUI Components ［C］//Proceeding

s of the 2021 CHI Conference on Human Factors in Computing Systems. New York： ACM， 2021： 578-1-578-15.

［36］ MIKOLOV T. Efficient Estimation of Word Representations in Vector Space ［EB/OL］. （2013-01-13）［2024-11-20］.

https：//arxiv.org/abs/1301.3781.

［37］ ZHANG X Y， DE GREEF L， SWEARNGIN A， et al. Screen Recognition： Creating Accessi

bility Metadata for Mobile Applications from Pixels ［C］//Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems. New York： ACM， 2021： 275-1-275-15.

［38］ XIE M L， XING Z C， FENG S D， et al. Psychologically-Inspired， Unsupervised Inferenc

e of Perceptual Groups of GUI Widgets from GUI Images ［C］//Proceedings of the 30th ACM Joint European Software Engineering Conference and

Symposium on the Foundations of Software Engineering. New York： ACM， 2022： 332-343.

［39］ FU J W， ZHANG X Y， WANG Y W， et al. Understanding Mobile GUI： From Pixel-Words to Screen-Sentences ［J］. Neurocomputing， 2024， 601： 128200-1-128200-11.

［40］ YAN Y F， COOPER N， CHAPARRO O， et al. Semantic GUI Scene Learning and Video Alig

nment for Detecting Duplicate Video-Based Bug Reports ［C］//Proceedings of the IEEE/ACM 46th International Conference on Software Engineering. New York： ACM， 2024： 232-1-232-13.

［41］ ZHAO W X， ZHOU K， LI J Y， et al. A Survey of Large Language Models ［EB/OL］. （2023-03-31）［2024-11-01］.

https：//arxiv.org/abs/2303.18223.

［42］ NONG S Q， ZHU J L， WU R， et al. Mobileflow： A Multimodal LLM for Mobile GUI Agent ［EB/OL］.

（2024-07-15）［2024-11-10］. https：//arxiv.org/abs/2407.04346.

［43］ BISHOP P C， JONES A J. Implementing the Americans with Disabilities Act of 1990： Assessing the Variables of Success ［J］. Public

Administration Review， 1993， 53（2）： 121-128.

［44］ EUROPEAN UNION. European Accessibility Act ［EB/OL］. （2019-01-01）［2024-11-20］. https：//www.europarl.europa.eu/RegPata/etudes/BRIE/2017/603973.

［45］ W3C. Mobile Web Best Practices ［EB/OL］. （2007-02-01）［2024-11-19］. https：//www.w3.org/2007/02/mwbp_flip_cards.pdf.

［46］ GOOGLE. Lint ［EB/OL］. （2011-01-01）［2024-11-20］. https：//developer.android.com/studio/write/lint.html.

［47］ GOOGLE. Espresso ［EB/OL］. （2013-11-01）［2024-11-20］. https：//developer.android.com/training/testing/espresso.

［48］ IBM. Mobile Accessibility Checker ［EB/OL］. （2016-10-12）［2024-11-19］.

https：//www.ibm.com/blogs/age-and-ability/2016/10/12/ibm-strengthens-mobile-app-accessibility-and-usability/.

［49］ GOOGLE. Accessibility Test Framework ［EB/OL］. （2022-03-01）［2024-11-20］. https：//github.com/google/AccessibilityTest-Framework-for-Android.

［50］ GOOGLE. Google Accessibility Scanner ［EB/OL］. （2019-04-24）［2024-11-20］. https：//support.google.com/accessibility/android/faq/6376582？hl=en.

［51］ ROSS A S， ZHANG X， FOGARTY J， et al. Examining Image-Based Button Labeling for Accessibility in Android Apps through Large-Scale Analysis ［C］//

Proceedings of the 20th International ACM SIGACCESS Conference on Computers and Accessibility. New York： ACM， 2018： 119-130.

［52］ ELER M M， ROJAS J M， GE Y， et al. Automated Accessibility Testing of Mobile Apps ［C］//Proceedings of the 2018 IEEE 11th Internation

al Conference on Software Testing， Verification and Validation （ICST）. Piscataway， NJ： IEEE， 2018： 116-126.

［53］ LIU Z， CHEN C Y， WANG J J， et al. Owl Eyes： Spotting UI Display Issues via Visual Understanding ［C］//Proceedings of th

e 35th IEEE/ACM International Conference on Automated Software Engineering. New York： ACM， 2020： 398-409.

［54］ SALEHNAMADI N， ALSHAYBAN A， LIN J W， et al. Latte： Use-Case and Assistive-Service Driven Automated Accessibility Testing Framework

for Android ［C］//Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems. New York： ACM， 2021：" 274-1-274-11.

［55］ GALITZ W O. The Essential Guide to User Interface Design： An Introduction to G

UI Design Principles and Techniques ［M］. Hoboken， NJ： John Wiley and Sons， 2007： 1-896.

［56］ FEINER S K. A Grid-Based Approach to Automating Di

splay Layout ［M］. ［S.l.］： Morgan Kaufmann Publishers Inc， 1998： 249-254.

［57］ ZEIDLER C， LUTTEROTH C， STURZLINGER W， et al. The Auckland Layout Editor： An Improved GUI Layout Specification Process ［C］//

Proceedings of the 26th Annual ACM Symposium on User Interface Software and Technology. New York： ACM， 2013： 343-352.

［58］ ALEXAL L. UI-Automator-Viewer ［EB/OL］. （2020-10-09）［2024-11-20］. https

：//github.com/alexal1/Insomniac/wiki/UI-Automator-Viewer：-What-Is-It-And-How-To-Use-It.

［59］ PATIL N， BHOLE D， SHETE P. Enhanced UI Automator Viewer with Improved Android Accessibility Evaluation Features ［C］//2016 Internati

onal Conference on Automatic Control and Dynamic Optimization Techniques （ICACDOT）. Piscataway， NJ： IEEE， 2016： 977-983.

［60］ OULASVIRTA A， DAYAMA N R， SHIRIPOUR M， et al. Combinatorial Optimization of Graphical User Interface Designs ［J］. Proceedings of th

e IEEE， 2020， 108（3）： 434-464.

［61］ JIANG Y， DU R F， LUTTEROTH C， et al. ORC Layout： Ad

aptive GUI Layout with OR-Constraints ［C］//Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems. New York： ACM， 2019： 413-1-413-12.

［62］ JIANG Y， STUERZLINGER W， ZWICKER M， et al. ORCSolver：" An Efficient Solver for

Adaptive GUI Layout with OR-Constraints ［C］//Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems. New York： ACM， 2020： 1-14.

［63］ ZHANG M X， LIU H X， ZHOU Y H， et al. Don’t Confuse！ Redrawing GUI Navigation Flow in Mobile Apps for Visually Impaired Users

［C］//IEEE Transactions on Software Engineering. Piscataway， NJ： IEEE， 2024： 1-18.

［64］ ZHANG M X， ZHANG Y， GAO G Y， et al. Enhancing Accessibility of Web-Based SVG Buttons： An

Optimization Method and Best Practices ［J］. Expert Systems with Applications， 2023， 238： 121883-1-121883-17.

（責任編輯：韓嘯）

吉林大學學報(理學版)2025年1期

吉林大學學報(理學版)的其它文章: 生物擾動對沉積物-水界面附近污染物環境行為及生物地球化學過程的影響; 自然老化抑制聚苯乙烯微塑料吸附壬基酚的機理; 核盤菌致病機制研究進展; SWEET蛋白在植物與病原物互作中的功能研究進展; 西洋參中皂苷類成分表征和炮制導致成分轉化的研究進展; 類風濕性關節炎基因治療技術研究進展