郭俊修,柳有權,王松雪
基于普通紙筆的投影交互方法研究
郭俊修,柳有權,王松雪
(長安大學信息工程學院 陜西 西安 710064)
投影交互使交互空間不再局限于屏幕,與其他方式相比具有更好的用眼舒適度,能夠實現豐富的交互效果,而筆式書寫交互則有著與生俱來的自然性和高效性。結合二者優點,提出了一種基于普通紙筆的投影交互方法,通過普通紙筆與計算機進行交互,攝像頭用于采集手寫內容,投影儀則用于識別效果呈現。另外,通過卷積神經網絡(CNN)和KNN結合使系統可自動適應用戶的手寫風格,提高了針對不同用戶的手寫體識別率。在此基礎上,針對教育領域設計了單詞拼寫和算式計算2個典型應用。經實驗和用戶調查,該交互方法與其他交互方法相比,更舒適自然,具有較強的實用性。
普通紙筆;投影交互;手寫體識別;筆式交互
人機交互是實現用戶與計算機之間進行信息交換的通路[1]。廣泛應用的基于鼠標鍵盤的交互借助了鼠標鍵盤完成了信息從用戶到計算機的流動,然而給用戶帶來了學習鼠標鍵盤使用的負擔;其次,在交互過程中形成了顯示器向用戶、用戶向鼠標鍵盤以及鼠標鍵盤向顯示器的信息流通冗余環路,大大影響了交互過程的直觀性和主動性。基于觸屏的交互較好地解決了上述問題,但存在著“胖手指”問題,即由于用戶手指相對于UI控件臃腫而導致的誤觸、遮擋等問題,且將交互過程局限在屏幕上,一定程度上限制了人機交互的自由性。
隨著投影儀的尺寸越來越小、價格越來越低,越來越多的研究人員對投影交互進行探索。投影交互的優點在于投影平面大、投影位置靈活,且經過漫反射后光線變得柔和,比LED 顯示屏對人眼的舒適度影響更小[2]。除此之外,投影交互可以直接在實物上投影內容,實現增強現實的效果。在教育和娛樂領域,投影交互得到了廣泛地應用,但目前投影交互仍以內容顯示為主,用戶與計算機的交互不足且方式單一,多以模擬觸控交互為表現。
筆式交互是Post-WIMP時代人機交互的研究重點。筆式交互基于傳統的紙筆隱喻,有著與生俱來的自然性和舒適性[3]。筆尖比手指更加精細,可解決觸屏交互中的“胖手指”問題。筆式交互還可實現多維度的信息輸入,為更高的輸入帶寬和更準確的交互體驗提供了可能。但其需要數位板及配套的電子筆作為硬件,且價格較昂貴,使用體驗與普通紙筆有一定差距。同時,作為筆式交互中最常用交互手段的筆手勢存在著難以記憶、表達的交互內容有限等問題。
本文提出了一種基于普通紙筆的投影交互方法。該方法降低了筆式交互對硬件的要求,僅需要普通紙筆就可以與計算機進行交互,交互信息的采集及效果的呈現分別由攝像頭和投影儀完成。同時借助深度學習技術,該交互方式能夠自動適應用戶的手寫體風格,隨著用戶的使用,對手寫體的識別精度不斷提高,使交互過程不再是用戶單向適應計算機,而是用戶與計算機相互適應。本文交互方式通過增加交互命令字能夠實現更復雜、更豐富的交互行為;與現有的筆式交互相比,本交互方式使用的是普通紙筆而非數位板和電子筆,硬件成本低廉且能夠提供更自然舒適的交互體驗。經實驗和用戶調查,本文方法在幾乎不增加學習成本的情況下,能夠為用戶提供自然、舒適、高效的交互體驗。
隨著投影儀的廣泛使用,基于投影交互的研究也越來越多。HATANAKA等[4]提出了基于手寫識別的Dream Board系統,在用戶圈選白板上的單詞后,系統會在其上方投影與單詞匹配的圖像,通過圖文結合的方式讓用戶快速了解單詞的含義從而幫助用戶學習單詞。WELLNER[5]提出了DigitalDesk系統,其利用計算機視覺完成紙張識別、定位,然后將圖像投影到紙張上,用戶通過筆或手指在紙張上與計算機交互。受文獻[5]的啟發,ROBINSON和ROBERTSON[6]利用LivePaper系統跟蹤普通紙張上的手寫字符來定位紙張,然后在紙張上投影多媒體內容,并通過手指完成一系列操作。WILSON[7]提出了基于計算機視覺的PlayAnywhere系統,其由相機和投影儀組成,通過計算機視覺實現了指尖懸停、點擊的檢測以及紙張定位和基于光流法的動作檢測,最終實現了一種緊湊的交互桌面投影交互系統。王修暉等[8]探索了投影模式下的手勢交互,設計并實現了基于計算機視覺和數據手套的手勢交互系統。LU等[9]從中國皮影戲中獲得靈感,通過手持定向傳感器操控投影的虛擬角色,啟發人們用硬件來實現更加豐富、復雜的投影交互。上述基于投影交互的系統大多數是通過定位投影平面來投影內容,難以靈活完成復雜的交互行為。
筆式交互憑借著符合人的認知習慣、以及人對紙筆的偏好,成為未來用戶界面的一種重要發展方向[10]。陳若輕等[11]提出了手寫譜曲系統Prelude,通過手繪音符識別同時引入紙帶放大鏡和自由書寫2套模式,最大限度地還原了執筆創作的自然度和流暢度。孟珊等[12]提出了面向學習者的筆式幾何學習系統,其通過幾何屬性動態展示幫助學習者學習幾何知識,并通過筆手勢來完成刪除、選擇、拖動等交互行為。徐禮爽等[13]提出了在線雙向適應的筆手勢界面框架,當筆手勢需要進行糾錯和模糊消解時,用戶既可以選擇學習系統也可以選擇適應用戶,從而實現了系統與用戶的雙向學習。馮海波等[14]利用基于手勢的手寫公式編輯系統實現了手寫公式字符的識別,并加入選擇、取消、刪除等筆手勢方便用戶對手寫公式進行修改。CABRAL和CORREIA[15]實現了基于筆式用戶界面的視頻編輯技術,對視頻幀的圈選、涂抹、裁剪、壓力感應縮放等功能。上述基于筆式交互的系統依賴數位板及電子筆,使用體驗與普通紙筆還有一定差距。隨著計算機硬件的發展和高質量數據的積累,深度學習在很多領域得到了廣泛的應用[16-18]。借助深度學習,只需通過視覺技術就可完成光學字符的定位識別等任務。
綜上,投影交互和筆式交互是Post-WIMP用戶界面的研究熱點。相比現有工作,本文將投影交互與筆式交互結合,提出的基于普通紙筆的投影交互方法結合了投影交互和筆式交互的優點,交互方式有很大不同,既保留了投影的用眼舒適度特性,又有筆式交互的靈活性。
本文提出的基于普通紙筆的投影交互方法框架如圖1所示,實際交互效果如圖2所示。首先,計算機投影初始界面,用戶使用普通紙筆書寫交互命令字(如#menu、#exit等),攝像頭采集用戶在紙張上的手寫體,經手寫檢測傳遞給交互決策模塊,并依據當前狀態和用戶輸入做出決策后將響應結果(場景切換及3D模型等)通過投影儀反饋給用戶,用戶根據響應結果再做出進一步的交互命令。整個交互過程在一個平面(即投影面和紙張所在的平面)內完成,用戶幾乎不需要預先學習如何使用該用戶界面,只需要依據計算機投影內容書寫相應的交互命令字即可。

圖1 系統框架

圖2 用戶交互示意圖
如圖2所示,投影區域位于操作平臺的上方,這樣可以減少用戶在手寫時遮擋投影內容;用戶手寫區域位于操作平臺下方,也允許手寫區域與投影區域重合,從而方便用戶依據的投影內容書寫需要的交互命令字。
為了實現該用戶界面,需要完成4方面的工作:①硬件系統;②自適應的手寫體檢測及識別;③交互命令字的設計;④交互內容的設計。
根據需要,自制硬件系統如圖3所示,由高清攝像頭和微型投影儀組成,通過支架安裝在操作平臺上方且光軸垂直于操作平臺,通過數據線與計算機相連。微型投影儀采用DLP技術,具備自動梯形矯正功能,減少了矯正投影儀的工作。微型投影儀與高清攝像頭緊密連接,分別負責投影區域和用戶書寫區域。

圖3 自制投影系統硬件
要檢測和識別紙張上的手寫體,首先要定位紙張,以方便進行手寫體字符分割并識別。考慮到紙張檢測的魯棒性和實時性,本文通過檢測預先打印的位置探測標識來定位紙張。為了實現手寫體識別能夠自動適應不同用戶的手寫風格,本文采用了卷積神經網絡(convolutional neural networks, CNN)+ KNN (K-NearestNeighbor)的識別算法,既利用了CNN強大的自動提取特征的能力,也利用了KNN不需要訓練的特點,較好地實現了自適應用戶的手寫風格。
2.2.1 基于位置探測標識的紙張定位及字符分割
對于缺少顯著紋理細節的空白紙張的定位和跟蹤一直是計算機視覺領域的難題,主要原因在于空白紙張包含的特征(如顏色、邊界、角點)等容易受到背景、光照、遮擋等因素的影響。為了保證系統的魯棒性與實時性,本文在空白紙張的左下角、右上角和右下角各添加了一個位置探測標識用以紙張定位,如圖4所示。所用位置探測標識具有以下約束條件:
(1) 3個同心鑲嵌的正方形;
(2) 3個正方形的面積比為25﹕16﹕9。

圖4 位置探測標識
通過在圖像中尋找滿足以上約束條件的輪廓確定3個位置探測標識的位置,即紙張左下角、右上角和右下角的位置,從而完成紙張定位。右下角標識同時用來根據手的遮擋情況觸發手寫過程的狀態切換,以避免重復識別降低了程序效率。
得到的紙張區域圖像進行裁剪并透視變換后,使用投影法進行字符分割:首先對圖像縱向投影,統計橫向方向上黑色像素個數,得到字符橫向位置;然后對圖像進行橫向投影,統計縱向方向上黑色像素個數,得到字符縱向位置。最終得到用戶書寫的字符串。
如圖5所示,經過紙張定位、透視變換、圖像二值化及投影法分割后,最終得到每個字符圖像。

圖5 中間結果
2.2.2 基于CNN+KNN的手寫體分類
CNN[19]強大的自動提取特征的能力使其成為解決手寫體識別問題的主流方法。
考慮到交互命令字所使用的小寫英文字母的類別較少、字符的結構相對簡單、不含高級的語義特征等,本文借鑒結構簡單、運算量小的經典CNN——VGG-16[20]的設計構建了CNN。本文使用NIST SD 19[21]中的小寫英文字符類訓練的測試CNN。在經過12 epochs訓練后,本文CNN在訓練集上取得了99.36%的準確率,可完美擬合訓練集;此外,在測試集上取得了99.15%的準確率,說明該神經網絡具備良好的泛化能力。
雖然CNN已能精準識別手寫體,但卻無法及時適應用戶風格迥異的手寫風格。這是因為即便已經得到了帶有用戶風格的手寫體,CNN只有重新訓練才能學習其特征,而該過程十分耗時,這是由Softmax分類層決定的。Softmax分類層的計算為

其中,(i)為第個樣本;(i)為第個樣本的類別,共有種類別;為用于計算類別的參數;((i)=|(i);)為在參數為時,將(i)的類別預測為的概率。
從式(1)可以看出,當新樣本出現時,需要重新訓練CNN來更新參數,從而才能對新樣本進行正確分類,但這一過程需要大量的時間和計算資源。同時,當需要增加新的類別時,需要對CNN重新訓練,以使CNN獲得識別新類別的能力。
使用KNN取代Softmax層可以很好地解決上述2個問題,因為KNN完成分類不需要任何訓練,也不需要學習任何參數。當出現新樣本時,只需要將新樣本的特征加入到特征庫中即可。當需要加入新類別時,只需要在特征數據庫中加入該新類別即可。
KNN的使用需要決定3個要素:值的選取、距離度量的選擇、分類決策依據。值通過交叉驗證得到;分類決策采用少數服從多數的原則。距離度量采用余弦距離,即

其中,和為2個維向量,D(,)的取值范圍為[0,1],2個向量越接近,表示其余弦距離越小,反之越大。與歐氏距離相比,余弦距離受維數的影響更小,更適合用于相似度的衡量。
采用CNN提取特征、KNN進行分類構架使手寫體識別有更好的拓展性和用戶自適應性,其識別算法流程如圖6所示。

圖6 基于CNN+KNN手寫體識別算法
相關筆式用戶界面[10-14]的研究中均使用了筆手勢作為與計算機交互的重要手段,例如用“○”表示放大界面,“∧”表示向上翻頁,“∨”表示向下翻頁,“η”表示批注等[12]。
通過筆手勢可以簡單地完成與計算機的交互,但是筆手勢也存在一些問題。首先,在與計算機進行交互前,用戶需要學習系統定義的筆手勢,給用戶帶來了額外的學習成本和負擔。其次,筆手勢難于記憶和容易混淆的問題,如用“η”表示批注操作,會讓用戶在記憶時感到疑惑和不解,增加了記憶的困難。除此之外,筆手勢能夠表達的交互指令很有限,當筆手勢過多時,用戶難以記憶和正確書寫筆手勢。
為了解決以上問題和補充筆式自然書寫的交互手段,本文提出了基于交互命令字的筆式自然書寫交互手段。一個交互命令字由一個“#”和一個表明操作的英文單詞組成,“#”表明后面的英文單詞是一個交互指令,與一般的英文單詞區別。用戶在紙張上書寫的交互命令字經識別后,被交互決策模塊執行并響應結果以投影的方式呈現給用戶,完成了一次基于交互命令字的交互。本文目前設計的交互命令字見表1,該模式可以通過增加命令字來擴展交互能力。同時還可以將命令字寫在卡片上,交互時放置需要的命令卡片即可完成交互,以實現更加自然、高效的交互。

表1 交互命令字及其含義
在手寫體識別的基礎上,針對兒童幼教學習領域,本文設計了2個場景,即單詞拼寫和算式計算場景,分別幫助用戶記憶單詞和學習算式計算。在該類場景下手寫內容被識別后,直接作為輸入字符串傳遞給相應的處理單元,如單詞比較以判斷拼寫是否正確;算式計算以判斷計算結果是否正確。
這部分具有良好的可擴展性,可根據需要設計相應的內容。由于采用投影模式,將改善用眼舒適度,在目前電子產品泛濫的情況下,需更好地保護兒童視力。
整個實驗環境基于本文自制硬件系統,操作系統為Windows 10,程序使用C++/C#和Python編寫,深度學習框架采用Tensorflow,呈現采用Unity平臺,使用普通記號筆和印有位置探測標識的普通紙張進行實驗。
實驗首先驗證了基于CNN+KNN的手寫體識別算法的自適應性,然后在本文提出的基于普通紙筆的投影交互方法的基礎上,實現了2個學習場景:單詞拼寫場景和算式計算場景,用以驗證交互方式的自然性、舒適性和趣味性。
一共有20名實驗者(13名男性,7名女性)被邀請參加實驗,平均年齡24.6歲(標準偏差0.7歲),平均受教育17.3年。所有實驗者均有觸摸設備使用經驗,均沒有筆式設備使用經驗。實驗者的手寫風格有較大差異,其中比較有代表性的5位實驗者的手寫風格如圖7所示。

圖7 實驗者的手寫風格(每行對應一個實驗者)
每個實驗者需要連續完成15輪次單詞拼寫,每輪拼寫包含5個英文單詞。實驗者每完成一次單詞拼寫后,記錄當前輪拼寫字符的平均余弦距離,并由程序將本輪拼寫的手寫體特征加入到該實驗者的數據特征庫中。最后,取20名實驗者的每輪拼寫平均余弦距離的平均值,得到本文識別算法余弦距離隨拼寫輪數的關系曲線如圖8所示。

圖8 余弦距離與拼寫輪數的關系
從圖8可以看出,隨著拼寫輪數的增加,平均余弦距離先迅速減小,然后穩定在一個較小的數值附近,表明本文基于CNN+KNN的手寫體識別算法隨著用戶的拼寫而越來越準確,具有較好的自適應性。
同時,將CNN+KNN和CNN+Softmax的識別準確率進行對比(圖9)。從圖9可以看出,隨著拼寫輪數的增加,CNN+KNN的識別準確率有小幅增加;而CNN+Softmax有所下降。

圖9 CNN+KNN與CNN+Softmax識別結果
本文實現了一個原型系統用以驗證本文交互系統的有效性,同時設計了2個學習場景進一步評估提出的用戶界面。
當系統啟動時,界面如圖10(a)所示。用戶在紙張上書寫“#word”后進入單詞拼寫場景如圖10(b)所示,拼寫“#math”后進入算式計算場景,如圖10(c)所示。
進入單詞拼寫場景后,計算機將生動形象的3D模型投影在投影區域,用戶根據投影內容拼寫對應的單詞。如果拼寫正確,則展示相應代表成功的動畫效果同時響起勝利的音效(圖11(a));如果拼寫錯誤,則將觸發代表失敗的動畫效果同時響起失敗的音效(圖11(b))。用戶在這種自然、有趣的交互下學習、記憶單詞。

圖10 主要用戶界面((a)初始界面;(b)單詞拼寫模式;(c)算式計算模式)

圖11 單詞拼寫場景((a)拼寫正確;(b)拼寫錯誤)
進入算式計算場景后,計算機將擬計算的算式任務投影到投影區域,用戶將計算結果手寫到紙張上。如果用戶計算正確,則將出現對號提示同時響起勝利的音效(圖12(a));如果用戶計算錯誤,則將觸發爆炸效果同時響起失敗的音效(圖12(b))。

圖12 算式計算場景((a)計算正確;(b)計算錯誤)
為了對比本文方法與現有交互方式,20名實驗者被要求使用如圖13所示的常見的單詞測試作為對比(本文采用金山詞霸的“愛詞吧”程序)。對于“愛詞吧”,實驗者需要用鍵盤輸入釋義對應的單詞,然后用鼠標點擊提交。

圖13 鼠標鍵盤輸入的單詞測試
在完成實驗后,實驗者對使用鼠標鍵盤和本文投影下的紙筆交互完成單詞拼寫的容易度、舒適度、可靠性、趣味性以及滿意度按照7級李克特量表進行了評價(1為最消極,7為最積極)。結果見表2。

表2 交互方式的主觀評價
從表2可知,本文交互方式在容易度、舒適度、趣味性及滿意度方面明顯優于鼠標鍵盤的交互方式,但在可靠性方面仍與鼠標鍵盤的交互方式存在差距。從表3可以看出,本文提出的交互命令字在便捷性方面不及筆手勢,但在記憶難度和可拓展性得分明顯高于筆手勢。本文以調查問卷的形式進一步調查了投影交互的趣味性,問卷中的相關問題如下:
Q1:你認為投影交互有趣嗎?
Q2:與鍵盤鼠標相比,投影交互更有趣嗎?
Q3:你是否希望再次使用投影交互?

表3 筆手勢與交互命令字主觀評價
圖14為問卷中有關趣味性問題的統計結果。趣味性相關3個問題的平均分為6.65(=0.47),6.55(=0.58),6.30(=0.78)。統計結果表明,問卷結果顯著高于問卷中值,說明用戶認為本文方式有很強的趣味性。

圖14 趣味性用戶體驗統計
本文提出了一種基于普通紙筆的投影交互方法。利用CNN+KNN實現了手寫體識別,在幾乎不損失識別準確率的情況下可自動適應用戶的手寫風格,用戶手寫體的識別誤差隨著使用次數的增加逐漸減小。結合了投影交互和自然書寫,實現了一種自然、舒適、高效的交互方式,使用交互命令字完成了常用的交互任務;并實現了2個學習場景驗證交互方式有效性和可用性。
本文所提的手寫體識別算法仍存在不足,如當用戶的手寫風格與訓練樣本差別很大時,算法可能會識別錯誤。為了解決該問題,一種可行的做法是設計一個錯誤消解界面,由用戶來告知系統正確結果,幫助算法學習新的書寫風格。
未來將進一步優化手寫體識別,提高準確度和響應效率,完善交互內容的設計,針對兒童教育設計更多具有針對性的交互內容。
[1] 張鳳軍, 戴國忠, 彭曉蘭. 虛擬現實的人機交互綜述[J]. 中國科學: 信息科學, 2016, 46(12): 1711-1736.
ZHANG F J, DAI G Z, PENG X L. A survey of human computer interaction in virtual reality[J]. Scientia Sinica: Informationis, 2016, 46(12): 1711-1736 (in Chinese).
[2] 蔡建奇, 楊帆, 杜鵬, 等. 不同亮度大尺寸顯示屏對視覺健康舒適度的影響——以LED與DLP顯示屏比較研究為例[J]. 照明工程學報, 2015, 26(1): 94-98.
CAI J Q, YANG F, DU P, et al. Effect of visual comfort by large size displays in different iuminance—example for comparative research on LED and DLP displays[J]. China Illuminating Engineering Journal, 2015, 26(1): 94-98 (in Chinese).
[3] 田豐. Post WIMP軟件界面研究[D]. 北京: 中國科學院軟件研究所, 2003.
TIAN F. Research on Post-WIMP software interface[D]. Beijing: Institude of Software Chinese Academy of Sciences, 2003 (in Chinese).
[4] HATANAKA T, HAYASHI T, SUZUKI K, et al. Dream board: a visualization system by handwriting recognition[M]. SIGGRAPH Asia 2013 Posters. New York: ACM Press, 2013: 1-1.
[5] WELLNER P. Interacting with paper on the DigitalDesk[J]. Communications of the ACM, 1993, 36(7): 87-96.
[6] ROBINSON J A, ROBERTSON C. The LivePaper system: augmenting paper on an enhanced tabletop[J]. Computers & Graphics, 2001, 25(5): 731-743.
[7] WILSON A D. PlayAnywhere: a compact interactive tabletop projection-vision system[C]//The 18th annual ACM symposium on User interface software and technology. New York: ACM Press, 2005: 83-92.
[8] 王修暉, 華煒, 鮑虎軍. 面向多投影顯示墻的手勢交互系統設計與實現[J]. 計算機輔助設計與圖形學學報, 2007(3): 318-322, 328.
WANG X H, HUA W, BAO H J. Design and development of a gesture-based interaction system for multi-projector tiled display wall[J]. Journal of Computer-Aided Design & Computer Graphics, 2007(3): 318-322, 328 (in Chinese).
[9] LU F, TIAN F, JIANG Y Y, et al. ShadowStory: creative and collaborative digital storytelling inspired by cultural heritage[C]//The SIGCHI Conference on Human Factors in Computing Systems. New York: ACM Press, 2011: 1919-1928.
[10] 戴國忠, 田豐. 筆式用戶界面[M]. 合肥: 中國科學技術大學出版社, 2014: 16-17.
DAI G Z, TIAN F. Pen based interaction in- terface[M]. Hefei: University of Science and Techmology of China Press, 2014: 16-17 (in Chinese).
[11] 陳若輕, 陳泉, 宋笑寒, 等. Prelude: 手寫譜曲系統的交互方法[J]. 計算機輔助設計與圖形學學報, 2016, 28(8): 1358-1364.
CHEN R Q, CHEN Q, SONG X H, et al. Prel ude: interaction approach of a handwriting composing system[J]. Journal of Computer-Aided Design & Computer Graphics, 2016, 28(8): 1358-1364 (in Chinese).
[12] 孟珊, 姜映映, 田豐, 等. 筆式幾何學習系統的設計與實現[J]. 計算機工程與設計, 2009, 30(16): 3846-3867 (in Chinese).
MENG S, JIANG Y Y, TIAN F, et al. Pen-based geometry learning system[J]. Computer Engineering and Design, 2009, 30(16): 3846-3867 (in Chinese).
[13] 徐禮爽, 田豐, 呂菲, 等. 在線雙向適應的筆手勢界面框架研究[J]. 計算機學報, 2010, 33(6): 1100-1109.
XU L S, TIAN F, LV F, et a1. Research on on-line two-way adaptive pen gesture interface framework[J]. Chinese Journal of Computers, 2009, 30(16): 3846-3867 (in Chinese).
[14] 馮海波, 李昭陽, 戴國忠. 基于手勢的手寫公式編輯系統[J]. 計算機工程與應用, 2003, 40(35): 97-99.
FENG H B, LI Z Y, DAI G Z. Gesture-based handwriting mathematics editing system[J]. Computer Engineering and Applications, 2003, 40(35): 97-99 (in Chinese).
[15] CABRAL D, CORREIA N. Video editing with pen-based technology[J]. Multimedia Tools and Applications. 2017, 76(5): 6889-6914.
[16] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//The 25th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2012: 1097-1105.
[17] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society Press, 2015: 1-9.
[18] HUANG G, LIU Z, VAN DER Maaten L, et al. Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society Press, 2017: 2261-2269.
[19] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[20] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2018-07-30]. https://arxiv.org/abs/1409.1556.
[21] GROTHER P, HANAOKA K. Nist special database 19 handprinted forms and characters 2nd edition[EB/OL]. [2020-01-15]. https://www.nist.gov/srd/nist-special-database-19.
Research on projector interaction method with common pen and paper
GUO Jun-xiu, LIU You-quan, WANG Song-xue
(School of Information Engineering, Chang’an University, Xi’an Shaanxi 710064, China)
Projector interaction has freed the interaction space from the electronic screen, which is more eye-friendly than other display modes and can produce abundant interesting interaction effects. In addition,the interaction with pen-writing is inherently natural and efficient. With the integration of the advantages of both, a projection interactive method was proposed based on common pen and paper. Users can interact with the computer through common paper and pen, while the camera was employed to collect the handwriting images, and projector was utilized to present recognition result. Moreover, with the integration of CNN and KNN, the present method can automatically adapt to users’ handwriting style,so as to increase the recognition accuracy. Based on this, two typical applications are designed, including English-word remembering and simple mathematical calculation. The experiments and user surveys verified that the proposed interaction method is more natural, convenient and practical than other interaction methods.
common pen and paper; projector interaction; handwriting recognition; pen based user interface
TP 391.41
10.11996/JG.j.2095-302X.2021030470
A
2095-302X(2021)03-0470-08
2020-12-10;
2021-01-20
10 December,2020;
20 January,2021
載人航天預研項目(030101)
Advance Research Program of Space (030101)
郭俊修(1995-),男,山東濰坊人,碩士研究生。主要研究方向為虛擬現實與人機交互技術。E-mail:2018124055@chd.edu.cn
GUO Jun-xiu (1995-), male, master student. His main research interests cover virtual reality and human-computer Interaction. E-mail:2018124055@chd.edu.cn
柳有權(1976-),男,湖北宜昌人,教授,博士。主要研究方向為計算機圖形學、虛擬現實。E-mail:youquan@chd.edu.cn
LIU You-quan (1976-), male, professor, Ph.D. His main research interests cover computer graphics and virtual reality. E-mail:youquan@chd.edu.cn