售價(jià)僅399美元,低成本的VR一體機(jī)Oculus Quest自推出以來(lái)不斷為使用者帶來(lái)多樣化的玩法,比如無(wú)線大空間體驗(yàn)、PC VR模式(Link),甚至還支持手勢(shì)識(shí)別,讓人不得不夸贊它的性價(jià)比。
據(jù)了解,Oculus Quest采用四顆黑白的廣角攝像頭,最初它們的作用是定位手柄,以及AR透視和環(huán)境掃描,后來(lái)隨著Facebook Reality Labs在算法上的突破,Quest也可以通過(guò)這四顆攝像頭來(lái)實(shí)現(xiàn)準(zhǔn)確率較高的手勢(shì)識(shí)別。手勢(shì)識(shí)別的好處是,VR用戶無(wú)須用手柄,戴上頭顯后直接就能通過(guò)手勢(shì)進(jìn)行界面控制,一些VR應(yīng)用搭配手勢(shì)識(shí)別后,交互更自然,玩法也更多樣化。
那么,Quest的手勢(shì)識(shí)別算法到底是什么原理呢?近期,F(xiàn)acebook Reality Labs在一篇名為《MEgATrack:黑白第一人稱攝像頭追蹤手部節(jié)點(diǎn)的VR方案》中公開了其背后的更多細(xì)節(jié)。
FRL科研人員表示:除了深度攝像頭外,市面上較常見的還包括基于單目RGB攝像頭和神經(jīng)網(wǎng)絡(luò)算法的手勢(shì)識(shí)別方案。單目RGB攝像頭更易集成,而且隨著機(jī)器學(xué)習(xí)技術(shù)提升,功能可以繼續(xù)強(qiáng)化。但將基于RGB攝像頭的手勢(shì)識(shí)別方案用于VR/AR依然存在一些問(wèn)題,比如:?jiǎn)文糠桨鸽y以直接識(shí)別3D手勢(shì)、通常需要搭配關(guān)鍵點(diǎn)回歸和實(shí)時(shí)姿態(tài)方案而無(wú)法獨(dú)立運(yùn)行、時(shí)間上難以達(dá)到連貫和低抖動(dòng)等。
對(duì)于上述問(wèn)題,市面上還沒(méi)有成熟的解決方案。因此,F(xiàn)RL提出了一種基于4顆黑白攝像頭的手勢(shì)追蹤方案。該方案無(wú)須深度攝像頭,因此對(duì)算力和功耗的要求更小,特點(diǎn)是在環(huán)境(光線暗等環(huán)境)和雙手形狀等變量影響下依然能穩(wěn)定運(yùn)行,延時(shí)和抖動(dòng)的情況足夠少。而且除了VR,F(xiàn)acebook表示該手勢(shì)識(shí)別方案也可以用于AR頭顯中。
硬件方面,該手勢(shì)識(shí)別方案基于4顆同步的VGA廣角攝像頭,每顆攝像頭的FOV可達(dá)150°(寬)x120°(高)x175°(對(duì)角線)。廣角攝像頭采用等距投影模型,光線的參數(shù)由與攝像頭主軸之間的角度來(lái)決定,因此也更適合預(yù)測(cè)手部關(guān)節(jié)點(diǎn)的距離而不是深度。
而軟件系統(tǒng)方面,這款手勢(shì)識(shí)別方案是基于FRL開發(fā)的一個(gè)手部關(guān)鍵點(diǎn)預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)由DetNet(識(shí)別網(wǎng)絡(luò))和KeyNet(節(jié)點(diǎn)網(wǎng)絡(luò))兩部分組成,特點(diǎn)是結(jié)合手勢(shì)識(shí)別歷史數(shù)據(jù),來(lái)保持手勢(shì)預(yù)測(cè)結(jié)果在時(shí)間和空間層面的一致性,也就是說(shuō)可有效減少抖動(dòng)、延時(shí)等問(wèn)題。此外,為了優(yōu)化DetNet的計(jì)算效率,F(xiàn)RL采用了一個(gè)叫detection-by-tracking的方式來(lái)提升手勢(shì)識(shí)別效果、降低計(jì)算成本,優(yōu)化后的手勢(shì)識(shí)別方案可在PC VR模式中以60Hz刷新率運(yùn)行,在一體機(jī)的處理器中可以30Hz刷新率運(yùn)行。
第一步:DetNet手勢(shì)邊界識(shí)別
具體來(lái)講,detection-by-tracking方法的流程是根據(jù)前兩次追蹤到的手勢(shì)來(lái)推斷當(dāng)前手勢(shì)變化,接著將識(shí)別到的手部關(guān)鍵點(diǎn)投射在每顆攝像頭捕捉的數(shù)據(jù)中,并計(jì)算出最小包含圓(最小圓覆蓋測(cè)距算法),作為識(shí)別到的手勢(shì)識(shí)別結(jié)果。如果當(dāng)前DetNet并未識(shí)別到任何手勢(shì),它會(huì)開始渲染下一幀手勢(shì),這時(shí)候DetNet只會(huì)在一顆攝像頭上運(yùn)行。當(dāng)一顆攝像頭識(shí)別到手勢(shì)后,其他攝像頭才會(huì)根據(jù)追蹤到的手勢(shì)來(lái)識(shí)別邊界框,并進(jìn)行立體手勢(shì)追蹤。
總之,整個(gè)手勢(shì)識(shí)別過(guò)程足夠快速且高效,識(shí)別到的手勢(shì)邊框可保持時(shí)間連貫性,為后續(xù)的DetNet運(yùn)行流程降低噪點(diǎn)產(chǎn)生的可能。
第二步:KeyNet手勢(shì)關(guān)鍵點(diǎn)預(yù)測(cè)
接下來(lái),該手勢(shì)識(shí)別方案的第二大部分關(guān)鍵點(diǎn)預(yù)測(cè)網(wǎng)絡(luò)KeyNet開始發(fā)揮作用,它會(huì)根據(jù)DetNet預(yù)測(cè)的邊界框截取的手勢(shì)圖像來(lái)預(yù)測(cè)手部的21個(gè)3D節(jié)點(diǎn)。
通常,市面上的一些節(jié)點(diǎn)預(yù)測(cè)系統(tǒng)會(huì)單獨(dú)處理每一幀圖像,但如果用在基于多顆攝像頭的實(shí)時(shí)手勢(shì)識(shí)別系統(tǒng)中,會(huì)出現(xiàn)一些弊端,比如:預(yù)測(cè)遮擋手勢(shì)或是超出攝像頭視場(chǎng)角外手勢(shì)的準(zhǔn)確性不高、時(shí)間連貫性不高、容易產(chǎn)生抖動(dòng)等。
相比之下,KeyNet的圖像源來(lái)自于DetNet環(huán)節(jié)預(yù)測(cè)的邊界框以及截取的手勢(shì)圖像,為了讓邊界框截取完整的手勢(shì),科研人員將截取圖像大小提升20%。此外,KeyNet還會(huì)參考上一幀推測(cè)的3D手勢(shì),將21個(gè)關(guān)鍵點(diǎn)疊加在新的手勢(shì)圖像上。
然后,為了實(shí)現(xiàn)對(duì)不同大小手掌的準(zhǔn)確追蹤,該方案在KeyNet預(yù)測(cè)節(jié)點(diǎn)基礎(chǔ)上,會(huì)在手部進(jìn)入3D攝像頭視場(chǎng)角時(shí)同時(shí)預(yù)測(cè)手掌大小,并自動(dòng)運(yùn)行校正流程。
總結(jié)
總之,DetNet結(jié)合detection-by-tracking方案有效實(shí)現(xiàn)對(duì)多顆攝像頭前移動(dòng)的手部的追蹤,而KeyNet則有效輸出空間和時(shí)間連貫的關(guān)鍵節(jié)點(diǎn)預(yù)測(cè)。整個(gè)方案可生成準(zhǔn)確、低抖動(dòng)的手勢(shì)識(shí)別和重建效果,適用于頻繁的實(shí)時(shí)手勢(shì)交互場(chǎng)景。通過(guò)自動(dòng)校正,該手勢(shì)方案還可準(zhǔn)確追蹤不同形狀、大小的手部。
盡管如此,目前該方案還存在許多局限,比如:難以理解和識(shí)別手與手、手與物體之間的交互,以及手部大小校正范圍有限等。這些問(wèn)題對(duì)于手勢(shì)識(shí)別的準(zhǔn)確性均有影響,因此科研人員也將繼續(xù)研究相關(guān)解決方案。未來(lái),為了實(shí)現(xiàn)更沉浸的VR/AR效果,虛擬手勢(shì)畫面與真實(shí)物體或虛擬物體之間的自然交互必不可少,此前Magic Leap所展示的多種AR應(yīng)用也以虛擬物體與實(shí)際空間的互動(dòng)為賣點(diǎn),看起來(lái)效果足夠好。相信隨著FRL經(jīng)過(guò)對(duì)手勢(shì)識(shí)別技術(shù)的不斷探索,未來(lái)也會(huì)進(jìn)一步優(yōu)化AR/VR應(yīng)用的手勢(shì)交互體驗(yàn)。
來(lái)源:青亭網(wǎng)