亚洲精品aⅴ在线观看,久热爱这里只有国产中文精品视频,性色av一区二区三区v视界影

FRL：基于4顆黑白攝像頭，Quest如何實(shí)現(xiàn)3D手勢(shì)識(shí)別？

# 技術(shù)前沿 2020-10-10 15:22 0 1,085 作者：形象思維VR

售價(jià)僅399美元，低成本的VR一體機(jī)Oculus Quest自推出以來(lái)不斷為使用者帶來(lái)多樣化的玩法，比如無(wú)線大空間體驗(yàn)、PC VR模式（Link），甚至還支持手勢(shì)識(shí)別，讓人不得不夸贊它的性價(jià)比。

據(jù)了解，Oculus Quest采用四顆黑白的廣角攝像頭，最初它們的作用是定位手柄，以及AR透視和環(huán)境掃描，后來(lái)隨著Facebook Reality Labs在算法上的突破，Quest也可以通過(guò)這四顆攝像頭來(lái)實(shí)現(xiàn)準(zhǔn)確率較高的手勢(shì)識(shí)別。手勢(shì)識(shí)別的好處是，VR用戶無(wú)須用手柄，戴上頭顯后直接就能通過(guò)手勢(shì)進(jìn)行界面控制，一些VR應(yīng)用搭配手勢(shì)識(shí)別后，交互更自然，玩法也更多樣化。

那么，Quest的手勢(shì)識(shí)別算法到底是什么原理呢？近期，F(xiàn)acebook Reality Labs在一篇名為《MEgATrack：黑白第一人稱攝像頭追蹤手部節(jié)點(diǎn)的VR方案》中公開了其背后的更多細(xì)節(jié)。

FRL科研人員表示：除了深度攝像頭外，市面上較常見的還包括基于單目RGB攝像頭和神經(jīng)網(wǎng)絡(luò)算法的手勢(shì)識(shí)別方案。單目RGB攝像頭更易集成，而且隨著機(jī)器學(xué)習(xí)技術(shù)提升，功能可以繼續(xù)強(qiáng)化。但將基于RGB攝像頭的手勢(shì)識(shí)別方案用于VR/AR依然存在一些問(wèn)題，比如：?jiǎn)文糠桨鸽y以直接識(shí)別3D手勢(shì)、通常需要搭配關(guān)鍵點(diǎn)回歸和實(shí)時(shí)姿態(tài)方案而無(wú)法獨(dú)立運(yùn)行、時(shí)間上難以達(dá)到連貫和低抖動(dòng)等。

對(duì)于上述問(wèn)題，市面上還沒(méi)有成熟的解決方案。因此，F(xiàn)RL提出了一種基于4顆黑白攝像頭的手勢(shì)追蹤方案。該方案無(wú)須深度攝像頭，因此對(duì)算力和功耗的要求更小，特點(diǎn)是在環(huán)境（光線暗等環(huán)境）和雙手形狀等變量影響下依然能穩(wěn)定運(yùn)行，延時(shí)和抖動(dòng)的情況足夠少。而且除了VR，F(xiàn)acebook表示該手勢(shì)識(shí)別方案也可以用于AR頭顯中。

硬件方面，該手勢(shì)識(shí)別方案基于4顆同步的VGA廣角攝像頭，每顆攝像頭的FOV可達(dá)150°（寬）x120°（高）x175°（對(duì)角線）。廣角攝像頭采用等距投影模型，光線的參數(shù)由與攝像頭主軸之間的角度來(lái)決定，因此也更適合預(yù)測(cè)手部關(guān)節(jié)點(diǎn)的距離而不是深度。

而軟件系統(tǒng)方面，這款手勢(shì)識(shí)別方案是基于FRL開發(fā)的一個(gè)手部關(guān)鍵點(diǎn)預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)架構(gòu)，該架構(gòu)由DetNet（識(shí)別網(wǎng)絡(luò)）和KeyNet（節(jié)點(diǎn)網(wǎng)絡(luò)）兩部分組成，特點(diǎn)是結(jié)合手勢(shì)識(shí)別歷史數(shù)據(jù)，來(lái)保持手勢(shì)預(yù)測(cè)結(jié)果在時(shí)間和空間層面的一致性，也就是說(shuō)可有效減少抖動(dòng)、延時(shí)等問(wèn)題。此外，為了優(yōu)化DetNet的計(jì)算效率，F(xiàn)RL采用了一個(gè)叫detection-by-tracking的方式來(lái)提升手勢(shì)識(shí)別效果、降低計(jì)算成本，優(yōu)化后的手勢(shì)識(shí)別方案可在PC VR模式中以60Hz刷新率運(yùn)行，在一體機(jī)的處理器中可以30Hz刷新率運(yùn)行。

第一步：DetNet手勢(shì)邊界識(shí)別

具體來(lái)講，detection-by-tracking方法的流程是根據(jù)前兩次追蹤到的手勢(shì)來(lái)推斷當(dāng)前手勢(shì)變化，接著將識(shí)別到的手部關(guān)鍵點(diǎn)投射在每顆攝像頭捕捉的數(shù)據(jù)中，并計(jì)算出最小包含圓（最小圓覆蓋測(cè)距算法），作為識(shí)別到的手勢(shì)識(shí)別結(jié)果。如果當(dāng)前DetNet并未識(shí)別到任何手勢(shì)，它會(huì)開始渲染下一幀手勢(shì)，這時(shí)候DetNet只會(huì)在一顆攝像頭上運(yùn)行。當(dāng)一顆攝像頭識(shí)別到手勢(shì)后，其他攝像頭才會(huì)根據(jù)追蹤到的手勢(shì)來(lái)識(shí)別邊界框，并進(jìn)行立體手勢(shì)追蹤。

總之，整個(gè)手勢(shì)識(shí)別過(guò)程足夠快速且高效，識(shí)別到的手勢(shì)邊框可保持時(shí)間連貫性，為后續(xù)的DetNet運(yùn)行流程降低噪點(diǎn)產(chǎn)生的可能。

第二步：KeyNet手勢(shì)關(guān)鍵點(diǎn)預(yù)測(cè)

接下來(lái)，該手勢(shì)識(shí)別方案的第二大部分關(guān)鍵點(diǎn)預(yù)測(cè)網(wǎng)絡(luò)KeyNet開始發(fā)揮作用，它會(huì)根據(jù)DetNet預(yù)測(cè)的邊界框截取的手勢(shì)圖像來(lái)預(yù)測(cè)手部的21個(gè)3D節(jié)點(diǎn)。

通常，市面上的一些節(jié)點(diǎn)預(yù)測(cè)系統(tǒng)會(huì)單獨(dú)處理每一幀圖像，但如果用在基于多顆攝像頭的實(shí)時(shí)手勢(shì)識(shí)別系統(tǒng)中，會(huì)出現(xiàn)一些弊端，比如：預(yù)測(cè)遮擋手勢(shì)或是超出攝像頭視場(chǎng)角外手勢(shì)的準(zhǔn)確性不高、時(shí)間連貫性不高、容易產(chǎn)生抖動(dòng)等。

相比之下，KeyNet的圖像源來(lái)自于DetNet環(huán)節(jié)預(yù)測(cè)的邊界框以及截取的手勢(shì)圖像，為了讓邊界框截取完整的手勢(shì)，科研人員將截取圖像大小提升20%。此外，KeyNet還會(huì)參考上一幀推測(cè)的3D手勢(shì)，將21個(gè)關(guān)鍵點(diǎn)疊加在新的手勢(shì)圖像上。

然后，為了實(shí)現(xiàn)對(duì)不同大小手掌的準(zhǔn)確追蹤，該方案在KeyNet預(yù)測(cè)節(jié)點(diǎn)基礎(chǔ)上，會(huì)在手部進(jìn)入3D攝像頭視場(chǎng)角時(shí)同時(shí)預(yù)測(cè)手掌大小，并自動(dòng)運(yùn)行校正流程。

總結(jié)

總之，DetNet結(jié)合detection-by-tracking方案有效實(shí)現(xiàn)對(duì)多顆攝像頭前移動(dòng)的手部的追蹤，而KeyNet則有效輸出空間和時(shí)間連貫的關(guān)鍵節(jié)點(diǎn)預(yù)測(cè)。整個(gè)方案可生成準(zhǔn)確、低抖動(dòng)的手勢(shì)識(shí)別和重建效果，適用于頻繁的實(shí)時(shí)手勢(shì)交互場(chǎng)景。通過(guò)自動(dòng)校正，該手勢(shì)方案還可準(zhǔn)確追蹤不同形狀、大小的手部。

盡管如此，目前該方案還存在許多局限，比如：難以理解和識(shí)別手與手、手與物體之間的交互，以及手部大小校正范圍有限等。這些問(wèn)題對(duì)于手勢(shì)識(shí)別的準(zhǔn)確性均有影響，因此科研人員也將繼續(xù)研究相關(guān)解決方案。未來(lái)，為了實(shí)現(xiàn)更沉浸的VR/AR效果，虛擬手勢(shì)畫面與真實(shí)物體或虛擬物體之間的自然交互必不可少，此前Magic Leap所展示的多種AR應(yīng)用也以虛擬物體與實(shí)際空間的互動(dòng)為賣點(diǎn)，看起來(lái)效果足夠好。相信隨著FRL經(jīng)過(guò)對(duì)手勢(shì)識(shí)別技術(shù)的不斷探索，未來(lái)也會(huì)進(jìn)一步優(yōu)化AR/VR應(yīng)用的手勢(shì)交互體驗(yàn)。

來(lái)源：青亭網(wǎng)