在 Kinect硬件組成中有以下幾個(gè)關(guān)鍵功能部件。
(1)紅外攝影機(jī)。主動投射近紅外光譜,照射到粗糙物體或是穿透毛玻璃后,光譜發(fā)生扭曲,會形成隨機(jī)的反射斑點(diǎn),即散斑,進(jìn)而能被紅外攝像頭讀取。
(2)紅外攝像頭。分析紅外光譜,創(chuàng)建可視范圍內(nèi)的人體、物體的深度圖像。
(3)彩色攝像頭。用于拍攝視角范圍內(nèi)的彩色視頻圖像。
(4)麥克風(fēng)陣列。聲音從4個(gè)麥克風(fēng)采集,同時(shí)過濾背景噪聲,可定位聲源。
(5)仰角控制馬達(dá)??删幊炭刂蒲鼋堑鸟R達(dá),用于獲取最佳視角。
從硬件系統(tǒng)看,它能提供三大類的原始數(shù)據(jù)信息,包括深度數(shù)據(jù)流、彩色視頻流、原始音頻數(shù)據(jù)等,同時(shí)分別對應(yīng)骨骼跟蹤身份識別和語音識別3種功能。骨骼跟蹤是 Kinect體感操作的基礎(chǔ),它要求系統(tǒng)在允許的時(shí)延范圍內(nèi),快速根據(jù)骨骼關(guān)節(jié)構(gòu)建玩家的軀干、肢體、頭部甚至手指,并在識別人體動作的時(shí)候,精度可以達(dá)到4cm。
從功能方面看,有3個(gè)主要子系統(tǒng),即深度識別(3D圖像識別技術(shù))、人體骨骼追蹤技術(shù)(動作捕捉技術(shù))和語音識別技術(shù)。
1.深度識別
采用3D深度攝像機(jī)技術(shù)可以捕捉到人所在的空間位置,原理是紅外線感應(yīng)上有一個(gè)3D深度感應(yīng)攝像頭,首先通過紅外線發(fā)射器發(fā)出一種不可見鐳射光,這個(gè)光線經(jīng)過擴(kuò)散片分布在測量的空間內(nèi);當(dāng)鐳射光射到人體后會形成反射斑點(diǎn),另外一個(gè)紅外線攝像機(jī)對這些反射斑點(diǎn)進(jìn)行記錄,通過芯片合成出3D深度信息的圖像。
2.人體骨骼追蹤技術(shù)
識別到3D圖像深度信息后,通過軟件計(jì)算出人體主要的骨骼位置,通過精確掌握玩家身形輪廓與肢體位置來判斷玩家的姿勢動作,從而捕捉到人(用戶)的動作。目前只支持兩個(gè)人的骨骼捕捉。
3.語音識別技術(shù)
在3m以外過濾掉背景噪聲和其他不相干聲音,準(zhǔn)確地識別出游戲用戶的語音;同時(shí)也支持語音控制。 Kinect系統(tǒng)還有一個(gè)根據(jù)不同國家、不同的口音建立的“聲效模型”用來識別不同的口語和語言。也支持語音控制。
Kinect在游戲中虛擬人物與真實(shí)人體的匹配度的高低是骨骼識別的關(guān)鍵,決定能實(shí)時(shí)抽象出多少個(gè)關(guān)節(jié)點(diǎn),將關(guān)節(jié)點(diǎn)連在一起就是一個(gè)“火柴人”。關(guān)節(jié)點(diǎn)越多,骨骼越真實(shí),骨骼在某一時(shí)間點(diǎn)的狀態(tài)是靜態(tài)的,骨骼中的某一關(guān)節(jié)點(diǎn)或多個(gè)關(guān)節(jié)點(diǎn)在空間的運(yùn)動序列是動態(tài)的行為,進(jìn)行動作識別最樸素的算法是基于動作序列的算法分析。
人臉識別是整個(gè)身份識別中最重要的一個(gè)部分,首先定位人臉的存在,其次基于臉部特征,對輸入的人臉圖像或視頻流進(jìn)行分析,如臉的位置、大小和各個(gè)主要面部器官的位置信息等,根據(jù)這些信息,提取每個(gè)人臉中所蘊(yùn)含的身份特征,并將其與已知的人臉進(jìn)行對比,從而識別每個(gè)人的身份。
語音識別包括很多層次的技術(shù),如語音命令、聲音特征識別、語種識別、分詞、語氣語調(diào)情感探測等多個(gè)方面。 Kinect麥克風(fēng)陣列捕獲的音頻數(shù)據(jù)流通過音頻增強(qiáng)效果算法處理來屏蔽環(huán)境噪聲, Kinect陣列技術(shù)包含有效的噪聲消除和回波抑制算法,同時(shí)采用波束成型技術(shù)通過每個(gè)獨(dú)立設(shè)備的響應(yīng)時(shí)間確定音源位置,并盡可能避免環(huán)境噪聲的影響。
內(nèi)容來源:喻曉和《虛擬現(xiàn)實(shí)技術(shù)基礎(chǔ)教程第2版》