在許多線上會議中,利用AI算法實現(xiàn)多語言機器翻譯已經(jīng)越來越常見了。那么,如果是用手語交流,又該如何進行翻譯呢?對于不懂手語的人來講,通過AI算法進行機器翻譯,實用又方便。但是手語并非基于語音,因此無法以來語音識別實現(xiàn)轉換,而是需要用到計算機視覺技術。
目前,基于計算機視覺的手勢識別方案越來越多樣化,而且效果逐漸成熟。比如,谷歌在2019年開源的MediaPipe手勢識別算法,就已經(jīng)可以識別單手21個骨骼節(jié)點,甚至在2020年底更新后,可識別手指之間的遮擋。
而利用MediaPipe算法,機翻手語技術公司SignAll研發(fā)了一種基于手勢識別的手語翻譯SDK,它不僅可以翻譯手語,還可以將手語作為一種輸入方式,聽障人士無需打字就能輸入指令和文字。
據(jù)了解,SignAll SDK可作為一種手語識別基礎,幫助開發(fā)者在自己的應用中加入手語翻譯功能。此前,SignAll的解決方案依賴多顆攝像頭和配有彩色標記的手套,而現(xiàn)在結合MediaPipe算法,只需要手機的一顆攝像頭,無需追蹤手套即可實現(xiàn)手語識別。除此之外,SignAll還發(fā)布了手語學習app:《Ace ASL》,可以讓你一邊學手語,一邊通過手勢識別驗證學習結果。
關于MediaPipe
MediaPipe是一種基于機器學習技術的手勢識別算法,其特點是準確率高,支持五指和手勢追蹤,可根據(jù)一幀圖像推斷出單手21個立體節(jié)點。與目前市面上較先進的手勢識別技術相比,谷歌的全新技術不需要依賴臺式機來計算,而是在手機上就能進行實時追蹤,并且還能同時追蹤多只手,可識別遮擋。
據(jù)悉,谷歌在開源MediaPipe時就曾表示:該算法可識別基礎手語,可實現(xiàn)手勢操控,用于AR/VR。因此,將MediaPipe用于手語識別本身就是自然的場景,SignAll是在原本算法基礎上進一步對手語識別進行優(yōu)化。
細節(jié)方面,MediaPipe框架有3個模型組成,包括:手掌識別模型BlazePalm(用于識別手的整體框架和方向)、Landmark模型(識別立體手部節(jié)點)、手勢識別模型(將識別到的節(jié)點分類成一系列手勢)。
其中,BlazePalm是一個可識別單幀圖像的模型,主要為Landmark模型提供準確剪裁的手掌圖像,在經(jīng)過訓練后手掌識別準確率可達95.7%。這大大降低了對旋轉、轉化和縮放等數(shù)據(jù)增強方式的依賴,讓算法將更多計算能力用在提高預測準確性上。此外,BlazePalm可識別多種不同手掌大小,還能識別手部遮擋,并且能通過對手臂、軀干或個人特征等的識別來準確定位手部。
而Landmark模型,則是在BlazePalm基礎上識別到的21個立體節(jié)點坐標,這些節(jié)點之間的位置遮擋也可被識別。
接下來,通過手勢識別模型,從Landmark提取的數(shù)據(jù)來推斷每根手指伸直或彎曲等動作,接著將這些動作與預設的手勢匹配,以預測基礎的靜態(tài)手勢。這些預設手勢包括一些美國、歐洲、中國通用的數(shù)數(shù)手勢,以及豎大拇指、握拳、OK、“蜘蛛俠”等等。
基于MediaPipe的手語識別系統(tǒng)
SignAll稱,其手語識別系統(tǒng)通過多層計算來識別手語,比如:底層識別包括從2D和3D攝像頭提取關鍵的手部、身體和面部數(shù)據(jù)。在基于標記手套的方案中,底層識別會通過識別手套的顏色來創(chuàng)建3D手掌模型,而利用MediaPipe的Hands、Pose和Face Mesh三個功能,無需手套也能識別面部、手勢和姿態(tài)。
在訓練算法過程中,SignAll在多個不同的位置分別放置攝像頭和深度傳感器,并將采集到的數(shù)據(jù)過濾,在MediaPipe算法識別到的關鍵點基礎上適配原本手套方案中使用的彩色標記,以此來兼容SignAll現(xiàn)有的算法。據(jù)悉,這種多攝像頭方案可從多個角度捕捉手勢,并生成準確的關鍵點位置信息,可識別手指遮擋或靠近。
在兼容性方面,盡管手套方案與無手套方案依然存在一些差異,但足以在無手套方案中,利用已經(jīng)標記的30多萬個手語視頻進行算法培訓。
結合MediaPipe框架
在結合MediaPipe的手勢識別功能后,SignAll又繼續(xù)利用MediaPipe框架對多個平臺進行定制和規(guī)?;瘧茫瑢崿F(xiàn)對Windows、iOS、安卓、瀏覽器等客戶端的兼容。
不過,為了能夠在單顆攝像頭方案中實現(xiàn)準確的手語識別,因此SignAll需要加入額外的算法邏輯,將單顆攝像頭捕捉到的2D數(shù)據(jù)轉化為3D手勢。比如:根據(jù)攝像頭移動來動態(tài)識別3D手勢,等等。
此外,還需要重新訓練3D手勢識別算法,在原來的訓練視頻基礎上,進一步標記更多細節(jié)。于是,SignAll可以通過處理過的動捕數(shù)據(jù),模擬手指、骨骼、面部特征在各個角度的樣子。
目前,SignAll的手語識別算法支持手機端等平臺,不過其性能依然受不同攝像頭配置和算力影響。而功能性上,它可以用來輸入人名、簽名、填寫地址、點餐等等?;蛘?,也可以在多人視頻會議中,幫助不懂手語的人進行翻譯。
總之,手語識別和翻譯可作為語音輸入之外的另一種輸入方式,尤其是對于聽障人士,是一個有價值的應用。如果用手語作為AR/VR頭顯的輸入方式,甚至可能進一步提升聽障人士遠程溝通效率。
來源:青亭網(wǎng)