語(yǔ)音識(shí)別技術(shù)的研究與應(yīng)用主要包括聲紋識(shí)別、內(nèi)容識(shí)別、語(yǔ)音標(biāo)準(zhǔn)識(shí)別和語(yǔ)種識(shí)別4個(gè)方面。聲紋識(shí)別是根據(jù)語(yǔ)音波形中反映說(shuō)話人生理和行為特征的語(yǔ)音參數(shù),自動(dòng)識(shí)別說(shuō)話人身份的一門(mén)技術(shù),聲紋識(shí)別的作用主要有兩個(gè)方面:一是說(shuō)話人辨認(rèn)(Speaker Identification),主要用于判斷某一語(yǔ)音材料是由若干發(fā)音者中哪一人所說(shuō),屬于“多選”的識(shí)別;二是說(shuō)話人確認(rèn)(Speaker Verification,主要用于確認(rèn)某一語(yǔ)音材料是否由指定的某個(gè)人所說(shuō)的,屬于“一對(duì)一”識(shí)別。聲紋識(shí)別賴以實(shí)現(xiàn)的基礎(chǔ)是蘊(yùn)含于語(yǔ)音信號(hào)中的說(shuō)話人發(fā)音特征,這一技術(shù)強(qiáng)調(diào)說(shuō)話人的個(gè)性,而不考慮以語(yǔ)音為物質(zhì)外殼的話語(yǔ)意義。從本質(zhì)上說(shuō),聲紋識(shí)別技術(shù)屬于“生物因子”認(rèn)證范疇。聲紋同指紋有著類似的屬性。每個(gè)人的指紋都是唯一的,而聲紋也是人的個(gè)性特征,很難找到兩個(gè)聲紋完全相同的人內(nèi)容識(shí)別是對(duì)語(yǔ)音材料所承載的實(shí)際意義的識(shí)別。內(nèi)容識(shí)別有別于聲紋識(shí)別,聲紋識(shí)別主要著于眼語(yǔ)音的物理屬性和生理屬性,以辨認(rèn)或確認(rèn)說(shuō)話人為目的;而內(nèi)容識(shí)別則著眼于語(yǔ)音的社會(huì)屬性,以識(shí)別語(yǔ)音信號(hào)所承載的話語(yǔ)內(nèi)容為目的。話語(yǔ)內(nèi)容識(shí)別比聲紋識(shí)別要困難得多。說(shuō)話人的語(yǔ)音通常會(huì)受到母語(yǔ)、方言、發(fā)音器官和發(fā)音狀態(tài)等諸多因素的影響,正是因?yàn)檎f(shuō)話人語(yǔ)音特征各異,為聲紋識(shí)別提供了可能性。但是,要將具有個(gè)性的聲紋與具有共性的語(yǔ)法和語(yǔ)義模型相匹配,要通過(guò)詞語(yǔ)切分、詞性標(biāo)注、結(jié)構(gòu)分析和語(yǔ)境理解等程序,達(dá)到正確識(shí)別話語(yǔ)內(nèi)容則是一個(gè)相當(dāng)復(fù)雜的處理過(guò)程。語(yǔ)音標(biāo)準(zhǔn)識(shí)別是通過(guò)個(gè)人語(yǔ)音材料與語(yǔ)音標(biāo)準(zhǔn)模型的對(duì)照,對(duì)個(gè)人語(yǔ)音標(biāo)準(zhǔn)狀況做出評(píng)判,并指出發(fā)音不標(biāo)準(zhǔn)的問(wèn)題。這一技術(shù)可廣泛應(yīng)用于語(yǔ)言教學(xué)和語(yǔ)音標(biāo)準(zhǔn)測(cè)試。語(yǔ)種識(shí)別是對(duì)語(yǔ)音材料所承載的語(yǔ)種特點(diǎn)的別識(shí),是話語(yǔ)內(nèi)容識(shí)別和機(jī)器翻譯技術(shù)的重要基礎(chǔ)。當(dāng)計(jì)算機(jī)系統(tǒng)對(duì)多語(yǔ)種綜合語(yǔ)音材料或不明語(yǔ)種單一語(yǔ)音材料進(jìn)行識(shí)別時(shí),要先把語(yǔ)音材料分揀到不同語(yǔ)種的識(shí)別器中進(jìn)行識(shí)別,這時(shí),可以通過(guò)語(yǔ)種識(shí)別技術(shù)進(jìn)行初步處理。
語(yǔ)音識(shí)別的方法主要包括基于聲道模型和語(yǔ)音知識(shí)的方法、模式匹配方法、人工神經(jīng)網(wǎng)絡(luò)方法3種?;诼暤滥P秃驼Z(yǔ)音知識(shí)的方法起步較早,在語(yǔ)音識(shí)別技術(shù)提出的最初就出現(xiàn)了相關(guān)研究,但由于其模型及語(yǔ)音知識(shí)過(guò)于復(fù)雜,現(xiàn)階段沒(méi)有達(dá)到實(shí)用的程度。模式匹配常用的技術(shù)有動(dòng)態(tài)時(shí)間規(guī)整(DTW)和矢量量化(VQ),統(tǒng)計(jì)型模型方法常見(jiàn)的是隱馬爾可夫模型;語(yǔ)音識(shí)別常用的神經(jīng)網(wǎng)絡(luò)有反向傳播(BP)網(wǎng)絡(luò)、徑向基函數(shù)網(wǎng)絡(luò)(RBF)及新興的小波網(wǎng)絡(luò)。一個(gè)完整的基于統(tǒng)計(jì)的語(yǔ)音識(shí)別系統(tǒng)可大致分為語(yǔ)音信號(hào)預(yù)處理與特征提取、聲學(xué)模型與模式匹配、語(yǔ)言模型與語(yǔ)言處理3部分。語(yǔ)音識(shí)別目前在自適應(yīng)能力、健壯性等方面存在一些問(wèn)題比如IMB的 Via Voice和 Asiaworks的SPK都需要用戶在使用前進(jìn)行幾百句話的訓(xùn)練以讓計(jì)算機(jī)適應(yīng)用戶的聲音特征。大量的訓(xùn)練加大了用戶和系統(tǒng)的負(fù)擔(dān),并且某些應(yīng)用無(wú)法對(duì)單個(gè)消費(fèi)者進(jìn)行訓(xùn)練,限制了語(yǔ)音識(shí)別技術(shù)的進(jìn)一步應(yīng)用。環(huán)境雜音或嗓音對(duì)語(yǔ)音識(shí)別效果影響非常大,目前在公共場(chǎng)合很難實(shí)現(xiàn)有效的語(yǔ)音識(shí)別。另外,目前的聲學(xué)模型和語(yǔ)音模型只允許用戶使用特定語(yǔ)音進(jìn)行特定詞匯的識(shí)別,對(duì)語(yǔ)言混合識(shí)別和無(wú)限詞匯識(shí)別很難奏效。
內(nèi)容來(lái)源:黃?!短摂M現(xiàn)實(shí)機(jī)技術(shù)》