在虛擬現(xiàn)實系統(tǒng)中,語音應用技術主要是指基于語音進行處理的技術,主要包括語音識別技術和語音合成技術,它是信息技術處理領域的一項前沿技術。
語音識別技術
語音識別技術是指計算機系統(tǒng)能夠根據(jù)輸入的語音識別出其代表的具體意義,進而完成相應的功能,一般的方法是事先讓用戶朗讀有一定數(shù)量文字、符號的文檔,通過錄音裝置輸入到計算機,于是計算機就準備好了用戶的聲音樣本。以后,當用戶通過語音識別系統(tǒng)操作計算機時,用戶的聲音通過轉(zhuǎn)換裝置進入計算機內(nèi)部,語音識別技術便將用戶輸入的聲音與事先存儲好的聲音樣本進行對比。系統(tǒng)根據(jù)對比結(jié)果,輸入一個它認為最“像”的聲音樣本序號,這就可以知道用戶剛才念的聲音是什么意義,進而執(zhí)行此命令。因此通過語音識別技術,計算機可以“聽”懂人類的語言。
一個完整的語音識別系統(tǒng)可大致分為以下三個部分。
(1)語音特征提取。其目的是從語音波形中提取出隨時間變化的語音特征序列。
(2)聲學模型與模式匹配(識別算法)。聲學模型通常將獲取的語音特征通過學習算法產(chǎn)生。在識別時將輸入的語音特征同聲學模型(模式)進行匹配與比較,得到最佳的識別結(jié)果。
(3)語言模型與語言處理。語言模型包括由識別語音命令構成的語法網(wǎng)絡或由統(tǒng)計方法構成的語言模型,語言處理可以進行語法、語義分析。對小詞表語音識別系統(tǒng),往往不需要語言處理部分。
一般來說,語音識別的方法有3種;基于聲道模型和語音知識的方法、模式匹配的方法,以及利用人工神經(jīng)網(wǎng)絡的方法。
(1)基于聲道模型和語音知識的方法起步較早,在語音識別技術提出的初期,就有了這方面的研究,但由于其模型及語音知識過于復雜,現(xiàn)階段沒有達到實用的階段。
(2)模式匹配的方法發(fā)展比較成熟,目前已達到了實用的階段。在模式匹配方法中,要經(jīng)過特征提取、模式訓練、模式分類和判決三個步驟。常用的技術有動態(tài)時間歸正、隱馬爾可夫理論和矢量量化技術三種。
(3)利用人工神經(jīng)網(wǎng)絡的方法是20世紀80年代末期提出的一種新的語音識別方法。人工神經(jīng)網(wǎng)絡本質(zhì)上是一個自適應非線性動力學系統(tǒng),模擬了人類神經(jīng)活動的原理,具有自適應性、并行性、魯棒性、容錯性和學習特性,其強大的分類能力和輸入輸出映射能力在語音識別中都很有吸引力。但由于存在訓練、識別時間太長的缺點,目前仍處于實驗探索階段。
2.語音合成技術
語音合成技術是將計算機自己產(chǎn)生的或外部輸入的文字信息(如文本文件內(nèi)容、Word文件內(nèi)容等),按語音處理規(guī)則轉(zhuǎn)換成語音信號輸出,使計算機流利地讀出文字信息,使人通過“聽”就可以明白信息的內(nèi)容。也就是說,使計算機具有了“說”的能力,能夠?qū)⑿畔ⅰ白x給人類聽。這種將文字轉(zhuǎn)換成語音的技術稱之為文語轉(zhuǎn)換技術(Text To Specch,ts),也稱為語音合成技術。
一個典型的語言合成系統(tǒng)可以分為文本分析、韻律建模和語音合成三大模塊主要功能是根據(jù)韻律建模的結(jié)果,從原始語音庫中取出相應的語言基元,然后利用特定的語音合成技術對語音基元進行韻律特性的調(diào)整和修改,最終合成出符合要求的語音。
常用的語音合成方法,按照合成方法分類,分為參數(shù)合成法、基音同步疊加法和基于數(shù)據(jù)庫的語音合成法。參數(shù)合成法是通過調(diào)整合成器參數(shù)實現(xiàn)語音合成的?;敉蒋B加法是通過對時域波形拼接實現(xiàn)語音合成的基于數(shù)據(jù)庫的語音合成法是采用預先錄制語音單元并保存在數(shù)據(jù)庫中,再從數(shù)據(jù)庫中選擇并拼接出各種語音內(nèi)容來實現(xiàn)語音合成的。
按照技術方式分類,分為波形編輯合成、參數(shù)分析合成以及規(guī)則合成三種。波形編輯合成是將語句、短語、詞或音節(jié)作為合成單元,這些單元被分別錄音后進行壓縮編碼,組成一個語音庫。重放時,取出相應單元的波形數(shù)據(jù),串接或編輯在一起,經(jīng)解碼還原出語音。這種合成方式也稱為錄音編輯合成。參數(shù)分析合成是以音節(jié)、半音節(jié)或音素為合成單元。按照語音理論,對所有合成單元的語音進行分析,提取有關語音參數(shù),這些參數(shù)經(jīng)編碼后組成個合成語音庫。輸出時,根據(jù)待合成的語音信息,從語音庫中取出相應的合成參數(shù),經(jīng)編輯和連接,順序送入語音合成器。在合成器中,通過合成參數(shù)的控制,將語音波形重新還原出來。規(guī)則合成存儲的是較小的語音單位,音素、雙音素、半音節(jié)或音節(jié)的聲學參數(shù),以及由音素組成音節(jié),再由音節(jié)組成詞或句子的各種規(guī)則;當輸入字母符號時,合成系統(tǒng)利用規(guī)則自動地將他們轉(zhuǎn)換成連續(xù)的語音波形。
內(nèi)容來源:苗志宏 《虛擬現(xiàn)實技術基礎與應用》