Transcription: "mining a year of speech"
將語音訊號 $s(t)$ 通過一個高通濾波器
$$ s'(t) = s(t) - a \cdot s(t-1),\ 0.9 \leq a \leq 1.0$$
Frame blocking
Hamming window
由於訊號在時域(Time Domain)上的變化通常很難看出訊號的特性,所以通常將它轉換成頻域(Frequency Domain)上的能量分佈來觀察。不同的能量分佈,就能代表不同語音的特性。所以在 windowing 後,每個音框還必需再經過 FFT 以得到在頻譜上的能量分佈
一個音框的音量(即能量),也是語音的重要特徵。我們通常再加上一個音框的對數能量,使得每一個音框基本的語音特徵就有 13 維
就這樣,我們得到了 39 維的 MFCC。算是一種放之四海皆準的特徵,在不同的語音處理工作中都可以比較好的發揮其作用。
聲學模型(Acoustic Model),使用於 HMM 的一個抽象單位,通常一個聲學模型包含數個狀態。我們可以使用音節(Syllables)、音素(Phoneme)甚至單詞(Word)作為一個聲學模型
hmm...
$ \lambda_{HMM} = (A, B, \pi) $
高斯混合模型(GMM)是用多個高斯機率密度函數精確地量化變量分布,是將變量分布分解為若干基於高斯機率密度函數分布的統計模型
$$ H(S) = - \sum_i{p(x_i) \log_2{p(x_i)}} $$
$$ PP(S) = 2^{H(S)} $$
