一個完整的基于統計的語音識別系統可大致分為三部分:。
(1)語音信號預處理與特征提取,(2)聲學模型與模式匹配,(3)語言模型與語言處理選擇識別單元是語音識別研究的第一步,語音識別單元有單詞(句),音節和音素三種,具體選擇哪一種,由具體的研究任務決定。
語音芯片單詞(句)單元廣泛應用于中小詞匯語音識別系統,但不適合大詞匯系統,原因在于模型庫太龐大,訓練模型任務繁重,模型匹配算法復雜,難以滿足實時性要求。
音節單元多見于漢語語音識別,主要因為漢語是單音節結構的語言,而英語是多音節,并且漢語雖然有大約1300個音節,但若不考慮聲調,約有408個無調音節,數量相對較少,因此,語音識別芯片對于中,大詞匯量漢語語音識別系統來說,以音節為識別單元基本是可行的。
音素單元以前多見于英語語音識別的研究中,但目前中,大詞匯量漢語語音識別系統也在越來越多地采用,原因在于漢語音節僅由聲母(包括零聲母有22個)和韻母(共有28個)構成,且聲韻母聲學特性相差很大,實際應用中常把聲母依后錄音芯片續韻母的不同而構成細化聲母,這樣雖然增加了模型數目,但提高了易混淆音節的區分能力。
由于協同發音的影響,音素單元不穩定,所以如何獲得穩定的音素單元,還有待研究。
如何把語音放入語音芯片中。
1,就是把讀取/寫入的底層程序寫燒入到可編程語音芯片內,當然也可以把聲音文件一起燒寫進去,如語音模塊果程序支持的話,還可以外置存儲器,達到聲音存儲擴展的功能。
2,語音芯片的多種多樣,采用的手法也有所區別,比如OTP語音芯片是一次性的和可重復燒寫語音芯片都是可編程的,一次性語音芯片寫入后不能更改,程序和聲音文件一次完成通過,可擦除語音芯片可以多次重復燒寫,程序可以后期修改測試等等。
廣州市九芯電子科技有限公司專注于語音芯片,語音模塊,語音IC,錄放音芯片,語音識別芯片,語音識別模塊,音樂芯片,MP3解碼芯片研發與語音產品方案設計為基礎,面向音頻播放,識別方向的人工智能以及集成電路電子為中心的高新技術企業。