一般语音唤醒的方案有2类,主要区别是在解码的过程是否采用语言模型Language Model不采用LM的情况下,在解码的过程中,需要用到声学模型,以及唤醒词(产品定义)的发音,解码出来的是音素序列,然后在与唤醒词音素序列匹配,若匹配上,那么将设备唤醒,若匹配不上,那么端点检测模块(VAD)继续检测下一次语音交互,其中VAD对降低功耗起着至关重要的作用采用LM的情况下,在解码的过程中,不仅仅需要用到声学模型,还需要用到LM,以及LM里面用到的词的发音词典,这样解码出来的是汉字。
1.音高在普通话中,最能体现语音音高变化的是声调,音高由半高往上升到最高上声是一种由半低降到最低又往上升到半高,呈曲折型的调子,发音开始时声带就比较松,接着再放松到最低,然后拉紧到比阳平的收音略松一点的程度,音高由半低降到最低,再往上升到半高,显示出曲折的调型,去声是一种由最高降到最低的调子,发音时声带由紧放松,音高由最高下降到最低。
2.音强在普通话语音里,音强主要体现在重读和轻声上。
一般不读轻声的音节和读轻声的音节发音时呼出的气流也有强弱的不同,所以我们读“莲子”和“帘子”同一个“子”,前者声音强一点,而后者声音弱一点,是作为词缀的轻声音节,这是有具体意义的非轻声音节。
4.音色音色决定于物体振动所产生的音波的式样。
普通话中k和h的音色不同,主要是因为k是用爆发的方法发音,而h用的是摩擦的方法发音。