语音识别技术,也被称为自动语音识别,其目标是将人类的语音中的词汇内容转换为计算机可读的输入;原理是动态时间伸缩方法使用瞬间的、变动倒频,1963年Bogert et al出版了《回声的时序倒频分析》,通过交换字母顺序,他们用一个含义广泛的词汇定义了一个新的信号处理技术,倒频谱的计算通常使用快速傅立叶变换;从1975年起,隐马尔可夫模型变得很流行,运用隐马尔可夫模型的方法,频谱特征的统计变差得以测量,文本无关语音识别方法的例子有平均频谱法、矢量量化法和多变量自回归法;平均频谱法使用有利的倒频距离,语音频谱中的音位影响被平均频谱去除,使用矢量量化法,语者的一套短期训练的特征向量可以直接用来描绘语者的本质特征;当训练向量的数量很大时,因为存储和计算的量变得离奇的大,所以尝试用矢量量化法去寻找有效的方法来压缩训练数据。
语音识别是模式识别的一个分支,又从属于信号处理科学领域,同时与语音学、语言学、数理统计及神经生物学等学科有非常密切的关系。
另一方面,语音也是人类赖以进行思维的主要工具。
因此,这一科学与认知科学和人工智能等领域的研究有千丝万缕的联系,是目前发展最迅速的信息科学研究领域中的内容之一。
语音识别研究的目的就是让机器“听懂”人类口述的语言。
包括两方面的含义:其一是逐字逐句听懂非转化成书面语言文字;其二是对口述语言中所包含的要求或询问加以理解,做出正确响应,而不拘泥于所有词的正确转换。
语音识别技术,目标是将人类的语音中的词汇内容转换为计算机可读的输入。
工作原理:动态时间伸缩方法使用瞬间的、变动倒频通过交换字母顺序,用一个含义广泛的词汇定义了一个新的信号处理技术,倒频谱的计算通常使用快速傅立叶变换。
运用隐马尔可夫模型的方法,频谱特征的统计变差得以测量。