重庆编辑 2020-12-30 16:01
怎样发音才能更好被电脑“理解”?——语音识别原理详述口语考不好,发音和流利度分数低,到底是谁的锅?为什么两段基本一致的声波图评分会不一样?口语成绩究竟是怎么评判的?想知道答案,可以从PTE考试的语音识别系统和机器评分原理来了解,即了解机器是怎么“听懂”我们说的英语的。
PTE考试评分引擎
声波是一种机械波,可以用波形来表示。曾经很流行一种口语教学方式,就是利用波形图对比学生的答案和老师的高分答案,从而判断学生的口语水平。但实际上波形图只能给出大致的节奏、停顿和音量的信息,无法判断音调、音色(识别读音)。
PTE考试电脑是如何“听懂”你在说什么的?
语音识别
根据不同的需求,语音识别会使用不同的数学模型和训练方法。
1、声纹识别(白箱)
通过发音识别发音者的身份信息。个体发音者的发音特质,依赖于提前设定好的规则。
2、人机交互(黑箱)
重要的是识别的速度,关注当下语境的内容并快速寻找指令且实行,不关注语音特征信息。依托于大数据和神经网络技术(如DNN、RNN)。
强调输出结果而不强调过程。是最前沿的技术,也是广泛意义上的语音识别。
3、PTE使用的自动评分系统(灰箱)
规则混合AI。不仅要识别内容,也要判断音色信息。因而在算法上最为复杂。
以单词为单位进行建模
PTE的语音识别算法是按照单词来进行的。单词分为若干音素。元音频率固定且平稳,辅音更复杂。实际语流中音素的发音频率还会受到前后音素的干扰和影响。因而音素的前中尾会有细微不同。可以把音素拆分为若干个(一般为3-5个)“状态”。
整个语音识别的流程:将录音进行切片,然后把每个切片识别为一个状态,再用状态拼成音素,最后用音素拼成单词,连词成句。实际考试评分时,为了保证准确度,提升录音质量,还会在切分前对考生录音进行一次预处理。
预加重:
所有信号在传播中都会有不同程度的衰减,信号的频率越高,衰减越快。预加重就是对信号中的高频分量进行一定量的补偿以避免在传播过程中失真。
静音切除(语音激活检测、语音边界检测):
从语音信号流中识别并消除长时间的静音片段,避免浪费计算资源,在截取出的有效片段上进行进一步处理。
另一方面静音部分可能带有噪音,进一步消除干扰。在这个过程中原本连续的一段语音已经变为了初步的一些语段和单词。(切段)
分帧(Framing):
在连续语流中声音频率在一直变化,在在短时域内是非常平稳的。用一帧信息去匹配音素,所以一帧长度小于一音素。一般来说单个音素的长度为50-200ms,所以一帧长度要小于50ms。同时,一帧需要包含一个完整周期。PTE考试中耳麦的收音范围是100Hz-8000Hz,所以一帧长至少要大于10ms。
声学特征提取
通过快速傅里叶特征转换将声音中的不同波段分离。之后通过信号滤波,来简化信息。最终用MFCC多维度特征向量分析,并取前26个维度来进行判断。
特征分析
封闭式考题:
提取声学特征后可以根据参照模板逐词对照直接评分。如RA、RS。实际上的参考模板有许多。PTE考试中每一道题目都要单独进行建模。
每道题目在被放入真实考题前都会经过严密的评估,并选择不同身份水平的英语学习者来答题并由专家团队进行打分,最后用分数高于一定值的录音建立评分模型(高分样本)。
半开放式考题:
考生在一定范围一定主题下自由发挥。如RL、DI。构建一个所有音素的状态集,初步识别语音。
隐马尔科夫原型(HM模型):通过上一个状态来预测下一个状态,或通过表面行为和内部规则预测状态。
提高口语分数,避免失分的关键
搜索
1.不要调戏评分引擎
很多考生喜欢在无话可说时随便说一些无意义的单词,企图从机器手中骗到流利度的分数,但在这么精密的分析模型下无疑是很难做到的。
2.元音饱满不等于要声音大
元音发音正确与否取决于共振峰特征,也就是口型和舌位的特征,与音高和声调均无关。
3.中国考生硬伤:浊辅音
实际上浊辅音比清辅音更难处理。因为现代汉语中是没有浊辅音的。
4.宁可吞音不要拖音
会严重影响引擎的单词切分,降低单词边界识别的准确率,如果遇到连续几个单音节词,一旦拖音,机器可能会错误地识别成一个多音节词。
发音对口语分数的影响非常大,大家 一定要在平时针对引擎的特点多多练习,争取不要被自己的发音“拖后腿”。
以上就是小编给大家分享的相关内容,如果大家有更多的疑问欢迎在线咨询。
新航道重庆学校官网:cq.xhd.cn
新航道重庆学校电话:400-185-9090
阅读推荐:
Alevel科目里的“万金油”,听说学了这些科目更容易获得英国的青睐?