语音识别原理 五分钟就能弄懂

更新时间:2022-03-14 23:47:19作者:佚名

语音识别原理 五分钟就能弄懂

1、首先,我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows PCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。

2、在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD,需要用到信号处理的一些技术。

3、每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。

4、分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取MFCC特征。

5、至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。

6、接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念:音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,参见The CMU Pronouncing Dictionary。

7、语音识别是怎么工作的呢?实际上一点都不神秘,无非是:第一步,把帧识别成状态(难点);第二步,把状态组合成音素;第三步,把音素组合成单词。

本文标签: 语音识别原理  

为您推荐

网易云音乐私人FM是什么意思 网易云音乐是什么软件

1、私人FM其实就是私人电台,这个私人FM只要调教的好了就会推送用户喜欢的音乐。网易云音乐私人FM是根据用户听歌习惯,进行智能推荐歌曲的一个功能。该功能依赖于平台的智能推荐算法,算法越强大,推荐的歌曲也就越符合用户喜好。

2023-01-29 10:39

信息技术是什么 关于信息技术的介绍

1、信息技术是指利用电子计算机和现代通讯手段实现获取信息、传递信息、储存信息、处理信息、显示信息、分配信息等的相关技术。 2、从广义上讲,凡是能扩展人类信息功能的技术,都是信息技术。随着微电子技术、计算机技术和通信技术

2023-01-29 03:39

wps通配符使用技巧 WPS中通配符怎么用

1、首先,我们使用键盘快捷键“ctrl+F”找到“查找与替换”的对话框,选择“替换(P)”选项。2、然后,点击下面的“高级搜索”,搜索(C)选择为“全部”并且同时打开下面的“使用通配符”选项。3、之后在查找内容栏里面输入

2023-01-27 10:39

理财和基金的区别 关于理财和基金的区别介绍

1、购买门槛,银行理财一般的购买门槛要求较高,有的在5万元以上,有的在上百万元以上;而基金的认购起点多在1000元左右,有的没有门槛限制。 2、安全性的区别,银行理财和基金虽然安全性都比较高,但是由于基金同时受基金法和

2023-01-26 00:08

结构性存款和理财产品的区别 关于结构性存款和理财产品的区别

1、本质的区别在于,结构性存款依旧是存款范围,而理财不属于存款的范围,也就是说理财是有本金亏损的风险在,而存款则一般不会有。2、结构性存款的门槛相对较高,一般五万元起投,也有部分银行推出一万起投的。而理财产品一般没有什么

2023-01-26 00:08

理财小知识 介绍 详解两个理财小知识

1、要分清理财和投资的区别:(1)投资追求的是投入于产出比,比如我们分析上市公司,经常用到ROE,其本质我们是在分析企业赚钱的能力,而理财侧重于财富的稳定增长。(2)投资的为了在最短时间内,让有限的资源产生最大的回报,而

2023-01-25 21:09