本文主要介绍语音识别翻译(语音识别在线翻译器),下面一起看看语音识别翻译(语音识别在线翻译器)相关资讯。
1hmm基金会
一个模型、两个假设和三个问题
1)模型
随机过程:它是依赖于参数(通常是时间)的一组随机变量的总和。随机变量是随机现象的量化表现,其值随着偶然因素的影响而变化。
例如,商店在从时间t0到时间tk期间接收的顾客数量是一组取决于时间t的随机变量,即随机过程。
马尔可夫过程:一种随机过程,系统在下一时刻的状态只与前一状态有关。
隐马尔可夫模型(hmm):用于描述参数未知的马尔可夫过程。
隐马尔可夫模型是一种关于时间序列的概率模型,它描述了从一个隐马尔可夫链中随机产生一个不可观测的状态序列,然后从每个状态产生一个观测序列的过程,序列的每个位置可以看作一个时刻。
2)两个基本假设
齐次马尔可夫假设:隐马尔可夫链在t时刻的状态只与t-1时的状态有关。
观察独立性假设:观察只与当前状态有关。
3)三大问题
1)概率计算问题。即给定模型λ = (a,b,π) λ = (a,b,π),观测序列o={o1,o2,...ot}o={o1,o2,...ot},计算模型λ下观测序列o出现的概率p(o|λ)。需要用正向算法、反向算法和直接计算法来解决这个问题。
2)解码问题。即给定模型λ = (a,b,π)和观测序列o={o1,o2,...ot},找到最可能对应的状态序列。需要基于动态规划的维特比算法来解决这个问题。
3)模式学习问题。也就是说,给定观察序列o={o1,o2,...ot},估计模型λ = (a,b,π)的参数,使该模型下观测序列的条件概率p(o|λ)最大化。解决这个问题需要基于em算法的baum-welch算法。
2 hmm的隐藏状态
隐藏状态,盒子,第k高斯
隐藏状态是一个抽象的概念,因为语音信号在很长的一段时间内是非平稳的,但在很短的一段时间内(例如50毫秒)可以认为是稳定的。平稳信号的特点是信号的频谱分布是稳定的,不同时间段的频谱分布是相似的。隐马尔可夫模型将具有相似频谱的短连续信号分类为隐藏状态。维特比算法对齐就是找出哪些帧属于哪个隐藏状态。隐马尔可夫模型的训练过程是最大化似然,每个状态产生的数据用一个概率分布来表示。只有当相似的连续信号尽可能归类为同一状态时,似然性可以尽可能大。
像一个盒子和一个球,我不 我不知道手是从哪个盒子里拿球的,但我知道我拿出球后看到的球,我问球来自哪个盒子的可能性。其中,盒子是隐藏的,球是可观察的。盒子里有不同比例或分布的球,hmm中也有对应特征向量的隐藏状态的概率分布。如果盒子里小球的分布符合高斯分布,hmm中隐藏状态下的特征符合高斯分布,那么gmm混合高斯模型就是在模拟这种分布,可理解的表达式可以说是模拟隐藏状态下可观测特征的比例。it 只是一个盒子里三个球的比例列为3 : 2 : 1,hmm在隐藏状态下有39个特征,也占了一个比例。
在gmm也有一个隐藏状态,特征向量不 我不知道它来自哪个部门。k1、k2和k3形成一个gmm。k1、k2、k3类似于box 1、box 2、box 3,类似于hmm中的state 1、state 2、state 3。
3概率计算问题
正向算法,反向算法,维特比
概率计算问题(评估问题、序列分类问题、可观测性问题);
即给定模型λ = (a,b,π) λ = (a,b,π),观测序列o={o1,o2,...ot}o={o1,o2,...ot},计算模型λ下观测序列o出现的概率p(o|λ)。
1)直接法(未使用)
2)正向算法
正向算法的实现:
3)反向算法
向后算法的实现:
4)维特比算法(近似)
我们可以回溯到最优状态序列,找到最优路径的概率,而不是所有路径的概率和p(o|λ)。
灵魂的拷问:计算最优路径的概率而不是所有路径概率和p(o|λ)是否不准确?为什么可以替代?
ai大语音:在实际的语音识别中,是可以替换的。因为概率分布是尖锐的,即某个位置的概率会很大,其他的很小,最优路径的概率和所有路径的概率差不多。那个最优路径的概率就像战场上的将军,游戏里的oss。战力接近总战力,所有路径的概率和非常接近。
既然可以近似,那么两种算法的概率应该差不多。比较程序中forward算法和viterbis算法得到的概率。
灵魂的拷问:一个0.13级和一个0.014级,这是不是差别不大?it 少了一个数量级。
ai大演讲:当转移矩阵和传输矩阵的概率差不是特别大的时候,可以 不用于近似。程序中的例子不具有代表性,与语音识别的例子也不相似。在大多数语音识别应用中,两者的概率是相似和近似的。替换。
4解码问题
维特比算法,近似算法
解码问题(比对问题、预测问题、序列标记问题、隐藏状态问题)
即给定模型λ = (a,b,π)和观测序列o={o1,o2,...ot},找到最可能对应的状态序列。需要基于动态规划的维特比算法来解决这个问题。
维特比算法是一种最优路径算法。最佳路径算法:
穷举法
方法:计算所有可能的路径,最优路径自然就出来了。
优点:绝对可以找到最优路径。
缺点:计算量太大。
星形算法
方法:每一步只走最好的路(短视)。
优点:计算速度快,这种贪婪或启发式算法通常效果很好。
缺点:难以找到最优解,陷入局部最优。
波束搜索(波束搜索)
方法:在每一步中只取最好的前n条路径。这里的n也叫波束宽度。它是对a*算法的改进。当n=1时,退化为a*算法,当n=n时,退化为穷举法。
优点:n设置好的话效果好。
缺点:波束宽度越大,找到最优解的概率越大,相应的计算复杂度也越大。
1)维特比算法
方法:记录每一时刻每一可能状态下的前一最优路径的概率,同时记录最优路径的前一状态。不断向后迭代,找到最后一个时间点最大概率值对应的状态,通过回溯找到最优路径。
注意:维特比算法只计算前进时的概率,记住后退时获得最优路径。
算法实现:
2)近似算法(不常用)
正向计算中近似算法最大,所以选择这条路径,即把单步最大的路径组合成最优路径;维特比只计算和记忆向前,按最后最大概率回溯路径。
5学习问题
维特比学习算法,鲍姆-韦尔奇算法
学习问题(训练问题、参数估计、建模问题)
也就是说,给定观察序列o={o1,o2,...ot},估计模型λ = (a,b,π)的参数,使该模型下观测序列的条件概率p(o|λ)最大化。需要baum-welch学习算法和基于em算法的viterbi学习算法来解决这个问题。
1)维特比学习算法(硬对准)
维特比算法需要先初始化一个hmm模型λ = (a,b,π)。
在语音识别的应用中,由于hmm是从左到右的模型,所以第一个必须是状态一,即p(q0=1)=1。所以没有pi参数。
1)鲍姆-韦尔奇学习计算方法(软对齐)
同样,在语音识别应用程序中也没有pi。
附录(魔鬼作家)
——————————————————回声0-@ csdn博主 艾 遵循cc 4.0 by-sa版权协议。转载请附上原出处链接和本声明。原文链接: _ 42734492/文章/详情/108114821
标签:
算法概率
了解更多语音识别翻译(语音识别在线翻译器)相关内容请关注本站点。