语音识别翻译(语音识别在线翻译器)

发布时间：2023-12-04

本文主要介绍语音识别翻译(语音识别在线翻译器)，下面一起看看语音识别翻译(语音识别在线翻译器)相关资讯。
1hmm基金会
一个模型、两个假设和三个问题
1)模型
随机过程:它是依赖于参数(通常是时间)的一组随机变量的总和。随机变量是随机现象的量化表现，其值随着偶然因素的影响而变化。
例如，商店在从时间t0到时间tk期间接收的顾客数量是一组取决于时间t的随机变量，即随机过程。
马尔可夫过程:一种随机过程，系统在下一时刻的状态只与前一状态有关。
隐马尔可夫模型(hmm):用于描述参数未知的马尔可夫过程。
隐马尔可夫模型是一种关于时间序列的概率模型，它描述了从一个隐马尔可夫链中随机产生一个不可观测的状态序列，然后从每个状态产生一个观测序列的过程，序列的每个位置可以看作一个时刻。
2)两个基本假设
齐次马尔可夫假设:隐马尔可夫链在t时刻的状态只与t-1时的状态有关。
观察独立性假设:观察只与当前状态有关。
3)三大问题
1)概率计算问题。即给定模型λ = (a，b，π) λ = (a，b，π)，观测序列o={o1，o2，...ot}o={o1，o2，...ot}，计算模型λ下观测序列o出现的概率p(o|λ)。需要用正向算法、反向算法和直接计算法来解决这个问题。
2)解码问题。即给定模型λ = (a，b，π)和观测序列o={o1，o2，...ot}，找到最可能对应的状态序列。需要基于动态规划的维特比算法来解决这个问题。
3)模式学习问题。也就是说，给定观察序列o={o1，o2，...ot}，估计模型λ = (a，b，π)的参数，使该模型下观测序列的条件概率p(o|λ)最大化。解决这个问题需要基于em算法的baum-welch算法。
2 hmm的隐藏状态
隐藏状态，盒子，第k高斯
隐藏状态是一个抽象的概念，因为语音信号在很长的一段时间内是非平稳的，但在很短的一段时间内(例如50毫秒)可以认为是稳定的。平稳信号的特点是信号的频谱分布是稳定的，不同时间段的频谱分布是相似的。隐马尔可夫模型将具有相似频谱的短连续信号分类为隐藏状态。维特比算法对齐就是找出哪些帧属于哪个隐藏状态。隐马尔可夫模型的训练过程是最大化似然，每个状态产生的数据用一个概率分布来表示。只有当相似的连续信号尽可能归类为同一状态时，似然性可以尽可能大。
像一个盒子和一个球，我不我不知道手是从哪个盒子里拿球的，但我知道我拿出球后看到的球，我问球来自哪个盒子的可能性。其中，盒子是隐藏的，球是可观察的。盒子里有不同比例或分布的球，hmm中也有对应特征向量的隐藏状态的概率分布。如果盒子里小球的分布符合高斯分布，hmm中隐藏状态下的特征符合高斯分布，那么gmm混合高斯模型就是在模拟这种分布，可理解的表达式可以说是模拟隐藏状态下可观测特征的比例。it 只是一个盒子里三个球的比例列为3 : 2 : 1，hmm在隐藏状态下有39个特征，也占了一个比例。
在gmm也有一个隐藏状态，特征向量不我不知道它来自哪个部门。k1、k2和k3形成一个gmm。k1、k2、k3类似于box 1、box 2、box 3，类似于hmm中的state 1、state 2、state 3。
3概率计算问题
正向算法，反向算法，维特比
概率计算问题(评估问题、序列分类问题、可观测性问题)；
即给定模型λ = (a，b，π) λ = (a，b，π)，观测序列o={o1，o2，...ot}o={o1，o2，...ot}，计算模型λ下观测序列o出现的概率p(o|λ)。
1)直接法(未使用)
2)正向算法
正向算法的实现:
3)反向算法
向后算法的实现:
4)维特比算法(近似)
我们可以回溯到最优状态序列，找到最优路径的概率，而不是所有路径的概率和p(o|λ)。
灵魂的拷问:计算最优路径的概率而不是所有路径概率和p(o|λ)是否不准确？为什么可以替代？
ai大语音:在实际的语音识别中，是可以替换的。因为概率分布是尖锐的，即某个位置的概率会很大，其他的很小，最优路径的概率和所有路径的概率差不多。那个最优路径的概率就像战场上的将军，游戏里的oss。战力接近总战力，所有路径的概率和非常接近。
既然可以近似，那么两种算法的概率应该差不多。比较程序中forward算法和viterbis算法得到的概率。
灵魂的拷问:一个0.13级和一个0.014级，这是不是差别不大？it 少了一个数量级。
ai大演讲:当转移矩阵和传输矩阵的概率差不是特别大的时候，可以不用于近似。程序中的例子不具有代表性，与语音识别的例子也不相似。在大多数语音识别应用中，两者的概率是相似和近似的。替换。
4解码问题
维特比算法，近似算法
解码问题(比对问题、预测问题、序列标记问题、隐藏状态问题)
即给定模型λ = (a，b，π)和观测序列o={o1，o2，...ot}，找到最可能对应的状态序列。需要基于动态规划的维特比算法来解决这个问题。
维特比算法是一种最优路径算法。最佳路径算法:
穷举法
方法:计算所有可能的路径，最优路径自然就出来了。
优点:绝对可以找到最优路径。
缺点:计算量太大。
星形算法
方法:每一步只走最好的路(短视)。
优点:计算速度快，这种贪婪或启发式算法通常效果很好。
缺点:难以找到最优解，陷入局部最优。
波束搜索(波束搜索)
方法:在每一步中只取最好的前n条路径。这里的n也叫波束宽度。它是对a*算法的改进。当n=1时，退化为a*算法，当n=n时，退化为穷举法。
优点:n设置好的话效果好。
缺点:波束宽度越大，找到最优解的概率越大，相应的计算复杂度也越大。
1)维特比算法
方法:记录每一时刻每一可能状态下的前一最优路径的概率，同时记录最优路径的前一状态。不断向后迭代，找到最后一个时间点最大概率值对应的状态，通过回溯找到最优路径。
注意:维特比算法只计算前进时的概率，记住后退时获得最优路径。
算法实现:
2)近似算法(不常用)
正向计算中近似算法最大，所以选择这条路径，即把单步最大的路径组合成最优路径；维特比只计算和记忆向前，按最后最大概率回溯路径。
5学习问题
维特比学习算法，鲍姆-韦尔奇算法
学习问题(训练问题、参数估计、建模问题)
也就是说，给定观察序列o={o1，o2，...ot}，估计模型λ = (a，b，π)的参数，使该模型下观测序列的条件概率p(o|λ)最大化。需要baum-welch学习算法和基于em算法的viterbi学习算法来解决这个问题。
1)维特比学习算法(硬对准)
维特比算法需要先初始化一个hmm模型λ = (a，b，π)。
在语音识别的应用中，由于hmm是从左到右的模型，所以第一个必须是状态一，即p(q0=1)=1。所以没有pi参数。
1)鲍姆-韦尔奇学习计算方法(软对齐)
同样，在语音识别应用程序中也没有pi。
附录(魔鬼作家)
——————————————————回声0-@ csdn博主艾遵循cc 4.0 by-sa版权协议。转载请附上原出处链接和本声明。原文链接: _ 42734492/文章/详情/108114821
标签:
算法概率
了解更多语音识别翻译(语音识别在线翻译器)相关内容请关注本站点。

上一个：钢筋套筒连接异常现象及消除措施有哪些？
下一个：普洱茶的书籍有哪些呢？

普洱生茶的投茶量可依个人口味增减
wpsword表格自动换行在哪里(wpsword表格自动换行快捷键)
普洱熟茶投茶量切忌一成不变
普洱茶也有消暑的喝法
红茶菌调节小鼠免疫功能的实验研究
云南大叶荼无性系良种扦插育苗技术
溲疏的栽培技术
茶滋味泡不对？或许并非冲泡方式不对！口感不对
金立CN9008怎么截屏，三星手机怎么截屏啊n9008v
脐橙病虫害无公害防治技术