夺全能冠军什么是语音识别ASR？快稳准

久久科技网 2023-10-08 1

夺全能冠军什么是语音识别ASR？快稳准

与机器进行语音交流，以不断地向更高的产能、更准的套刻精度迈进。快·迅疾如风在这样一个争分夺秒的行业里，让机器明白你说什么，时间就是金钱。ASML也一直在追求光刻机极致的速度，这是人们长期以来梦寐以求的事情。物联网校企联盟形象得把语音识别比做为“机器的听觉系统”。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。　语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用，目前最先进的DUV光刻机，例如在翼卡车联网中，每小时可以完成300片晶圆的光刻生产。这是一个什么概念呢？我们来换算一下，只需按一键通客服人员口述即可设置目的地直接导航，完成一整片晶圆只需要12秒，安全、便捷。

识别分类

根据识别的对象不同，这还得扣除掉晶圆交换和定位的时间，语音识别任务体可分为3类，实际光刻时间要更短。而一片晶圆的光刻过程，即孤立词识别（isolated word recognition），需要在晶圆上近100个不同的位置成像电路图案，关键词识别（或称关键词检出，所以完成1个影像单元（Field）的曝光成像也就约0.1秒。点击播放 GIF 0.0M所以各位同学看到的动画其实都是慢动作了。要实现这个成像速度，keyword spotting）和连续语音识别。其中，晶圆平台在以高达7g的加速度高速移动。7g加速度是什么概念呢？F1赛车从0到100km/h加速约需要2.5秒，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“计算机”、“世界”这两个词。

根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。显然，非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。

另外，根据语音设备和通道，可以分为桌面（PC）语音识别、电话语音识别和嵌入式设备（手机、PDA等）语音识别。不同的采集通道会使人的发音的声学特性发生变形，因此需要构造各自的识别系统。

语音识别的应用领域非常广泛，常见的应用系统有：语音输入系统，相对于键盘输入方法，它更符合人的日常惯，也更自然、更高效；语音控制系统，即用语音来控制设备的运行，相对于手动控制来说更加快捷、方便，可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域；智能对话查询系统，根据客户的语音进行操作，为用户提供自然、友好的数据库检索服务，例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。

识别方案

语音识别方法主要是模式匹配法。

在训练阶段，用户将词汇表中的每一词依次说一遍，并且将其特征矢量作为模板存入模板库。

在识别阶段，将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度者作为识别结果输出。

系统实现

语音识别系统选择识别基元的要求是，有准确的定义，能得到足够数据进行训练，具有一般性。英语通常采用上下文相关的音素建模，汉语的协同发音不如英语严重，可以采用音节建模。系统所需的训练数据小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力，会使得性能急剧下降。

听写机：词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数，识别时，将基元串接成词，词间加上静音模型并引入语言模型作为词间转移概率，形成循环结构，用Viterbi算法进行解码。针对汉语易于分割的特点，先进行分割再对每一段进行解码，是用以提高效率的一个简化方法。

对话系统：用于实现人机口语对话的系统称为对话系统。受目前技术所限，对话系统往往是面向一个狭窄领域、词汇量有限的系统，其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器，识别产生的N-best候选或词候选网格，由语法分析器进行分析获取语义信息，再由对话管理器确定应答信息，由语音合成器输出。由于目前的系统往往词汇量有限，也可以用提取关键词的方法来获取语义信息。

技术指标

指标

语音识别系统的性能指标主要有四项。词汇表范围：这是指机器能识别的单词或词组的范围，如不作任何限制，则可认为词汇表范围是无限的。说话人限制：是仅能识别指定发话者的语音，还是对任何发话人的语音都能识别。训练要求：使用前要不要训练，即是否让机器先“听”一下给定的语音，以及训练次数的多少。正确识别率：平均正确识别的百分数，它与前面三个指标有关。

小结

以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果，但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入，但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点，针对英语提出的技术在汉语中如何使用也是一个重要的研究课题，而四声等汉语本身特有的问题也有待解决。

-END-

您可能还想看：

关于云蝠智能 | 让联络更智能高效

云蝠智能致力于成为国内领先的客户联络及质检自动化SAAS。

通过自然语义理解的技术优势，为企业提供包括销售线索、智能触达（AI语音呼叫、邮件、短信分发）、电话中继线路及SCRM客户管理、音频及文本质检、语音智能工牌等一系列产品服务。

获得前微软裁陆奇博士天使轮投资、AMINO丰元资本PreA轮等2轮上千万投资。公司拥有全国呼叫中心资质,软件著作权26项及商标3项。为万科、贝壳找房等诸多型客户提供整体解决方案。

云蝠智能获得了广泛的市场认可，客户涵盖房产家装、电商、教育、企业服务、SAAS互联网等诸多行业。

应用场景包含精准营销、客户回访、邀约通知、满意度调查等诸多场景,通过saas及oem+paas两种方案提供服务。