使用语音识别服务时的常见问题

您所在的位置：网站首页 › 录音转文字一般多长时间合适 › 使用语音识别服务时的常见问题

使用语音识别服务时的常见问题

2024-06-29 09:06| 来源: 网络整理| 查看: 265

性能类语音识别的识别准确率怎么计算？

行业通常使用错误率来统计识别效果，中文常用CER（字错误率），英文常用WER（词错误率）。计算方式：（插入错误字数ins+删除错误字数del+替换错误字数sub）/总字数。以下图为例：这批数据的准确率=（14365-74-385-1706）/14365=84.93%。快速计算方式为：100-15.07=84.93。

语音识别模型的字准率能达到多少？

关于达摩院智能语音交互语音识别准确度的数字，我们通过了CNAS（国家软件测试中心）的评测，国家软件中心对语音识别算法准确度测试中，在60分贝以下的降噪环境中，用普通话在距离耳麦1厘米的位置，以240字/小时的匀速朗读样本量1207字的测试下，我们经过5轮测试的结果，识别准确率均大于98%。该准确度经过国家软件测试中心的标准认证。

而在现实的使用过程当中，可能会受到耳麦质量、背景杂音、口音差异等原因导致准确度有一定的偏差，对于数据格式为8k、16bit、双通道分轨（用户或客服双轨）的pcm或者wav格式，信噪比在20dB以上的语音，绝大部分商用场景下我们能保障85%的准确度，确保您有效使用。

录音文件识别极速版延迟是多少？

录音文件识别极速版服务承诺10秒内完成30分钟的音频识别，指的是从收到全部音频到完成识别的时间，音频上传的速度和客户端带宽等因素相关，时长可能会有不同。在服务端返回的识别结果中包含latency字段，记录了服务端处理时长。

8k模型可以识别16k的音频吗？

不可以。8K模型和16K模型只支持识别对应采样率的音频。

录音文件识别极速版调用频率有限制吗？

没有。但对并发有限制，并发数在控制台上查看。

粤语的识别准确率是多少？

粤语8k、16k识别准确率在80~95%之间，实际结果受语料数据与发音标准程度影响。使用不同服务准确率会有略微区别（相对5%），准确率排名整体为：录音文件识别＞一句话识别＞实时语音识别。

15秒左右的录音文件识别大概需要多久能转换成文本呢？

录音文件识别是离线API。对于免费用户的识别任务在24小时内完成并返回识别文本；付费用户的识别任务在3小时内完成并返回识别文本。60秒以内的短音频建议客户使用一句话识别，时效更好。

语音转文本有没有优先级？比如现在正在转写任务，突然有紧急的转写任务，能调整处理优先级吗？

暂不支持这个操作，文件转写目前的时效性还是比较快的。

针对两个用户打电话场景，哪个模型效果比较好？

目前建议都使用新一代端到端“识音石”识别模型，综合效果性能比较好。

服务请求时长限制？

一句话识别支持60秒以内的实时语音。

实时语音识别不限制时长。

“流式”模式和“非流式”模式识别的区别？

“非流式”模式也称为普通模式，普通模式下，服务判断用户整句话说完后才返回一次识别结果；而“流式”模式下用户一边说话一边返回识别结果，在句子结束的识别结果前会有很多中间结果。

什么是ASR尾点延迟？

尾点延迟的定义是调用端发送音频结束到完成识别的时间。

目前语音实时识别，如一句话识别、实时转写接口的延迟在300毫秒左右，视模型、音频差异而略有不同。

一句话识别RESTful接口因为批量接收音频，识别时长和音频时长相关。不考虑网络开销，一句话识别RESTful接口处理时长和音频时长近似线性关系，简单计算可以认为：接口处理时长=音频时长*0.2。例如，1分钟音频处理时长约为12秒。实际线上性能会随模型的不同和服务器负载略有差异。

【本文地址】

使用语音识别服务时的常见问题

使用语音识别服务时的常见问题

今日新闻

推荐新闻