年度征文

您所在的位置:网站首页 语音识别技术有 年度征文

年度征文

#年度征文 | 来源: 网络整理| 查看: 265

作为一个每天都要开会的销售、不知名的脱口秀演员,Notta语音转写软件是我2021年高频使用的App之一,精准地语音转写帮我节省了大量的文本编辑校对的时间。

这篇文章鸽了很久,因为涉及到一些技术,为了更加严谨查阅了很多资料,但毕竟隔行如隔山,如有纰漏,欢迎指正和交流。

不断进步的语音转写

文明诞生之初,人们通过口口相传的方式记录;随着文字的诞生,我们开始使用文字记录。我们将口口相传的故事记录下来,让后世通过文字了解那些精彩的故事。

有了人工智能,1小时的音频实现5分钟转写,然后再通过人工智能对转写后的文本进行分析,数分钟内生成一篇会议纪要,这样的操作已经通过人工智能公司OpenAI推出可商用的GPT-3实现。目前因为成本等原因,还未大规模商用。

人类从岩壁上刻画记事到现在借助人工智能记录和总结,工具的变化促使语音转写效率飞速提升。

早期的人工速记

自古以来,朝廷就设「史官」来记录王公大臣的起居、朝会、重大的事件和决议,并将其编撰成册保留下来。

人工速记采用原始的「你说我记」的方式手工记录。

图片来自网络

在需要刻竹简年月,这些史官是怎么快速完成会议记录的?

据史料记载,因为记录工具的限制,古人为了记录一场完整的会议通常需要数名甚至更多的「史官」同时参与,分段记录然后进行汇总和整理,这大概是最早的人工速记。

在工具不发达、资源有限的年代,依靠多人力来提升记录效率的方法产生的海量成本也只有一些达官贵人用的起,并且只在一些重要的场合才会使用。

随着记录工具的不断升级,我们人工速记的效率也在不断提升,速记师手里的刻刀变成了毛笔。造纸术的出现让记录的载体也从石头、铜器、竹简、绢帛变成了更便携、更方便记录纸张。

工具促使人工速记效率不断提升,让我们记录下更多的声音。

打字比说话快的速录师

回到近代,繁荣的商业衍生出各式各样的会议和活动,如今已经成为了工作中的一部分,为了高效记录会议和活动,催生出了速录师行业。

早期的速录师采用手写+符号进行速录;随着电脑普及后,速录师开始采用专业的速录机进行速录。

现代的键盘由西方发明,采用传统26个字母组成,而中文属于表意的象形文字,导致我国的打字机和速录机起步较晚。为了方便打字,速录机使用的键盘与正常的键盘不同,且有一套自己的编码。

亚伟打字机-图片来自与网络

在一般活动和会议中,演讲人的语速通常在180—200字/分钟左右,而专业的速录师每分钟的打字速度在220字/分钟以上,完全可以胜任现场速记。速录的门槛不高,一台专业的机器,一套特殊输入法加上充分的练习就可以提升录入效率;但是要成为一名专业的速录师,不仅要打字速度快,还要有不断的学习能力和临场应变力才能胜任。

很多会议有一些不常用的专业词汇、技术词汇、地名、人名等,需要速录师在会议前拿到一些资料做提前的预录和练习,保证速录实时准确。

在本世纪初,专业的的速录师月收入可达6000元以上,即使放到今天,专业的速录师价位也在200元/小时左右。

专业的速录师出稿速度快,准确率高,速录师会根据现场的发言情况过滤掉语气词、车轱辘话等,实现同步出稿。但成本太高,一般小型会议很难有预算请专业的速录师。

所以语音转写工具出现了,目前市面上的语音转写的软/硬件非常多,最早接触转写这个概念是在录音笔上面。

早期的机器转写

早期的一些高端的录音笔具备语音转文字功能,通过内置的语音识别芯片和基于本地字库进行语音转写。录音结束后,音频和文本需要通过USB数据线在电脑上导出,从TXT文本里面复制出一堆的连标点符号都没有的文字到电脑里进行编辑校对。

由Figma绘制的本地机器转写流程图

在日常使用中,讲话人的口音、周围环境、内容的丰富程度对准确率都有着特别大的影响,所以没有互联网接入的机器转写,仅通过内置的语音识别芯片,匹配设备本地字库文字词语的方式转写,精准度十分拉胯。需要耗费大量的时间对后期进行校对和编辑,过低的准确率对效率的提升意义不大。

这种价格昂贵,精准度低的产品在市面上并未获得消费者的认可,很快就被支持联网在线转写的录音笔等产品和支持在线转写的App取代。

基于云端的语音转写

随着互联网技术和芯片技术的不断升级,有了人工智能的加持,转写引擎的经过海量的资源训练和学习,语音识别能力获得显著提升。

市面上很多支持在线转写的智能录音笔,工作原理与手机里的App并没有太大区别。专业的录音笔能够提供更好的收音麦克风,在远距离录音、嘈杂等环境,专业设备会对声音进行预处理从而提升识别准确率。但如果有导入文件需求或者不希望在额外带一个设备,手机的麦克风完全可以应对日常的使用环境。

基于云端的语音转写原理是将软硬件收集到的音源或者声音文件上传至云端,经过处理后的音频通过云端的引擎进行识别、转写、纠错,最后用户可以在网页或者App上直接获取结果,还可以对结果进行修改、编辑、分享、导出等一系列操作。

由Figma绘制的云端转写流程图

目前Google、Microsoft、Amazon 、DeepL、AMI、百度、腾讯、阿里、讯飞等厂商都有自己的引擎。语音转写软件的服务商可以根据语言调用最合适的引擎进行识别、转写或者翻译,当然这些引擎收费并不便宜,一般不对个人用户开放。

对比早期依靠本地的机器转写,基于云端的转写准确度有了质的飞跃,NLP「自然语言处理」技术被广泛运用,有了这个技术,能让语音识别更准确,也更有人性。

NLP是一种自然语言处理的人工智能,它经过了海量的学习和训练,NLP通过接收自然语言,然后基于概率的算法转译自然语言,最后分析自然语言并输出结果。这里的自然语言指的就是我们人类经过长期使用演变而来的语言,NLP 能够实现听的见,理解对,输出准。

NLP具备两个核心的功能:自然语⾔理解 - NLU  和 自然语⾔生成 - NLG。

举一个简单的例子:

当我们对着语音转写软件说:「她真的很漂亮」。

这句话里的TA的对应汉字有她、他和它;NLU「自然语言理解」对文本进行分析,在海量的数据里,漂亮多被形容于女性,最终通过NLG「自然语言生成」输出「她真的很漂亮的」的正确结果。

NLP能够实现语音识别,语音翻译和文本生成;在语音转写软件里,NLP能够帮助对音频进行识别和理解,对转写后的文本进行校对和纠错。

但我们要清晰的知道,即使现阶段的语音识别技术有了较大的提升,但我们在说话时经常会使用俚语或者错乱的语法,这对我们人类交流来说理解起来相对容易,对机器却是一个折磨,而且每个人的发音、声音音量、周围环境都有可能影响声音的识别率。

目前的语音识别的软件也仅仅能做到能用,距离完美还有很长的路要走。

如何选择一款靠谱的语音转写软件?一、明确需求

我们需要明确自己究竟是否真的有相关需求,如果仅仅是临时使用,现在手机内自带的实时转写和输入法自带的转写都可以满足临时需求。

根据我自身的工作、学习和爱好,我算是强需求的用户,免费的基础功能已经无法满足我长时间录制音频、导入文件转写和留存归档的需求。

销售会议学习脱口秀演出会议录音课堂录音记录灵感会后转写课后复习文本编辑记录分享/留存/归档资料分享和归档练习和回顾

有了明确的需求,就可以筛选出符合需求的软件。

二、筛选软件国内知名品牌国内的搜索引擎Google搜索及海外社媒讯飞迅捷otter搜狗语音转写助手Notta网易闪电录音转文字RIMO voice

市面上的语音转写软件非常多,通过搜索引擎搜出来的大多是针对于开发者的云引擎服务。在经过一番网页对比和查阅资料后,放弃国内某度的搜索结果,讯飞、Otter、Notta进入决赛圈。

讯飞听见

科大讯飞是国内个人语音转写软件领域的佼佼者,根据易观分析2021年7月发布关于《中国智能语音转写工具行业洞察2021》调研报告中显示,讯飞知名度在受调研的人群中超过80%;在AI语音转写软硬件市场,讯飞几乎处于垄断地位。

讯飞的语言识别能力和处理能力自然不必多说,之前我在《盘一盘这些年走进我生活的智能语音产品》文中介绍一款古早的手机采用的就是基于讯飞引擎开发的灵犀语音助手,中文识别率非常高。

讯飞在中科院加持的光环下成为了国货之光,频频出现在政府会议、对外贸易的会议上面。也是本次北京冬奥会和冬残奥会的赞助商。

虽然有政府提供的稳定支持和稳定的用户,但讯飞在个人业务方面着实有点拉胯。

讯飞旗下设计语音转写和会议的软件多达五六款,每一款软件的重点不同:有主打精准转写的讯飞听见,有实时转写的讯飞语记,也有针对字幕和远程开会用的软件。软件之间定价不同,但是实际的体验却相差不大。

这些软件都是讯飞家的

对于选择困难症和混合需求的用户来说很不友好,我也是为了写这篇文章,才研究明白各软件之间的区别。

Otter Voice Meeting Notes

Otter Voice Meeting Notes 是英文首推的一款转写软件,英文的转写准确度很好,付费版本还可以支持识别口音等。

Otter 官网

Otter是我目前体验过的界面和功能都很完善的一款产品,产品非常有特色,可以区分Speaker,可以添加指定的专有词汇或者姓名等来提升准确率,还与Zoom等会议软件打通,帮助视频会议时对音频进行转写。

但是Otter目前仅支持英文及英文口音转写,暂不支持其他语言。移动端App端对国内用户限制较多,购买和下载都不是很方便。

Notta语音转写软件

Notta 是搜Otter的时候搜出来的,这款软件与Otter类似,都是一款基于语音转写的软件,支持实时转写和导入转写。虽然与Otter相比没有区分说话人和自定义词汇,但支持多种语言转写,甚至可以设置很小的小语种。

Notta官网

Notta 有中文的菜单又支持中文的转写,对中文足够友好,使用感觉上类似讯飞和Otter的结合体。

三、软件体验对比

因为Otter不支持中文,未纳入选择范围。

准确度是我使用语音转写软件最关心的部分,如果准确度不够高,输出的文档基本上废的,校对和修改的效率还不如自己直接手动记录效率高。

所以我首先对讯飞和Notta移动端App进行了准确度的对比:

「备注:这里是还原当时选择的过程,我已经是Notta的年付会员,而本次测试讯飞则是购买的临时时长。」

1、实时转写

我准备的是《落花生》的选段。使用北方人的普通话对两种软件进行录制对比。因为普通话还算标准,所以结果仅作参考。

准确度对比测试

与原文相比,Notta文字准确度100%与讯飞的准确度99%,讯飞的错误是「的」与「地」的语法错误,两者在文字准确度方面并没有太大的区别。但两款软件在标点符号的转写上都不规范,需要后期校对。

其中,在转写过程和结果使用方面,Notta具备一定优势:

实时转写时可以分享链接,其他人可以通过链接查看实时转写的内容。实时转写时可以对重点进行标记,方便后期编辑和校对 。Notta转写文本可以直接复制使用,而讯飞的文本无法直接复制,必须导出才能使用。2、导入转写

因为实时转写准确度较高,实时显示结束后,两个软件也都是采用重新导入云端整段转写,结果与实时转写差别不大,所以不再做准确度相关测试。

两款导入转写的支持的格式对比:

 音频格式视频格式Nottamp3、wav、m4a、caf、aiffavi、rmvb、flv、mp4、mov、wmv讯飞mp3、wav、m4a、amr、wma3gp

两款软件都支持主流的音频导入转写,Notta则可以支持主流的视频格式。在日常使用中,有了这个功能后,我经常会收藏一些短视频进行转写,拓展了软件的可用性。

例如我在微信群里获取到短视频进行转写,即使是河南方言,转写结果也毫无问题。

内容为公开内容,不涉及隐私。3、导出测试

两款产品均可以通过手机App和网页端实现音频和文本的文件导出:

 音频格式文本格式Nottawavdocx、txt、srt、PDF讯飞mp3docx、txt

Notta在导出功能方便表现优异,支持多种格式导出,特别是支持SRT字幕格式的文件导出,方便用户导入PR对应时间轴,方便剪辑。

讯飞仅支持2种常用格式导出,但是讯飞可以取消时间戳并合并成整段,在一些场景下更方便后期的编辑。

4、多端同步功能

两个软件都支持多端同步,在网页端可以进行编辑和导出等功能。

网页端第一观感上,Notta更适合多端同步的操作,登陆以后可以直接看到文件并且可以对文件进行归档分组,还可以绑定Google Calendar,提醒日程,甚至直接参会。 

而讯飞听见网页端文件管理隐藏较深,需要在个人中心里才能找到。

左边为Notta,右边为讯飞听见5、价位

转写涉及引擎使用费用,目前市面上的App几乎没有免费的。

类型讯飞听见Notta实时转写9.9元/月 每月30小时

Notta会员 每月1800分钟(30个小时)

Notta 中国定价:CNY 228元/年*

Notta 海外定价:USD 98.99/年*

导入转写18元/小时(单独购买套餐)

讯飞价位做的非常的细致,将导入转写和实时转写进行了差别收费,如果仅仅实时转写9.9元/月,如果是导入转写,需要另外购买时长包。不购买时长包或者会员将按照0.33元/分钟进行收取。

Notta 则是将所有的功能进行打包收费,不分语种,不分导入和实时。超出30个小时可以购买时长包。

*Notta中国和海外定价不同,风险提示在文末,请根据需求订阅。

6、隐私

市面上宣传AI语音转写的软件基本上都是采用云端转写。涉及云端就不得不提隐私安全。

为了维护互联网安全和社会和谐稳定,我国在互联网方面做了许多的努力,同时制定了一系列的网络安全标准,并且对互联网企业进行了限制,保护了用户的权益。

因为Notta中国和海外定价不同,我曾发邮件咨询过他们客服,Notta 服务器设置在海外。鉴于我个人更多的外向型业务,经过对比,我决定使用服务器在海外的Notta。

意外的新功能

Notta使用了近半年的时间,在购买之初还担心有跑路的风险。Notta基本上每个月都在更新,每一次更新都有一些新的功能。

Chrome extensions 

推荐指数:⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️

满分推荐的插件,类似wolai的OCR功能带给我的惊喜。

忘记了什么时候,收到了Notta EDM告知我推出了Chrome 插件,在Chrome webstore里搜索Notta直接下载插件后,登陆账户就可以获取任一tab页面的音频文件并进行转写。

疫情期间,学校取消了面授。部分课程采用录播或者直播的网课模式,因为国内采用的是腾讯或者学校自带的会议软件,有了这个功能,我可以轻松获取到学校的音频文件,转写后便于后期复习。

还有不方便获取音频文件的时候,打开在线播放的网页,启动Notta插件,你就可以通过导出功能获取这段音频。

请勿将获取的音频用于商业

但这个软件对于拖延症的人也有致命伤害,例如我到今天还有一堆录制过的网课和Youtube视频没有打开整理。

Zoom参会

推荐指数:⭐️⭐️⭐️⭐️⭐️

疫情后作为外贸企业,只能通过Zoom等一些视频软件与港台或者国外的客户开会。

Notta支持Zoom参会,添加好会议链接后,Notta会派遣一个Bot进入会议软件就可以获得会议的实时转录,海外居家办公摸鱼神器。

截止到发文前,才发现这款软件Notta偷偷增加了对Google Meet和Teams的支持。意外的惊喜

发文前测试时,Notta增加了Google meet、Microsoft teams等会议软件,并且在Zoom会议转写时支持了区分说话人,这个功能之前是不支持的。其他软件还未测试,不确定是否可以使用区分说话人的功能。

但遗憾的是,Notta并不支持国内的会议软件。

总结

因为隐私的原因,最终选择了Notta作为我的语音转写工具,Notta优异的表现并没有让我失望,当然在使用过程中也出现过这样或者那样的bug,客服都及时响应处理,并且也通过快速迭代改善或者解决了问题。

Notta 围绕着语音转写开发了一系列的功能,基本上涵盖了涉及录音的各种场景,它精准地踩在我的需求上面,也因为一些新的功能,拓展了我新的需求,例如Notta 的Chrome 插件。

一些建议

1、希望能加强国内软件的支持,尽管国内这种闭环生态下不太可能。

2、增加新功能的提示,国内用户比较少去查看邮箱推送,很多新的功能如新增支持了多个会议软件参会,区分说话人等功能,是在写这篇文章的时候才发现的。

3、很多新的软件如wolai 等,都会出现定价浮动的问题,我本人不愿意推荐这种价位浮动的软件,尽管浮动价位不高,但我作为推荐人总解决价位浮动有点对不起朋友的感觉。好在Notta 在我订阅后国内的定价还算稳定。

风险提示

Notta几乎在国内没有什么宣传和运营,本文也未经过Notta官方认可,一些观点和意见仅代表个人。

经验证Android用户只能通过Google Play下载,并且Android的价位要比iOS的贵上不少,我通过联系客服得知,Notta因为一些隐私政策原因,所以没有上线Android国内市场,用户只能通过Google Play下载,并且按照国外的定价付费。但是iOS的Appstore仍然按照国内国外区分定价,国内的定价会便宜很多。

所以国内的安卓用户可以绕道iOS购买,然后再使用账户,能省下不少银两。「该方法非官方推荐,只是我个人账户亲测,不保证成功和未来成功」

现阶段AI水平有限,在面对复杂的开会环境,演讲人员深不可测的口音,不断重复的车轱辘话,或者脱离会议本身的闲聊,使用软件转写还需要耗费一些精力进行校对和编辑,精准度也远远低于专业的人工速录。

但只需要人工速录十分之一的价位要啥自行车!

参考文档

易观分析-中国智能语音转写工具行业洞察2021



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3