OpenAI 开源音频转文字模型 Whisper 尝鲜

您所在的位置:网站首页 可以去除杂音的手机软件 OpenAI 开源音频转文字模型 Whisper 尝鲜

OpenAI 开源音频转文字模型 Whisper 尝鲜

2023-06-02 15:35| 来源: 网络整理| 查看: 265

本文不是 Whisper 配置教程,只是在好奇心驱使下,去将这一开源模型与日常使用的工具做一次对比

如果你也想尝试,请看官方文档

如果一头雾水,直接退出或者看结尾结论就可以了

如果有相关经验,电脑已装 conda 和 ffmpeg 的话,简单的配置大概是:

conda create -n whisper python=3.9 conda activate whisper pip install git+https://github.com/openai/whisper.git whisper audio.mp3 --model medium --language Chinese

音频采用的是:

李厚辰的翻转电台最新一期:FULL 形而上学大全巫术的产生(孔子29)-翻电2.0

节选开头一段

将飞书妙记和Whisper在各等级模型下跑的结果作对比:

飞书妙记识别结果各模型大小与速度Whisper 在 tiny 模型下的识别结果Whisper 在 base 模型下的识别结果Whisper 在 small 模型下的识别结果Whisper 在 medium 模型下的识别结果

就中文而言,Whisper各模型:

tiny 是没有做断句的,或者说,直接根据停顿断句base 已经开始根据逻辑断句,但会出语法错误small 已经很少语法错误,但断句水平却直线下降,很奇怪medium 不仅能够完美的断句,还能判断语气

可以看出,飞书妙记给用户开放的转写能力大约在 tiny 到 base 之间(转写速度也在 tiny 左右,已经很快了)

值得指出的是,这里的对比,目的并不是比较二者的技术,否则对于飞书妙计相当的不公平,作为一款消费级应用,它不可能给用户跑medium等级的模型来做转写

对比的意义是,Whisper,作为一个开源模型,和消费级产品比起来怎么样?

答案是,完全可以替代,用 small 模型足以实现当下的免费体验了。

甚至,用 medium 以上的模型,可以用「时间」换「好得多的使用体验」

从对比截图也能看到,Whisper在medium模型下的断句水平就已经让人欣喜了(见识少,不知道付费转写断句的水平),不是说技术有多先进,而是,这是开源模型啊

做到同样水平的转写,基本属于付费服务了

也能注意到,在词汇上,Whisper偶尔不那么准确,但它是准确识别发音的,也就是说,这是词库的问题,相信开源社区很快就会有针对中文的优化模型出现

意义是什么呢?

很快,互联网上的音频和视频资料中的对话台词,也可以搜索了吧,就像音乐可以搜歌词一样

这也意味着,音频不再是监管的法外之地了

但这些都太遥远了,

对于播客爱好者来说,很快,拥有自动高质量转写的播客客户端不再是梦

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3