OpenAI 开源音频转文字模型 Whisper 尝鲜

您所在的位置：网站首页 › 可以去除杂音的手机软件 › OpenAI 开源音频转文字模型 Whisper 尝鲜

OpenAI 开源音频转文字模型 Whisper 尝鲜

2023-06-02 15:35| 来源: 网络整理| 查看: 265

本文不是 Whisper 配置教程，只是在好奇心驱使下，去将这一开源模型与日常使用的工具做一次对比

如果你也想尝试，请看官方文档

如果一头雾水，直接退出或者看结尾结论就可以了

如果有相关经验，电脑已装 conda 和 ffmpeg 的话，简单的配置大概是：

conda create -n whisper python=3.9 conda activate whisper pip install git+https://github.com/openai/whisper.git whisper audio.mp3 --model medium --language Chinese

音频采用的是：

李厚辰的翻转电台最新一期：FULL 形而上学大全巫术的产生（孔子29）-翻电2.0

节选开头一段

将飞书妙记和Whisper在各等级模型下跑的结果作对比：

飞书妙记识别结果

各模型大小与速度

Whisper 在 tiny 模型下的识别结果

Whisper 在 base 模型下的识别结果

Whisper 在 small 模型下的识别结果

Whisper 在 medium 模型下的识别结果

就中文而言，Whisper各模型：

tiny 是没有做断句的，或者说，直接根据停顿断句base 已经开始根据逻辑断句，但会出语法错误small 已经很少语法错误，但断句水平却直线下降，很奇怪medium 不仅能够完美的断句，还能判断语气

可以看出，飞书妙记给用户开放的转写能力大约在 tiny 到 base 之间（转写速度也在 tiny 左右，已经很快了）

值得指出的是，这里的对比，目的并不是比较二者的技术，否则对于飞书妙计相当的不公平，作为一款消费级应用，它不可能给用户跑medium等级的模型来做转写

对比的意义是，Whisper，作为一个开源模型，和消费级产品比起来怎么样？

答案是，完全可以替代，用 small 模型足以实现当下的免费体验了。

甚至，用 medium 以上的模型，可以用「时间」换「好得多的使用体验」

从对比截图也能看到，Whisper在medium模型下的断句水平就已经让人欣喜了（见识少，不知道付费转写断句的水平），不是说技术有多先进，而是，这是开源模型啊

做到同样水平的转写，基本属于付费服务了

也能注意到，在词汇上，Whisper偶尔不那么准确，但它是准确识别发音的，也就是说，这是词库的问题，相信开源社区很快就会有针对中文的优化模型出现

意义是什么呢？

很快，互联网上的音频和视频资料中的对话台词，也可以搜索了吧，就像音乐可以搜歌词一样

这也意味着，音频不再是监管的法外之地了

但这些都太遥远了，

对于播客爱好者来说，很快，拥有自动高质量转写的播客客户端不再是梦

【本文地址】

OpenAI 开源音频转文字模型 Whisper 尝鲜

OpenAI 开源音频转文字模型 Whisper 尝鲜

今日新闻

推荐新闻