以语音转文字工具Whisper为辅助的个人字幕制作工作流程

您所在的位置:网站首页 听写日语翻译软件 以语音转文字工具Whisper为辅助的个人字幕制作工作流程

以语音转文字工具Whisper为辅助的个人字幕制作工作流程

2024-07-09 13:30| 来源: 网络整理| 查看: 265

工具:Whisper、Aegisub、FFmpeg

本地Whisper简单介绍和下载安装流程可以看小众软件的文章:https://www.appinn.com/const-me-whisper/

Aegisub和FFmpeg就不多介绍了

一开始用Whisper仅仅是因为我想在菜宝相良这种有事没事几个小时的直播里找一些关键字来求证一些传闻是否属实,但把整篇生肉都啃完的效率实在太低,所以我才想到要不把整篇视频都语音转文字一下,根据日文字幕来寻找相关内容,于是搜寻了一下支持日文的语音转文字工具,然后便找到了Whisper。

没空看的大西兔的网签会我也是这么干的

后来才发现这东西自己都支持导出srt了,日文识别率也确实有实打实的90%,那是不是可以拿来辅助字幕制作呢

于是我就自己摸索出了以下流程,当然这也只是自己的流程,也许会有更加高效率的流程,所以这里仅仅是拿来抛砖引玉:

Whisper跑一遍听写出日文

如果是较短的视频,三四分钟内那种的 可以考虑导出SRT文件保留时间轴,改起来消耗的精力并不大

但如果是较长的视频,调整Whisper错位与漏下的时间轴的时间消耗之大,还不如让打轴熟练的人重打一遍,所以直接导出txt文件更好

将导出的txt文件导入Aegisub,以Whisper听写出来的日文文本为参照进行打轴,如果Whisper有错漏的台词,在打轴的时候补上对应的轴,内容的话就随便了,我一般是拿前后台词复制一条挂上去。

这么做的理由是,在听译的时候有一个重复操作消耗大量成本的行为:来回拉进度条。

在已经打好轴的基础上,以90%准确率的日文听写为参照进行的字幕翻译工作,效率非常高,因为要翻译的轴位已经定死了,单独听译这一句的话,只要按下「播放这条轴的音频」对应的快捷键就可以了。

这里翻译的时候我会建议使用aegisub自带的翻译助手:

如果是普通的字幕输入框,你要多一个「先全选原有的字幕,删除,再键入翻译后的字幕」这个枯燥流程,而且删掉原有的日文听写之后,文字参照就没了,有的时候我还得愣一下原文是什么,然后点一下快捷键再听一遍这句话,浪费了几秒钟时间。

翻译助手在这里会保留原文,而且你直接输入就行,省去「全选再删除」这个枯燥重复步骤,翻译完之后按下回车,就编辑完成,进入下一行了。

因为Aegisub会因为工作区域的不同而有着不同的快捷键,翻译助手虽然也有像如图所示的自带快捷键,但我还是建议打开美杜莎模式,这个时候无论你的工作区域是在字幕编辑框还是在字幕栏还是在翻译助手上,快捷键都是共通的,不会出现你焦点在字幕编辑框却按出只有在字幕栏上才起作用的快捷键了。

而翻译助手的默认快捷键也有一些设计不合理的地方,比如我打字的时候经常用home和end来定位输入光标,但home和end在翻译助手的默认设置里记得好像是上一句下一句?总之,自定义快捷键迫在眉睫。

Aegisub的快捷键自定义有个bug,你得把语言界面先改成英文,再修改快捷键,改完保存之后,再把界面改回中文。但改完就一劳永逸了,至于快捷键怎么改,自然是各有各的习惯,我就不多说了。

最后补充一下分词的问题,实际上也很简单,在翻译的时候和txt的情况一样,在不同的人的台词前加上「说话人名:」就行了,最后通过搜索关键字选择多行更改样式,然后Ctrl+H把「说话人名:」给全部删掉。

无论嵌字还是打轴,这种高重复度且枯燥乏味又工作量大的作业上,提升效率的中心思路,便是减少枯燥乏味的重复工作。听译工作里最影响效率的便是来回拉进度条,先轴后翻解决了来回拉进度条的问题,而以工具听写出来的日文为参照进行的打轴工作也会因此提升效率。当然这个工具听写出来的日文还有10%左右的错误,所以这里听写出来的日文只能是拿来作为参照,大多数时候我还是会重复听原话以确认一些不太确定的内容,Whisper有的时候甚至会摆烂,一大段一大段的重复语句,所以整个流程依旧是人工翻译为中心,深度学习工具的听写为辅助的。简单来说,根据工具听写出日文,先轴后翻,检查完再送去压制。

one more thing

这个本地的Whisper还有个功能:根据音频输入设备进行实时语音转文字

音频输入设备用简单点的话来讲,就是你的麦克风,把音频从外部输入到PC内部,Whisper这个功能一开始设计出来是为了让你实时说话的时候转成文字。但实际上我大多数时候需要用到语音转文字的情况,多半是来自女声优们——也就是电脑内部的声音,可惜这个软件不支持输入电脑内部的音频,虽然我觉得找软件开发者改一下设定应该麻烦不了多少,不过还是决定自己解决。

应该只有一部分朋友的PC声卡有这个选项:立体声混音。立体声混音在设定上是一个「音频输入设备」,但本质上它会把你PC中通过自带声卡播放的音频,原原本本地从立体声混音里输出来,也就是说,你可以通过立体声混音,把在声卡里播放的女声优声音输入到Whisper,然后Whisper给你实时输出成文本。

当然还有一部分朋友PC不支持立体声混音输出,可以使用最新版的Virtual Audio Cable,会建立两个虚拟音频设备,一个输入设备,一个输出设备,在虚拟声卡上建立的输出设备上播放的音频也会同步在输入设备上播放,但这时候其实会听不见输出到虚拟输出设备里的声音了,这个时候进入输入设备设置,把监听此设备打开就行。

Virtual Audio Cable下载:https://vac.muzychenko.net/en/

win11打开音量合成器可以这样单独选择某个应用从哪个音频设备输出

这个时候用最新版的VScode打开用来输出的txt文本文档,就能实时看到Whisper输出的内容了。我试了一些文本编辑器,貌似只有VScode支持实时更新文本内容,很神必,如果有别的文编编辑器支持实时更新的话可以告诉我(或者你自己用也行(?



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3