WSL + whisper + 视频字幕生成

您所在的位置:网站首页 mirror原版 WSL + whisper + 视频字幕生成

WSL + whisper + 视频字幕生成

#WSL + whisper + 视频字幕生成| 来源: 网络整理| 查看: 265

初衷:

最近在看一个电吉他教学的老视频,质量很不错,但是字幕只有前4集有,后面如果不辅助字幕的话,有些地方还是可能存在理解不到位的情况。由此萌生了用字幕软件自动生成字幕的想法,刚好最近在了解chatGPT的时候接触到了OPENAI开源的一个语音转文字小工具whisper,故而准备在我的小主机上实现一遍,正好以这个电吉他教学视频为例,学以致用,效率最高。

平台选择与准备:

考虑到我们主机端日常使用的视频平台都是Windows,所以还是基于WIN10来搭建。本人平日工作机器主要是Linux,而且开源软件以及CUDA的生态也比Windows平台友好,最终采取的策略是W10下的WSL,安装Linux版本的whisper。

WSL安装:因为whisper使用了Transformer模型,需要使用GPU来跑,纯cpu运行速度比较慢,所以安装之前需要将N卡驱动更新到最新版本。启用适用于Linux的Windows子系统:在power shell管理员模式下输入:dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart启用虚拟化:在power shell管理员模式下输入:(注意提前在BIOS里开启CPU虚拟化,不然WSL里可能无法识别到PCI设备)dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart下载安装WSL2 Linux内核升级包(若安装失败,先重启再安装,check当前的WSL版本,正常安装后即可在应用程序窗口看到Ubuntu的应用程序)https://wslstorestorage.blob.core.windows.net/wslblob/wsl_update_x64.msiwsl --install wsl -l -v

打开Ubuntu应用程序,即可进入WSL的Linux console,通过如下命令check系统和GPU设备的状态# check windows gpu driver lspci ​ # check nvidia gpu device status nvidia-smi ​ Whisper安装:Ubuntu 设置国内镜像sudo vim /etc/apt/sources.list用下面的内容覆盖原始文件内容# 默认注释了源码镜像以提高 apt update 速度,如有需要可自行取消注释deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy main restricted universe multiverse# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy main restricted universe multiversedeb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-updates main restricted universe multiverse# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-updates main restricted universe multiversedeb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-backports main restricted universe multiverse# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-backports main restricted universe multiverse​# deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-security main restricted universe multiverse# # deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-security main restricted universe multiverse​deb http://security.ubuntu.com/ubuntu/ jammy-security main restricted universe multiverse# deb-src http://security.ubuntu.com/ubuntu/ jammy-security main restricted universe multiverse​# 预发布软件源,不建议启用# deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-proposed main restricted universe multiverse# # deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-proposed main restricted universe multiverse安装pip3sudo apt install python3-pippip3 设置国内镜像pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple安装whisperpip install git+https://github.com/openai/whisper.git安装ffmpegsudo apt update && sudo apt install ffmpeg配置环境变量,不然whisper可能无法正确运行,并使用正确的运行库。export PATH="$HOME/.local/bin:$PATH" export LD_LIBRARY_PATH=/usr/lib/wsl/lib:$LD_LIBRARY_PATH确认whisper是否正确安装whisper --help如果出现如下的打印,说明whisper已经正确安装了--device DEVICE device to use for PyTorch inference (default: cuda)

whisper 字幕提取提取命令whisper audio.mp3 --model medium whisper video.mp4 --model base生成的字幕文件-rwxrwxrwx 1 yuwen yuwen 363050 Mar 18 11:07 absoluteUGEP6.json* -rwxrwxrwx 1 yuwen yuwen 79832 Mar 18 11:07 absoluteUGEP6.srt* -rwxrwxrwx 1 yuwen yuwen 63646 Mar 18 11:07 absoluteUGEP6.tsv* -rwxrwxrwx 1 yuwen yuwen 50925 Mar 18 11:07 absoluteUGEP6.txt* -rwxrwxrwx 1 yuwen yuwen 71658 Mar 18 11:07 absoluteUGEP6.vtt*模型大小及显存需求SizeParametersEnglish-only modelMultilingual modelRequired VRAMRelative speedtiny39 Mtiny.entiny~1 GB~32xbase74 Mbase.enbase~1 GB~16xsmall244 Msmall.ensmall~2 GB~6xmedium769 Mmedium.enmedium~5 GB~2xlarge1550 MN/Alarge~10 GB1x

字幕转译工具

由于whisper只支持英语转录,生成非英文字幕的话还需要借助字幕翻译工具来处理 SubtitleEdit Online

打开 SubtitleEdit Online,点击「Subtitle」>「Open...」,选择要导入的字幕文件。点击「Auto-translate」,选择翻译引擎,然后在弹出窗口中选择字幕要翻译的语言,并将页面拖动到最下方(非常重要),确定所有文字都被翻译后点击 OK 按钮。点击「Subtitle」>「Save/download...」,即可保存翻译好的字幕文件。总结:

whisper的英语识别准确率是很高的,亲测用base就能达到比较理想的识别效果了。最后机器翻译成中文估计准确度会有下降,不过应该不影响理解了,搭配原版英文字幕食用,比较香。期待国内产商或开发者能做出类似的模型,支持其他语言转录中文。

参考:

https://zhuanlan.zhihu.com/p/585113669

https://zhuanlan.zhihu.com/p/386590591

https://github.com/openai/whisper



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3