如何优雅的提取ass字幕文件里的文本?

您所在的位置:网站首页 vtt转srt 如何优雅的提取ass字幕文件里的文本?

如何优雅的提取ass字幕文件里的文本?

2023-03-03 16:02| 来源: 网络整理| 查看: 265

用Python从.srt或.vtt等格式的字幕文件中提取纯文字现在,很多视频网站都能方便地把字幕文件下载到电脑上,如果没有时间看视频,只看文字无疑是一种高效的学习方式。但是,如果直接读字幕文件却非常不舒服,因为字幕文件中有大量的时间标记和索引标记,如下图所示,这会影响你的阅读体验。

1 00:00:00,533 --> 00:00:01,266 大家好,我是吕艳朋 2 00:00:01,366 --> 00:00:06,266 今天聊一聊喝酒到底能不能帮助睡眠 3 00:00:06,866 --> 00:00:10,333 有不少人相信喝酒可以助眠 4 00:00:10,666 --> 00:00:17,633 我也不止一次听到有人这样给失眠的人介绍自己的入睡经验 5 00:00:18,300 --> 00:00:18,766 他说 6 00:00:18,766 --> 00:00:20,666 解决失眠问题很简单

那么如何把字幕文件中的文字单独提取出来呢?

仔细观察发现,我们不需要的内容都是数字和空行,那么去掉单独的空行’\n’,以及开头和结尾都是数字的行,剩下的就是我们需要的纯字幕文字了。

可用如下Python代码来实现提取文字,并写入到文本文件。

new = [] with open("subtitle.srt", encoding="utf-8-sig") as f: for sub in f.readlines(): if sub[0] not in list('\n0123456789') and sub[-2] not in list('0123456789'): new.append(sub) new = [ele.strip() for ele in new] with open("content.txt",'w') as file: for line in new: file.write(line+'\n')

提取后的效果如下:

大家好,吕艳朋 今天聊一聊喝酒到底能不能帮助睡眠 有不少人相信喝酒可以助眠 我也不止一次听到有人这样给失眠的人介绍自己的入睡经验 他说 解决失眠问题很简单

但这样仍然存在一个小问题,如果字幕的开关和结尾都是数字或是单独的一串数字,如电话号码,那么就不能被识别为文字。

当然,可以通过判断上一段是否是时间标记来确定该段是否为字幕文字,稍等麻烦一些,你有更简单的方法吗?



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3