如何优雅的提取ass字幕文件里的文本？

您所在的位置：网站首页 › vtt转srt › 如何优雅的提取ass字幕文件里的文本？

如何优雅的提取ass字幕文件里的文本？

2023-03-03 16:02| 来源: 网络整理| 查看: 265

用Python从.srt或.vtt等格式的字幕文件中提取纯文字现在，很多视频网站都能方便地把字幕文件下载到电脑上，如果没有时间看视频，只看文字无疑是一种高效的学习方式。但是，如果直接读字幕文件却非常不舒服，因为字幕文件中有大量的时间标记和索引标记，如下图所示，这会影响你的阅读体验。

1 00:00:00,533 --> 00:00:01,266 大家好,我是吕艳朋 2 00:00:01,366 --> 00:00:06,266 今天聊一聊喝酒到底能不能帮助睡眠 3 00:00:06,866 --> 00:00:10,333 有不少人相信喝酒可以助眠 4 00:00:10,666 --> 00:00:17,633 我也不止一次听到有人这样给失眠的人介绍自己的入睡经验 5 00:00:18,300 --> 00:00:18,766 他说 6 00:00:18,766 --> 00:00:20,666 解决失眠问题很简单

那么如何把字幕文件中的文字单独提取出来呢？

仔细观察发现，我们不需要的内容都是数字和空行，那么去掉单独的空行’\n’，以及开头和结尾都是数字的行，剩下的就是我们需要的纯字幕文字了。

可用如下Python代码来实现提取文字，并写入到文本文件。

new = [] with open("subtitle.srt", encoding="utf-8-sig") as f: for sub in f.readlines(): if sub[0] not in list('\n0123456789') and sub[-2] not in list('0123456789'): new.append(sub) new = [ele.strip() for ele in new] with open("content.txt",'w') as file: for line in new: file.write(line+'\n')

提取后的效果如下：

大家好,吕艳朋今天聊一聊喝酒到底能不能帮助睡眠有不少人相信喝酒可以助眠我也不止一次听到有人这样给失眠的人介绍自己的入睡经验他说解决失眠问题很简单

但这样仍然存在一个小问题，如果字幕的开关和结尾都是数字或是单独的一串数字，如电话号码，那么就不能被识别为文字。

当然，可以通过判断上一段是否是时间标记来确定该段是否为字幕文字，稍等麻烦一些，你有更简单的方法吗？

【本文地址】

如何优雅的提取ass字幕文件里的文本？

如何优雅的提取ass字幕文件里的文本？

今日新闻

推荐新闻