将transcript.srt文件解析为可读文本

1 00:00:00,710 --> 00:00:03,220 Lorem ipsum dolor sit amet consectetur, adipisicing elit. 2 00:00:03,220 --> 00:00:05,970 Dignissimos et quod laboriosam iure magni expedita 3 00:00:05,970 --> 00:00:09,130 nisi, quis quaerat. Rem, facere!

3条回答

网友

1楼 · 编辑于 2024-06-28 20:27:33

我只需要使用pysrt这样的库来解析srt文件。这应该被证明是最有力的。在

import pysrt
subs = pysrt.open("foo.srt")

for sub in subs:
    print(sub.text)
    print()

输出：

^{pr2}$

网友

2楼 · 编辑于 2024-06-28 20:27:33

如果您希望有一个特定的列表来查找，下面的代码可以解决您的问题，并给您指定一个项目列表的机会，即使它们包含不同的类型。在

with open ('foo.srt', 'r') as f:
   for line in f:
      if not line.startswith(('0', '1' , '2', '3')):
         print(line)

虽然，这是一个循环，所以如果你担心你的程序的速度，我会用pysrt推荐上面的答案。在

网友

3楼 · 编辑于 2024-06-28 20:27:33

如果要使用regex过滤掉数字行和空行，可以使用以下命令：

import re

def main():
    # read file line by line
    file = open( "sample.srt", "r")
    lines = file.readlines()
    file.close()

    text = ''
    for line in lines:
        if re.search('^[0-9]+$', line) is None and re.search('^[0-9]{2}:[0-9]{2}:[0-9]{2}', line) is None and re.search('^$', line) is None:
            text += ' ' + line.rstrip('\n')
        text = text.lstrip()
    print(text)

main()

这将输出：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章