从Youtube抓取和处理音频、字幕的软件包

audio-caption-crawler-and-processor的Python项目详细描述


音频、字幕爬虫和处理器

下载并处理Youtube视频中的音频和字幕(字幕),以便进行语音AI

要求

  • 当前需要python>;=3.6
  • FFmpeg

使用

  from accp import ACCP

  playlist_name=""
  playlist_url = ""

  accp = ACCP(playlist_name, playlist_url)
  accp.download_audio()    #download audio from youtube

  accp.download_caption()  #download captions from youtube

  accp.audio_split()       #split 

结果

^{pr2}$

并且metadata.csv应该如下所示:

{
    0001.wav|그래서 사람들도 날 핍이라고 불렀다.,
    0002.wav|크리스마스 덕분에 부엌에 먹을게 가득했다.,
    0003.wav|조가 자신이 그 사람이라고 나섰다.,
    ...
}

并且alignment.json应该如下所示:

{
    "./datasets/playlist name/wavs/0001.wav": "그래서 사람들도 날 핍이라고 불렀다.",
    "./datasets/playlist name/wavs/0002.wav": "크리스마스 덕분에 부엌에 먹을게 가득했다.",
    "./datasets/playlist name/wavs/0003.wav": "조가 자신이 그 사람이라고 나섰다.",
}

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Android:如何写入特定行,Java   Java中从欧元货币字符串中删除空格的数字   Java非均匀多维数组   解密AES时出现java空指针异常   java ConcurrentModificationException尝试移除列表上的所有内容时(非迭代)   Java数学库计算日志   java ISO8601,使用Jackson以毫秒表示json   避免副作用的java最佳实践   java获取JMeterException:调用bsh方法时出错:未定义参数:saa。使用beanshell取样器时   使用javascript将会话从一个jsp页面传输到另一个jsp页面   java在列表中组合相邻元素   java多行JTextPane   java Hibernate映射文件连接两个表而不定义关系?   如何使用Ajax、Java和Spring框架将文件从网页上传到Google云存储   多线程多线程Java中producerconsumer代码的多线程没有提供正确的输出?