如何使用Python3.6将任何格式的文件转换为文本格式?

2024-10-01 17:30:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试有一个转换器,可以将任何格式的文件转换成文本,这样处理对我来说就更容易了。我使用过Pythontextract库。
以下是文档:https://textract.readthedocs.io/en/stable/

我已经用pip安装了它并尝试使用它。但是遇到了错误,不知道如何解决它。在

>>> import textract
>>> text = textract.process('C:\Users\beta\Desktop\Projects Done With Specification.pdf', method='pdfminer')
  File "<stdin>", line 1
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape

甚至我也尝试过在没有指定方法的情况下使用命令。在

^{pr2}$

请告诉我怎样才能用你的建议来解决这个问题。如果有可能的话,请给我建议解决方案,如果有什么别的方法可以代替textract,那么你仍然可以建议我。我想听听。在


Tags: pip文件方法文档httpsio文本格式
3条回答

问题出在绳子上

'C:\Users\beta\Desktop\Projects Done With Specification.pdf'

\U启动一个8字符的Unicode转义符,例如'\U00014321`。在代码中,转义符后跟字符“s”,这是无效的。在

您要么需要复制所有反斜杠,要么在字符串前面加上r(以生成原始字符串)。在

\字符在不同的上下文中表示不同的东西。在Windows路径名中,它是目录分隔符。在Python字符串中,它引入转义序列。指定路径时,必须考虑到这一点。在

请尝试以下任何一种:

text = textract.process('C:\\Users\\beta\\Desktop\\Projects Done With Specification.pdf', method='pdfminer')
text = textract.process(r'C:\Users\beta\Desktop\Projects Done With Specification.pdf', method='pdfminer')
text = textract.process('C:/Users/beta/Desktop/Projects Done With Specification.pdf', method='pdfminer')

尝试encoding='utf-8'

textract.process('C:\Users\beta\Desktop\Projects Done With Specification.pdf', encoding='utf-8')

相关问题 更多 >

    热门问题