如何使用Python3.6将任何格式的文件转换为文本格式？

>>> import textract >>> text = textract.process('C:\Users\beta\Desktop\Projects Done With Specification.pdf', method='pdfminer') File "<stdin>", line 1 SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape

3条回答

网友

1楼 · 编辑于 2024-10-01 17:30:54

问题出在绳子上

'C:\Users\beta\Desktop\Projects Done With Specification.pdf'

\U启动一个8字符的Unicode转义符，例如'\U00014321`。在代码中，转义符后跟字符“s”，这是无效的。在

您要么需要复制所有反斜杠，要么在字符串前面加上r（以生成原始字符串）。在

网友

2楼 · 编辑于 2024-10-01 17:30:54

\字符在不同的上下文中表示不同的东西。在Windows路径名中，它是目录分隔符。在Python字符串中，它引入转义序列。指定路径时，必须考虑到这一点。在

请尝试以下任何一种：

text = textract.process('C:\\Users\\beta\\Desktop\\Projects Done With Specification.pdf', method='pdfminer')
text = textract.process(r'C:\Users\beta\Desktop\Projects Done With Specification.pdf', method='pdfminer')
text = textract.process('C:/Users/beta/Desktop/Projects Done With Specification.pdf', method='pdfminer')

网友

3楼 · 编辑于 2024-10-01 17:30:54

尝试encoding='utf-8'

textract.process('C:\Users\beta\Desktop\Projects Done With Specification.pdf', encoding='utf-8')

相关问题更多 >

编程相关推荐

热门问题

热门文章