因此,我遇到了一些帖子,涉及到将PDF转换为HTML或将它们转换为文本,但是它们都是从保存到计算机的文件中进行处理的。有没有一种方法可以在不下载PDF文件的情况下从一个PDF网页中提取文本(就像我将通过遍历一个URL列表对大量文件这样做)?在
我也很好奇哪一个是实现这一目标的最佳库。pdfkit、pdf2txt、pdfminer等。?在
下面是一个我将要处理的格式的示例网站:http://www.arkansasrazorbacks.com/wp-content/uploads/2017/02/Miami-Ohio-Game-2.pdf
Tags:
您可以将文件作为字节流下载,并使用
requests
将其包装为io.BytesIO()
,如下所示:f
是一个类似文件的对象,可以像打开PDF文件一样使用。这样文件就只在内存中,而不会在本地保存。在为了从PDF文件中获取文本,可以使用PyPdf。在
相关问题 更多 >
编程相关推荐