解析具有可读性的新闻URL

2024-09-29 03:31:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试从新闻URL中自动提取数据,例如 https://zapier.comhttps://ifttt.com。你知道吗

主要目标是将一个漂亮的新闻URL文本版本放到google电子表格中。尝试使用“importXML”之类的函数失败,因为我需要分析具有不同结构的url。你知道吗

我在考虑用可读性.jshttps://code.google.com/archive/p/arc90labs-readability/downloads将html转换成漂亮的文本,因为zapier允许javascript或python中的代码片段。你知道吗

问题是在zapier中,您不能使用这些编程语言(比如beautifulsou)不标准的模块来刮取url。你知道吗

有没有可能我可以传递一个url到可读性.js https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/arc90labs-readability/readability.js 或者对https://mercury.postlight.com/web-parser/进行api调用 返回一个漂亮的文本?你知道吗


Tags: https文本comurldownloadsgooglejscode
1条回答
网友
1楼 · 发布于 2024-09-29 03:31:08

大卫,来自Zapier平台团队。是的,这是完全可能的!你知道吗

今天最简单的事情是向Mercury解析器发出POST请求,它将返回有关文章的信息。这将持续几个月(直到他们的APIshuts off)。他们已经开放了他们的代码,所以如果你喜欢(我也喜欢!)您可以将它们的库包装在一个一次性的CLI app中,Zapier将为您运行它们的代码。老实说,我可能很快就会把这个给自己用,如果你愿意的话,你也可以用!准备好后我会更新这个答案。你知道吗

相关问题 更多 >