我试图用Python编写一个HTML解析器,它将URL或URL列表作为输入,并以以下格式输出每个URL的特定数据:
URL:数据1:数据2
数据点可以在每个url中完全相同的HTML节点上找到。它们在相同的起始标记和结束标记之间保持一致。如果有人愿意帮助一个业余的python程序员完成这项工作,我们将不胜感激。如果你能想出一种方法来输出可以很容易地复制和粘贴到excel文档中进行后续数据分析的话,那就更值得一提了!在
例如,假设我想输出特定YouTube视频的视图计数。对于URL http://www.youtube.com/watch?v=QOdW1OuZ1U0,视图计数大约为360万。对于所有YouTube视频,此数字在页面源中以以下格式找到:
<span class="watch-view-count ">
3,595,057
</span>
幸运的是,这些确切的标签只在YouTube视频页面上找到一次。这些起始和结束标记可以输入到程序或内置,并在必要时进行修改。程序的输出将是:
http://www.youtube.com/watch?v=QOdW1OuZ1U0:3595057(或3595057)。在
如果不想使用
^{pr2}$BeautifulSoup
,可以使用re
:至于输出,我想你可以把它们存储在csv文件中。在
对于这类任务,我更喜欢}。然而,
HTMLParser
,而不是{HTMLParser
可能有点棘手。我用不可变的对象来存储数据。。。我肯定这样做是不对的。但它在过去为我做过几个项目。在然后打开/路径/到/测试.csv在Excel中
相关问题 更多 >
编程相关推荐