Python/webscrape/aspx在没有表单的情况下是否有可能实现?

2024-10-01 11:31:53 发布

您现在位置:Python中文网/ 问答频道 /正文

很明显,完全没有。教self Python进行web抓取,以利于公开记录/政府透明度/报告等

有一个.aspx页面,我想把2012年1月到3月的日历按周列出

但它没有形式。。。在

也许你们这些优秀的人可以在我花几天时间与之抗争之前告诉我是否有可能找到解决办法。在

http://webmail.legis.ga.gov/Calendar/default.aspx?chamber=house

查看日历上的约会的唯一方法是在日历图片上选择一天。但是,至少,如果你点击星期一,它会显示一周的所有约会。(我想收集所有这些任命,以便计算每个委员会开会的频率,这有点像一个代理人,用来计算哪些立法受到关注,哪些立法被忽视。)

但是,该用什么策略呢?似乎每个月至少在它的肠道下面都被分配了一个连续的四位数数字,前面有一个“V”,比如V4414,而天数则是一个非预先设定的数字。在

我只在2012年1-3月打猎;其他月份没有关系,而且大部分时间都是空的。在

有线索吗?在

    ...<a href="javascript:__doPostBack('calMain','V4414')" style="color:#333333" title="Go to the previous month">February</a></td><td align="center" style="width:70%;">March 2012</td><td align="right" valign="bottom" style="color:#333333;font-size:8pt;font-weight:bold;width:15%;"><a href="javascript:__doPostBack('calMain','V4474')" style="color:#333333" title="Go to the next month">April</a></td></tr> 

一种模式?在

^{pr2}$

干杯,谢谢!!在


Tags: togotitlestyle时间数字javascriptcolor
2条回答

您可以使用类似于urllib.parse.urlencode的方法在Python中复制POST请求来构建查询字符串。在

显然,为此您必须找出查询字符串的外观。或者,您可以使用其他工具,如Selenium RC。在

表单包含四个input,其中name为:

  • __EVENTTARGET
  • __EVENTARGUMENT
  • __VIEWSTATE
  • __EVENTVALIDATION

后两者都有初始值。你得刮干净。前两个是由这些链接设置的。例如,您有一个链接:

<a href="javascript:__doPostBack('calMain','4504')" style="color:Black" title="May 01">1</a>

看看href

^{pr2}$

不知怎么的,把这两个字符串解析出来。{cd3>是^。后者是__EVENTARGUMENT。在

一旦您拥有了所有四个数据段,就可以发出POST请求来获取下一页。在

相关问题 更多 >