网页刮头问题

2024-10-05 12:17:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我把从网站上抓取数据当作一种教育练习。我用的是Python和靓汤。在

我基本上看的是网页上的产品。 http://www.asos.com/Women/Dresses/Cat/pgecategory.aspx?cid=8799#parentID=-1&pge=0&pgeSize=5&sort=-1

我注意到它有参数pge和pgeSize,我可以在浏览器中更改这些参数并给出我期望的结果,但是当运行用户python请求时,它总是返回相同的36个产品(36是默认值)

我认为这是一个标题问题,所以我尝试使用curl Chrome开发工具来尝试找出我需要的标题,但是使用curl,我无法通过以下响应:

curl -c ~/cookie -H "Accept: application/xml" -H "Accept-Language: en-GB,en-US;q=0.8,en;q=0.6" -H "Content-Type: application/xml" -H "User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36" -X GET 'http://www.asos.com/Women/Dresses/Cat/pgecategory.aspx?cid=8799#parentID=-1&pge=0&pgeSize=5&sort=-1'

移动的对象

对象已移动到here

如何或者怎样才是正确的调试和尝试解决这个问题的方法?在


Tags: comhttp产品wwwcurlcatencid
2条回答

您需要提供一个asoscookie,例如使用以下curl标志:

curl  cookie "asos=currencyid=19" 'http://www.asos.com/Women/Dresses/Cat/pgecategory.aspx?cid=8799#parentID=-1&pge=0&pgeSize=5&sort=-1'

总是为URL /Women/Dresses/Cat/pgecategory.aspx?cid=8799&r=2返回默认裙子。在

注意parentID=-1&pge=7&pgeSize=5&sort=-1#符号之后。在

还有一个额外的查询,可以为您获取正确的裙子并替换它们。在

相关问题 更多 >

    热门问题