我正在做一个学校项目,我想建立一个Andriod应用程序,但在此之前,我想从220.225.101.27/MPLogin/eSewa/VehicleSearch.aspx
中收集一些数据,并保存在我的数据库中。当你进入这个网站,你将必须填写车辆登记号码,然后它将显示有关车辆的所有细节。我不需要完整的细节,但我只需要车主的名字。我想得到所有的车辆登记号码组合的细节。
我在网上搜索了一下找到了一些python库。
我对Python还不熟悉。如果我混淆了一些术语,请忽略不计。我只想知道:
我已经阅读了Beautifulsoup的文档,通过使用它,我成功地打印了googlenews的标题文本。但这是最基本的。填写html表单然后获取详细信息是很困难的。
我知道这是一个很长的问题,但我想自己学习这些东西。如果有人能一步一步地指导我,那就太好了。
既然你没有提供任何代码,你基本上是在征求意见,我就给你我的见解。
你提到的所有事实都指向scrapy。这是一个非常强大的网页抓取工具。
基本上,您应该执行以下步骤来实现您的任务:
说到具体解析这个网站,它有一个基本的html表单,可以由scrapy的
FormRequest
或FormRequest.from_response
以编程方式提交。然后,您可以使用管道将废弃的数据存储在数据库或csv中,或其他任何东西中。回来问你是否有任何具体的(适合问答的)问题。
希望这能帮助你开始。
这取决于你的具体要求。如果您不需要表单页面中的任何数据,只需跳过此阶段并直接发布您的请求。如果您只需要擦掉一些交互,那么一个完整的屏幕擦掉库可能会让您有些望而生畏。您可以简单地使用http库。它更容易学习,而且你更接近HTTP和HTML,这可能是你的老师想要你学习的。
例如,使用
requests
库:假设您知道html,那么您应该能够从表单页面的html中提取yourpostrl和变量。
然后,可以使用正则表达式从生成的html页面提取数据。对于一般的刮削解决方案,不建议这样做,但是对于从单个页面提取数据来说,这通常是很好的。
相关问题 更多 >
编程相关推荐